1. TRACE:揭秘扩散模型的实例边缘检测能力
在计算机视觉领域,实例分割一直是个具有挑战性的任务。传统方法需要依赖大量精确标注的掩码数据,这不仅成本高昂,而且标注过程中的人为偏差也难以避免。首尔大学团队在ICLR 2026上提出的TRACE方法,意外地发现了一个有趣的现象:我们熟知的文本到图像扩散模型,实际上暗藏着一个强大的实例边缘检测器。
这个发现源于对扩散模型去噪过程的深入观察。研究人员注意到,在特定的去噪阶段(称为"实例涌现点"),模型的自注意力图会自发地呈现出清晰的实例边界结构。这种现象就像是模型在生成图像时,会先勾勒出物体的轮廓框架,然后再填充细节内容。TRACE方法正是抓住了这个关键时间窗口,从中提取出高质量的实例边缘信息。
2. 核心原理与技术实现
2.1 扩散模型中的实例涌现现象
扩散模型生成图像的过程就像是一位画家作画:先勾勒大体轮廓,再逐步添加细节。TRACE团队发现,在去噪过程的某个特定阶段,模型的自注意力图会呈现出最清晰的实例边界结构,他们将其命名为"实例涌现点"(Instance Emergence Point, IEP)。
要理解这个概念,我们需要看看扩散模型的工作机制。在去噪早期,图像还处于噪声状态,自注意力图也近乎随机;随着去噪进行,模型开始识别出物体的整体结构,这时自注意力会在同一物体的像素间建立强关联,而在不同物体间保持弱关联;最后阶段则主要处理纹理和细节的完善。
关键提示:实例涌现点的定位是通过计算连续时间步自注意力图的KL散度来确定的。当KL散度达到峰值时,意味着实例结构正在从噪声中"涌现"出来。
2.2 注意力边界散度(ABDiv)算法
发现实例涌现点只是第一步,如何从中提取出精确的边缘信息才是真正的挑战。TRACE提出了一种称为"注意力边界散度"(Attention Boundary Divergence)的创新方法:
- 对于每个像素,计算其与四个方向(上下左右)邻域像素的自注意力分布差异
- 这些差异在物体内部很小,而在跨越实例边界时会显著增大
- 通过聚合这些差异,就能得到清晰的边缘响应图
这种方法之所以有效,是因为扩散模型的自注意力机制具有一个关键特性:同一实例内的像素会相互"关注",而不同实例的像素则相对"忽视"。这种关注度的突变正好发生在实例边界处。
2.3 单步自蒸馏技术
直接从扩散模型提取边缘虽然有效,但计算成本很高,因为需要对每张图像进行完整的扩散过程。TRACE通过"单步自蒸馏"技术解决了这个问题:
- 先用完整流程处理一批图像,生成高质量的边缘图作为"教师信号"
- 然后训练一个轻量级的边缘解码器,使其能够单步预测这些边缘
- 解码器采用UNet结构,与扩散主干网络通过LoRA方式微调配合
这种自蒸馏方法不仅将推理速度提升了81倍(从3682ms降至45ms),还意外地发现解码器能够自动补全那些碎片化的边缘,产生更连贯的边界。这是因为解码器在训练过程中学习到了边缘的通用模式。
3. 实际应用与性能表现
3.1 无监督实例分割增强
TRACE最直接的应用是提升现有无监督实例分割方法的性能。实验表明,当把TRACE生成的边缘作为后处理步骤时,可以在不增加任何标注成本的情况下,显著改善分割质量:
| 基准方法 | 原始AP | 使用TRACE后AP | 提升幅度 |
|---|---|---|---|
| MaskCut | 42.1 | 47.4 | +5.3 |
| ProMerge | 45.6 | 49.2 | +3.6 |
这种提升主要来自于TRACE边缘对过度合并(under-segmentation)情况的改善。传统无监督方法经常会把相邻的相似物体合并成一个实例,而TRACE提供的清晰边界可以有效地将它们分开。
3.2 弱监督全景分割
更令人惊喜的是,TRACE在弱监督全景分割任务中也展现出了强大潜力。当仅使用图像级标签时,结合TRACE的方法甚至超越了需要点监督的先进方法:
在COCO数据集上:
- 传统弱监督方法(DHR):mAP 23.7
- 点监督方法(Point2Mask):mAP 25.1
- DHR + TRACE:mAP 26.3
这是因为图像级标签虽然能提供语义信息,但缺乏实例区分能力。TRACE恰好补充了这一缺失的几何信息,使模型能够将语义类别正确地分配到各个实例上。
3.3 与传统边缘检测器的对比
为了验证TRACE边缘的特殊性,研究人员将其与传统边缘检测方法进行了对比实验。结果非常明显:
| 边缘检测方法 | 实例分割AP |
|---|---|
| Canny | 1.2 |
| HED | 2.8 |
| PiDiNet | 3.1 |
| DiffusionEdge | 4.3 |
| TRACE | 9.4 |
传统边缘检测器主要响应图像中的强度变化,而这些变化可能来自纹理、阴影等与实例无关的因素。相比之下,TRACE边缘直接对应于物体实例的边界,这正是实例分割最需要的信息。
4. 技术细节与实现要点
4.1 模型架构选择
TRACE在多种扩散模型上进行了实验,发现Stable Diffusion 3.5 Large(SD3.5-L)表现最佳。这是因为更大的模型容量带来了更丰富的中间表示。具体实现时需要注意:
- 只使用自注意力图,完全不需要文本提示
- 通过PyTorch的前向hook机制收集各层的注意力图
- 将所有层的注意力图上采样到最大分辨率后取平均
这种设计使得TRACE可以兼容不同类型的扩散模型,包括传统的DDPM和新兴的流匹配(Flow Matching)模型。
4.2 训练策略与超参数
单步自蒸馏是TRACE高效运行的关键,其训练过程有几个重要细节:
- 边缘标签生成:只使用置信度高的像素(边缘分数>μ+σ或<μ-σ)作为监督信号
- 多任务学习:同时优化边缘预测和图像重建损失
- 采用LoRA微调:只训练少量参数,保持预训练知识不被破坏
损失函数组合:
L = λ1L_edge + λ2L_recon
其中L_edge使用Dice损失,L_recon使用L1损失
4.3 边界引导传播(BGP)
为了将边缘图转化为实例掩码,TRACE设计了边界引导传播算法:
- 将边缘图二值化,作为分隔线
- 对每个连通区域赋予唯一标签
- 在边缘内部传播语义信息
- 迭代合并重叠的相似区域
这个过程类似于"分水岭"算法,但利用了TRACE边缘的高质量特性,避免了过分割问题。
5. 实际应用建议与注意事项
5.1 计算资源考量
虽然TRACE最终的单步预测很高效,但完整流程需要相当的资源:
- 训练阶段:SD3.5-L在ImageNet上微调约需10天(A100)
- 内存需求:推理时需要20-32GB显存
- 对于无监督应用:仅增加约6%的运行时开销
建议在实际部署时:
- 对实时性要求高的场景使用单步解码器
- 对质量要求高的离线任务可以使用完整流程
5.2 与其他工具的协同
TRACE边缘可以与现有视觉工具形成强大组合:
- 与SAM结合:用TRACE边缘替代默认的提示点,能获得更准确的实例分割
- 与CLIP结合:为每个TRACE分割区域提取CLIP特征,实现开放词汇识别
- 与Stable Diffusion结合:将边缘信息作为生成控制信号
5.3 局限性分析
尽管TRACE表现出色,但仍有一些限制需要注意:
- 对小物体边界的敏感性不足
- 在极度拥挤的场景中可能出现边缘混淆
- 依赖于预训练扩散模型的质量
- 对非刚性物体的边界定义有时不够精确
在实际应用中,我发现结合多尺度处理和后期细化可以部分缓解这些问题。例如,可以先在低分辨率下定位大致的实例边界,再在高分辨率下进行精修。