扩散模型训练革命：REG框架加速与质量提升

兔尾巴老李

1. 扩散模型训练的革命性突破：REG框架深度解析

在计算机视觉领域，扩散模型近年来已成为图像生成的主流方法之一。然而，传统扩散模型（尤其是扩散Transformer架构）面临两个关键挑战：训练收敛速度慢得令人难以忍受，以及判别性表征利用不足导致的生成质量瓶颈。今天我要分享的这篇NIPS 2025论文提出的REG（Representation Entanglement for Generation）框架，通过一种创新的"表征纠缠"机制，不仅大幅提升了训练效率，还显著改善了生成质量。

1.1 问题背景与核心痛点

扩散模型的基本原理是通过逐步去噪的过程生成图像，这一过程通常需要数百甚至上千步的迭代。在传统的扩散Transformer（如SiT架构）中，训练过程存在几个明显缺陷：

首先，训练收敛速度极其缓慢。以ImageNet 256×256数据集为例，要达到可接受的生成质量，通常需要数百万次的训练迭代。这不仅消耗大量计算资源，也严重拖慢了研究和产品迭代的周期。

其次，现有方法对预训练模型判别性表征的利用非常有限。虽然REPA（Representation Alignment）等改进方法尝试引入外部视觉表征进行对齐，但这种对齐仅在训练阶段存在，推理过程中完全缺失，导致预训练模型的丰富语义信息无法充分指导图像生成。

关键问题：如何让判别性语义信息不仅参与训练，还能全程指导推理过程？

1.2 REG框架的核心创新

REG框架的核心思想可以用一个简单类比来理解：就像教孩子画画时，我们不仅给他纸笔（低层图像信息），还会不断描述要画的对象（高层语义信息）。REG通过以下两个关键设计实现了这一理念：

表征纠缠机制：将预训练视觉模型（如ViT）的高层类别令牌（class token）与扩散模型的低层图像潜变量进行"纠缠"。具体实现是通过同步噪声注入和空间拼接，使类别令牌与图像潜变量在训练和推理过程中始终保持关联。

联合重建设计：不同于传统方法只重建图像，REG要求模型同时重建图像潜变量和对应的全局语义。这种双重监督迫使模型在生成过程中必须充分考虑语义一致性，从而产生更符合语义预期的图像。

2. REG技术实现细节剖析

2.1 整体架构设计

REG框架基于Scalable Interpolant Transformers（SiT）架构构建，整体流程可分为三个关键阶段：

表征提取阶段：使用预训练的视觉Transformer（如ViT）提取输入图像的类别令牌和空间特征
噪声注入与纠缠阶段：对图像潜变量和类别令牌同步添加噪声，并通过空间拼接实现两者的纠缠
联合去噪阶段：模型同时预测干净的图像潜变量和恢复原始的类别令牌

python复制# 伪代码示例：REG的前向过程
def forward(x, c):
    # x: 图像潜变量，c: 类别令牌
    x_latent = image_encoder(x)  # 图像编码
    c_token = class_encoder(c)   # 类别编码
    
    # 同步噪声注入
    noisy_x, noise_x = add_noise(x_latent) 
    noisy_c, noise_c = add_noise(c_token)
    
    # 表征纠缠
    entangled = torch.cat([noisy_x, noisy_c.unsqueeze(1).expand(-1,x.size(1),-1)], dim=-1)
    
    # 联合去噪
    pred_x, pred_c = denoise_transformer(entangled)
    
    return pred_x, pred_c, noise_x, noise_c