生成对抗网络(GAN)和流模型(Flow Models)是当前生成式人工智能领域的两大主流技术路线。GAN通过生成器和判别器的对抗训练实现单步生成,具有高效推理的优势,但长期面临训练不稳定、模式崩溃等问题。流模型通过概率流匹配实现高质量生成,但需要多步迭代计算,推理成本较高。对抗流模型(Adversarial Flow Models)的创新之处在于提出了一个统一框架,结合了两种方法的优势。
传统GAN的核心问题在于生成器学习的是从噪声分布到数据分布的任意传输方案(arbitrary transport plan)。如图1(a)所示,这种不受约束的映射导致生成器在训练过程中不断漂移,难以收敛。相比之下,流模型(图1(b))通过线性插值函数预先定义确定的传输方案,但需要多步计算才能达到理想效果。对抗流模型(图1(c)的关键突破是让生成器学习与流模型相同的最优传输方案,同时保留对抗训练的单步生成能力。
关键洞见:对抗流模型的核心创新是将最优传输理论引入GAN框架,通过Wasserstein-2距离约束生成器的传输方案,使其与流模型的概率流保持一致。这种设计既保留了GAN的对抗训练机制,又获得了流模型的稳定性优势。
单步模型的生成器定义为G: Rⁿ→Rⁿ,与流模型保持相同的维度空间。其损失函数由两部分组成:
对抗损失(Adversarial Loss):
math复制L_{adv}^G = \mathbb{E}_{z,x}[f(D(G(z)) - D(x))]
采用相对主义目标(relativistic objective)提升训练稳定性,其中f(·)=-log(sigmoid(·))
最优传输损失(Optimal Transport Loss):
math复制L_{ot}^G = \mathbb{E}_z\left[\frac{1}{n}\|G(z)-z\|_2^2\right]
该项强制生成器遵循线性插值下的W₂²最优传输方案
两项损失的加权组合形成最终目标:
math复制L_{AF}^G = L_{adv}^G + \lambda_{ot}L_{ot}^G
实际训练中发现λₒₜ需要采用退火策略:初始值设为0.2,采用余弦衰减在100个epoch内降至0.01。如表2所示,这种调度策略对达到最佳性能至关重要。
对于多步生成,定义插值函数:
math复制x_t = (1-t)x + tz, \quad t\in[0,1]
生成器扩展为G(xₛ,s,t),支持任意时间步之间的跳转。此时最优传输损失变为:
math复制L_{ot}^G = \mathbb{E}_{x_s,s,t}\left[\frac{1}{n·w(s,t)}\|G(x_s,s,t)-x_s\|_2^2\right]
其中权重函数w(s,t)=max(|s-t|,δ)平衡不同步长的影响。
模型架构采用扩散Transformer(DiT):
如图4所示,通过Transformer块重复构建超深模型(56/112层):
关键训练技术包括:
在潜在空间32×32×4(VAE压缩)条件下的结果:
| 模型类型 | 参数量 | FID(1NFE) | 训练epochs |
|---|---|---|---|
| Consistency-XL/2 | 675M | 3.25 | 120 |
| StyleGAN-XL | 550M | 2.30 | 150 |
| AFM-B/2 (Ours) | 125M | 8.51 | 100 |
| AFM-XL/2 (Ours) | 675M | 2.38 | 150 |
关键发现:
表1显示λₒₜ和梯度惩罚系数λₚ的网格搜索结果:
表3比较不同引导策略:
| 方法 | NFE | FID |
|---|---|---|
| Flow Matching | 250+ | 6.12 |
| AFM-1NFE (Ours) | 1 | 5.83 |
| AFM-2NFE (Ours) | 2 | 5.17 |
优势分析:
硬件配置:
调参要点:
架构选择:
训练发散:
生成模糊:
模式崩溃:
图像生成:
视频合成:
跨模态应用:
对抗流模型通过理论创新解决了GAN训练不稳定的根本问题,同时保持了生成效率的优势。在实际项目中,我们观察到该方法特别适合需要快速迭代的场景,如广告创意生成、电商产品展示等。未来工作可探索更大规模的多模态预训练,以及与其他生成范式(如扩散模型)的进一步融合。