视觉生成技术：从GAN到扩散模型与流匹配的演进

贴娘饭

1. 视觉生成技术发展概述

视觉生成技术作为人工智能领域的重要分支，近年来经历了从传统生成对抗网络（GAN）和变分自编码器（VAE）向扩散模型和流匹配方法的范式转变。这一演进过程不仅反映了技术本身的进步，更体现了研究者对生成模型本质理解的深化。

在2014-2020年间，GAN和VAE主导了生成模型的研究。GAN通过生成器和判别器的对抗训练，能够产生质量较高的图像样本，但其训练过程不稳定，容易出现模式崩溃等问题。VAE则通过编码-解码框架学习数据的潜在表示，虽然训练稳定但生成质量相对较低。这两种方法虽然在当时取得了不错的效果，但都面临着难以克服的局限性。

2020年后，扩散模型（Diffusion Models）和基于分数的生成模型（Score-based Generative Models）开始崭露头角。这类方法通过定义前向的噪声添加过程和逆向的去噪过程，实现了高质量的图像生成。与GAN相比，扩散模型训练更加稳定，能够生成更加多样化的样本，同时避免了模式崩溃的问题。Song等人提出的基于随机微分方程（SDE）的框架，更是将扩散模型的理论基础提升到了新的高度。

与此同时，研究者们开始探索基于流匹配（Flow Matching）和最优输运（Optimal Transport）理论的生成方法。这些方法将生成过程视为确定性流场中的输运问题，通过直接学习从噪声分布到数据分布的映射，有望实现更高效的生成。特别是Rectified Flow和MeanFlow等工作的出现，展示了单步生成的可能性，为解决扩散模型采样速度慢的问题提供了新的思路。

另一个重要的发展方向是Schrödinger桥（Schrödinger Bridge）在生成模型中的应用。这一理论框架将生成过程视为两个分布间的最优随机输运，特别适合处理图像到图像的转换任务，如图像修复、风格迁移等。Diffusion Schrödinger Bridge（DSB）模型通过迭代比例拟合算法，能够在有限时间内完成高质量的生成，为条件生成任务提供了新的理论基础。

提示：在选择生成模型时，需要根据具体应用场景权衡生成质量、采样速度和计算资源。扩散模型适合对质量要求高的场景，而流匹配方法更适合需要快速生成的场合。

2. 核心生成方法详解

2.1 扩散模型与基于分数的生成

扩散模型的核心思想是通过逐步向数据添加噪声（前向过程），然后学习逆向的去噪过程（反向过程）来实现数据生成。具体来说，前向过程将数据逐渐转化为高斯噪声，而反向过程则通过学习条件概率分布，从噪声中重建原始数据。

基于分数的生成模型与扩散模型有着密切的联系。这类方法通过学习数据分布的梯度场（即分数函数），然后通过朗之万动力学（Langevin dynamics）或相应的SDE/ODE进行采样。Song等人提出的统一框架表明，扩散模型和基于分数的生成模型本质上是等价的，都可以用随机微分方程来描述。

扩散模型的优势在于：

训练过程稳定，不易出现模式崩溃
可以生成高质量的样本
自然地支持条件生成
理论框架完善，数学基础坚实

然而，扩散模型也存在明显的缺点：

采样过程需要多次迭代（通常数百到数千步）
计算成本高，特别是在高分辨率图像生成时
对网络架构和超参数选择较为敏感

2.2 流匹配与Rectified Flow

流匹配（Flow Matching）提供了一种全新的生成模型训练范式。与扩散模型不同，流匹配直接学习从噪声分布到数据分布的确定性流场（即ODE的向量场），而不需要模拟整个扩散过程。这种方法的关键创新在于：

可以自由选择连接噪声和数据的概率路径
训练过程不需要模拟时间序列
采样时可以使用高效的ODE求解器

Rectified Flow是流匹配的一个特例，它采用最简单的直线路径作为概率路径。具体来说，对于噪声样本z和数据样本x，Rectified Flow直接学习从z到x的直线路径上的速度场。这种简单的路径选择带来了几个优势：

训练目标更加明确和简单
收敛速度更快
可以实现一步或少量步数的生成
采样过程更加稳定

Liu等人的实验表明，Rectified Flow可以在极少步数（甚至一步）的情况下生成质量接近传统多步扩散模型的样本，这为实时生成应用提供了可能。

2.3 Schrödinger桥与最优输运

Schrödinger桥问题源于1930年代的量子物理，它寻求在两个给定概率分布之间最有可能的随机过程。在生成模型的语境下，Schrödinger桥可以理解为在噪声分布和数据分布之间寻找熵正则化的最优输运路径。

Diffusion Schrödinger Bridge（DSB）模型将这一理论框架应用于生成建模。与传统的扩散模型相比，DSB具有以下特点：

可以在有限时间内完成分布间的转换
通过迭代比例拟合（IPF）算法逐步优化前向和反向过程
特别适合处理条件生成任务
提供了更灵活的分布间映射方式

在实际应用中，DSB表现出色的一点是图像到图像的转换任务。例如，Wang等人提出的Implicit Image-to-Image Schrödinger Bridge（I²SB）模型，在图像修复任务中展示了优异的性能，能够在保持原始图像结构的同时，高效地生成高质量的修复结果。

3. 关键技术进展与比较

3.1 一步/少步生成技术

为了克服扩散模型采样速度慢的问题，研究者们开发了一系列一步或少步生成技术。这些方法的核心思想是将多步的生成过程压缩到一步或少量步数中，同时尽量保持生成质量。

一致性模型（Consistency Models）是这类技术的代表之一。它通过施加一致性约束，使得模型能够直接将噪声映射到数据，同时保持多步采样的灵活性。具体来说，一致性模型确保对于同一条轨迹上的不同时间点，模型输出保持一致。这种设计使得模型既可以用于一步生成，也可以通过多步迭代来提升质量。

MeanFlow则从平均速度场的角度出发，优化了一步生成的性能。Geng等人提出的MeanFlow框架通过建立瞬时速度场和平均速度场之间的联系，实现了无需蒸馏的单步生成。在ImageNet 256×256数据集上，MeanFlow仅用一步采样就达到了FID 3.43的优异性能。

Shortcut模型提供了另一种思路，它通过在模型中引入步长参数，使同一个模型能够适应不同步数的生成需求。这种设计大大简化了训练流程，同时提供了灵活的推理选择。

3.2 像素空间与潜空间生成

生成模型可以在原始像素空间或压缩的潜空间中进行。这两种选择各有优劣：

像素空间生成：

优点：保留全部细节，生成质量最高
缺点：计算成本高，难以扩展到高分辨率
典型应用：需要最高保真度的场景，如医学成像

潜空间生成：

优点：计算效率高，可扩展到高分辨率
缺点：可能丢失部分细节，依赖编码器质量
典型应用：大规模图像生成，如文生图系统

Rombach等人提出的潜空间扩散模型（Latent Diffusion Models，LDM）是潜空间生成的代表性工作。LDM首先使用自动编码器将图像压缩到潜空间，然后在潜空间中进行扩散过程，最后再解码回像素空间。这种方法在保持合理生成质量的同时，大大降低了计算需求，使得高分辨率图像生成变得可行。