在文本到图像生成领域,Flow Matching(FM)模型通过学习的速度场将简单先验分布转换为复杂目标分布,已成为当前主流方法之一。随着大语言模型领域Group Relative Policy Optimization(GRPO)技术的成功,研究者开始探索将其应用于FM模型的优化。传统Flow-GRPO方法虽然取得了一定效果,但存在两个根本性缺陷:
奖励稀疏性问题:现有方法通常将基于最终生成图像的单一奖励均匀分配给所有去噪步骤,无法区分不同步骤的局部贡献。这导致模型在优化过程中缺乏细粒度的学习信号。
跨步依赖建模不足:当前基于组的排名主要比较匹配时间步的轨迹,忽略了轨迹内部的依赖关系。某些早期去噪动作会通过延迟的隐式交互影响后续状态,这种关键动态未被现有方法显式建模。
关键问题:当使用SDE采样器时,从xt到xt-1的单个去噪步骤对最终图像的贡献程度如何量化?传统方法简单分配相同奖励的做法掩盖了步骤间的异质性。
TP-GRPO的第一个关键创新是用步骤级增量奖励替代结果导向的全局奖励。具体实现包含三个技术要点:
双路径评估:对每个中间潜在状态xt,同时执行:
纯增量计算:步骤t的奖励定义为:
python复制rt = R(x_ODE(t-1)) - R(x_ODE(t)) # 式(7)
其中x_ODE(t)表示从xt开始经过t步ODE采样得到的图像。这种设计确保rt仅反映当前步骤的"纯净"效果。
优势函数重构:将传统GRPO的优势计算(式3)中的全局奖励替换为rt,得到步骤感知的优化信号。
理论依据:根据Song等人(2021)的证明,ODE采样可以视为对应SDE采样的统计平均,因此这种设计在保留边际分布的同时消除了随机性干扰。
TP-GRPO的第二个创新是提出了转折点概念及其检测机制:
定义4.1:转折点是满足以下条件的步骤t:
聚合奖励分配:对检测到的转折点,使用长期累积奖励替代即时奖励:
python复制ragg_t = R(x0) - R(x_ODE(t)) # 式(8)
严格一致性约束(定义5.1):进一步要求|ragg_t| > |rt|,确保只保留那些影响方向与局部更新一致的"纯净"转折点。
实现细节:转折点检测仅依赖增量奖励的符号变化,无需额外超参数,这使得TP-GRPO保持高效性的同时增强了表达能力。
TP-GRPO的整体流程如图3所示,包含以下关键组件:
双模采样器:同时维护SDE和ODE两种采样路径,其中:
奖励计算模块:
平衡策略:为防止正负奖励样本失衡,实施:
在实际实现中发现以下经验性优化点:
窗口大小选择:实验表明(图6),将SDE采样窗口设为8步(总步数10步)能在效果和效率间取得最佳平衡。这是因为:
噪声尺度控制:SDE采样中的噪声系数α=0.7(式2)提供适度的随机性:
KL散度约束:对不同任务采用差异化系数:
在三个标准任务上的量化对比(表1):
| 任务类型 | 指标 | Flow-GRPO | TP-GRPO(无约束) | TP-GRPO(约束) |
|---|---|---|---|---|
| 组合图像生成(GenEval) | 平均得分 | 0.9673 | 0.9714 (+0.42%) | 0.9725 (+0.54%) |
| 视觉文本渲染 | OCR准确率 | 0.9579 | 0.9718 (+1.45%) | 0.9651 (+0.75%) |
| 人类偏好对齐 | PickScore | 24.02 | 24.73 (+2.96%) | 24.67 (+2.71%) |
关键发现:
在实现过程中遇到的代表性问题和解决方案:
奖励振荡问题:
转折点漏检:
训练效率瓶颈:
TP-GRPO的技术思路可延伸至多个相关领域:
实际部署中发现,该方法对超参数选择相对鲁棒,但在以下方面仍需注意: