大模型训练：SFT与RL的核心差异及DPO技术解析-AI智能范式网

大模型训练：SFT与RL的核心差异及DPO技术解析

Zam2019

1. 大模型训练中的SFT与RL：本质差异解析

在大模型训练领域，监督微调（SFT）和强化学习（RL）是两种核心方法，它们的底层逻辑和适用场景存在根本性差异。理解这些差异对于选择正确的训练策略至关重要。

1.1 SFT：基于行为克隆的密度估计

SFT本质上是一种密度估计方法，数学上表现为极大似然估计（MLE）。从RL的角度看，它最接近"行为克隆"的概念——从固定分布中采样数据，并对这些数据做MLE。具体来说：

输入状态s（在NLP中通常是上文context）
输出动作a（在NLP中就是下一个token）
目标是最小化模型策略π(a|s)与数据分布π*(a|s)之间的KL散度

关键特点是：

只看动作(action)，不看奖励(reward)
假设数据集中出现的动作就是绝对真理
无脑提高数据集中动作的概率

这种方法的优势在于实现简单、训练稳定，但局限性也很明显：它无法区分样本的优劣，只要是数据集里的动作就同等对待。

1.2 RL：基于策略改进的回报最大化

相比之下，RL（特别是PPO这类策略梯度算法）的核心是策略改进。其梯度更新公式中包含关键的回报项：

∇J(θ) = E[∇logπ(a|s) * A(s,a)]

其中A(s,a)是优势函数，代表该动作带来的累计回报。这意味着：

正回报的动作会被增强
负回报的动作会被抑制
模型能够探索数据分布之外的高价值区域

RL的这种"结果依赖性"机制使其能够超越原始数据的限制，发现人类标注者可能忽略的高价值解决方案。

1.3 核心差异对比

维度	SFT	RL
优化目标	拟合数据分布	最大化累计回报
数据使用	静态利用（重采样/过滤）	动态策略改进
泛化能力	限于原始数据分布	可探索分布外区域
训练稳定性	高	需要精心调参
计算成本	相对低	通常较高

提示：在实际应用中，SFT通常作为RL训练的前置步骤，先确保模型掌握基本能力，再通过RL进行精细调整。

2. SFT作为退化版Offline RL的条件分析

2.1 Offline RL的基本特点

Offline RL（离线强化学习）与SFT都使用固定数据集，但关键区别在于：

Offline RL仍保留策略改进机制
通过Bellman backup实现价值回传
能够评估策略变化对长期回报的影响

2.2 SFT退化为Offline RL的三个条件

SFT可以视为Offline RL在以下三个条件下的退化形式：

2.2.1 短视（Horizon=1）

在标准RL中，当前动作会影响后续所有状态和奖励。而SFT：

只考虑单步预测（下一个token）
不建模动作的长期影响
相当于上下文老虎机(Contextual Bandit)问题

2.2.2 不复盘（无Bellman Backup）

RL通过价值函数将未来奖励回传到当前动作。SFT：

完全依赖数据标注质量
即使动作导致坏结果，只要标注为正样本就会学习
没有内部的credit分配机制

2.2.3 策略不影响价值估计

Offline RL需要考虑分布偏移(OOD)问题。SFT：

假设数据分布就是真理
不处理策略变化带来的分布变化
盲目信任所有标注样本

2.3 数学形式对比

标准Offline RL目标：
max E[Q(s,a)] - βD(π||πβ)

退化为SFT时变为：
max E[logπ(a|s)]

这种退化使得SFT失去了RL的核心优势，但也换来了训练简单性和稳定性。

3. DPO的定位与技术解析

3.1 DPO的基本原理

直接偏好优化(DPO)是一种创新的训练方法，它通过数学变换将RL目标转化为监督学习问题。其核心公式：

L(θ) = -logσ(βlog(πθ(yw|x)/πref(yw|x)) - βlog(πθ(yl|x)/πref(yl|x)))

其中：

yw是优选回复
yl是劣选回复
πref是参考策略
β是温度参数

3.2 DPO的三大技术特点

3.2.1 隐式奖励建模

DPO不需要显式的奖励模型，而是：

通过策略与参考策略的KL散度隐式表示奖励
避免了奖励模型训练的不稳定性
数学上等价于特定形式的RL优化

3.2.2 动态重要性权重

DPO的梯度包含动态权重项：
∇L = -β[∇logπ(yw|x) - ∇logπ(yl|x)] * σ(R)

这个权重会根据模型当前的表现自动调整：

当模型判断错误时，权重增大以强化修正
当模型判断正确时，权重减小避免过度更新

3.2.3 参考策略约束

DPO通过KL约束确保：

新策略不会偏离参考策略太远
保持生成质量的同时优化偏好
避免了RL中的策略崩溃问题

3.3 DPO与SFT/RL的关系

特性	SFT	DPO	RL
使用偏好数据	×	√	√
策略改进	×	有限	√
多步优化	×	×	√
训练稳定性	高	中	低
计算成本	低	中	高

DPO可以视为：

SFT的增强版：加入了成对偏好学习和动态权重
RL的简化版：避免了复杂的策略优化过程

4. 实际应用中的选择策略

4.1 何时选择SFT

SFT最适合以下场景：

数据质量极高且覆盖全面
只需要模仿不需要创新
计算资源有限
作为RL训练的基础

典型应用：

专业领域知识注入
风格模仿
基础能力构建

4.2 何时选择RL

RL最适合以下场景：

需要超越人类示范的表现
存在明确的量化评估指标
有足够计算资源
需要长期规划能力

典型应用：

游戏AI训练
复杂决策系统
需要创造性的任务

4.3 何时选择DPO

DPO最适合以下场景：

有高质量偏好数据但无显式奖励
需要比SFT更好的对齐效果
无法承担RL的训练成本
需要平衡性能与稳定性

典型应用：

对话系统偏好优化
文本风格微调
安全对齐

5. 实战经验与常见问题

5.1 SFT实施要点

数据清洗至关重要：
- 去除低质量样本
- 确保标注一致性
- 平衡不同类别样本
学习率策略：
- 通常使用较小的学习率(1e-5到1e-6)
- 可以考虑余弦退火调度
早停策略：
- 监控验证集loss
- 防止过拟合到数据噪声

5.2 RL训练技巧

奖励塑形：
- 设计合理的奖励函数
- 避免稀疏奖励问题
- 可以结合多个子奖励
PPO关键参数：
- KL惩罚系数(通常0.1-0.2)
- 裁剪系数(通常0.1-0.3)
- 优势估计的GAE参数(λ=0.9-0.95)
分布式训练：
- 使用多个actor并行收集数据
- 同步或异步更新策略

5.3 DPO实现细节

参考策略选择：
- 通常使用SFT后的模型
- 确保参考策略有足够质量
温度参数β：
- 控制偏离参考策略的程度
- 通常取0.1-0.5
- 需要根据任务调整
批次构建：
- 确保每个batch包含多样化的偏好对
- 可以加入难例挖掘

5.4 常见问题排查

模式坍塌：
- 现象：模型输出多样性下降
- 解决方案：增加KL惩罚，调整温度参数
过拟合：
- 现象：训练loss下降但实际效果变差
- 解决方案：加强正则化，增加数据量
训练不稳定：
- 现象：loss波动剧烈
- 解决方案：减小学习率，检查梯度裁剪
性能下降：
- 现象：某些能力在微调后减弱
- 解决方案：混合原始任务数据，多任务学习

6. 前沿发展与未来方向

6.1 混合训练策略

最新研究表明，组合使用多种训练方法往往能取得更好效果：

SFT → RL → DPO的级联训练
交替进行SFT和RL阶段
多目标联合优化

6.2 更高效的RL算法

研究者正在开发更适合大模型的RL方法：

基于排序的RL目标
离线RL与在线RL结合
分布式RL框架优化

6.3 偏好学习的创新

DPO之后出现了多种变体：

IPO（Identity Preference Optimization）
KTO（Kahneman-Tversky Optimization）
多模态偏好学习

6.4 安全与对齐研究

训练方法需要兼顾性能与安全：

有害内容过滤
价值观对齐
可解释性增强

在实际项目中，我通常会先进行小规模实验比较不同方法的效果，再决定最终训练方案。例如，最近在一个对话系统项目中，我们发现SFT+DPO的组合在保持安全性的同时，也能达到接近RL的效果，而训练成本只有RL的1/3。

大模型训练：SFT与RL的核心差异及DPO技术解析

1. 大模型训练中的SFT与RL：本质差异解析

1.1 SFT：基于行为克隆的密度估计

1.2 RL：基于策略改进的回报最大化

1.3 核心差异对比

2. SFT作为退化版Offline RL的条件分析

2.1 Offline RL的基本特点

2.2 SFT退化为Offline RL的三个条件

2.2.1 短视（Horizon=1）

2.2.2 不复盘（无Bellman Backup）

2.2.3 策略不影响价值估计

2.3 数学形式对比

3. DPO的定位与技术解析

3.1 DPO的基本原理

3.2 DPO的三大技术特点

3.2.1 隐式奖励建模

3.2.2 动态重要性权重

3.2.3 参考策略约束

3.3 DPO与SFT/RL的关系

4. 实际应用中的选择策略

4.1 何时选择SFT

4.2 何时选择RL

4.3 何时选择DPO

5. 实战经验与常见问题

5.1 SFT实施要点

5.2 RL训练技巧

5.3 DPO实现细节

5.4 常见问题排查

6. 前沿发展与未来方向

6.1 混合训练策略

6.2 更高效的RL算法

6.3 偏好学习的创新

6.4 安全与对齐研究

内容推荐