离线强化学习核心技术解析与实践指南

虎猛

1. 离线强化学习概述

离线强化学习（Offline Reinforcement Learning）是一种无需与环境实时交互的强化学习范式。与传统的在线强化学习不同，离线RL在训练阶段完全依赖于预先收集的静态数据集，不会产生新的环境交互数据。这种特性使其在现实应用中具有独特优势，特别是在那些交互成本高昂或存在安全风险的场景中。

1.1 基本定义与形式化表达

给定一个由状态-动作-奖励-下一状态元组组成的静态数据集：
D = {(s_i, a_i, s_i', r_i)}，其中：

s ∼ d^πβ(s)：状态来自行为策略πβ的状态分布
a ∼ πβ(a|s)：动作由行为策略πβ生成
s' ∼ p(s'|s,a)：下一状态由环境动态决定
r ← r(s,a)：即时奖励

目标函数是最大化期望累积奖励：
max Σ_{t=0}^T E_{s_t∼d^π(s),a_t∼π(a|s)}[γ^t r(s_t,a_t)]

1.2 离线RL的核心挑战

离线RL面临的根本问题是反事实查询（counterfactual queries）。当策略在训练数据中某状态产生一个未见过的动作时（如数据中是直走，但策略想右转），由于无法实时与环境交互，系统无法得知这个动作的真实效果。这与在线RL形成鲜明对比——在线RL可以直接尝试新动作并观察环境反馈。

这种分布偏移（distribution shift）问题在价值函数更新中尤为明显：
Q(s,a) ← r(s,a) + E_{a'∼π_new}[Q(s',a')]

当π_new与生成数据的πβ差异较大时，对未见动作的价值估计可能严重偏离真实值，导致策略在虚假的高估值区域不断强化，形成"左脚踩右脚"式的发散。

2. 离线RL的关键技术方法

2.1 重要性采样与回报估计

重要性采样是处理分布偏移的经典方法，通过权重修正来匹配不同策略下的分布。对于轨迹τ = (s_0,a_0,...,s_T)，其重要性权重为：
ρ_{0:T} = Π_{t=0}^T [π(a_t|s_t)/πβ(a_t|s_t)]

价值函数估计可表示为：
V^{πθ}(s_0) ≈ Σ_{t=0}^T ρ_{0:t} γ^t r_t

然而，这种连乘形式会导致权重指数爆炸或消失。为此，我们引入双重稳健估计器（Doubly Robust Estimator）：
V_DR(s) = V̂(s) + ρ(s,a)(r_{s,a} - Q̂(s,a))

其中V̂和Q̂是模型估计值，当模型准确时能降低方差，当重要性权重准确时能保证无偏性。

2.2 边际重要性采样

更先进的思路是直接估计状态-动作对的边际分布比：
w(s,a) = d^{πθ}(s,a)/d^{πβ}(s,a)

这避免了轨迹级别的连乘权重。通过求解以下固定点方程可获得w：
d^{πβ}(s',a')w(s',a') = (1-γ)p_0(s')πθ(a'|s') + γΣ_{s,a} πθ(a'|s')p(s'|s,a)d^{πβ}(s,a)w(s,a)

2.3 线性模型与最小二乘时差法

对于大规模问题，我们常使用线性函数近似。设Φ为状态特征矩阵，通过以下步骤实现离线策略评估：

奖励模型估计：w_r = (Φ^TΦ)^{-1}Φ^T r
转移模型估计：P_Φ = (Φ^TΦ)^{-1}Φ^T P^πΦ
价值函数求解：w_V = (Φ^TΦ - γΦ^T P^πΦ)^{-1}Φ^T r

这种方法称为最小二乘时差法（LSTD），其样本版本可直接从数据集D={(s_i,a_i,r_i,s_i')}中学习。

3. 策略约束与保守优化

3.1 显式策略约束方法

基本思想是约束新策略π_new与行为策略πβ的差异，常用KL散度作为度量：
D_KL(π||πβ) ≤ ϵ

对应的策略优化目标变为：
max_π E_{a∼π}[Q(s,a)] - λD_KL(π||πβ)

理论分析表明，最优解具有闭式形式：
π*(a|s) ∝ πβ(a|s)exp(Q(s,a)/λ)

实际实现时，可通过加权最大似然来近似：
L_A(θ) = -E_{(s,a)∼πβ}[logπθ(a|s)exp(A^{π_old}(s,a)/λ)]

3.2 隐式Q学习（IQL）

IQL通过特殊设计的损失函数隐式避免OOD（Out-of-Distribution）动作。使用分位数回归损失：
l_2^τ(x) = {
(1-τ)x^2 if x > 0
τx^2 else
}

当τ接近1时，价值函数更新近似于对数据集内动作取最大值：
V(s) ≈ max_{a∈Ω(s)} Q(s,a)

其中Ω(s) = {a:πβ(a|s)≥ϵ}是数据集支持的动作集合。

3.3 保守Q学习（CQL）

CQL通过修改Q函数优化目标，主动压低OOD动作的价值估计：
min_Q [αE_{s∼D,a∼μ}[Q(s,a)] - αE_{(s,a)∼D}[Q(s,a)] + Bellman误差项]

其中μ是专门寻找高Q值动作的分布。理论保证在适当α下：
E_{π(a|s)}[Q̂^π(s,a)] ≤ E_{π(a|s)}[Q^π(s,a)]

实际实现时，对离散动作可直接计算log-sum-exp：
E_{a∼μ}[Q(s,a)] = log Σ_a exp(Q(s,a))

对连续动作则需要重要性采样等技术。

4. 基于模型的离线RL方法

4.1 MOPO：模型惩罚优化

核心思想是对模型预测的不确定性区域施加惩罚：
r̃(s,a) = r(s,a) - λu(s,a)

其中u(s,a)衡量状态-动作对的不确定性。随后可使用任意基于模型的RL算法。

4.2 COMBO：保守模型优化

将CQL思想扩展到模型生成的数据，最小化模型状态-动作对的Q值，同时提升真实数据中的Q值。

4.3 轨迹变换器（Trajectory Transformer）

使用Transformer建模轨迹分布pβ(τ) = pβ(s1,a1,...,sT,aT)，通过beam search选择高回报轨迹。这种方法天然避免了OOD问题，因为所有生成轨迹都接近训练数据分布。

实现要点：

将状态-动作序列视为token序列
训练自回归模型预测下一个token
在推断时按累积奖励而非概率进行beam search

5. 实践建议与常见问题

5.1 数据收集注意事项

覆盖性：确保数据集覆盖所有关键状态-动作空间
多样性：混合不同策略生成的数据（如专家演示+随机探索）
质量标注：奖励函数设计要精确反映任务目标

5.2 算法选择指南

场景特点	推荐算法	原因
数据量小，质量高	BCQ, CQL	充分利用有限数据
数据量大，多样性好	IQL, AWAC	更高效利用分布信息
连续动作空间	Fisher-BRC, BEAR	更好的策略约束
需要长期规划	Model-based, TT	利用序列建模优势