1. Act2Goal:世界模型驱动的目标条件策略新范式
2025年底,智元团队发布的Act2Goal框架为机器人长时程操作任务带来了突破性进展。这个工作的核心创新在于将目标条件世界模型(Goal-Conditioned World Model, GCWM)与多尺度时间哈希(Multi-Scale Temporal Hashing, MSTH)机制相结合,解决了传统目标条件策略在长时程任务中性能下降的难题。
1.1 目标条件策略的困境与突破
传统目标条件策略(Goal-conditioned Policies, GCPs)直接将当前观测与目标视觉映射为动作,在短时程任务中表现良好,但在长时程操作中面临三个关键挑战:
- 缺乏中间状态表征:策略无法显式判断哪些动作能实质性推动目标达成
- 示范数据过拟合:在狭窄的示范数据分布外泛化能力差
- 全局-局部平衡难题:难以同时保持长期目标一致性和短期扰动响应性
Act2Goal的创新在于引入目标条件世界模型,通过生成合理的中间视觉状态序列,为策略提供结构化引导。这种"想象未来再行动"的范式,使机器人能够进行长时程的连贯推理。
从技术角度看,这相当于为机器人装备了"心理模拟"能力——在执行动作前先在虚拟空间中预演可能的未来场景,从而选择最优行动路径。
1.2 核心架构与技术突破
1.2.1 目标条件世界模型
Act2Goal的GCWM基于Genie Envisioner架构改造,关键改进包括:
- 纯视觉条件(移除语言模块)
- 连续流匹配的生成方式
- 多视角输入处理
模型通过以下公式实现潜在空间的状态预测:
$$ z_{\text{pred}} = f_\theta(z_t, z_g, \epsilon) $$
其中$z_t$是当前观测的潜变量,$z_g$是目标潜变量,$\epsilon$是随机噪声。
1.2.2 多尺度时间哈希(MSTH)
MSTH机制将预测轨迹分解为:
- 近端帧(高频采样):用于精细的局部控制
- 远端帧(对数间隔采样):锚定长期规划
数学表达上,远端帧采样间隔为:
$$ d_m = P + \left\lfloor \frac{K-P}{\log(M+1)} \cdot \log(m+1) \right\rfloor $$
这种设计使时间分辨率随视野延长而降低,兼顾了规划效率与长期一致性。
2. 系统实现与训练策略
2.1 网络架构设计
Act2Goal采用双分支架构:
- 世界模型分支:Video DiT模块生成MSTH潜在帧
- 动作专家分支:Action DiT模块通过交叉注意力整合机器人状态和视觉特征
两分支共享相似的结构但宽度不同,通过层间交叉注意力实现紧密耦合。这种设计既保持了模块化优势,又确保了视觉表征与动作生成的高度协同。
2.2 两阶段训练流程
阶段一:联合预训练
- 目标:对齐世界模型与动作专家的表征
- 损失函数:
$$\mathcal{L}_{\text{stage1}} = \mathcal{L}_v + \lambda \cdot \mathcal{L}_a$$
其中视觉损失$\mathcal{L}_v$和动作损失$\mathcal{L}_a$均采用flow matching形式
阶段二:行为克隆微调
- 目标:优化端到端执行能力
- 仅使用动作损失:
$$\mathcal{L}_{\text{stage2}} = \mathcal{L}_a$$ - 关键点:梯度会反向传播到世界模型,使其表征更适合控制任务
2.3 自主在线改进机制
Act2Goal的创新性体现在其部署后的自改进能力:
- 数据收集:自动记录每次执行的$(o, c_p, a, o')$四元组
- 目标重标注:采用HER思想,将未达成的目标替换为实际达到的状态
- 高效微调:仅更新LoRA参数,保持基础模型不变
这种机制使得机器人能够:
- 从失败中学习有用的子技能
- 快速适应新物体和新环境
- 完全自主运行,无需人工干预
3. 技术对比与创新价值
3.1 与传统方法的比较
| 特性 | 传统GCPs | Act2Goal |
|---|---|---|
| 长时程一致性 | 差 | 优秀 |
| 示范数据利用率 | 低(易过拟合) | 高(结构化泛化) |
| 在线适应能力 | 需人工干预 | 完全自主 |
| 计算开销 | 较低 | 较高(但通过LoRA缓解) |
3.2 核心创新点
- 视觉轨迹引导:通过生成的中间状态提供显式引导
- 时间尺度分离:MSTH机制实现规划与控制的解耦
- 自监督改进:HER与LoRA的结合实现高效在线学习
4. 实践启示与未来方向
Act2Goal的成功实践为具身智能研究提供了重要启示:
- 世界模型的价值:验证了预测模型对控制任务的增强作用
- 分层时间抽象:MSTH机制可扩展到其他时序决策问题
- 边缘计算优化:LoRA微调范式适合资源受限的部署场景
未来可能的发展方向包括:
- 多模态条件扩展(结合语言、触觉等)
- 更灵活的时间尺度自适应
- 分布式部署架构优化
这项工作的真正价值在于,它展示了一种将生成模型与强化学习有机结合的新范式,为构建更通用、更自主的机器人控制系统提供了可行路径。随着计算硬件的进步和算法效率的提升,这类方法有望成为具身智能领域的标准范式之一。