在机器人控制领域,视觉-语言-动作(VLA)模型正逐渐成为通用策略的主流架构。这类模型通过预训练的视觉-语言模型(VLM)将多模态输入编码为潜在表征,进而驱动动作解码器生成控制指令。传统方法主要依赖两种中间推理范式:
语言思维链(Language CoT)通过预测子任务序列作为中间推理步骤。例如,当指令为"把积木放进杯子"时,模型可能生成"1. 定位积木 2. 抓取积木 3. 移动至杯子上方 4. 松开夹爪"等文本步骤。这种方式的优势在于:
但存在明显缺陷:
视觉思维链(Visual CoT)通过世界模型合成目标图像作为中间指导。例如在抓取任务中,先预测抓取完成时的场景图像,再基于图像差异生成动作。其特点包括:
但同样面临挑战:
ACoT-VLA的核心突破在于将推理过程直接建模在动作空间,形成结构化动作意图链。这种范式转变解决了传统方法的关键痛点:
VLM骨干网络在网页数据上预训练,其表征空间偏向语义对齐而非物理动力学。这导致两个层面的不匹配:
动作思维链直接在关节空间或末端执行器空间进行推理,带来三重优势:
关键洞见:人类演示的本质也是动作序列而非语言描述,ACoT更贴近示教学习(Learning from Demonstration)的原始数据形式
ACoT-VLA包含三个核心组件(见图2):
EAR通过流匹配(Flow Matching)技术生成粗粒度参考轨迹:
python复制# 伪代码示例
for i in range(18): # 18层Transformer
h = SelfAttn(h) + CrossAttn(h, KV_VLM[i])
h = h + FFN(h)
| 参数 | 取值 | 作用说明 |
|---|---|---|
| Href | 15 | 参考轨迹长度 |
| 动作位移 | 2 | 相对于专家演示的帧间隔 |
| 层数 | 18 | 与Gemma骨干深度一致 |
| 隐藏层维度 | 2048 | 匹配语言模型表征空间 |
IAR通过可学习查询从VLM的Key-Value缓存中提取动作先验:
python复制K' = K @ W_K # W_K ∈ R^{2048×128}
V' = V @ W_V
动作头通过双重交叉注意力整合显隐式指导:
python复制S_ex = CrossAttn(Q_action, Z_ex, Z_ex) # 显式指导
S_im = CrossAttn(Q_action, Z_im, Z_im) # 隐式指导
h_bar = SelfAttn(concat([S_ex, S_im])) # 融合表征
math复制L_{total} = 0.5L_{π^{ref}_θ} + 0.5L_{π^{head}_θ}
在空间推理(Spatial)、物体操作(Object)、目标达成(Goal)和长时任务(Long)四个维度评估:
| 方法 | Spatial | Object | Goal | Long | Avg. |
|---|---|---|---|---|---|
| Diffusion Policy | 78.3 | 92.5 | 68.3 | 50.5 | 72.4 |
| π0.5 | 98.8 | 98.2 | 98.0 | 92.4 | 96.9 |
| ACoT-VLA | 99.4 | 99.6 | 98.8 | 96.0 | 98.5 |
关键发现:
在AgiBot G1机器人上执行三类任务:
擦除污渍:
倒水任务:
开放集抓取:
计算资源分配:
实时性优化:
轨迹抖动问题:
多模态对齐异常:
长时任务失效:
多机器人协同:
人机协作接口:
跨模态迁移:
在实际项目中,我们发现ACoT对以下场景特别有效:
这种动作优先的推理范式,正在重新定义我们对具身智能的认知边界。