在具身智能(Embodied AI)领域,我们长期面临一个根本性矛盾:视觉语言模型(VLM)在开放世界理解上展现出惊人能力,但当将其作为机器人的"大脑"(VLA模型)时,性能却总是不尽如人意。传统解决方案往往通过堆砌复杂的策略网络来弥补差距,但这就像给不同学生配备不同难度的考卷——我们永远无法分辨到底是学生本身能力差异,还是考卷难度影响了最终成绩。
清华大学与阿里Qwen团队提出的VLM4VLA框架,相当于为所有VLM模型设计了一套标准化考试系统。其核心创新在于:
这个发现颠覆了行业认知——我们过去五年在VLM领域投入的绝大多数改进(如更复杂的注意力机制、更大的文本上下文窗口)对机器人控制可能都是无效投资。这解释了为什么某些在VQA(视觉问答)任务上表现优异的模型,在实际机器人控制场景中反而表现平平。
VLM4VLA的巧妙之处在于其"最小干预"原则。传统VLA方案通常包含:
而本文采用的三步标准化方案:
这种设计确保性能差异只可能来自VLM底座本身的能力,而非后续处理模块的复杂度。实验证明,即使是参数量达70B的巨型VLM,添加的动作头也不超过0.5M参数。
视觉编码器处理:
python复制# 典型实现流程
visual_features = vlm.visual_encoder(frames) # [B,T,C,H,W]→[B,N,D]
action_token = torch.cat([text_embeddings, self.action_query], dim=1)
combined_features = vlm.transformer(visual_features, action_token)
action_logits = self.mlp(combined_features[:, -1]) # 仅取action token对应输出
训练策略创新点:
实践发现:直接微调视觉编码器比冻结参数方式平均提升23.7%成功率,这强烈暗示现有VLM的视觉表征与具身任务需求存在根本性错配。
团队精心设计了三维评估体系:
| 测试维度 | 数据集 | 评估重点 | 挑战性场景示例 |
|---|---|---|---|
| 泛化性 | CALVIN | 未见过的物体组合操作 | 用陌生工具完成开罐任务 |
| 现实迁移 | SimplerEnv | 仿真到实物的转移 | 真实光照下的抓取成功率 |
| 长程规划 | Libero-Long | 多步骤任务连贯性 | "找到钥匙→开门→取药"序列 |
通过对比9种主流VLM底座,研究发现:
最令人震惊的是,当仅使用VLM的视觉编码器(丢弃语言模块)时,某些任务性能反而提升。这说明当前VLM的语言-视觉对齐机制可能存在根本缺陷。
基于实验结果,给出不同场景下的选择策略:
| 应用场景 | 推荐VLM类型 | 理由 |
|---|---|---|
| 工业分拣 | SigLIP-based模型 | 物体识别精度优先 |
| 家庭服务机器人 | Qwen-VL系列 | 指令理解与执行平衡 |
| 自动驾驶 | 专用视觉编码器 | 低延迟要求高于多模态理解 |
视觉预处理优化:
动作后处理:
python复制# 动作平滑处理示例
def smooth_actions(actions, window_size=3):
kernel = np.ones(window_size)/window_size
smoothed = np.apply_along_axis(
lambda x: np.convolve(x, kernel, mode='same'),
axis=0,
arr=actions
)
return np.clip(smoothed, -1, 1) # 保持合法动作范围
虽然VLM4VLA框架揭示了关键问题,但在实际机器人部署中还需解决:
一个值得尝试的方向是"视觉编码器蒸馏"——训练小型专用编码器来模仿优秀VLM的视觉表征模式,这在初步实验中已显示出80%性能保留的同时降低70%计算开销的优势。