DexVLA框架的核心突破在于解决了当前视觉-语言-动作(VLA)模型的两大痛点:动作表示瓶颈和训练效率问题。传统VLA模型过度依赖视觉-语言模型(VLM)组件的扩展,而忽视了动作生成模块的重要性。这就像给机器人装上了强大的大脑,却只配备了简陋的四肢。
扩散模型在图像生成领域已经证明了对复杂分布建模的能力。DexVLA创新性地将其应用于机器人控制,设计了一个参数规模达十亿级的扩散动作专家模块。这个模块采用多头输出结构,可以同时适应不同机器人的运动学特性。具体实现上:
这种设计使得模型能够学习到跨本体的通用运动技能,同时保留对不同机器人形态的适配能力。实验数据显示,仅用100条演示数据就能让模型在新机器人本体上学习灵巧操作技能。
DexVLA采用三阶段渐进式训练策略,模拟人类技能习得过程:
阶段1:跨本体预训练
阶段2:特定本体对齐
阶段3:任务专属适配
这种课程设计显著提升了数据利用效率,模型仅需100小时演示数据就能达到优异性能。
DexVLA以Qwen2VL作为基础VLM,其架构包含几个关键组件:
实践发现:在扩散专家中使用LayerNorm比BatchNorm更适合处理跨本体数据,因为不同机器人的观测统计特性差异较大。
训练过程中的几个关键技术点:
数据预处理
损失函数设计
code复制L = L_diff + αL_ntp
训练超参数
在未进行任务专属适配的情况下,DexVLA在多个基准测试中表现优异:
| 任务类型 | DexVLA得分 | OpenVLA得分 | 提升幅度 |
|---|---|---|---|
| 叠衣服 | 0.92 | 0.00 | ∞ |
| 料箱拾取 | 0.85 | 0.31 | 174% |
| 桌面清理 | 0.78 | 0.42 | 86% |
特别值得注意的是叠衣服任务,这需要处理柔软可变形物体和长时程动作规划。基线方法完全无法完成任何步骤,而DexVLA展现了接近人类水平的性能。
在两种全新机器人系统上的测试结果:
这些结果证明DexVLA具备强大的跨本体泛化能力,能够快速适应全新的机器人形态。
在2分钟以上的复杂任务中,DexVLA展现了独特的优势:
洗衣折叠任务
困难桌面清理
传统方法需要SayCan等高层策略辅助,而DexVLA通过内部子步骤推理实现了端到端的解决方案。
在实际机器人部署时,我们总结出以下经验:
在实际应用中可能遇到的问题及解决方案:
问题1:动作抖动
问题2:任务分解错误
问题3:新本体适应慢
基于DexVLA的实践经验,我们认为以下几个方向值得深入探索:
在实际部署中,我们发现将DexVLA与传统的运动规划方法结合使用往往能取得更好的效果。例如,让DexVLA负责高层任务理解和粗粒度动作生成,再用经典算法处理精细的运动规划和避障,这种混合架构在复杂环境中表现尤为出色。