在构建通用机器人智能系统的道路上,视觉语言动作模型(Vision-Language-Action Model, VLA)已经成为当前最前沿的技术方向。这类模型需要同时处理三个维度的信息:视觉输入的环境感知、语言指令的语义理解,以及最终动作序列的生成与执行。然而,要实现真正可靠、可泛化的机器人控制,我们面临着两个关键挑战:
首先,在数据层面,现有的机器人训练数据往往存在严重的分布不均衡问题。不同机器人平台(实体)收集的数据量差异巨大,各类任务的样本数量也呈现典型的长尾分布。这种不平衡会导致模型训练过程中某些实体或任务被过度关注,而其他重要但样本较少的场景则难以得到充分学习。
其次,在感知与动作的衔接上,传统视觉语言模型(VLM)虽然擅长语义理解,但缺乏精确的几何感知能力。它们可以判断"杯子在盒子左边",却无法量化"距离15厘米且机械臂可达"这类对机器人控制至关重要的空间信息。这种语义与几何的割裂,严重限制了模型在真实场景中的操作精度。
在我们的实验中,对比了三种典型的数据采样方法:
轨迹均匀采样(Trajectory-Uniform):完全保留原始数据集的分布特性,每个轨迹被采样的概率相等。这种方法会放大数据集的固有偏差——例如AgiBot-G1平台的数据量占整体70%,导致模型严重偏向该实体的特性。
实体均匀采样(Embodiment-Uniform):强制不同机器人平台的数据均匀出现。虽然缓解了实体偏差,但会过度采样小数据源中的高频技能,反而加剧了技能层面的长尾问题。如图6所示,其洛伦兹曲线偏离平等线最远,基尼系数高达0.68。
任务均匀采样(Task-Uniform):以任务类型为单元进行均衡采样。这种方法巧妙地通过提高多任务数据的可见性(如RoboCoin中的跨实体任务),在不破坏主要数据源的前提下,让长尾实体获得更多曝光。实测显示其技能覆盖率增长速度比实体均匀采样快2.3倍。
任务均匀采样的核心优势在于其双重平衡机制:
实体维度:通过提升RoboCoin等多任务数据集的采样权重,间接增加了小规模实体的出现频率。如图5所示,相比轨迹采样时AgiBot-G1占比70%的情况,任务采样将其降至58%,同时让RoboCoin的实体分布更加均衡。
技能维度:由于复杂任务往往包含更多元化的技能组合,任务导向的采样自然促进了技能多样性。我们的测量显示,在相同采样预算下,任务均匀采样能多覆盖37%的独特技能。
关键发现:在LIBERO-Plus基准测试中,任务均匀采样相比轨迹均匀采样将跨实体泛化误差降低了14.2%,验证了其对数据偏差的修正效果。
虽然基于Qwen3-VL-4B的视觉语言模型在语义理解上表现优异,但其本质仍是2D图像处理器。我们通过一组对照实验揭示了三个关键现象:
深度特征优势:直接使用VLM最后一层特征(71%成功率)优于中间层(69%)和多层拼接(67.4%),说明高层语义已经编码了动作相关的关键信息。
动作查询冗余:添加额外的动作查询模块反而使性能下降1-2%,表明机器人数据预训练已使VLM内部特征与动作空间自然对齐。
几何信息缺失:在需要精确空间推理的任务(如"将杯子放入微波炉")上,纯VLM模型的成功率比注入3D信息后低22%,凸显了几何感知的必要性。
为弥补VLM的几何短板,我们设计了可插拔的3D信息注入模块,包含两个并行通路:
单图像3D通路:
多视图合成通路:
我们系统评估了三种融合方式在LIBERO测试集上的表现:
| 融合方法 | 参数量 | 推理延迟 | 成功率 |
|---|---|---|---|
| 简单拼接 | 0 | 1.2ms | 96.8% |
| 交叉注意力 | 1.4M | 2.1ms | 97.6% |
| Q-Former | 4.7M | 3.8ms | 97.4% |
交叉注意力以其高效的性能成为最终选择,其关键设计是:
python复制class CrossAttentionFusion(nn.Module):
def __init__(self, dim):
super().__init__()
self.norm = nn.LayerNorm(dim)
self.attn = nn.MultiheadAttention(dim, num_heads=8)
def forward(self, vlm_feat, 3d_feat):
# vlm_feat作为Query,3d_feat作为Key/Value
fused = self.attn(
query=self.norm(vlm_feat),
key=self.norm(3d_feat),
value=self.norm(3d_feat)
)[0]
return vlm_feat + fused # 残差连接
传统扩散策略(如GR00T)通过预测噪声来间接生成动作,存在两个固有缺陷:
我们提出动作流形学习(Action Manifold Learning, AML)范式,直接将动作序列建模为低维流形上的点。如图12所示,AML通过以下改进实现突破:
在RoboCasa GR1测试中,AML展现出显著优势:
这种优势在长时程任务中更为明显,因为AML避免了噪声预测中的误差累积效应。例如在"连续组装3个零件"的任务中,AML的成功率比扩散策略高31%。
我们的完整系统包含三个核心组件:
训练流程采用两阶段策略:
mermaid复制graph LR
A[预训练阶段] -->|6M轨迹| B[VLM+3D模块]
B --> C[微调阶段]
C -->|LIBERO数据| D[动作专家]
在四大测试集上的结果验证了方法的全面性:
LIBERO基准:
LIBERO-Plus零样本测试:
RoboCasa GR1:
RoboTwin 2.0:
实体平衡检查:
视角合成技巧:
python复制# 最佳合成参数配置
synthesize_views(img,
yaw_range=(-30,30),
pitch_range=(-15,15),
num_views=2)
特征冻结策略:
动作块大小选择:
问题1:模型在真实机器人上执行抖动
问题2:对新物体抓取失败
这些经验来自我们团队超过2000小时的实机调试,多数未在论文中详细记载,但对工程落地至关重要。