在构建通用机器人策略时,数据采样策略的选择直接影响模型的泛化能力和下游任务表现。传统方法通常采用简单的轨迹均匀采样(Trajectory-Uniform),但这种策略会延续原始数据集的规模不平衡问题。我们的实验表明,在AgiBot-G1等主流数据集占主导的情况下,这种采样方式会导致训练过程过度偏向特定机器人形态,增加模型同质化风险。
我们系统比较了三种采样策略在跨形态泛化中的表现:
关键发现:任务均匀采样在保持AgiBot-Beta作为主要数据源的同时,使RoboCoin等多任务单形态数据获得更多曝光,实现了覆盖范围与数据规模的最佳平衡。
在仅使用OXE、AgiBot-Beta和RoboCoin预训练,Libero用于微调的设定下,我们构建了针对性验证集:
| 数据集 | 验证集构建策略 | 采样数量 |
|---|---|---|
| OXE | 随机采样轨迹 | 1,000 |
| AgiBot-Beta | 按任务分层采样(每任务1条) | 183 |
| RoboCoin | 按形态分层采样(每形态30条) | 240 |
实验数据显示(图7-8),任务均匀采样在跨形态评估中MAE比轨迹均匀采样低23%,在RoboCoin验证集上表现尤其突出。这说明任务级组织能提供更具迁移性的交互监督,无需严格形态平衡也能实现良好泛化。
基于Qwen3-VL-4B和16层DiT的消融实验得出关键结论:
这表明大规模VLA预训练已使VLM内部编码了动作空间语义,深层特征天然适合策略学习。如表8所示,无需额外适配模块即可实现高效特征迁移。
为解决VLM在几何感知上的局限性,我们设计可插拔的3D注入模块:
单视图3D特征流:
多视图特征增强:

三种特征融合方式:(a)拼接(b)交叉注意力(c)Q-Former,实测(b)方案最优
在LIBERO基准上(表3),ABot-M0以98.6%平均成功率刷新记录,其中空间长程任务达96.6%。零样本迁移到LIBERO-Plus时(表4),在相机/语言/光照等七类扰动下仍保持80.5%成功率,显著优于OpenVLA-OFT等基线方法。
对比传统噪声预测范式(表7):
数据预处理:
训练配置:
python复制# 典型训练参数
batch_size = 1024
lr = 1e-5
steps = 100k
image_size = 224
denoising_steps = 4
action_chunk = 16
部署优化:
| 现象 | 可能原因 | 解决方案 |
|---|---|---|
| 跨形态泛化差 | 数据采样偏差 | 切换任务均匀采样策略 |
| 空间操作精度低 | 3D特征融合失效 | 检查交叉注意力层梯度 |
| 长程任务失败率高 | 动作块尺寸不足 | 增大chunk_size至32 |
| 实时性不达标 | 视图合成耗时 | 启用Qwen-Image-Edit量化版本 |
实际部署中发现,当处理抽屉开关等需毫米级精度的任务时,启用双视图3D特征可使成功率从65%提升至89%。建议在资源允许时优先采用完整3D注入方案。