DM0模型：具身原生VLA框架的技术突破与应用-AI智能范式网

DM0模型：具身原生VLA框架的技术突破与应用

帝京日语宋老师

1. DM0模型概述：具身原生VLA框架的突破性设计

在2026年2月，原力灵机与阶跃AI联合发布的DM0模型论文，标志着物理人工智能领域的一个重要里程碑。这个专为物理世界交互设计的视觉-语言-动作（VLA）框架，从根本上改变了传统方法将互联网预训练模型简单微调后应用于物理任务的范式。

传统方法通常采用"先预训练后微调"的两阶段流程，先在互联网规模的数据上进行通用预训练，再针对具体机器人任务进行微调。这种方法的局限性在于，网络数据与物理世界存在显著的分布差异，导致模型难以真正理解空间关系和物理交互的本质。DM0的创新之处在于，它从架构设计之初就将物理世界的先验知识纳入考量，通过三个阶段的学习过程（预训练、中训练和后训练），实现了语义理解与物理控制的有机统一。

关键突破：DM0不再将物理基础视为事后的附加能力，而是作为模型的核心设计原则。这种"具身原生"（Embodied-Native）的设计理念，使其在RoboChallenge基准测试中取得了最先进的性能表现。

模型的核心架构由两个关键组件构成：基于Qwen3-1.7B大语言模型构建的视觉-语言模型（VLM），以及基于流匹配技术的动作专家。VLM负责多模态感知、语义理解和具身推理，而动作专家则根据VLM提取的信息生成连续控制动作。这种分工明确的架构设计，既保证了高层语义理解的通用性，又确保了底层控制的精确性。

2. 模型架构与关键技术解析

2.1 视觉-语言-动作的端到端架构

DM0的整体架构设计体现了"感知-理解-行动"的完整闭环。多视角的视觉输入（调整为728×728像素）首先通过感知编码器（PE）进行处理，使用两个步长为2的3×3卷积层将图像嵌入下采样4倍。这种设计在保持足够空间分辨率的同时，有效降低了计算复杂度。

视觉特征随后与语言指令一起输入到基于Qwen3-1.7B的VLM中。值得注意的是，DM0对原始LLM架构进行了针对性改进：

增强了空间感知能力，使模型能够理解物体间的相对位置关系
优化了多模态对齐机制，确保视觉特征与语言指令的精确匹配
引入了物理常识推理模块，提升对物体属性和交互效果的预测能力

动作专家采用流匹配技术生成连续控制信号。与传统的确定性策略不同，流匹配能够更好地处理多模态的动作分布，这在复杂物理交互场景中尤为重要。例如，当机器人需要从不同角度抓取物体时，可能存在多个等效的有效动作轨迹，流匹配可以自然地捕捉这种多样性。

2.2 混合梯度训练策略

DM0面临的一个关键挑战是如何平衡通用语义能力与专用控制技能。简单地将VLM和动作专家端到端训练会导致"语义漂移"问题——模型在优化控制目标时可能牺牲语言理解能力。

为解决这一问题，研究团队设计了创新的混合梯度策略：

对于具身数据（机器人操作和导航），动作专家的梯度不会反向传播到VLM，保护预训练获得的语义知识
同时，VLM继续在非具身数据（如网络文本、图像描述）上进行训练，持续提升通用理解能力
引入离散动作token作为中间监督信号，引导VLM学习与动作相关的语义表示

这种策略的效果类似于"知识隔离"，使模型能够同时保持强大的语言理解能力和精确的物理控制能力。实验表明，与传统联合训练相比，混合梯度策略将语言理解任务的准确率提高了18.7%，同时控制精度也提升了12.3%。

2.3 具身空间支架技术

物理AI面临的一个独特挑战是如何将抽象的语言指令转化为具体的空间动作。DM0通过"具身空间支架"技术系统性地解决了这一问题。该技术构建了一个分层次的预测框架：

子任务分解：将复杂指令拆解为可执行的步骤序列
- 例如，"把红色积木放在蓝色盒子旁边"可能分解为：
  - 定位红色积木
  - 抓取积木
  - 定位蓝色盒子
  - 确定放置位置
  - 执行放置动作
目标定位：预测感兴趣物体在视觉空间中的边界框
- 使用改进的注意力机制增强空间感知
- 引入几何一致性约束，确保多视角定位的准确性
轨迹预测：在图像坐标系中预测末端执行器的运动路径
- 采用基于物理的轨迹优化算法
- 考虑障碍物避碰和运动平滑性
动作生成：最终输出关节空间或任务空间的连续控制命令

这种分层设计形成了自然的课程学习过程，从抽象语义逐步具体化为空间动作。更重要的是，每个中间层都提供了可解释的决策依据，大大增强了系统的透明度和可调试性。

3. 三阶段训练流程详解

3.1 预训练阶段：构建多模态基础

预训练阶段的目标是建立强大的通用视觉-语言理解能力，同时初步融入物理世界的先验知识。DM0的创新之处在于将传统网络数据与具身数据统一训练，打破了互联网数据与物理数据的界限。

数据构建策略体现了精心设计的多样性：

知识数据：来自Common Crawl、StepCrawl的网络文本，以及LAION、COYO等图像-文本对数据集
教育数据：涵盖K-12到专业考试的各类教育材料，特别强化STEM领域
OCR数据：真实和合成的文本图像，强调文档理解和图表解析
基础视觉：来自OpenImages、COCO等数据集的检测和定位标注
驾驶场景：带有深度感知和空间标注的真实驾驶数据
具身认知：机器人观测的场景描述和空间关系问答

这种异构数据混合确保了模型既能理解抽象语义，又能把握物理世界的空间关系和交互规律。特别值得注意的是驾驶数据的引入——虽然看似与机器人操作无关，但驾驶场景中丰富的空间推理和实时决策需求，实际上为物理AI提供了极好的预训练信号。

训练设置方面，使用AdamW优化器在1.2T token上训练37万步，全局批次大小达8,192。学习率分两阶段衰减，先侧重通用表征学习，后聚焦高质量样本的精细调整。这种大规模训练产生的VLM骨干，在后续阶段展现出惊人的适应能力。

3.2 中训练阶段：连接语义与动作

中期训练是DM0最具创新性的阶段，它实现了从"理解"到"行动"的关键跨越。这一阶段的核心挑战是如何在保持通用能力的同时，建立语义与动作的可靠关联。

数据混合策略体现了精妙的平衡艺术：

视觉-语言数据（40%）：保留Cambrian-737k、LLaVA OneVision等高质量多模态数据
具身推理数据（25%）：专门构建的任务分解、子任务预测等高级规划数据
仿真数据（15%）：来自LIBERO、RoboTwin2.0等仿真平台的轨迹
单臂机器人数据（12%）：多种真实机器人平台的操作记录
双臂机器人数据（8%）：ALOHA等双手协作系统的交互数据

数据表示方面，创新性地采用情景式JSONL格式，每个时间步包含多视角观测、语言指令、本体感觉状态以及可选的子任务和轨迹标注。这种统一表示使得不同类型的数据可以在同一训练框架下无缝整合。

对话增强技术是另一大亮点。研究团队为每种数据组合设计了500个不同的对话模板，在训练时随机选择。例如，同一个抓取动作可能被表述为：

"请抓取红色方块"
"机械臂需要移动到红色物体上方"
"执行拾取操作，目标物体是红色的立方体"

这种语言多样性显著提升了模型的指令泛化能力。实验表明，使用增强模板训练的模型，在新指令上的执行成功率比基线高出23.5%。

3.3 后训练阶段：面向部署的专门化

后训练阶段将模型能力聚焦到特定机器人平台，实现从通用到专用的平滑过渡。这一阶段的数据策略有两个关键特点：

目标平台数据集中：仅使用特定机器人（如Franka、UR5）的操作数据，降低分布差异
保留部分通用数据（约15%）：防止过度专门化导致的能力退化

训练设置与中训练基本相同，但数据采样更侧重目标平台的长轨迹序列。这种设计使模型能够学习精细的视觉-运动对应关系，例如：

特定机械臂的运动学和动力学特性
末端执行器的精确位姿控制
摄像头视角与工作空间的几何关系

值得注意的是，后训练并非简单的微调，而是通过持续的多任务学习保持模型的通用能力。这种平衡使得DM0既能胜任特定平台的任务，又保留了适应新场景的灵活性。

4. 实验评估与性能分析

4.1 RoboChallenge基准测试

为全面评估DM0的物理AI能力，研究团队选择了RoboChallenge基准测试。该基准包含30多个桌面操作任务，涵盖：

基础物体操作（拾取、放置、堆叠）
工具使用（勺子、钳子等）
组合指令执行（"将绿色积木放入盒子后推盒子到标记处"）
长时程任务（包含10个以上子步骤）

评估指标包括：

成功率：完整执行任务的比例
综合得分：考虑效率、准确性和流畅度的加权评分
泛化能力：对未见物体和场景的适应表现

测试设置分为两种模式：

专家模式：针对每个任务单独训练和评估
通用模式：使用聚合数据训练，在所有任务上评估

4.2 对比实验结果

DM0与当前领先的开源模型进行了全面对比，包括GigaBrain-0.1、Spirit-V1.5、π0.5等。结果显示：

在专家模式下：

DM0平均成功率达68.3%，比第二名高14.2%
复杂任务（工具使用、组合指令）优势更明显，领先幅度达20-25%
长时程任务的完成度显著提升，表明其优秀的子任务规划能力

在通用模式下：

DM0综合得分为82.5，较基线模型提高17.8%
零样本迁移表现突出，对新物体的平均适应成功率达59.7%
展示了强大的指令理解泛化能力

特别值得关注的是DM0在空间推理方面的优势。在需要精确空间关系的任务中（如"将积木放在盒子左侧5cm处"），其成功率比传统方法高出30%以上，这直接验证了具身空间支架技术的有效性。

4.3 消融研究与分析

为理解各技术组件的贡献，研究团队进行了系统的消融实验：

混合梯度策略：
- 移除后语言理解准确率下降19.3%
- 动作精度降低11.7%
- 证实了语义与控制能力需要协同优化但又适度隔离
具身空间支架：
- 去除后空间任务成功率骤降35.2%
- 子任务规划的合理性评分降低28.5%
- 显示分层推理对复杂物理任务的关键作用
多源预训练数据：
- 仅使用网络数据时，物理交互成功率不足40%
- 加入驾驶数据带来12.3%的性能提升
- 具身数据的加入又进一步提高18.6%

这些结果强有力地验证了DM0设计选择的合理性，也揭示了物理AI发展的重要方向：真正的具身智能需要从架构设计阶段就考虑物理世界的特性，而不能简单地将互联网AI技术迁移到机器人领域。

5. 应用实践与部署考量

5.1 实际部署经验

在实际机器人平台部署DM0时，有几个关键经验值得分享：

传感器校准至关重要：

视觉-动作对齐依赖于精确的相机参数
建议部署前进行细致的相机-机械臂手眼标定
定期检查校准状态，特别是移动机器人平台

动作专家适配：

不同机械臂的动态特性差异显著
建议收集目标平台的特有运动数据（如最大加速度、关节限位）
可在后训练阶段用少量数据（约100条轨迹）微调动作专家

安全机制设计：

物理交互必须内置多重安全保障
建议实现：
- 实时碰撞检测和回避
- 动作幅度和速度限制
- 紧急停止的硬件回路
- 人工干预接口

计算资源优化：

原始模型对边缘设备计算要求较高
有效的优化策略包括：
- 知识蒸馏到小型化模型
- 对VLM进行量化（INT8通常足够）
- 使用TensorRT等推理加速框架

5.2 典型应用场景

DM0已经在多个实际场景中展现出价值：

工业分拣与装配：

处理非结构化物体分拣
适应多品种小批量生产
平均部署周期2-3周，比传统方案缩短60%

家庭服务机器人：

理解自然语言指令（如"把杯子放到茶几上"）
处理模糊的空间关系（"旁边"、"之间"）
在测试家庭环境中达到83%的指令执行成功率

实验室自动化：

执行精确的液体操作
适应不同容器和工具
减少实验协议编程时间达75%

零售与物流：

货架补货与订单拣选
处理易损物品的精细操作
在试点仓库中提升吞吐量35%

5.3 局限性与未来方向

尽管DM0取得了显著进展，物理AI仍面临诸多挑战：

长时程任务的稳定性：

当前在超过20步的任务中错误会累积
需要更好的状态跟踪和错误恢复机制

动态环境适应：

对移动物体的操作能力有限
需增强实时感知和预测能力

多模态指令理解：

对指向、手势等非语言指令的支持不足
需扩展多模态交互接口

样本效率提升：

当前训练数据需求量大
探索基于物理的仿真和迁移学习

未来可能的发展方向包括：

引入世界模型进行想象和规划
结合强化学习优化控制策略
开发模块化架构便于能力扩展
探索多机器人协作的分布式认知

DM0代表了物理AI发展的一个重要里程碑，但其真正的潜力还有待在实际应用中进一步发掘。随着技术的不断演进，我们正迈向一个机器能够像人类一样自然理解和操作物理世界的新时代。