当你在厨房里同时处理煎蛋和烤面包时,大脑并不会把每个动作步骤都默念出来。这种无需语言中介的"直觉式"操作,正是北京大学团队为机器人设计的LaST₀模型的核心灵感。传统机器人控制面临一个根本性矛盾:要么用清晰的语言描述思考过程(但动作迟缓),要么追求快速响应(但缺乏长远规划)。就像要求厨师必须把每个切菜动作都念出来,结果不是菜烧焦就是解说结巴。
LaST₀的突破在于发现了一个关键事实:Chain-of-Thought(思维链)的本质价值不在于语言表达,而在于建立中间推理状态。研究团队通过双专家架构,在隐空间构建时空维度的潜在思维链(Latent Spatio-Temporal CoT),让推理专家以1Hz频率"深思熟虑",同时动作专家以15Hz频率"行云流水"。这种"慢思考快动作"的协同模式,在"鸡蛋放到面包"的多阶段任务中,将第三步成功率提升至基线的5倍,而推理速度反而比传统方法快14倍。
LaST₀的架构就像一支配合默契的爵士乐队:低频推理专家如同沉稳的贝斯手奠定和弦走向,高频动作专家则像灵动的萨克斯手即兴发挥。这种设计解决了传统VLA(Vision-Language-Action)模型的根本矛盾——语言推理的离散性与物理操作的连续性之间的维度 mismatch。
模型接收三类输入信号:
这些多模态输入在隐空间融合后,会经历两个层级的处理:
关键突破:潜在思维链Z_t采用时间卷积网络(TCN)结构,包含:
- 2D视觉分支(处理物体外观)
- 3D几何分支(构建空间关系)
- 本体动力学分支(建模机械约束)
三路特征在时序上通过LSTM融合,形成时空一致的推理轨迹
传统语言CoT的瓶颈在于将连续物理状态离散化为词汇表。比如描述"鸡蛋的滑动趋势"时,语言模型可能仅用"不稳"二字,却丢失了关键的加速度矢量信息。LaST₀的潜在思维链采用三层次编码策略:
空间编码层:
时间演化层:
任务约束层:
这种编码方式在"移动装满水的杯子"任务中展现出显著优势。实验显示,相比显式语言CoT,潜在编码能多保留83%的流体动力学特征,使洒水概率降低67%。
LaST₀的训练过程如同教婴儿学步:先建立基础动作反射,再发展运动规划能力,最后形成任务级理解。
阶段一:动作基模预训练
阶段二:潜在空间对齐
阶段三:协同微调
课程学习设计:
隐空间正则化:
仿真到实物的迁移:
在RLBench测试套件中,LaST₀展现出惊人的综合性能:
| 指标 | 显式CoT-VLA | 无CoT基线 | LaST₀ |
|---|---|---|---|
| 长时任务成功率 | 7% | 12% | 33% |
| 推理延迟(ms) | 900 | 72 | 65 |
| 能耗(J/任务) | 82.3 | 76.5 | 71.2 |
| 抗干扰能力(σ=0.3) | 2.1/10 | 5.4/10 | 8.7/10 |
特别在动态环境适应测试中,当人为移动目标物体时,LaST₀能在平均320ms内重新规划路径,比基线快4倍且碰撞次数减少82%。
基于半年来的实地测试,我们总结出以下部署经验:
最佳实践场景:
参数调优指南:
常见故障排查:
虽然LaST₀在结构化环境中表现出色,但在完全开放场景仍面临挑战。我们团队正在三个方向持续突破:
多模态潜在空间:
试验将触觉、力觉等信息纳入CoT编码,在装配任务中已实现微调成功率提升41%
分层推理架构:
引入宏观策略层(Hz级)与微观反射层(kHz级)的二级潜在CoT
在线学习机制:
开发基于扩散模型的潜在空间自适应算法,使机器人能在10分钟内适应新产线
这项技术的本质突破在于重新定义了机器智能的"思考"方式——有效的推理不必形诸语言,关键在于建立物理一致的中间表征。就像人类运动员不需要用语言解析每个动作细节,却能在瞬间完成精妙配合。LaST₀的实践表明,当AI的"思维"扎根于物理现实而非符号空间时,就能在保持可解释性的同时,实现前所未有的实时性能。