在机器人领域,视觉-语言-动作(VLA)模型近年来取得了显著进展,但一个长期存在的难题是:如何让这些模型在不同形态的机器人平台之间实现有效迁移?斯坦福大学与Physical Intelligence合作开发的AirVLA项目,正是针对这一挑战提出的创新解决方案。
当前主流的VLA模型(如RT-X、Octo、π0)虽然在桌面机械臂上表现出色,但当尝试将这些模型迁移到无人机平台时,却遭遇了前所未有的困难。这种困难并非源于模型本身的缺陷,而是由无人机与机械臂之间本质性的物理差异造成的。
无人机与机械臂最根本的区别在于它们的动力学特性。桌面机械臂通常安装在稳固的基座上,其运动可以被视为"准静态"过程——机械臂的每个动作都可以独立执行,且一个动作对下一个动作的影响有限。相比之下,无人机是一个典型的欠驱动系统:
这种动力学上的根本差异,使得原本在机械臂上表现良好的VLA模型,直接应用到无人机上时几乎完全失效。
除了动力学差异,感知环境的巨大变化也是重要挑战:
这些变化使得模型在机械臂上学习到的视觉特征提取能力,难以直接迁移到无人机场景。
现有的跨具身数据集(如Open X-Embodiment)几乎不包含任何无人机操作数据。收集真实的无人机操作数据面临诸多困难:
这种数据稀缺使得直接从头训练无人机VLA模型变得不切实际。
AirVLA的创新之处在于它没有试图重新训练一个全新的VLA模型,而是采用"最小修改"策略,在保留原有π0模型核心能力的基础上,通过两个关键创新点解决上述挑战。
传统的做法是重新训练模型以适应新的动力学特性,但这种方法计算成本高且可能损害模型原有的泛化能力。AirVLA采用了更巧妙的方案:在推理过程中实时修正模型输出的动作,使其符合无人机的物理约束。
具体来说,系统在流匹配采样过程中注入梯度修正:
这种引导机制直接作用于流匹配采样的速度场,通过物理约束修正生成的动作,既保留了VLA模型的语义理解能力,又满足了飞行稳定性要求。
关键优势:不改动模型权重,避免重新训练的计算成本,同时保持原有模型的泛化能力。
为了解决真实数据稀缺的问题,AirVLA开发了一套基于3D高斯重建的合成数据生成管道:
与传统仿真相比,3D高斯Splatting具有独特优势:
实验表明,仅需少量真实数据配合大量合成数据,就能达到与全真实数据相当的性能。
AirVLA系统的硬件平台经过精心设计,在性能和实用性之间取得了良好平衡:
系统的软件栈采用分层设计,各模块职责明确:
输入层:
核心策略层:
执行层:
数据增强层:
为了全面评估系统性能,团队设计了三个层级的测试任务:
每种任务都进行了大量重复实验(总计460次真实飞行),确保结果统计显著。
| 方法 | 拾取成功率 | 放置成功率 | 过闸成功率 | 悬停精度 |
|---|---|---|---|---|
| π0原生 | 50% | 0% | - | - |
| π0+RTC | 85% | 23.5% | 80% | 81.2% |
| AirVLA | 100% | 50% | 95% | 100% |
| ACT | <5% | 0% | 30% | 25% |
| Diffusion Policy | <5% | 0% | 25% | 20% |
在更复杂的四阶段组合任务中,AirVLA展现了强大的零样本泛化能力:
特别值得注意的是,单一策略无需任何任务切换指令,就能自动完成从导航到抓取的模式转换。
为了评估系统对未知场景的适应能力,团队进行了两类泛化测试:
新物体抓取:
新位置导航:
结果表明,系统对物体变化的适应性强于对空间位置变化的适应性,这为未来改进指明了方向。
AirVLA项目的成功验证了几个关键洞见:
这项技术有望在多个领域产生实际影响:
基于当前成果,以下几个方向值得进一步探索:
在实际部署中,我们发现载荷补偿参数的微调对性能影响显著。不同无人机的动力特性差异较大,需要针对具体平台进行细致的参数校准。一个实用的技巧是:先进行一系列空载飞行测试,记录无人机的动态响应特性,再基于这些数据计算合适的补偿量。