在牛津大学完成学业后,我加入了DeepMind从事强化学习研究。那时的AI领域还远没有现在这么火热,AGI(通用人工智能)对大多数人来说还是个遥不可及的概念。在DeepMind的三年里,我参与了AlphaStar等标志性项目,见证了AI在复杂游戏中的突破性表现。这些经历让我深刻认识到:纯粹的算法研究固然重要,但AI最终需要服务于真实世界。
2021年回国后,我加入了IDEA研究院,开始接触生成式AI的研究。那时AIGC还没有像现在这样爆发,我们更多是在探索统一的生成框架。这段经历让我看到了AI在内容创作方面的潜力,但也让我更加确信:AI需要与物理世界产生更直接的连接。
在DeepMind时期,我们就经常讨论AGI的实现路径。有人认为纯算法就能实现AGI,而我逐渐形成了不同的看法:真正的智能需要与物理世界互动。这就像婴儿学习认知世界的过程——他们通过触摸、抓取、移动来建立对世界的理解。
具身智能(Embodied AI)正是这种理念的体现。它让AI不仅能在虚拟环境中表现出色,还能在现实世界中完成具体任务。这种从虚拟到现实的跨越,正是AI技术发展的必然趋势。
现在的机器人已经不再是传统意义上的机械装置。随着硬件技术的进步,现代机器人具备了前所未有的灵活性和适应性。它们正在成为各类AI技术(计算机视觉、自然语言处理、大模型等)的终极承载平台。
在星尘智能,我们开发的机器人可以完成各种精细操作,动作流畅得近乎人类。这种硬件突破为AI提供了全新的可能性——让算法真正"落地",在物理世界中发挥作用。
在具身智能系统中,我们采用了类似人类"大小脑"的架构:
快系统(小脑):
慢系统(大脑):
这种架构既保证了基础动作的快速响应,又确保了复杂任务的准确执行。
高质量的真机数据是训练具身智能系统的核心资源。我们主要通过三种方式获取数据:
特别值得注意的是,仿真数据虽然有用,但无法完全替代真实数据。某些精细操作(如用钥匙开锁)在仿真环境中很难完美模拟。
让机器人准确理解人类意图是个持续挑战。我们正在探索多模态交互方式:
这些方式的组合使用可以显著提升意图传达的准确性。
世界模型(World Model)是当前研究热点,它能预测环境变化和动作结果。但要注意:
我们与MIT等高校的合作表明,结合多模态感知的世界模型确实能提升机器人性能。
具身智能的商业化遵循"可用先行"原则:
这与自动驾驶的发展路径类似——从辅助到完全自主需要循序渐进。
在养老院等实际场景测试中,我们遇到了许多意想不到的问题:
这些发现只有通过实地测试才能获得,对产品改进至关重要。
具身智能是条长跑道,需要保持耐心和信念。我的建议是:
具身智能的发展不会一蹴而就,但每一步进步都让机器更懂人类世界。作为从业者,能参与这个过程本身就是种幸运。