去年四月才成立的World Labs,如今正以50亿美元估值进行新一轮融资谈判。这个由斯坦福大学教授李飞飞创立的AI公司,在短短一年内估值暴涨五倍,背后反映的是资本对"世界模型"技术路线的重新定价。作为计算机视觉和机器人学习领域的从业者,我观察到这轮融资热潮绝非偶然——它标志着AI发展正在从二维平面走向三维空间,从静态生成迈向动态交互。
World Labs的核心产品Marble采用3D高斯溅射技术(3DGS),用数百万个半透明点来构建场景,相比传统多边形网格(polygon meshes)能实现更高效的渲染和更真实的视觉效果。但真正让投资人兴奋的,是它同时输出的"碰撞网格"(collider meshes)——这种简化版的几何表示专为物理仿真设计,为机器人训练提供了理想的数字孪生环境。我在测试其开发者工具Chisel时发现,用户先用基础几何体搭建场景框架,再通过AI生成细节版本的工作流,确实能大幅提升3D内容的生产效率。
在游戏和影视行业工作过的开发者都深有体会:用Maya或Blender手动建模一个复杂场景,动辄需要数周时间。每个物体都由成千上万个三角面片组成,不仅制作耗时,实时渲染也极度消耗算力。World Labs的3DGS技术采用点云表示场景,每个点具有位置、颜色、透明度和散射特性参数,通过可微分渲染器直接生成图像。实测显示,在UE5引擎中,相同精度的场景用3DGS比传统方法节省约40%的GPU内存。
Marble最令我惊艳的是其物理引擎集成方案。传统方法需要美术师额外制作低模碰撞体,而Marble自动生成的碰撞网格通过体素化处理原始点云,保留关键物理属性同时简化计算。在机器人抓取测试中,这种表示方式使物理模拟速度提升3倍以上。其技术白皮书披露,他们改进了NVIDIA FleX粒子系统的碰撞检测算法,使百万级点云的实时交互成为可能。
World Labs的World API已经展现出平台级潜力。某知名汽车厂商用它生成自动驾驶测试场景,原本需要拍摄的极端路况(如暴雨中的山路),现在通过文本描述就能即时生成。更关键的是,这些场景自带物理属性——车辆可以真实地打滑、碰撞,传感器数据与实车完全兼容。这解释了为什么英伟达会参与投资:未来Omniverse平台很可能集成这项技术。
值得注意的是,图灵奖得主Yann LeCun创办的AMI Labs选择了截然不同的技术路径。他的JEPA架构在潜在空间进行预测,不还原具体像素,更适合需要抽象推理的任务。我在对比实验中发现:对于"预测杯子掉落结果"这类任务,Marble能渲染逼真的破碎画面,而JEPA则输出受力分析和运动轨迹。两种方案各有优劣,资本的双向下注反映了行业共识:世界模型将成为AI的新基础设施。
目前开放的REST API支持三种调用方式:
python复制# 文本生成世界
response = requests.post(
'https://api.worldlabs.ai/v1/generate',
headers={'Authorization': 'Bearer YOUR_KEY'},
json={'prompt': '科幻城市夜景', 'output_format': 'glb'}
)
# 图像转3D(需上传jpg/png)
with open('input.jpg', 'rb') as f:
files = {'file': f}
data = {'physics': 'enabled'}
response = requests.post(
'https://api.worldlabs.ai/v1/upload',
files=files,
data=data,
headers={'Authorization': 'Bearer YOUR_KEY'}
)
经过三个项目的实际接入,我总结出几点关键经验:
游戏工作室已经开始用Marble批量生成开放世界地形,但植被动态交互仍需要手动调整。机器人公司则更看重其在sim2real(仿真到现实)中的应用——通过生成海量训练场景,使机械臂的抓取成功率在两周内从72%提升到89%。不过当前版本对透明物体(如玻璃杯)的物理模拟还不够精确,这可能是下个版本需要重点突破的方向。
这次融资热潮揭示了一个重要趋势:AI正在从处理抽象信息,转向理解并重构物理世界。随着World Labs和AMI Labs的技术路线逐渐成熟,我们或许正在见证继深度学习革命之后,人工智能的又一次范式转移。对于开发者而言,现在正是学习3D生成技术和物理仿真的黄金窗口期。