在视觉语言模型(VLM)领域,我们一直面临一个核心挑战:如何让模型像人类一样理解复杂的空间关系?传统VLM在语言主导的任务(如数学推理)上表现出色,但在需要视觉空间推理的场景(如路径规划)往往表现不佳。最近,来自伦敦大学学院、加州大学洛杉矶分校等机构的研究团队提出的Ariadne框架,通过强化学习验证奖励(RLVR)技术,在合成迷宫任务中实现了VLM空间推理能力的突破性提升。
这个工作的价值在于:它首次系统性地证明,通过精心设计的强化学习策略,可以扩展VLM固有的能力边界——在原本得分为0%的3步迷宫任务上,训练后的模型准确率超过50%。更令人惊喜的是,这种能力还能迁移到真实世界的导航任务中,在MapBench和ReasonMap基准上分别实现了16%和24%的零样本性能提升。
关键发现:RLVR训练使VLM获得了"部分泛化"能力——能处理更多转弯次数,但当移动步数超过训练范围时仍会失败。这种"发散性泛化"现象揭示了AI空间推理的独特模式。
研究团队选择迷宫导航作为测试平台,背后有深刻的考量:
团队开发的AlphaMaze数据集采用倒高斯分布采样策略,确保模型同时接触简单(1-2步)和复杂(4-5步)的轨迹。这种设计既让模型掌握基础移动模式,又挑战其全局规划能力。
Ariadne框架的核心是GRPO(Group Relative Policy Optimization)算法,其创新点在于:
奖励计算采用分段函数:完全正确的路径获得0.2×步数×转弯数的奖励;部分正确的路径按匹配前缀长度比例给分。这种设计鼓励模型不仅关注结果正确,还要保证推理过程的合理性。
实验采用Qwen2.5-VL-7B-Instruct作为基础模型,训练配置值得注意:
关键超参数ϵ(策略更新限制)设为0.2,这个值经过实验验证能在策略改进和稳定性间取得平衡。
系统提示词精心设计了导航助手的角色定位:
code复制你是一个解决视觉路径寻找任务的导航助手。
目标是通过分析迷宫图像,推断从绿色起点'O'到红色目标'T'的有效路径。
规则:
- 只能通过开放路径移动,不能穿过黑色墙壁
- 每次只能向四个基本方向移动一步:<|上|><|下|><|左|><|右|>
输出格式要求模型将思考过程包裹在
在AlphaMaze测试集上,模型表现出明显的"能力阈值"现象:
这表明RLVR确实扩展了模型的能力边界,但这种扩展是不对称的——对转弯次数的泛化优于对步数的泛化。
在MapBench和ReasonMap上的零样本测试结果令人振奋:
| 基准测试 | 指标 | 基础模型 | Ariadne | 提升 |
|---|---|---|---|---|
| MapBench | 路径效率 | 1.68 | 1.35 | 19.6% |
| ReasonMap | 长问题准确率 | 6.0% | 7.47% | 24.5% |
特别值得注意的是,模型在真实场景中表现出比合成环境更好的长步数推理能力。研究人员推测,这可能是因为真实环境的"噪声"(如地标、路径冗余)提供了更多纠错机会。
基于这项研究,我们在应用RLVR训练VLM时推荐:
研究发现几个关键限制:
未来可能通过以下方式改进:
将Ariadne框架应用于博物馆导航场景,模型需要:
实测表明,经过RLVR训练的模型能生成更合理的路径,平均比基础模型缩短17%的行走距离。
在ReasonMap的北京地铁换乘任务中,模型需要:
Ariadne框架将换乘决策准确率从68%提升至84%,显著减少了"坐过站"或"错误换乘"的情况。
这项研究最令人兴奋的发现或许是:在合成迷宫中学到的空间推理能力,确实能迁移到真实世界的复杂场景中。虽然当前系统还有明显局限,但它为构建真正具备空间智能的AI系统指明了一条可行路径。