在计算机视觉和人工智能领域,多模态大语言模型(MLLMs)近年来在2D视觉理解方面取得了显著进展。然而,当这些模型面对需要3D空间推理能力的复杂任务时,其表现往往不尽如人意。空间推理能力的核心在于理解3D一致性——即物体在不同视角下保持的几何属性与空间关系。这种能力对于机器人导航、自动驾驶和增强现实等实际应用至关重要。
当前MLLMs面临的主要问题是:虽然它们能够处理连续的2D图像序列,但往往只能捕捉到像素级别的2D连续性,而无法真正理解3D空间中的一致性关系。例如,当观察一个物体从不同角度拍摄的照片时,人类能够自然地理解这是同一个物体在不同视角下的呈现,而现有模型则倾向于将其视为独立的2D图像集合。
关键区别:2D连续性关注的是相邻帧之间的像素相似性,而3D一致性则强调在3D空间中保持稳定的空间和几何关系。即使通过投影到2D平面后,3D一致性可以保持,但仅实现2D连续性并不能保证3D一致性。
Viewpoint Learning是我们提出的专门用于评估和激活MLLMs空间推理能力的任务。该任务的核心是让模型理解相机视角变化对物体呈现的影响,从而建立跨视角的一致性理解。具体来说,给定同一物体从不同视角拍摄的两张图像,模型需要判断相机在拍摄第二张图像时相对于第一张图像的移动和旋转情况。
这种设计有几个关键优势:
为了支持Viewpoint Learning任务,我们构建了Viewpoint-100K数据集,包含10万对以物体为中心的真实世界图像,每对图像都配有从不同视角拍摄的同一物体,以及相应的问答对(QAs)。数据集的主要特点包括:
数据生成过程中,我们使用提供的相机参数计算两个视角之间的相对平移和旋转。为了简化问题,我们只考虑相机沿水平轴的平移和绕自身垂直轴的旋转。
我们发现基线模型在Viewpoint-100K任务上的表现接近随机猜测,这表明现有MLLMs主要依赖2D视觉线索而非3D空间特征。为了改变这一状况,我们首先采用监督微调(SFT)策略,向模型注入基础空间知识。
实施细节:
这一阶段的关键挑战是模型在预训练中形成的强烈2D推理偏置。我们发现直接应用强化学习会导致较高的KL散度,表明模型难以摆脱原有的推理模式。相比之下,SFT能够更有效地引导模型建立正确的3D空间理解。
在SFT过程中,我们注意到模型的指令跟随能力和推理过程会受到影响。为了解决这个问题,我们提出了混合冷启动初始化方法,结合了:
这种方法使模型能够同时学习视角表示和保持连贯的推理思维。我们保持伪CoT的比例较低(10%),以避免干扰模型对准确视角知识的学习。
在基础知识注入后,我们观察到模型在特定任务上表现提升,但也存在过拟合风险。为了增强模型的泛化能力,我们进行了第二阶段的强化学习微调。
关键组件:
这一阶段使模型能够将学到的视角知识灵活应用到更广泛的空间任务中,同时保持原有的基础能力。
我们在三个主要基准上评估了模型性能:
实验结果(表1)显示,我们的方法(Actial-7B)相比基线模型(Qwen-2.5-VL-7B-Instruct)有显著提升:
特别值得注意的是,在BLINK的多视图任务中,我们的模型几乎达到完美表现,而基线模型的表现接近随机猜测,这验证了Viewpoint Learning对激活空间推理能力的有效性。
知识注入(SFT)的影响:
泛化增强(GRPO)的影响:
这些结果表明,两阶段策略的组合能够实现最佳平衡——既获得特定任务的性能提升,又保持良好的泛化能力。
我们将复杂的相机姿态估计问题简化为更适合语言模型处理的多选题形式。具体设计包括:
这种设计降低了问题的复杂性,同时保留了评估空间理解能力的核心要素。
在实际训练中,我们发现以下几个技巧对提升效果至关重要:
在推理阶段,我们观察到模型表现出更合理的空间思考模式(图5)。相比基线模型依赖2D线索的做法,我们的模型能够:
这种改进的推理能力不仅限于视角任务,也泛化到了其他空间推理问题中。
激活MLLMs的空间推理能力为多个领域开启了新的可能性:
基于当前成果,我们认为有几个有前景的未来方向:
在实际部署中,我们建议从相对简单的视角任务开始,逐步扩展到更复杂的空间推理问题。对于资源有限的情况,可以优先考虑知识注入阶段,即使不进行第二阶段的强化学习也能获得显著的性能提升。