近年来,视频生成模型取得了突破性进展。以Veo-3、Sora-2等为代表的先进模型,通过扩散模型和自回归架构的结合,已经能够生成高保真度且时间连贯的视频内容。这些模型展现出的能力不仅限于简单的视频合成,更表现出对物理规律、空间关系和时序逻辑的某种程度的"理解"。
传统视频生成模型主要关注画面质量和时序连贯性,而新一代模型如Veo-3展现出了更高级的能力:
这些现象引发了研究者的思考:这些模型是否已经具备了某种形式的视觉推理能力?特别是在零样本(zero-shot)设置下,未经特定任务训练的视频模型能否解决复杂的视觉推理问题?
受大型语言模型中链式思维(CoT)的启发,研究者提出了链式帧推理(Chain-of-Frame, CoF)的概念。其核心观点是:
例如,在解决一个物理碰撞问题时,模型需要通过多帧连续展示物体的运动轨迹和碰撞结果,这本质上是一种基于视觉的推理过程。
为了系统评估视频模型的推理能力,研究团队开发了MME-COF基准。这个基准的设计考虑了多维度、多层次的评估需求。
MME-COF将视觉推理能力划分为12个核心维度:
| 维度类别 | 具体能力 | 评估重点 |
|---|---|---|
| 空间推理 | 2D/3D几何关系 | 物体相对位置、方向判断 |
| 物理推理 | 经典力学现象 | 碰撞、重力、摩擦力等 |
| 时间推理 | 事件顺序与因果 | 动作序列的合理性 |
| 具身推理 | 第一人称视角 | 空间导航与物体交互 |
| 抽象推理 | 符号与逻辑 | 图表理解、规则应用 |
构建高质量评估数据集面临三大挑战:
研究团队采用以下解决方案:
为确保评估的公平性,MME-COF采用了严格的提示设计规范:
例如,一个典型的物理推理任务提示如下:
"展示方块从斜坡滑下的过程,保持摄像机静止,不缩放不平移,运动需符合重力加速度规律"
基于MME-COF基准,研究团队对Veo-3进行了全面测试。以下是核心发现的技术解析。
测试案例:要求模型聚焦于场景中的特定物体(如一个手提包),并保持其颜色属性在多帧中的一致性。
成功模式:
失败模式:
python复制# 典型失败场景模拟
if 物体尺寸 < 图像面积的0.5% or 遮挡程度 > 60%:
定位准确率骤降至17%
技术启示:
模型表现出类似注意力机制的特征选择能力,但对小物体和复杂遮挡的处理仍有局限。这提示当前的视觉grounding能力更多依赖于低层次的显著性检测,而非真正的内容理解。
迷宫导航任务:
物理运动轨迹:
mermaid复制graph LR
A[初始位置] -->|直线运动| B[第一次碰撞]
B -->|反射角正确| C[第二次碰撞]
B -->|反射角错误| D[轨迹偏离]
注:实际评估中约67%的案例在第二次碰撞后出现轨迹偏差
关键发现:
模型在短时程(short-horizon)任务中表现尚可,但随着推理步长增加,错误会累积放大。这与语言模型中的CoT现象类似,表明当前的"推理"能力仍然受限于上下文长度。
在经典力学场景测试中,Veo-3展现出有趣的双重特性:
成功案例:
失败案例:
物理规律建模分析:
模型似乎内建了某些简单的物理规律(如重力加速度g≈9.8m/s²),但对更复杂的现象(如摩擦力、空气阻力)缺乏准确建模。这提示其物理"理解"可能来自训练数据中的统计规律,而非真正的物理引擎。
基于评估结果,可识别出三大核心限制:
长时程一致性:
几何约束遵循:
抽象概念处理:
架构层面:
训练策略:
评估体系:
基于当前模型的能力边界,我们总结出以下实用建议:
推荐场景:
应避免场景:
为提高推理任务的完成质量,可采用以下技巧:
分阶段提示:
text复制第一阶段:展示球从斜坡滑下
第二阶段:展示球与障碍物的碰撞
第三阶段:展示碰撞后的运动轨迹
显式约束:
"保持摄像机高度固定,不改变透视关系"
参考示例:
"类似[描述参考视频]中的运动方式"
由于模型可能产生看似合理实则错误的输出,建议:
虽然当前视频模型尚未达到可靠零样本推理器的水平,但MME-COF基准揭示的" emergent abilities"令人鼓舞。特别是在以下方面展现出潜力:
这项研究最重要的贡献或许在于建立了一套系统的评估方法论,为后续研究提供了可扩展的框架。随着模型规模的扩大和架构的改进,视频模型的推理能力有望实现质的飞跃。