1. LongVT:基于原生工具调用的长视频理解智能体框架
在计算机视觉和多模态人工智能领域,长视频理解一直是个棘手难题。想象一下,当你需要从一部两小时的电影中找出"主角第一次出现穿红色外套的具体时间",或者从一场90分钟的足球比赛中定位"制胜球是用左脚还是右脚踢进的"——这类任务不仅需要理解视频内容,还要在时间维度上精确定位关键证据。这正是CVPR 2026论文《LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling》要解决的核心问题。
当前主流的多模态大模型(LMM)在处理长视频时存在明显局限:它们通常采用均匀采样的帧作为输入,可能错过决定性的短暂瞬间;推理过程过度依赖文本思维链(CoT),导致"语言主导"的偏差;更重要的是,缺乏类似人类的"假设-验证"循环机制,难以在长时间跨度中持续追踪关键证据。LongVT的创新之处在于,它让模型学会了像人类一样"观看"长视频——先快速浏览全局,发现可疑片段后立即放大检查,必要时还能自我修正重新定位。
这个过程的实现依赖于论文提出的交错式多模态工具思维链(iMCoTT)机制。与传统纯文本CoT不同,iMCoTT允许模型主动调用crop_video(start_time,end_time)工具,动态调整观察的时空粒度。例如当被问及"进球用脚"时,模型可能先定位庆祝场景的大致时间段,然后逐步缩小范围到射门瞬间,最后聚焦于脚部特写帧。这种由工具驱动的推理方式,每一步都锚定在实际视觉证据上,显著减少了传统方法中的幻觉问题。
2. VideoSIAH数据集:填补长视频推理的数据空白
要实现可靠的"长视频思维",高质量训练数据不可或缺。然而现有视频QA数据集大多存在三个缺陷:(1)问题偏重全局理解而非细粒度定位;(2)答案常可通过选项排除获得,无需真正的时间定位;(3)证据通常在连续多帧中明确呈现,不符合真实长视频中"大海捞针"的特点。为此,作者构建了VideoSIAH——专为"视频片段藏针"(Segment-In-A-Haystack)场景设计的数据套件。
数据集构建采用半自动化流程结合人工验证:
- 视频预处理:先用场景检测算法将长视频分割为语义连贯的段落,短于10秒的相邻段落会被合并
- 段落描述生成:使用Qwen2.5-VL-72B为每个段落生成详细描述,包括物体、空间关系和事件演变
- QA对生成:基于描述自动生成需要时间定位的问题,如"X事件后第一个出现的Y物体是什么"
- 双重过滤:先通过语言学规则和模型自洽性进行文本过滤,再用GLM-4.5V进行多模态验证,确保答案有视觉证据支持
最终发布的VideoSIAH包含:
- SFT数据:26.5万样本(含1.9万工具增强样本)
- RL数据:1.6千个难度均衡的QA对
- RFT数据:1.5万条高质量推理轨迹
- 评测基准:1280个经过人工验证的QA对,平均视频时长28分钟
特别值得注意的是数据集的"难度控制"机制。对于强化学习阶段,作者设计了一种智能采样策略:对每个问题运行K次推理轨迹,仅保留部分成功的问题(既不全对也不全错)。这种设计确保RL训练始终聚焦于模型"踮脚能够到"的难度区间,避免过于简单或困难样本导致的训练信号退化。
3. 三阶段训练策略:从基础能力到高级推理
LongVT的训练流程如同教孩子解决复杂问题:先掌握基本技能,再练习综合应用,最后通过反思精进。这个三阶段设计解决了端到端训练长视频智能体的关键挑战。
3.1 冷启动监督微调(Cold-Start SFT)
直接对原始LMM进行强化学习往往会失败——就像让不会乘法的人直接解微积分。作者发现未经SFT的模型存在两大缺陷:(1)时间定位准确率极低(<20%);(2)工具调用后无法有效整合新证据。冷启动SFT通过三类数据建立基础能力:
- 工具增强数据:包含多轮
crop_video调用和相应推理的完整轨迹 - 图像推理数据:提升细粒度视觉理解能力
- 视频推理数据:增强时序关系建模
特别关键的是"多轮工具调用"的设计。对于长度为L的视频,被选为多轮样本的概率为:
code复制P_multi = 1 - (L_max - clip(L,L_min,L_max))/(L_max-L_min)
这意味着越长的视频越可能进行多轮调用,确保模型学会在长时间跨度中迭代搜索。
3.2 智能体强化学习(Agentic RL)
这一阶段将模型视为自主智能体,通过试错学习优化决策。与常见RL设置不同,作者设计了联合答案-时间定位奖励函数:
code复制R = R_acc + R_format + R_time
其中:
- R_acc:答案准确性(0/0.5/1,由LLM评判)
- R_format:输出格式合规性(0/1)
- R_time:预测时间窗口与真实值的IoU
这种多目标奖励迫使模型在保持答案正确的同时,还必须精确指向支撑证据的时间位置。实验表明,相比单一奖励,联合奖励使时间定位IoU提升37%,同时答案准确率保持稳定。
3.3 智能体强化微调(Agentic RFT)
RL训练存在策略不稳定的风险——就像运动员可能为短期比赛成绩牺牲动作规范性。RFT阶段通过"自我模仿学习"解决这一问题:从RL轨迹中筛选同时满足答案正确和时间IoU>0.3的优质样本,重新作为监督数据训练模型。这相当于让模型向自己的"高光时刻"学习,既保留了RL获得的进阶能力,又提升了行为稳定性。
4. 实验验证与性能分析
在四个长视频基准上的系统实验证实了LongVT的有效性。对比实验设置严格统一:相同基础模型(Qwen2.5-VL-7B)、相同帧采样策略(稀疏64帧/稠密512帧)、相同评测协议。
4.1 主流方法对比
如表2所示,LongVT在三类比较对象中均表现优异:
- 开源视频LMM:超越Video-R1、VideoRFT等基线5-12%绝对准确率
- 专有商业模型:在时间定位任务上优于GPT-4o和Gemini 1.5 Pro
- 消融变体:完整版比仅SFT或SFT+RL版本性能更均衡
特别在VideoSIAH-Eval基准上,LongVT的"证据支撑率"(即答案有明确视觉依据的比例)达到82%,显著高于其他方法的45-65%。这表明其答案更少依赖语言先验或猜测。
4.2 关键设计验证
通过消融实验揭示了几个重要发现:
- 多轮调用必要性:限制工具调用次数会急剧降低长视频性能(>30分钟视频准确率下降19%)
- 联合奖励有效性:单独优化R_acc或R_time会导致另一指标显著退化
- 数据规模影响:SFT数据量低于10万时,模型难以学会可靠的工具调用
一个有趣现象是:在RL初期,模型会表现出"工具回避"倾向(宁可猜答案也不调用crop_video)。但随着训练进行,工具调用率从15%稳步提升至68%,印证了联合奖励对探索行为的促进作用。
5. 实践启示与未来方向
LongVT的研究为视频理解系统设计提供了宝贵经验:
开发启示:
- 长视频推理需要专门的"假设-验证"机制,均匀采样+文本CoT存在根本局限
- 工具调用应与推理深度整合,而非作为独立前置模块
- 数据构建需特别关注"证据稀疏性"和"定位精确性"两个维度
应用建议:
- 对于<5分钟视频:传统均匀采样方法可能已足够
- 对于15-30分钟视频:建议采用2-3轮工具调用
- 对于>1小时视频:需要4-5轮调用并结合记忆机制
未来值得探索的方向包括:
- 跨视频推理:当前工作聚焦单视频,现实场景常需关联多个视频片段
- 多模态工具扩展:结合音频分析、OCR等辅助定位
- 效率优化:通过预测重要性分数减少冗余帧处理
这项工作的一个深远影响是重新思考LMM的"思维"本质——当涉及复杂多模态任务时,纯文本CoT可能是不够的,我们需要发展更贴近人类感知-行动循环的推理范式。LongVT展示的"工具增强型思维"或许正是这个方向上的重要一步。