LongVT：基于工具调用的长视频理解智能体框架解析-AI智能范式网

LongVT：基于工具调用的长视频理解智能体框架解析

白话期权

1. LongVT：基于原生工具调用的长视频理解智能体框架

在计算机视觉和多模态人工智能领域，长视频理解一直是个棘手难题。想象一下，当你需要从一部两小时的电影中找出"主角第一次出现穿红色外套的具体时间"，或者从一场90分钟的足球比赛中定位"制胜球是用左脚还是右脚踢进的"——这类任务不仅需要理解视频内容，还要在时间维度上精确定位关键证据。这正是CVPR 2026论文《LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling》要解决的核心问题。

当前主流的多模态大模型(LMM)在处理长视频时存在明显局限：它们通常采用均匀采样的帧作为输入，可能错过决定性的短暂瞬间；推理过程过度依赖文本思维链(CoT)，导致"语言主导"的偏差；更重要的是，缺乏类似人类的"假设-验证"循环机制，难以在长时间跨度中持续追踪关键证据。LongVT的创新之处在于，它让模型学会了像人类一样"观看"长视频——先快速浏览全局，发现可疑片段后立即放大检查，必要时还能自我修正重新定位。

这个过程的实现依赖于论文提出的交错式多模态工具思维链(iMCoTT)机制。与传统纯文本CoT不同，iMCoTT允许模型主动调用crop_video(start_time,end_time)工具，动态调整观察的时空粒度。例如当被问及"进球用脚"时，模型可能先定位庆祝场景的大致时间段，然后逐步缩小范围到射门瞬间，最后聚焦于脚部特写帧。这种由工具驱动的推理方式，每一步都锚定在实际视觉证据上，显著减少了传统方法中的幻觉问题。

2. VideoSIAH数据集：填补长视频推理的数据空白

要实现可靠的"长视频思维"，高质量训练数据不可或缺。然而现有视频QA数据集大多存在三个缺陷：(1)问题偏重全局理解而非细粒度定位；(2)答案常可通过选项排除获得，无需真正的时间定位；(3)证据通常在连续多帧中明确呈现，不符合真实长视频中"大海捞针"的特点。为此，作者构建了VideoSIAH——专为"视频片段藏针"(Segment-In-A-Haystack)场景设计的数据套件。

数据集构建采用半自动化流程结合人工验证：

视频预处理：先用场景检测算法将长视频分割为语义连贯的段落，短于10秒的相邻段落会被合并
段落描述生成：使用Qwen2.5-VL-72B为每个段落生成详细描述，包括物体、空间关系和事件演变
QA对生成：基于描述自动生成需要时间定位的问题，如"X事件后第一个出现的Y物体是什么"
双重过滤：先通过语言学规则和模型自洽性进行文本过滤，再用GLM-4.5V进行多模态验证，确保答案有视觉证据支持

最终发布的VideoSIAH包含：

SFT数据：26.5万样本(含1.9万工具增强样本)
RL数据：1.6千个难度均衡的QA对
RFT数据：1.5万条高质量推理轨迹
评测基准：1280个经过人工验证的QA对，平均视频时长28分钟

特别值得注意的是数据集的"难度控制"机制。对于强化学习阶段，作者设计了一种智能采样策略：对每个问题运行K次推理轨迹，仅保留部分成功的问题(既不全对也不全错)。这种设计确保RL训练始终聚焦于模型"踮脚能够到"的难度区间，避免过于简单或困难样本导致的训练信号退化。

3. 三阶段训练策略：从基础能力到高级推理

LongVT的训练流程如同教孩子解决复杂问题：先掌握基本技能，再练习综合应用，最后通过反思精进。这个三阶段设计解决了端到端训练长视频智能体的关键挑战。

3.1 冷启动监督微调(Cold-Start SFT)

直接对原始LMM进行强化学习往往会失败——就像让不会乘法的人直接解微积分。作者发现未经SFT的模型存在两大缺陷：(1)时间定位准确率极低(＜20%)；(2)工具调用后无法有效整合新证据。冷启动SFT通过三类数据建立基础能力：

工具增强数据：包含多轮crop_video调用和相应推理的完整轨迹
图像推理数据：提升细粒度视觉理解能力
视频推理数据：增强时序关系建模

特别关键的是"多轮工具调用"的设计。对于长度为L的视频，被选为多轮样本的概率为：

code复制P_multi = 1 - (L_max - clip(L,L_min,L_max))/(L_max-L_min)

这意味着越长的视频越可能进行多轮调用，确保模型学会在长时间跨度中迭代搜索。

3.2 智能体强化学习(Agentic RL)

这一阶段将模型视为自主智能体，通过试错学习优化决策。与常见RL设置不同，作者设计了联合答案-时间定位奖励函数：

code复制R = R_acc + R_format + R_time

其中：

R_acc：答案准确性(0/0.5/1，由LLM评判)
R_format：输出格式合规性(0/1)
R_time：预测时间窗口与真实值的IoU

这种多目标奖励迫使模型在保持答案正确的同时，还必须精确指向支撑证据的时间位置。实验表明，相比单一奖励，联合奖励使时间定位IoU提升37%，同时答案准确率保持稳定。

3.3 智能体强化微调(Agentic RFT)

RL训练存在策略不稳定的风险——就像运动员可能为短期比赛成绩牺牲动作规范性。RFT阶段通过"自我模仿学习"解决这一问题：从RL轨迹中筛选同时满足答案正确和时间IoU＞0.3的优质样本，重新作为监督数据训练模型。这相当于让模型向自己的"高光时刻"学习，既保留了RL获得的进阶能力，又提升了行为稳定性。

4. 实验验证与性能分析

在四个长视频基准上的系统实验证实了LongVT的有效性。对比实验设置严格统一：相同基础模型(Qwen2.5-VL-7B)、相同帧采样策略(稀疏64帧/稠密512帧)、相同评测协议。

4.1 主流方法对比

如表2所示，LongVT在三类比较对象中均表现优异：

开源视频LMM：超越Video-R1、VideoRFT等基线5-12%绝对准确率
专有商业模型：在时间定位任务上优于GPT-4o和Gemini 1.5 Pro
消融变体：完整版比仅SFT或SFT+RL版本性能更均衡

特别在VideoSIAH-Eval基准上，LongVT的"证据支撑率"(即答案有明确视觉依据的比例)达到82%，显著高于其他方法的45-65%。这表明其答案更少依赖语言先验或猜测。

4.2 关键设计验证

通过消融实验揭示了几个重要发现：

多轮调用必要性：限制工具调用次数会急剧降低长视频性能(＞30分钟视频准确率下降19%)
联合奖励有效性：单独优化R_acc或R_time会导致另一指标显著退化
数据规模影响：SFT数据量低于10万时，模型难以学会可靠的工具调用

一个有趣现象是：在RL初期，模型会表现出"工具回避"倾向(宁可猜答案也不调用crop_video)。但随着训练进行，工具调用率从15%稳步提升至68%，印证了联合奖励对探索行为的促进作用。

5. 实践启示与未来方向

LongVT的研究为视频理解系统设计提供了宝贵经验：

开发启示：

长视频推理需要专门的"假设-验证"机制，均匀采样+文本CoT存在根本局限
工具调用应与推理深度整合，而非作为独立前置模块
数据构建需特别关注"证据稀疏性"和"定位精确性"两个维度

应用建议：

对于＜5分钟视频：传统均匀采样方法可能已足够
对于15-30分钟视频：建议采用2-3轮工具调用
对于＞1小时视频：需要4-5轮调用并结合记忆机制

未来值得探索的方向包括：

跨视频推理：当前工作聚焦单视频，现实场景常需关联多个视频片段
多模态工具扩展：结合音频分析、OCR等辅助定位
效率优化：通过预测重要性分数减少冗余帧处理

这项工作的一个深远影响是重新思考LMM的"思维"本质——当涉及复杂多模态任务时，纯文本CoT可能是不够的，我们需要发展更贴近人类感知-行动循环的推理范式。LongVT展示的"工具增强型思维"或许正是这个方向上的重要一步。