今天要和大家分享的是微软亚洲研究院与中国科学技术大学联合发表在NeurIPS 2025上的工作《Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding》。这项研究针对长视频理解中的时空复杂性挑战,提出了一种创新的智能体式搜索框架。
长视频理解一直是计算机视觉领域的难题。想象一下,当你需要从一部两小时的电影中找到"主角第一次见到反派的具体场景"这样的信息时,即便是人类也需要花费不少时间。现有的视频理解方法在处理这种长时序、多粒度的查询时往往力不从心,要么丢失细节,要么效率低下。
当前主流的长视频理解方法主要存在三个问题:
固定工作流限制:大多数系统采用预设的搜索流程(如树状搜索),无法根据不同查询的特点自适应调整策略。就像用同一把钥匙开所有的锁,效率自然不高。
粒度单一:要么只关注全局摘要丢失细节,要么陷入帧级分析导致计算量爆炸。缺乏在不同粒度间灵活切换的能力。
人工先验依赖:搜索路径和策略需要人工设计,难以应对复杂多变的实际查询需求。
针对这些问题,DVD智能体提出了三大创新:
多粒度视频数据库:将视频分层处理,构建全局-片段-帧的三级表示,就像为视频建立了"目录-章节-段落"的索引体系。
自主工具使用:设计三种专用工具:
动态策略编排:智能体根据当前理解自主决定工具使用顺序和参数,形成个性化的搜索路径。
数据库构建是DVD的基础,其流程可分为三个关键步骤:
时间分割:
多粒度信息提取:
数据库结构:
最终得到结构化数据库D={S,{f_i,c_i,e_i}_{i=1}^N},同时包含语义索引和原始内容。
实践提示:在实现时,主体注册表的维护是关键。我们发现采用渐进式更新策略(S_i,c_i=VLM(f_i,S_{i-1}))比批量处理更能保证一致性。
DVD智能体的搜索过程是一个典型的观察-推理-行动循环:
工具集设计:
决策过程:
动态策略特点:
研究团队在多个长视频理解基准上进行了测试,重点包括:
在LVBench上的表现尤为突出:
| 方法 | 准确率(%) |
|---|---|
| VideoTree | 68.3 |
| VCA | 70.1 |
| DVD (本文) | 74.2 |
| DVD+转录 | 76.0 |
关键发现:
通过系统性的消融研究验证了各组件的重要性:
工具完备性:
自主决策价值:
粒度设计:
基于我们的复现经验,提供以下实践建议:
数据库构建优化:
工具使用技巧:
计算资源管理:
避坑指南:在初期实现时,我们曾遇到智能体陷入无限循环的问题。解决方案包括:(1)引入步数惩罚机制 (2)设置答案置信度阈值 (3)限制Frame Inspect的调用深度。
这项工作为长视频理解开辟了几个有前景的方向:
工具扩展:
智能体协作:
应用场景:
在实际部署中,我们发现系统对复杂逻辑关系(如"虽然...但是..."类事件)的处理仍有提升空间。一个可行的改进是引入更强大的推理模型和更丰富的关系表示。
这项工作的代码已开源,建议有兴趣的读者先从LVBench数据集的小规模实验开始,逐步理解智能体的决策模式。对于工业界应用,可以考虑将数据库构建部分优化为流水线架构,以支持更高效的视频处理。