DVD智能体：长视频理解中的多粒度搜索框架

Niujiubaba

1. 项目概述

今天要和大家分享的是微软亚洲研究院与中国科学技术大学联合发表在NeurIPS 2025上的工作《Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding》。这项研究针对长视频理解中的时空复杂性挑战，提出了一种创新的智能体式搜索框架。

长视频理解一直是计算机视觉领域的难题。想象一下，当你需要从一部两小时的电影中找到"主角第一次见到反派的具体场景"这样的信息时，即便是人类也需要花费不少时间。现有的视频理解方法在处理这种长时序、多粒度的查询时往往力不从心，要么丢失细节，要么效率低下。

2. 核心创新点

2.1 现有方法的局限性

当前主流的长视频理解方法主要存在三个问题：

固定工作流限制：大多数系统采用预设的搜索流程（如树状搜索），无法根据不同查询的特点自适应调整策略。就像用同一把钥匙开所有的锁，效率自然不高。
粒度单一：要么只关注全局摘要丢失细节，要么陷入帧级分析导致计算量爆炸。缺乏在不同粒度间灵活切换的能力。
人工先验依赖：搜索路径和策略需要人工设计，难以应对复杂多变的实际查询需求。

2.2 DVD智能体的解决方案

针对这些问题，DVD智能体提出了三大创新：

多粒度视频数据库：将视频分层处理，构建全局-片段-帧的三级表示，就像为视频建立了"目录-章节-段落"的索引体系。
自主工具使用：设计三种专用工具：
- Global Browse：获取视频整体概览
- Clip Search：语义检索相关片段
- Frame Inspect：提取帧级细节
动态策略编排：智能体根据当前理解自主决定工具使用顺序和参数，形成个性化的搜索路径。

3. 技术实现细节

3.1 多粒度数据库构建

数据库构建是DVD的基础，其流程可分为三个关键步骤：

时间分割：
- 将长视频均匀切分为5秒的片段
- 以2fps采样帧，平衡计算成本和动作完整性
- 公式化表示为：{v_i}_{i=1}^N，N=⌈len(V)/t⌉，t=5s
多粒度信息提取：
- 全局层级：维护主体注册表S，记录人物/物体的属性、动作和时间跨度
- 片段层级：使用VLM生成字幕c_i，并编码为语义向量e_i∈R^d
- 帧层级：保留原始解码帧f_i及其关联信息
数据库结构：
最终得到结构化数据库D={S,{f_i,c_i,e_i}_{i=1}^N}，同时包含语义索引和原始内容。

实践提示：在实现时，主体注册表的维护是关键。我们发现采用渐进式更新策略（S_i,c_i=VLM(f_i,S_{i-1})）比批量处理更能保证一致性。

3.2 智能体搜索机制

DVD智能体的搜索过程是一个典型的观察-推理-行动循环：

工具集设计：
- Global Browse：返回预计算的全局摘要
- Clip Search：基于余弦相似度检索top-k相关片段
- Frame Inspect：在指定时间范围内执行开放域VQA
决策过程：
- 初始状态：用户查询Q
- 每步迭代：
  - 基于历史H_i生成推理R_i
  - 选择动作A_i∈T∪
  - 执行并获取观测O_i
- 终止条件：选择ANSWER或达到最大步数
动态策略特点：
- 工具使用顺序不固定
- 可基于中间结果调整搜索方向
- 支持查询重构和迭代细化

4. 实验与效果评估

4.1 实验设置

研究团队在多个长视频理解基准上进行了测试，重点包括：

LVBench：包含复杂时空关系的长视频QA数据集
其他基准：ActivityNet-QA, TVQA等
对比方法：VideoTree、VCA等最新视频智能体

4.2 主要结果

在LVBench上的表现尤为突出：

方法	准确率(%)
VideoTree	68.3
VCA	70.1
DVD (本文)	74.2
DVD+转录	76.0

关键发现：

相比固定工作流方法提升4-6个百分点
结合文本转录后效果进一步提升
在处理细粒度查询时优势更明显

4.3 消融实验

通过系统性的消融研究验证了各组件的重要性：

工具完备性：
- 缺少任一工具都会导致性能下降(2-5%)
- Frame Inspect对细节查询影响最大
自主决策价值：
- 固定工具顺序比动态编排差3.2%
- 证明自适应策略的必要性
粒度设计：
- 单粒度表示效果下降明显
- 三级粒度带来最大收益

5. 实践应用建议

基于我们的复现经验，提供以下实践建议：

数据库构建优化：
- 片段长度可根据视频类型调整
- 主体注册表可引入视觉特征增强
- 考虑使用更高效的字幕生成模型
工具使用技巧：
- Global Browse适合初始定位
- Clip Search查询可动态重构
- Frame Inspect应限制调用频率
计算资源管理：
- 离线阶段：并行处理各片段
- 在线阶段：缓存常用工具结果
- 设置合理的最大步数限制(N=5-8)

避坑指南：在初期实现时，我们曾遇到智能体陷入无限循环的问题。解决方案包括：(1)引入步数惩罚机制 (2)设置答案置信度阈值 (3)限制Frame Inspect的调用深度。

6. 未来方向

这项工作为长视频理解开辟了几个有前景的方向：

工具扩展：
- 增加跨视频关联工具
- 引入时序关系推理模块
智能体协作：
- 多个智能体分工合作
- 分层决策机制
应用场景：
- 视频内容审核
- 教育视频理解
- 影视制作辅助

在实际部署中，我们发现系统对复杂逻辑关系（如"虽然...但是..."类事件）的处理仍有提升空间。一个可行的改进是引入更强大的推理模型和更丰富的关系表示。

这项工作的代码已开源，建议有兴趣的读者先从LVBench数据集的小规模实验开始，逐步理解智能体的决策模式。对于工业界应用，可以考虑将数据库构建部分优化为流水线架构，以支持更高效的视频处理。

已经到底了哦