AVP(Active Video Perception)框架是一种创新的长视频理解方法,它通过主动感知机制显著提升了视频问答任务的性能。与传统的被动式视频理解系统不同,AVP采用了一种迭代式的"规划-观察-反思"循环,模拟了人类观看视频时的主动认知过程。
传统视频理解系统通常采用"一刀切"的处理方式,对整个视频进行均匀采样和分析。这种方法存在两个主要缺陷:一是计算资源浪费,对不相关片段进行了不必要的处理;二是关键信息可能被忽略,特别是那些分布在长时间范围内的关联信息。
AVP框架通过三个核心组件解决了这些问题:
这种设计使得系统能够像人类一样,根据问题需求动态调整注意力分布,显著提高了处理效率和准确性。
AVP的完整工作流程通常包含多个迭代周期,每个周期都包含以下步骤:
这种迭代机制特别适合处理需要跨时间范围整合信息的复杂问题。例如,在回答"视频中提到的三个主要事件按时间顺序是什么"这类问题时,系统可以分阶段定位和验证各个事件,最终综合出完整答案。
AVP框架的核心优势之一在于其灵活的多模态大语言模型(MLLM)集成能力。实验表明,系统性能与底层MLLM的能力呈正相关,但即使使用相对轻量级的模型,AVP也能带来显著的性能提升。
我们在不同MLLM上进行了对比实验,结果如下表所示:
| 模型类型 | MINERVA准确率 | 相对提升 |
|---|---|---|
| Qwen3-VL-8B | 41.2% | +2.0% |
| Gemini-2.5-Flash | 56.9% | +4.5% |
| OpenAI-o3 | 59.0% | +3.2% |
| Gemini-2.5-Pro | 65.6% | +5.8% |
从表中可以看出两个重要现象:
这种设计使得系统能够随着基座模型的进步而持续进化,具有良好的可扩展性。
AVP框架中的每个组件都有精心设计的提示模板,这些模板经过大量实验验证,确保模型能够准确理解任务要求。以规划器提示为例,它包含以下关键元素:
这种结构化的提示设计显著提高了模型的响应质量和一致性,是系统稳定运行的重要保障。
长视频理解面临的一个核心挑战是如何在计算成本和理解精度之间取得平衡。AVP框架通过多种策略优化了这一权衡。
系统根据问题复杂度和当前证据状态,动态调整视频分析的时空分辨率:
这种自适应策略使得系统能够将有限的计算资源集中在最可能包含关键信息的区域,大幅提升了效率。
反思器会评估当前证据的充分性,当达到预设的置信度阈值时终止观察过程。我们的实验发现,0.7左右的阈值能够在覆盖率和准确性之间取得良好平衡:
| 置信度阈值 | MINERVA准确率 | LVBench准确率 |
|---|---|---|
| 0.5 | 64.2% | 73.2% |
| 0.7 | 65.6% | 74.8% |
| 0.9 | 65.4% | 74.8% |
过低的阈值会导致过早终止,而过高的阈值则会造成不必要的计算开销。
MINERVA基准采用MiRA评分体系,从四个维度评估模型的推理能力:
AVP框架在这项测试中表现出色,特别是在时序定位和逻辑推理方面显著优于基线系统:
| 方法 | 总分 | 感知 | 时序 | 逻辑 | 完整 |
|---|---|---|---|---|---|
| OpenAI o1 | 0.69 | 0.52 | 0.52 | 0.86 | 0.88 |
| GPT-4o | 0.70 | 0.57 | 0.67 | 0.77 | 0.79 |
| Gemini 2.0 Flash | 0.75 | 0.62 | 0.75 | 0.83 | 0.82 |
| AVP (Ours) | 0.84 | 0.62 | 0.82 | 0.97 | 0.93 |
这些结果表明,主动感知机制特别有助于处理需要精确时间理解和多步推理的复杂问题。
LVBench是专门针对长视频理解设计的综合测试集,包含六类问题:
AVP在所有类别上都表现出色,尤其在需要跨时间范围整合信息的任务上优势明显:
| 方法 | ER | EU | KIR | TG | Rea | Sum | 总体 |
|---|---|---|---|---|---|---|---|
| GPT-4o | 48.9 | 49.5 | 48.1 | 40.9 | 50.3 | 50.0 | 48.9 |
| DVD | 73.4 | 73.3 | 80.4 | 72.3 | 70.7 | 74.1 | 74.2 |
| AVP | 71.9 | 76.7 | 80.1 | 73.6 | 67.7 | 75.9 | 74.8 |
值得注意的是,AVP在保持与DVD相当性能的同时,将平均推理时间从790.5秒大幅降低到145.3秒,效率提升超过80%。
一个典型的成功案例是处理如下复合问题:
"将在09:58展示的纸张上的毫米总数相加,然后加上视频中提到的路易斯安那松蛇幼体的平均长度,总毫米数是多少?"
AVP通过两轮观察完美解决了这个问题:
这个案例展示了AVP处理需要多源信息整合的复杂问题的能力。
尽管整体表现优异,AVP仍存在一些局限性,主要体现在:
短暂事件的遗漏:当关键信息出现在非常短暂的片段中(如篮球比赛中的得分瞬间),低帧率扫描可能会错过这些事件
改进方案:对于已知包含快速变化内容的视频类型(如体育赛事),可采用混合采样策略,在潜在关键区域使用更高帧率
模糊时间参考的处理:如"视频后半段"、"开头不久"等模糊时间描述,有时会导致观察范围选择不当
改进方案:开发更精细的时间参考解析模块,结合视频内容结构分析提高定位精度
复杂因果推理:对于需要深层因果分析的"为什么"类问题,性能仍有提升空间
改进方案:增强反思器的逻辑推理能力,引入外部知识库支持
关键实践建议:在实际部署中,建议根据视频类型和问题分布调整默认参数。例如,处理体育视频时可适当提高基础帧率,而处理讲座类视频则可增加对幻灯片内容的特别关注。
AVP框架的一个关键创新是采用了时间对齐的结构化证据表示,这与传统系统使用的扁平列表形成鲜明对比。
我们通过对照实验验证了结构化表示的价值:
| 证据格式 | MINERVA准确率 | LVBench准确率 |
|---|---|---|
| 非结构化列表 | 63.2% | 71.2% |
| 结构化证据列表 | 65.6% | 74.8% |
结构化表示的优势主要体现在:
反思器不仅判断证据是否足够,还会评估证据的质量,包括:
这种多维度的评估确保了最终答案的可靠性,即使在某些观察轮次收集了不完整或噪声信息的情况下,系统仍能做出稳健的判断。
在实际应用中,我们发现保持证据的时空组织结构对于处理复杂视频问答至关重要。这类似于人类在观看视频时会自然地建立时间线和事件关联,而不是简单地记住一堆离散的事实。