AVP框架：主动感知提升长视频理解性能

血管瘤专家孔强

1. AVP框架的核心设计理念

AVP（Active Video Perception）框架是一种创新的长视频理解方法，它通过主动感知机制显著提升了视频问答任务的性能。与传统的被动式视频理解系统不同，AVP采用了一种迭代式的"规划-观察-反思"循环，模拟了人类观看视频时的主动认知过程。

1.1 主动感知与传统方法的对比

传统视频理解系统通常采用"一刀切"的处理方式，对整个视频进行均匀采样和分析。这种方法存在两个主要缺陷：一是计算资源浪费，对不相关片段进行了不必要的处理；二是关键信息可能被忽略，特别是那些分布在长时间范围内的关联信息。

AVP框架通过三个核心组件解决了这些问题：

规划器（Planner）：根据当前问题和已有证据，决定下一步观察的重点区域和方式
观察器（Observer）：执行具体的视频分析任务，提取结构化证据
反思器（Reflector）：评估证据的充分性，决定是否继续观察或给出最终答案

这种设计使得系统能够像人类一样，根据问题需求动态调整注意力分布，显著提高了处理效率和准确性。

1.2 迭代式推理的工作流程

AVP的完整工作流程通常包含多个迭代周期，每个周期都包含以下步骤：

问题分析：解析输入问题，识别关键信息需求
观察规划：确定需要分析的视频片段和详细程度
证据收集：从指定片段中提取结构化信息
充分性评估：判断当前证据是否足以回答问题
策略调整：根据评估结果决定终止或继续观察

这种迭代机制特别适合处理需要跨时间范围整合信息的复杂问题。例如，在回答"视频中提到的三个主要事件按时间顺序是什么"这类问题时，系统可以分阶段定位和验证各个事件，最终综合出完整答案。

2. 技术实现细节与优化策略

2.1 多模态大语言模型的集成

AVP框架的核心优势之一在于其灵活的多模态大语言模型（MLLM）集成能力。实验表明，系统性能与底层MLLM的能力呈正相关，但即使使用相对轻量级的模型，AVP也能带来显著的性能提升。

2.1.1 模型选型策略

我们在不同MLLM上进行了对比实验，结果如下表所示：

模型类型	MINERVA准确率	相对提升
Qwen3-VL-8B	41.2%	+2.0%
Gemini-2.5-Flash	56.9%	+4.5%
OpenAI-o3	59.0%	+3.2%
Gemini-2.5-Pro	65.6%	+5.8%

从表中可以看出两个重要现象：

更强的基座模型带来更高的绝对性能
AVP框架在不同规模的模型上都能带来稳定的性能提升

这种设计使得系统能够随着基座模型的进步而持续进化，具有良好的可扩展性。

2.1.2 提示工程优化

AVP框架中的每个组件都有精心设计的提示模板，这些模板经过大量实验验证，确保模型能够准确理解任务要求。以规划器提示为例，它包含以下关键元素：

明确的角色定义（"你是一个专业的视频分析规划师"）
详细的任务说明
时间戳处理规则
输出格式规范
少量示例演示

这种结构化的提示设计显著提高了模型的响应质量和一致性，是系统稳定运行的重要保障。

2.2 效率与准确性的平衡艺术

长视频理解面临的一个核心挑战是如何在计算成本和理解精度之间取得平衡。AVP框架通过多种策略优化了这一权衡。

2.2.1 动态采样策略

系统根据问题复杂度和当前证据状态，动态调整视频分析的时空分辨率：

对于需要精细分析的关键片段，使用高帧率（2FPS）和中等空间分辨率
对于初步扫描或背景信息收集，使用低帧率（0.25-1FPS）和低空间分辨率

这种自适应策略使得系统能够将有限的计算资源集中在最可能包含关键信息的区域，大幅提升了效率。

2.2.2 早期终止机制

反思器会评估当前证据的充分性，当达到预设的置信度阈值时终止观察过程。我们的实验发现，0.7左右的阈值能够在覆盖率和准确性之间取得良好平衡：

置信度阈值	MINERVA准确率	LVBench准确率
0.5	64.2%	73.2%
0.7	65.6%	74.8%
0.9	65.4%	74.8%

过低的阈值会导致过早终止，而过高的阈值则会造成不必要的计算开销。

3. 性能评估与基准测试

3.1 MINERVA基准测试分析

MINERVA基准采用MiRA评分体系，从四个维度评估模型的推理能力：

感知正确性（Perceptual Correctness）
时序定位（Temporal Localization）
逻辑推理（Logical Reasoning）
完整性（Completeness）

AVP框架在这项测试中表现出色，特别是在时序定位和逻辑推理方面显著优于基线系统：

方法	总分	感知	时序	逻辑	完整
OpenAI o1	0.69	0.52	0.52	0.86	0.88
GPT-4o	0.70	0.57	0.67	0.77	0.79
Gemini 2.0 Flash	0.75	0.62	0.75	0.83	0.82
AVP (Ours)	0.84	0.62	0.82	0.97	0.93

这些结果表明，主动感知机制特别有助于处理需要精确时间理解和多步推理的复杂问题。

3.2 LVBench综合评估

LVBench是专门针对长视频理解设计的综合测试集，包含六类问题：

实体识别（Entity Recognition）
事件理解（Event Understanding）
关键信息检索（Key Information Retrieval）
时序定位（Temporal Grounding）
推理（Reasoning）
摘要（Summarization）

AVP在所有类别上都表现出色，尤其在需要跨时间范围整合信息的任务上优势明显：

方法	ER	EU	KIR	TG	Rea	Sum	总体
GPT-4o	48.9	49.5	48.1	40.9	50.3	50.0	48.9
DVD	73.4	73.3	80.4	72.3	70.7	74.1	74.2
AVP	71.9	76.7	80.1	73.6	67.7	75.9	74.8

值得注意的是，AVP在保持与DVD相当性能的同时，将平均推理时间从790.5秒大幅降低到145.3秒，效率提升超过80%。

4. 实际应用中的经验与挑战

4.1 成功案例分析

一个典型的成功案例是处理如下复合问题：
"将在09:58展示的纸张上的毫米总数相加，然后加上视频中提到的路易斯安那松蛇幼体的平均长度，总毫米数是多少？"

AVP通过两轮观察完美解决了这个问题：

第一轮：精确分析09:58处的纸张，提取七个测量值
第二轮：全局扫描找到关于蛇长度的叙述
综合两部分信息计算出最终答案

这个案例展示了AVP处理需要多源信息整合的复杂问题的能力。

4.2 常见失败模式与改进方向

尽管整体表现优异，AVP仍存在一些局限性，主要体现在：

短暂事件的遗漏：当关键信息出现在非常短暂的片段中（如篮球比赛中的得分瞬间），低帧率扫描可能会错过这些事件

改进方案：对于已知包含快速变化内容的视频类型（如体育赛事），可采用混合采样策略，在潜在关键区域使用更高帧率
模糊时间参考的处理：如"视频后半段"、"开头不久"等模糊时间描述，有时会导致观察范围选择不当

改进方案：开发更精细的时间参考解析模块，结合视频内容结构分析提高定位精度
复杂因果推理：对于需要深层因果分析的"为什么"类问题，性能仍有提升空间

改进方案：增强反思器的逻辑推理能力，引入外部知识库支持