在当今视频数据爆炸式增长的时代,如何从长达数小时甚至数天的连续视频中快速定位关键信息,已成为计算机视觉和多媒体分析领域的重要挑战。传统方法通常采用均匀采样或简单场景分割,难以应对复杂的长视频理解任务。EGAgent框架的创新之处在于,它构建了一个带时间戳的实体关系网络(Entity Graph),将多模态数据转化为结构化知识表示,实现了高效的跨模态搜索与推理。
实体图技术的核心思想是将视频中的实体(人物、物体、场景)及其相互关系建模为图结构。与常规知识图谱不同,EGAgent的实体图特别强调时间维度——每个实体关系都带有精确的时间戳标注。这种设计使得系统能够回答"谁在什么时间与谁互动"这类需要精确时间定位的问题。例如,在分析一段家庭聚会的长视频时,系统可以准确追踪不同家庭成员在不同时间段的互动模式。
EGAgent采用多智能体协作架构,主要包含四大核心组件:
当收到用户查询时(如"昨天跳舞时谁不在今天的活动中?"),规划智能体会生成一个多步执行计划。例如:
每个子任务会被路由到最适合的搜索工具,各工具的检索结果通过工作记忆(Working Memory)进行累积和整合,最终由VQA智能体生成答案。
实体图的构建是EGAgent的核心创新,其流程包含三个关键步骤:
多模态信息融合:
系统首先以30秒为间隔生成视频帧的视觉描述(如"四个人在客厅跳舞"),同时提取带说话人标签的音频转录(如"Alice:音乐太大声了")。通过GPT-4.1将这些信息融合为统一描述:"下午3:50,Alice、Bob、Charlie和Dana在客厅随着音乐跳舞,Alice评论说音乐音量太大"。
关系提取与分类:
使用LLMGraphTransformer从融合描述中提取实体关系,限定为四种基本类型:
时间戳标注:
为每个关系添加精确的时间范围。优先使用音频转录中的原生时间戳(精确到秒级),当缺乏直接对应时,采用视觉片段的时间区间(如整个30秒区间)。例如:
实践发现:限制关系类型为四种粗粒度类别(而非细粒度分类)显著提高了检索鲁棒性。在EgoLife数据集中,94%的关系标注经人工验证准确。
Tooleg采用严格到宽松的层次化查询策略,通过SQL接口访问实体图数据库。以查询"跳舞期间谁与Alice交谈"为例:
sql复制SELECT * FROM entity_graph_table
WHERE day=2 AND start_t>=155000 AND end_t<=160700
AND source_type='Person' AND rel_type='TALKS_TO'
AND target_id='Alice'
这种策略在EgoLifeQA测试中实现了65.8%的1小时窗口召回率,而平均查询延迟仅1.7秒(相比纯视觉搜索快5倍)。
Toolvis基于SigLIP 2视觉嵌入模型,采用1FPS采样构建帧级特征数据库。关键优化包括:
查询重写机制:
将自然语言问题转化为适合视觉检索的简洁查询。例如:
原始问题:"找出昨天舞蹈练习中出现的所有人员"
重写查询:["group dancing", "people practicing"]
时间窗口选择:
根据上下文智能确定搜索时间段。若工作记忆提示舞蹈发生在第二天15:00-16:00,则优先搜索该时段;若无线索,则搜索全天帧。
实验数据显示,Toolvis在10秒精确窗口下的召回率达85.7%,显著优于均匀采样基线(16%)。
Toolaud处理两种输入形式:
在"确认舞蹈参与者"任务中,系统可能检索如下转录:
code复制[15:50:41-15:50:44] Jake: 大家注意节奏!
[15:50:45-15:50:47] Alice: 我需要休息一下
这些片段会被分析为:"Jake和Alice在舞蹈期间活跃"的证据。
EGAgent在五个任务类型上表现优异:
| 任务类型 | 基线准确率 | EGAgent准确率 | 提升幅度 |
|---|---|---|---|
| EntityLog | 36.0% | 44.0% | +8.0% |
| EventRecall | 37.3% | 49.2% | +11.9% |
| HabitInsight | 45.9% | 55.7% | +9.8% |
| RelationMap | 30.4% | 53.6% | +23.2% |
| TaskMaster | 34.9% | 66.7% | +31.8% |
跨工具协作效果显著:同时使用Tooleg+Toolvis+Toolaud比单工具最佳组合提升13.8%准确率。
内存占用:
延迟分布:
实战建议:对延迟敏感场景,可用BM25替代LLM进行音频检索,速度提升3.6倍,精度损失约7%。
低召回问题:
高延迟问题:
关系噪声处理:
当ASR或视觉描述错误导致错误关系时:
实体图技术特别适合以下场景:
当前系统的两个主要限制:
在实际部署中发现,通过以下优化可进一步提升性能:
一个典型的改进案例是:在舞蹈教学应用中,我们增加了"MIRRORS"关系类型(模仿动作),使教学评估准确率提升12%。这展示了实体图架构的良好可扩展性。