EGAgent框架：超长视频理解与多模态检索技术解析

小猪佩琪168

1. EGAgent：超长视频理解的技术革命

在智能眼镜和可穿戴设备日益普及的今天，我们正面临一个全新的技术挑战：如何让AI真正理解人类连续数天甚至数月的视觉体验？传统视频分析技术在处理几分钟的短视频时表现出色，但当视频长度扩展到50小时以上（如EgoLife数据集中的一周连续记录），现有方法在实体追踪和跨天级推理方面显得力不从心。

EGAgent框架的突破性在于将实体场景图（Entity Scene Graph）与多模态检索工具相结合，通过智能体的规划能力实现长时序理解。这个框架不是简单地对视频进行分段处理，而是构建了一个动态演化的知识网络——图中的每个节点代表人物、物体或地点，边则标注了"交谈"、"使用"等关系及其持续时间。这种结构化表示使得系统能够回答"本周我与某人最频繁的互动场景是什么"这类需要跨模态、跨时段推理的复杂问题。

2. 核心架构设计解析

2.1 实体场景图的构建机制

实体图G=(V,E)的构建过程体现了对视频内容的深度理解。系统从三个数据源提取信息：

音频转录：通过ASR获取带时间戳的对话文本
场景描述：使用VLM（视觉语言模型）分析采样帧，生成场景说明
位置预测：识别当前环境类型（如厨房、办公室）

关键创新在于时间感知的关系标注。如图3所示，当VLM检测到"Jake和Lucia在餐桌旁互动"时，系统不仅记录"交谈"关系，还会标注精确的时间区间（11:11:00-11:11:30）。这种设计使得实体图可以支持诸如"在事件A之前/之后发生的相关事件"这类时序查询。

实体类型τ(v)分为三类：

人物：通过人脸识别或声纹区分
物体：手机、杯子等可交互物品
地点：房间、建筑等空间位置

关系类型R包括：

python复制R = {
    'talks-to': 人际对话,
    'interacts-with': 物理接触,
    'mentions': 言语提及, 
    'uses': 工具使用
}

2.2 多模态检索工具集

EGAgent配备了三类检索工具，构成互补的搜索能力：

视觉搜索工具：
- 使用SigLIP等视觉编码器提取帧特征
- 支持混合查询："找到所有包含'红色杯子'的早晨厨房场景"
- 数据库索引优化：按时间/地点预过滤加速查询
音频转录搜索：
- 双模式设计：LLM语义搜索（高精度）与BM25关键词搜索（低延迟）
- 说话人分离：利用EgoLife的标注或商用diarization API

实体图搜索：

SQLite关系型存储，支持复杂时空查询
渐进式查询策略：从精确匹配逐步放宽条件

sql复制/* 示例查询：找出用户上周与"Shure"的所有互动 */
SELECT * FROM edges 
WHERE source='User' AND target='Shure' 
  AND timestamp BETWEEN '2025-06-01' AND '2025-06-07'

2.3 智能体规划与推理流程

EGAgent的决策过程如算法1所示，采用迭代式问题分解策略：

查询解析阶段：
- 将"上周谁常坐我旁边购物？"分解为：
  - 找出所有购物行程（视觉+实体图）
  - 定位每次行程的同行者（音频+实体图）
  - 统计最高频出现的人物
工具调度策略：
- 实体图优先：用于关系型查询
- 视觉/音频补充：当需要具体内容验证时
- 动态上下文管理：限制每步检索数据量
证据合成机制：
- 分析工具过滤冗余信息
- 工作记忆M累积跨模态证据
- VQA代理最终生成自然语言回答

3. 关键技术实现细节

3.1 增量式实体图构建

面对持续输入的视频流，系统采用增量更新策略：

python复制def update_graph(new_docs):
    for doc in new_docs:
        entities, relations = llm_extractor(doc)
        for (src, rel, tgt) in relations:
            db.execute(
                "INSERT INTO edges VALUES (?,?,?,?,?,?)",
                (src, tgt, rel, doc.start, doc.end, doc.text)
            )

处理长视频时，按1小时分段构建子图再合并，平衡内存使用与关系连贯性。