在智能眼镜和可穿戴设备日益普及的今天,我们正面临一个全新的技术挑战:如何让AI真正理解人类连续数天甚至数月的视觉体验?传统视频分析技术在处理几分钟的短视频时表现出色,但当视频长度扩展到50小时以上(如EgoLife数据集中的一周连续记录),现有方法在实体追踪和跨天级推理方面显得力不从心。
EGAgent框架的突破性在于将实体场景图(Entity Scene Graph)与多模态检索工具相结合,通过智能体的规划能力实现长时序理解。这个框架不是简单地对视频进行分段处理,而是构建了一个动态演化的知识网络——图中的每个节点代表人物、物体或地点,边则标注了"交谈"、"使用"等关系及其持续时间。这种结构化表示使得系统能够回答"本周我与某人最频繁的互动场景是什么"这类需要跨模态、跨时段推理的复杂问题。
实体图G=(V,E)的构建过程体现了对视频内容的深度理解。系统从三个数据源提取信息:
关键创新在于时间感知的关系标注。如图3所示,当VLM检测到"Jake和Lucia在餐桌旁互动"时,系统不仅记录"交谈"关系,还会标注精确的时间区间(11:11:00-11:11:30)。这种设计使得实体图可以支持诸如"在事件A之前/之后发生的相关事件"这类时序查询。
实体类型τ(v)分为三类:
关系类型R包括:
python复制R = {
'talks-to': 人际对话,
'interacts-with': 物理接触,
'mentions': 言语提及,
'uses': 工具使用
}
EGAgent配备了三类检索工具,构成互补的搜索能力:
视觉搜索工具:
音频转录搜索:
实体图搜索:
sql复制/* 示例查询:找出用户上周与"Shure"的所有互动 */
SELECT * FROM edges
WHERE source='User' AND target='Shure'
AND timestamp BETWEEN '2025-06-01' AND '2025-06-07'
EGAgent的决策过程如算法1所示,采用迭代式问题分解策略:
查询解析阶段:
工具调度策略:
证据合成机制:
面对持续输入的视频流,系统采用增量更新策略:
python复制def update_graph(new_docs):
for doc in new_docs:
entities, relations = llm_extractor(doc)
for (src, rel, tgt) in relations:
db.execute(
"INSERT INTO edges VALUES (?,?,?,?,?,?)",
(src, tgt, rel, doc.start, doc.end, doc.text)
)
处理长视频时,按1小时分段构建子图再合并,平衡内存使用与关系连贯性。
视觉搜索结合了语义与属性过滤:
实测表明,这种策略比纯向量搜索快3倍,且准确率提升15%。
帧采样策略:
缓存机制:
并行处理:
在EgoLifeQA上的表现(表1):
| 方法 | 平均准确率 | 提升幅度 |
|---|---|---|
| Gemini 2.5 Pro | 46.8% | - |
| EgoButler | 36.2% | - |
| EGAgent (Ours) | 57.5% | +20.6% |
特别在关系推理(RelationMap)和任务执行(TaskMaster)两类问题上,EGAgent分别取得62.4%和74.6%的准确率,显著优于基准方法。
查询:"上周三下午我在厨房时,谁提到过我的眼镜?"
处理流程:
系统响应:"根据记录,Lucia在周三15:23的对话中询问过您的眼镜位置,当时在场的还有Shure。"
硬件需求:
延迟分布:
扩展方案:
当前系统存在两个主要限制:
我们正在探索的改进方向包括:
这种结构化表示与神经符号推理的结合,为构建真正理解人类长期体验的AI助手奠定了基础。随着设备算力的提升和模型的演进,EGAgent框架有望在健康监护、行为分析等领域产生更大价值。