Conan框架：让AI像侦探一样进行视觉推理

jiyulishang

1. 项目概述：像侦探一样推理的视觉AI

去年我在处理一个监控视频分析项目时，遇到一个棘手问题：系统能识别画面中的物体，却无法回答"为什么这个人突然跑向出口"这类需要跨帧推理的问题。这正是当前多模态大语言模型（MLLMs）面临的典型挑战——它们擅长单帧理解，却缺乏像侦探一样串联线索的能力。北京大学和腾讯微信AI联合提出的Conan框架，或许给出了一个突破性的解决方案。

这个名为Conan的项目（致敬名侦探柯南）核心目标是让AI具备基于视觉证据的渐进式推理能力。想象一下侦探破案的过程：先锁定关键证据，再结合环境线索，最后形成逻辑链条。Conan通过两大创新实现了这一目标：构建包含91,000个样本的Conan-91K数据集，以及设计两阶段渐进式训练体系。特别值得注意的是其提出的证据难度指数（EDI），这个量化指标让我想起教学中"循序渐进"的原则——先让学生解决简单问题建立信心，再逐步增加难度。

2. 核心方法解析：从数据到训练的双重革新

2.1 Conan-91K数据集构建的工程智慧

数据集构建中最令我印象深刻的是三级帧分类体系。团队将视频帧划分为：

证据帧（直接关联答案的关键画面）
上下文帧（提供辅助线索）
干扰帧（无关内容）

这种分类方式解决了传统方法中"眉毛胡子一把抓"的问题。我在处理长视频时深有体会：90%的画面可能都是冗余信息，真正有价值的往往只集中在几个瞬间。

**证据难度指数（EDI）**的设计更是精妙。它由两个维度构成：

证据帧占比（证据越稀疏，难度越高）
时间分散度（关键帧间隔越大，推理越困难）

通过EDI将数据集分为：

60K SFT样本（Conan-CoT-60k）：低EDI，最多3轮推理
31K RL样本（Conan-RLVR-31k）：高EDI，无推理轮数限制

这种分级策略让我联想到驾校的教学模式：先在空旷场地练习，再逐步进入复杂路况。

2.2 两阶段训练体系的设计哲学

阶段一：渐进式冷启动策略

文本推理阶段：使用单轮低EDI样本，相当于给模型"看图说话"的入门训练
多模态对齐阶段：加入时间戳和视觉特征，就像教学生结合插图和文字理解课文
视觉中心阶段：完全基于视觉帧推理，培养"读图能力"

这种渐进方式有效避免了直接接触复杂样本导致的"学习挫败"——这个问题我在训练图像分类模型时经常遇到。

阶段二：AIR RLVR强化学习框架

这个框架模拟了侦探工作的三个核心环节：

识别（Identification）：找到关键证据帧
推理（Reasoning）：构建逻辑链条
行动（Action）：决定继续探索还是得出结论

四重奖励机制确保了推理质量：

格式奖励：保持输出结构化
结果奖励：答案准确性
识别奖励：证据定位精度
检索奖励：相关帧占比

实践建议：在实现类似系统时，建议先重点优化识别奖励，因为准确的证据定位是后续推理的基础。

3. 关键技术实现细节

3.1 证据帧识别模块的工程实现

团队采用了一种时空注意力机制来识别关键帧。具体实现包含三个关键步骤：

帧级特征提取：

python复制# 使用预训练的CLIP-ViT提取帧特征
frame_features = clip_model.encode_image(frames)
# 时间位置编码
position_embeddings = PositionalEncoding(d_model)(frame_indices)

跨帧相关性计算：
通过多头注意力机制计算帧间关联度，形成相关性矩阵。这里有个实用技巧：对长视频采用滑动窗口策略，将视频分成若干片段处理，显著降低计算复杂度。
证据分数预测：
构建一个三头分类器，分别预测：

证据概率
上下文概率
干扰概率

训练技巧：采用focal loss解决类别不平衡问题，因为干扰帧通常占大多数。

3.2 推理引擎的优化策略

推理过程采用迭代式证据积累策略，每轮包含：

当前证据评估
信息缺口分析
下一步决策（继续检索/终止推理）

这个过程中有几个值得注意的实现细节：

使用置信度阈值控制推理深度（通常设为0.85）
引入推理路径多样性机制，避免陷入局部最优
实现早期终止策略，当连续3轮置信度无提升时自动停止

4. 实验结果与性能分析

4.1 基准测试表现

在6个视频推理基准上的测试结果令人印象深刻：

基准名称	基础模型准确率	Conan准确率	提升幅度
MMR-V	58.2%	69.7%	+11.5%
Video-Holmes	62.1%	73.4%	+11.3%
VRBench	54.8%	65.2%	+10.4%

特别值得注意的是，Conan在长视频理解任务中的表现：

在平均时长超过10分钟的视频上，准确率提升6.9%
仅需处理8%的帧数即可达到更好效果

4.2 效率优化成果

通过动态帧采样策略，Conan实现了显著的计算效率提升：

传统方法：均匀采样64帧
- 处理时间：3.2秒
- 准确率：61.3%
Conan方法：自适应采样8-12帧
- 处理时间：0.8秒
- 准确率：67.5%

这种效率提升在实际部署中意义重大，特别是在边缘设备上。

5. 实际应用中的经验分享

5.1 部署实践中的注意事项

在尝试复现该项目时，有几个关键点需要特别注意：

数据预处理：
- 视频解码建议使用decord而非OpenCV，可获得更稳定的帧率
- 对4K视频应先降采样到1080p，避免显存溢出
训练调参：
- 冷启动阶段学习率设为5e-6
- RL阶段初始设置为1e-6
- 采用线性warmup策略，前1000步从0升至目标值
推理优化：
- 启用Flash Attention可提升20%推理速度
- 对batch推理，建议动态padding而非固定长度

5.2 常见问题排查指南

在实际应用中可能会遇到以下典型问题：

问题现象	可能原因	解决方案
证据帧识别不准	特征提取模型不匹配	使用与训练时相同的CLIP版本
推理过程陷入循环	置信度阈值设置过高	逐步降低阈值（每次0.05）观察效果
长视频性能下降	未启用滑动窗口	将视频分段处理，每段不超过5分钟