1. 项目概述
AgentCPM-Report是一个创新的轻量级本地化研究系统,它通过动态规划与深度推理的结合,解决了传统自然语言处理系统在生成深度研究报告时面临的挑战。这个8B参数的模型系统突破了静态规划范式的限制,实现了大纲与内容的动态协同优化。
在传统的研究报告生成系统中,模型通常采用"先规划后写作"(Plan-then-Write)的静态范式。这种方法存在两个主要缺陷:一是初始大纲的质量直接决定了最终报告的上限,二是无法捕捉写作过程中涌现的新洞见。AgentCPM-Report通过WARP(Writing As Reasoning Policy)框架创新性地解决了这些问题。
关键突破:WARP框架将写作过程重新定义为推理过程,使模型能够像人类研究者一样,在写作过程中不断调整和深化思路,而非机械执行预设大纲。
2. 核心架构与技术原理
2.1 WARP框架设计
WARP框架的核心在于将写作过程建模为一个动态的决策过程,包含两个主要状态:
-
证据驱动的草拟(Evidence-Based Drafting):
- 基于当前大纲检索相关证据
- 将检索结果整合到报告中
- 保持上下文的连贯性和一致性
-
推理驱动的深化(Reasoning-Driven Deepening):
- 分析当前草稿的深度和连贯性
- 识别需要进一步展开的部分
- 动态调整大纲结构
这两个状态的交替执行形成了一个迭代优化循环,使系统能够不断深化对研究主题的理解。与传统方法相比,这种动态规划方式有三大优势:
- 适应性:大纲会根据写作过程中发现的新信息动态调整
- 深度:能够识别并填补知识空白,产生更有洞见的分析
- 效率:只在必要时进行深化,避免不必要的计算开销
2.2 模型架构实现
AgentCPM-Report基于MiniCPM4.1-8B模型构建,通过以下技术创新实现了高性能:
-
分层状态表示:
- 全局状态S_i = (Q, O_i, D_i, C_i)
- 包含用户查询Q、动态大纲O_i、当前草稿D_i和检索上下文C_i
-
动作空间设计:
- INITIALIZE:初始化研究过程
- SEARCH:检索相关信息
- WRITE:生成报告内容
- EXPAND:深化特定部分
- TERMINATE:结束研究过程
-
动态终止机制:
- 基于语义密度和逻辑连贯性评估
- 自动决定是否继续深化
- 避免过度计算或过早终止
3. 训练策略与方法
3.1 多阶段代理训练
为了克服小模型在复杂决策中的局限性,团队开发了创新的多阶段训练策略:
-
冷启动阶段(SFT):
- 基础指令跟随能力训练
- 格式规范学习
- 使用教师模型生成示范轨迹
-
原子技能强化学习(Atomic Skill RL):
- 分解全局目标为原子能力
- 单独优化规划、检索、写作和决策能力
- 设计专用奖励函数(见表1)
表1:原子技能RL奖励设计
| 能力 |
评估指标 |
参考依赖 |
LLM评估 |
| 规划 |
基本属性 |
✗ |
✗ |
|
整体质量 |
✓ |
✓ |
|
忠实度 |
✗ |
✓ |
| 检索 |
相关召回率 |
✓ |
✗ |
| 写作 |
基本属性 |
✗ |
✗ |
|
整体质量 |
✓ |
✓ |
|
忠实度 |
✗ |
✓ |
| 决策 |
终止时机准确性 |
✓ |
✗ |
- 全流程强化学习(Pipeline RL):
- 端到端优化全局报告质量
- 允许偏离教师模型轨迹
- 学习何时触发深化以获得最大信息增益
3.2 轨迹修剪策略
针对教师模型终止决策不准确的问题,团队开发了创新的轨迹修剪方法:
- 强制教师模型"过度扩展"生成多个草稿版本
- 基于评估分数识别最优停止点i*
- 修剪轨迹并在i*处标记为TERMINATE
- 提供清晰的停止信号训练数据
这种方法解决了小模型训练中的两个关键挑战:
- 模糊终止问题:教师模型难以确定最佳停止点
- 稀疏奖励问题:长轨迹导致奖励分配困难
4. 性能评估与结果分析
4.1 基准测试表现
AgentCPM-Report在三个主要基准测试中表现出色:
-
DeepResearch Bench(科学任务):
- Insight得分52.64,超过Gemini-2.5-Pro的49.45
- Comprehensiveness得分50.54,超过Gemini-2.5-Pro的49.51
-
DeepConsult(商业分析):
- 平均得分6.60,胜率57.60%
- 显著优于基础SFT版本(平均6.04,胜率54.17%)
-
DeepResearch Gym(通用信息查询):
- Depth、Breadth和Insightfulness均获100分满分
- 整体平均分98.48,达到state-of-the-art水平
4.2 关键发现
-
WARP框架的有效性:
- 即使未经训练,WARP范式也优于静态规划方法
- 在Qwen3-235B模型上,Insight指标提升1.19分
-
训练阶段的影响:
- 从SFT到Pipeline RL,Comprehensiveness提升4.3分
- Expand动作频率翻倍,导致更丰富的子章节结构
-
深化深度与质量关系:
- 性能随深化步骤增加而提升,约9步后趋于稳定
- Pipeline RL模型自动选择的深度接近最优
5. 应用价值与未来方向
5.1 实际应用优势
-
隐私保护:
- 完全本地运行,不依赖云端大模型
- 适合处理敏感或专有数据
-
成本效益:
- 8B参数模型可在消费级硬件运行
- 训练和推理成本显著低于大模型方案
-
灵活性:
5.2 未来改进方向
-
报告呈现优化:
-
多模态扩展:
-
知识库增强:
-
评估体系完善:
在实际部署中,建议先在小规模数据集上验证模型性能,再逐步扩大应用范围。对于关键业务场景,可以结合人工审核机制确保报告质量。系统特别适合需要深度分析但受限于数据隐私的领域,如医疗研究、金融分析等。