AgentCPM-Report：动态规划与深度推理结合的本地化研究系统

银河系李老幺

1. 项目概述

AgentCPM-Report是一个创新的轻量级本地化研究系统，它通过动态规划与深度推理的结合，解决了传统自然语言处理系统在生成深度研究报告时面临的挑战。这个8B参数的模型系统突破了静态规划范式的限制，实现了大纲与内容的动态协同优化。

在传统的研究报告生成系统中，模型通常采用"先规划后写作"（Plan-then-Write）的静态范式。这种方法存在两个主要缺陷：一是初始大纲的质量直接决定了最终报告的上限，二是无法捕捉写作过程中涌现的新洞见。AgentCPM-Report通过WARP（Writing As Reasoning Policy）框架创新性地解决了这些问题。

关键突破：WARP框架将写作过程重新定义为推理过程，使模型能够像人类研究者一样，在写作过程中不断调整和深化思路，而非机械执行预设大纲。

2. 核心架构与技术原理

2.1 WARP框架设计

WARP框架的核心在于将写作过程建模为一个动态的决策过程，包含两个主要状态：

证据驱动的草拟（Evidence-Based Drafting）：
- 基于当前大纲检索相关证据
- 将检索结果整合到报告中
- 保持上下文的连贯性和一致性
推理驱动的深化（Reasoning-Driven Deepening）：
- 分析当前草稿的深度和连贯性
- 识别需要进一步展开的部分
- 动态调整大纲结构

这两个状态的交替执行形成了一个迭代优化循环，使系统能够不断深化对研究主题的理解。与传统方法相比，这种动态规划方式有三大优势：

适应性：大纲会根据写作过程中发现的新信息动态调整
深度：能够识别并填补知识空白，产生更有洞见的分析
效率：只在必要时进行深化，避免不必要的计算开销

2.2 模型架构实现

AgentCPM-Report基于MiniCPM4.1-8B模型构建，通过以下技术创新实现了高性能：

分层状态表示：
- 全局状态S_i = (Q, O_i, D_i, C_i)
- 包含用户查询Q、动态大纲O_i、当前草稿D_i和检索上下文C_i
动作空间设计：
- INITIALIZE：初始化研究过程
- SEARCH：检索相关信息
- WRITE：生成报告内容
- EXPAND：深化特定部分
- TERMINATE：结束研究过程
动态终止机制：
- 基于语义密度和逻辑连贯性评估
- 自动决定是否继续深化
- 避免过度计算或过早终止

3. 训练策略与方法

3.1 多阶段代理训练

为了克服小模型在复杂决策中的局限性，团队开发了创新的多阶段训练策略：

冷启动阶段（SFT）：
- 基础指令跟随能力训练
- 格式规范学习
- 使用教师模型生成示范轨迹
原子技能强化学习（Atomic Skill RL）：
- 分解全局目标为原子能力
- 单独优化规划、检索、写作和决策能力
- 设计专用奖励函数（见表1）

表1：原子技能RL奖励设计

能力	评估指标	参考依赖	LLM评估
规划	基本属性	✗	✗
	整体质量	✓	✓
	忠实度	✗	✓
检索	相关召回率	✓	✗
写作	基本属性	✗	✗
	整体质量	✓	✓
	忠实度	✗	✓
决策	终止时机准确性	✓	✗

全流程强化学习（Pipeline RL）：
- 端到端优化全局报告质量
- 允许偏离教师模型轨迹
- 学习何时触发深化以获得最大信息增益

3.2 轨迹修剪策略

针对教师模型终止决策不准确的问题，团队开发了创新的轨迹修剪方法：

强制教师模型"过度扩展"生成多个草稿版本
基于评估分数识别最优停止点i*
修剪轨迹并在i*处标记为TERMINATE
提供清晰的停止信号训练数据

这种方法解决了小模型训练中的两个关键挑战：

模糊终止问题：教师模型难以确定最佳停止点
稀疏奖励问题：长轨迹导致奖励分配困难

4. 性能评估与结果分析

4.1 基准测试表现

AgentCPM-Report在三个主要基准测试中表现出色：

DeepResearch Bench（科学任务）：
- Insight得分52.64，超过Gemini-2.5-Pro的49.45
- Comprehensiveness得分50.54，超过Gemini-2.5-Pro的49.51
DeepConsult（商业分析）：
- 平均得分6.60，胜率57.60%
- 显著优于基础SFT版本（平均6.04，胜率54.17%）
DeepResearch Gym（通用信息查询）：
- Depth、Breadth和Insightfulness均获100分满分
- 整体平均分98.48，达到state-of-the-art水平

4.2 关键发现

WARP框架的有效性：
- 即使未经训练，WARP范式也优于静态规划方法
- 在Qwen3-235B模型上，Insight指标提升1.19分
训练阶段的影响：
- 从SFT到Pipeline RL，Comprehensiveness提升4.3分
- Expand动作频率翻倍，导致更丰富的子章节结构
深化深度与质量关系：
- 性能随深化步骤增加而提升，约9步后趋于稳定
- Pipeline RL模型自动选择的深度接近最优