WARP框架：基于RAG与强化学习的智能报告生成系统

Clark Liew

1. WARP框架下的智能报告生成系统概述

在信息爆炸的时代，如何从海量数据中快速生成结构严谨、内容翔实的专业报告成为学术界和产业界共同面临的挑战。传统报告撰写流程通常需要人工完成资料收集、大纲规划、内容撰写和反复修改等环节，耗时耗力且质量难以保证。我们团队基于多年自然语言处理研究和工业界实践经验，开发了一套融合检索增强生成（RAG）与强化学习（RL）的智能报告生成系统——WARP框架（Writing-Augmented Retrieval and Planning）。

WARP框架的核心创新在于将复杂的报告生成任务分解为三个逻辑严密的阶段：初始化阶段（Initialization）、证据驱动草拟阶段（Evidence-Based Drafting）和推理驱动深化阶段（Reasoning-Driven Deepening）。每个阶段通过五个基础动作（Initialize、Search、Write、Expand和Terminate）的有机组合，模拟专业报告撰写者的思维过程和工作流程。系统采用Qwen3-235B作为基础语言模型，配合MiniCPM-Embedding-Light构建的向量数据库，实现了从用户查询到高质量报告的全自动生成。

关键设计理念：WARP框架不是简单的"提示词工程"，而是通过强化学习优化各个决策环节，使系统能够动态调整检索策略、内容深度和终止时机，这与传统RAG系统的固定流程有本质区别。

2. 系统架构与核心组件解析

2.1 多阶段任务分解机制

WARP框架将报告生成过程建模为马尔可夫决策过程（MDP），每个阶段对应不同的状态空间和动作空间：

初始化阶段：
- 状态空间：用户查询 + 初始检索结果
- 可用动作：Initialize、Search
- 输出产物：一级大纲（含各章节写作计划）
- 关键技术：通过prompt工程确保大纲的全面性和逻辑性（见图7示例）
证据驱动草拟阶段：
- 状态空间：当前大纲 + 已生成内容 + 最新检索结果
- 可用动作：Search、Write
- 输出产物：完整段落（含准确引用）
- 典型挑战：保持内容连贯性同时避免冗余（见图9的严格引用要求）
推理驱动深化阶段：
- 状态空间：完整报告草稿 + 用户偏好
- 可用动作：Expand、Terminate
- 决策标准：基于章节深度与整体平衡性判断是否继续扩展
- 创新设计：强制轨迹收集策略（最大12次扩展）确保训练数据多样性

2.2 检索增强生成子系统

系统构建了包含286万文档的专业知识库，其中271万篇来自ArXiv论文摘要，15万篇为网络资源精炼摘要。检索流程采用双层过滤机制：

向量检索层：
- 嵌入模型：MiniCPM-Embedding-Light（768维）
- 索引引擎：Faiss IVF-PQ索引（nlist=4096）
- 召回策略：动态调整搜索半径（radius=0.6-0.8）
语义重排层：
- 使用Qwen2.5-72B对初筛结果进行相关性评分
- 关键创新：将检索结果按信息类型分类（背景、方法、结果等）

python复制# 典型检索代码逻辑示例
def retrieve_documents(query, current_outline):
    keywords = search_agent(query, outline)  # 见图8的prompt设计
    vectors = embed(keywords)
    raw_results = faiss_index.search(vectors, k=50)
    reranked = qwen_ranker(raw_results)
    return filter_by_type(reranked, needed_section)

2.3 动作空间设计与优化

系统定义了五种核心动作，每种动作对应特定的JSON schema和评估指标：

动作类型	能力维度	评估指标	关键参数
Initialize	规划能力	大纲质量评分	title, sections[title,plan]
Search	检索能力	召回率@10	keywords[]
Write	写作能力	内容质量评分	position, title, content
Expand	规划能力	扩展必要性	position, subsections[]
Terminate	决策能力	终止准确率	-

针对动作分布不均衡问题（搜索/写作占90%），我们设计了基于能力重要性的加权采样策略：

规划/决策动作：采样权重3.0
检索动作：采样权重1.5
写作动作：采样权重0.8

3. 强化学习训练方法论

3.1 三阶段训练流程

监督微调（SFT）阶段：
- 数据：33,292个动作样本（来自1,200条轨迹）
- 关键配置：lr=1.5e-5, batch=32, epochs=4
- 创新点：轨迹修剪策略保留最优子序列
原子技能RL阶段：
- 数据：5,150个难样本（300条轨迹）
- 训练技巧：分层奖励设计（见表8-9）
- 超参数：lr=2.5e-6, PPO clip=0.2
端到端RL阶段：
- 评估指标：报告级综合评分
- 探索策略：ε-greedy（ε=0.15）
- 资源消耗：8×A100×4天

3.2 分层奖励设计

动作级奖励（原子技能RL）：

规划能力（Initialize/Expand）：

math复制R_{plan} = 0.3×P_{basic} + 0.4×LLM_{quality} + 0.3×Faithfulness

检索能力（Search）：

math复制R_{retrieval} = Recall@10 + 0.5×Precision@5

写作能力（Write）：

math复制R_{write} = 0.2×Length_{norm} + 0.3×Citation_{F1} + 0.5×LLM_{quality}

决策能力（Terminate）：

math复制R_{decision} = I_{correct} × (1 + 0.1×Step_{saved})

报告级奖励（端到端RL）：

全面性（0-5分）：覆盖所有关键子领域
洞察力（0-5分）：提供新颖观点或深入分析
指令遵循（0-5分）：严格符合用户需求
可读性（0-5分）：语言流畅、结构清晰

3.3 关键实现细节

轨迹收集策略：
- 强制扩展机制：每章节至少扩展3次
- 早期终止检测：连续2次低质量扩展自动终止
- 参考基线：人工撰写报告（平均得分4.2/5）
动作平衡技术：
- 动态采样权重调整：基于近期训练损失
- 硬样本挖掘：聚焦决策错误案例
稳定性保障：
- 梯度裁剪：max_norm=1.0
- 奖励归一化：running z-score
- 经验回放：buffer_size=5000

4. 实战效果与优化经验

4.1 基准测试表现

在三大权威基准上的评估结果：

测试集	指标	WARP得分	基线得分	提升幅度
DeepResearch Bench	RACE	4.31	3.87	+11.4%
	FACT	4.15	3.62	+14.6%
DeepConsult	Win Rate	72.5%	50%	+22.5pp
DeepResearch Gym	综合	4.08	3.71	+10.0%

4.2 典型问题解决实录

问题1：检索结果与写作需求不匹配

现象：搜索动作返回大量相关但不可引用的内容
诊断：关键词生成过于宽泛
解决方案：
1. 在搜索prompt中添加大纲上下文（图8修改）
2. 引入检索类型约束（方法/结果/背景）
3. 增加负样本惩罚项

问题2：过度扩展导致结构失衡

现象：某些章节深度达5级而其他仅2级

优化方法：

python复制def should_expand(section):
    depth = section.level
    sibling_depth = avg([s.level for s in section.siblings])
    return (depth - sibling_depth) < 2

问题3：学术术语一致性不足