DeepSeek R1模型复现：文本到图结构信息抽取实践

今忱

1. 复现DeepSeek R1信息抽取模型的探索之旅

最近我在尝试复现DeepSeek团队发布的R1模型在信息抽取任务上的表现，特别是零样本的文本到图结构(text-to-graph)抽取能力。这个任务的核心是：给定一组预定义的实体类型和关系类型，从目标文本中抽取出所有符合要求的实体以及它们之间的关系。举个例子，对于下面这段文本：

"微软CEO萨提亚·纳德拉宣布了Azure AI的最新进展"

理想的信息抽取结果应该是这样的JSON结构：

json复制{
  "entities": [
    {"id": 0, "text": "微软", "type": "公司"},
    {"id": 1, "text": "萨提亚·纳德拉", "type": "人物"},
    {"id": 2, "text": "Azure AI", "type": "产品"}
  ],
  "relations": [
    {"head": "萨提亚·纳德拉", "tail": "微软", "type": "CEO"},
    {"head": "微软", "tail": "Azure AI", "type": "开发"}
  ]
}

这个任务看似简单，但对于小型生成式语言模型来说却充满挑战。当不限制输出格式，让模型自由抽取所有可能的实体和关系时，语言模型表现尚可。但一旦要求模型严格按照预定义的实体和关系类型输出结构化结果，就变成了一个真正的噩梦。

2. 为什么文本到图抽取如此困难？

2.1 监督学习的局限性

在我的实验中，发现用监督学习的方式训练小型语言模型完成这种条件式文本到图的转换非常困难。主要原因包括：

输出空间爆炸：结构化输出需要考虑实体识别、关系抽取以及它们之间的对应关系，这使得输出空间呈指数级增长。
错误传播：一个实体的识别错误会导致后续所有相关关系的错误，这种级联效应使得模型训练难以收敛。
格式约束：要求模型严格遵循指定的JSON格式输出，这对小型语言模型来说是个额外的认知负担。

实际经验：在早期实验中，模型经常产生格式错误的JSON，或者在应该输出关系时却重复输出实体。这表明模型在理解任务要求方面存在困难。

2.2 强化学习带来的希望

与传统监督学习不同，强化学习(Reinforcement Learning)不直接告诉模型应该采取哪些具体行动（即生成哪些token），而是通过奖励机制引导模型朝着期望的目标发展。在我们的场景中：

里程碑：正确抽取的图结构（符合预定义的实体和关系类型）
行动：模型生成的每个token
奖励：根据输出质量给予的评分

强化学习的优势在于：

允许试错：模型可以探索不同的生成路径，而不仅限于模仿训练数据。
灵活的目标设定：可以针对不同子任务（如实体识别、关系抽取）设置不同的奖励权重。
发现新策略：模型可能自主发展出训练数据中不存在的有效推理策略。

3. DeepSeek的GRPO方法解析

3.1 GRPO算法概述

DeepSeek团队采用了Group Relative Policy Optimization(GRPO)方法进行强化学习训练。这个算法的核心思想可以概括为：

对每个问题生成一组候选解决方案
根据获得的奖励调整生成高奖励解决方案的概率
通过KL散度项防止模型偏离初始策略太远

数学表达式简化版：

code复制L(θ) = E[log πθ(a|s) * A(s,a)] - β KL(πθ||πref)

其中：

πθ是当前策略
A(s,a)是优势函数
πref是参考策略（通常是监督学习得到的初始模型）
β是调节系数

3.2 GRPO的独特优势

隐式负样本学习：由于模型会生成多个候选方案，那些获得低奖励的方案自然成为了"困难负样本"。
知识涌现：正如Andrej Karpathy指出的，模型可能发展出标注者无法预见的推理策略。
多目标平衡：可以灵活调整不同奖励项的权重，针对模型弱点进行专项优化。

4. 我们的训练流程实现

4.1 三阶段训练框架

我们设计了包含三个关键阶段的训练流程：

合成数据生成
- 数据收集：从目标领域收集多样化的文本
- 文本到图转换：使用Llama 70B生成初始图结构
- 数据筛选与增强：去除低质量样本，增加多样性
监督训练
- 使用约1,000个样本进行初步训练
- 主要目标是让模型学会基本的输出格式
- 相当于"预训练"阶段
强化学习训练(GRPO)
- 格式奖励：确保输出符合指定结构
- JSON奖励：验证输出的机器可读性
- F1奖励：评估实体和关系的准确性

实战技巧：我们发现F1奖励的权重应该设置得最高，因为模型容易陷入只生成格式正确但内容空洞的小JSON的局部最优。

4.2 奖励函数设计细节

我们的奖励函数由三个关键部分组成：

格式奖励(R_format)：
- 检查输出是否包含必需的字段（entities, relations）
- 验证基本结构完整性
- 权重：0.2
JSON奖励(R_json)：
- 使用Python的json.loads()验证语法正确性
- 确保所有引号、括号匹配
- 权重：0.3
F1奖励(R_f1)：
- 比较预测与真实标注的实体和关系
- 计算精确率、召回率和F1值
- 权重：0.5

奖励总和：

code复制R_total = 0.2*R_format + 0.3*R_json + 0.5*R_f1

5. 关键实现细节与优化

5.1 模型架构选择

我们基于Qwen2.5-0.5B模型进行微调，主要考虑：

计算效率：更大的模型虽然性能更好，但训练成本过高
推理速度：在实际应用中，响应速度至关重要
微调潜力：小型模型通过针对性训练也能获得不错的效果

5.2 数据处理管道

文本预处理：
- 标准化标点符号
- 识别并处理嵌套引号
- 统一字符编码
实体链接：
- 使用模糊匹配处理指代消解
- 建立同义词词典
- 处理缩写和全称对应
关系验证：
- 检查关系的对称性和传递性
- 过滤不可能的组合（如"产品CEO人物"）

5.3 训练技巧

课程学习：
- 先训练简单样本（短文本、少实体）
- 逐步增加复杂度
动态权重调整：
- 根据验证集表现自动调整奖励权重
- 关系抽取困难时增加R_f1权重
记忆库采样：
- 保存高奖励样本
- 以一定概率回放这些"好例子"

6. 实际应用与效果评估

6.1 部署方案

我们提供了开箱即用的推理代码：

python复制from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Ihor/Text2Graph-R1-Qwen2.5-0.5b"
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

text = """输入文本放在这里..."""
prompt = "分析这段文本，识别实体并按照给定指令提取关系：{}"
messages = [
    {
        "role": "system",
        "content": ("你是一个经过训练的处理文本并提取命名实体和关系的助手..."
                   "输出格式为JSON，结构如下：\n\n"
                   '{"entities": [{"type": "实体类型", "text": "实体文本", "id": 编号}], '
                   '"relations": [{"head": "头实体", "tail": "尾实体", "type": "关系类型"}]}')
    },
    {"role": "user", "content": prompt.format(text)}
]

text = tokenizer.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids 
    in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]