基于GRPO强化学习提升LLM数独推理能力

殷迎彤

markdown复制## 1. 项目背景与目标

作为一名长期从事AI模型优化的工程师，最近在探索如何让大语言模型(LLM)掌握更复杂的逻辑推理能力。数独游戏因其严格的规则约束和逻辑推理特性，成为验证模型推理能力的绝佳测试平台。本项目使用昇腾NPU硬件平台，采用GRPO（Group Relative Policy Optimization）强化学习算法，对Qwen系列模型进行微调，使其能够解决4×4数独问题。

在传统监督微调(SFT)方法中，模型往往只能学会机械地遵从指令，而难以发展出真正的推理能力。通过强化学习训练，我们成功将Qwen2.5-7B模型在数独任务上的准确率从41.6%提升至89.6%，验证了该方法在提升模型逻辑推理能力方面的有效性。

## 2. 技术方案设计

### 2.1 整体架构

项目采用典型的强化学习训练框架，主要包含以下组件：

1. **策略模型(Policy Model)**：基于Qwen2.5的预训练模型，负责生成数独解答
2. **奖励函数系统**：包含格式检查、规则验证等多维度评估
3. **训练框架**：使用HuggingFace的TRL库中的GRPOTrainer
4. **硬件平台**：昇腾910B2 NPU加速卡

### 2.2 关键创新点

与传统PPO方法相比，本项目有三个显著改进：

1. **群体相对优势估计**：通过采样多个输出并计算相对优势值，避免了对额外价值模型的需求
2. **复合奖励设计**：针对数独特性设计了包含格式、规则、问题保持等多维度的奖励函数
3. **NPU优化**：充分利用昇腾NPU的矩阵计算优势，实现了高效的并行采样

## 3. 核心实现细节

### 3.1 数据准备

4×4数独的完整解仅有288种可能。我们采用以下步骤构建训练数据：

1. 生成所有合法解作为基础数据
2. 随机挖空生成训练样本（保留约25%空格）
3. 转换为模型输入的提示格式

示例数据格式：
```json
{
  "question": "_24___1234212134",
  "answer": "1243431234212134",
  "label": "simple"
}

3.2 提示工程

精心设计的提示模板对模型表现至关重要。我们的提示包含：

数独规则说明
解题步骤指导
输出格式要求
具体题目展示

提示词模板经过多次迭代优化，在保证清晰度的同时控制长度，避免分散模型注意力。

3.3 奖励函数设计

我们设计了四类奖励函数，总分设置为1.0：

格式奖励(0.6分)：
- 检查输出是否包含和标签
- 验证答案是否为合法的4×4数字矩阵
长度奖励(0.4分)：
- 防止生成过长内容
- 基于token数量线性衰减
问题保持奖励(1.0分)：
- 确保模型不修改题目给定数字
- 计算保留数字的准确率
规则奖励(1.0分)：
- 行规则(0.4分)：每行包含1-4不重复
- 列规则(0.3分)：每列包含1-4不重复
- 宫格规则(0.3分)：每个2×2宫格包含1-4不重复

3.4 GRPO训练配置

使用TRL库的GRPOTrainer进行训练，关键参数如下：

python复制trainer = GRPOTrainer(
    model="Qwen2.5-7B-Instruct",
    reward_funcs=[format_reward, len_reward, ...],
    train_dataset=train_data,
    batch_size=3,
    learning_rate=1e-5,
    peft_config=lora_config
)

采用LoRA微调方式，仅训练以下适配器参数：

Attention层的q_proj/v_proj
全连接层的gate_proj/up_proj

4. 昇腾NPU环境配置

4.1 基础环境

推荐配置：

操作系统：Ubuntu 20.04 LTS
驱动版本：CANN 6.0
Python版本：3.9

基础依赖安装：

bash复制apt update && apt install -y gcc g++ libnuma-dev
pip install numpy==1.24.0 torch_npu transformers trl

4.2 PyTorch适配

使用专为NPU优化的PyTorch版本：

bash复制wget https://download.pytorch.org/whl/cpu/torch-2.4.0-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
wget https://gitee.com/ascend/pytorch/releases/download/v6.0.0-pytorch2.4.0/torch_npu-2.4.0.post2-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
pip install torch-2.4.0-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl
pip install torch_npu-2.4.0.post2-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl

4.3 资源需求

不同模型规模的硬件要求：

Qwen2.5-3B：2×910B2 NPU（batch_size≤3）
Qwen2.5-7B：4×910B2 NPU（batch_size≤3）

5. 训练效果与调优

5.1 性能指标

模型对比结果：

模型	格式准确度	问题保持	行规则	列规则	宫格规则	综合准确度
Qwen2.5-3B-base	0.78	0.29	0.52	0.14	0.24	0.14
Qwen2.5-3B-GRPO	0.97	0.91	0.71	0.57	0.62	0.56
Qwen2.5-7B-base	0.84	0.68	0.68	0.42	0.50	0.42
Qwen2.5-7B-GRPO	0.99	0.98	0.95	0.91	0.93	0.90