使用LLaMA-Factory实现Qwen3-4B模型的LoRA微调实践

Cookie Young

1. 项目概述

作为一名长期从事AI模型开发的工程师，我一直在寻找高效的大语言模型(LLM)微调方案。最近发现LLaMA-Factory这个工具在社区讨论度很高，于是决定亲自尝试用它来完成Qwen3-4B模型的LoRA微调全流程。这个工具号称能大幅简化微调过程，下面我就把完整的实践过程记录下来，包括环境搭建、参数配置和实际调优中的经验教训。

2. 环境准备与工具安装

2.1 Conda环境配置

我习惯为每个项目创建独立的Python环境，这能避免依赖冲突。对于LLM微调这种对版本敏感的任务更是必要：

bash复制conda create -n llamafactory python=3.12 -y
conda activate llamafactory

选择Python 3.12是因为它对新版PyTorch的支持最好，而PyTorch是LLaMA-Factory的核心依赖。这里有个细节：如果系统已有其他Python版本，建议先运行conda update -n base -c defaults conda更新conda本身。

2.2 源码安装LLaMA-Factory

官方推荐从源码安装以确保获取最新功能。在Ubuntu系统上需要先安装git：

bash复制apt update
apt install git -y

然后克隆仓库（添加--depth 1只克隆最新提交，节省时间和空间）：

bash复制git clone --depth 1 https://github.com/hiyouga/LlamaFactory.git
cd LlamaFactory
pip install -e .  # 可编辑模式安装，方便后续修改代码

安装评估指标相关依赖时，我换用了清华源加速下载：

bash复制pip install -r requirements/metrics.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/

注意：如果遇到SSL证书错误，可以添加--trusted-host pypi.tuna.tsinghua.edu.cn参数。在公司的内网环境中，可能需要先配置代理（需符合公司网络政策）。

3. Qwen3-4B模型LoRA微调实战

3.1 配置文件解析

LLaMA-Factory采用YAML文件管理训练配置。以examples/train_lora/qwen3_lora_sft.yaml为例，关键参数包括：

yaml复制model_name_or_path: Qwen/Qwen3-4B  # 基础模型
dataset_dir: data  # 训练数据目录
lora_rank: 8  # LoRA矩阵秩
lora_alpha: 32  # 缩放系数
per_device_train_batch_size: 2  # 根据GPU显存调整
gradient_accumulation_steps: 4  # 模拟更大batch size
learning_rate: 5e-5  # 初始学习率

我调整了以下参数以适应单卡训练：

将per_device_train_batch_size从默认的4降到2（RTX 3090 24GB显存）
增加gradient_accumulation_steps到4，保持总batch size=8
设置fp16: true启用混合精度训练

3.2 启动训练

运行以下命令开始微调：

bash复制llamafactory-cli train examples/train_lora/qwen3_lora_sft.yaml

训练过程中有几个需要关注的指标：

Loss曲线：正常应该平稳下降，如果震荡剧烈可能需要调小学习率
GPU利用率：通过nvidia-smi -l 1监控，理想情况应保持在90%以上
显存占用：确保不会爆显存，否则需减小batch size

实操技巧：用tmux或screen创建持久会话，避免SSH断开导致训练中断。我习惯用tmux new -s qwen_train创建新会话。

3.3 常见训练问题排查

在实际操作中我遇到了几个典型问题：

CUDA内存不足：
- 现象：训练开始后立即报CUDA out of memory
- 解决方案：
  - 减小per_device_train_batch_size
  - 启用梯度检查点：在配置中添加gradient_checkpointing: true
  - 尝试optimizer: adamw_bnb_8bit使用8bit优化器
Loss值为NaN：
- 现象：训练几轮后loss突然变成NaN
- 解决方案：
  - 降低学习率（我从5e-5降到3e-5）
  - 添加梯度裁剪：max_grad_norm: 1.0
  - 关闭fp16改用bf16（如果硬件支持）
训练速度慢：
- 检查是否启用了Flash Attention：
```
yaml复制flash_attn: true  # 需要安装flash-attn包
```
- 确认数据加载没有瓶颈（查看GPU利用率是否经常降到0）

4. 模型推理与效果验证

4.1 启动交互式对话

训练完成后，使用以下命令测试模型：

bash复制llamafactory-cli chat examples/inference/qwen3_lora_sft.yaml

在推理配置中需要指定适配器路径：

yaml复制adapter_name_or_path: saves/Qwen3-4B/lora/checkpoint-final

我准备了几个测试问题评估微调效果：

领域专业知识问题（验证微调数据是否生效）
通用常识问题（检查模型原有能力是否受损）
长文本生成（测试模型稳定性）

经验分享：好的测试应该包含"开集"和"闭集"问题。闭集问题来自训练数据（应准确回答），开集问题来自其他领域（应保持合理回答）。

4.2 性能优化技巧

在推理阶段可以应用这些优化：

启用use_cache: true加速自回归生成
设置max_new_tokens: 512限制生成长度

对于生产部署，建议量化模型：

yaml复制quantization:
  bits: 8  # 或4
  double_quant: true

5. 模型合并与导出

5.1 LoRA权重合并

要将适配器永久集成到基础模型中，运行：

bash复制llamafactory-cli export examples/merge_lora/qwen3_lora_sft.yaml

合并配置示例：

yaml复制model_name_or_path: Qwen/Qwen3-4B
adapter_name_or_path: saves/Qwen3-4B/lora/checkpoint-final
export_dir: exports/Qwen3-4B-merged

合并后的模型可以直接用HuggingFace的from_pretrained加载，无需额外代码。

5.2 格式转换

如果需要部署到其他平台，可以转换为ONNX格式：

yaml复制export_type: onnx
opset_version: 15

转换时要注意：

指定正确的opset_version（不同推理引擎支持不同）

对于大模型，可能需要分片导出：

yaml复制shard: true
max_shard_size: 2GB

6. 进阶调优建议

经过多次实验，我总结出几个提升微调效果的关键点：

数据质量：
- 清洗重复和低质量样本
- 保持指令格式一致（如始终使用"问题："、"回答："作为前缀）
- 适当添加负样本（如"我不知道"类回答）
参数调优：
- LoRA rank不是越大越好，通常8-64之间足够
- alpha值建议设为rank的2-4倍
- 学习率通常设为1e-5到5e-5
训练策略：
- 先用1-2个epoch微调全部参数（学习率1e-6）
- 再用LoRA微调3-5个epoch
- 最后用极低学习率（1e-7）微调1个epoch平滑权重