使用T5模型自动生成Stack Overflow问题标签

胖葫芦

1. 项目背景与核心目标

最近在技术社区看到一个很有意思的需求：如何利用T5模型来自动生成Stack Overflow问题的标签。作为一个经常在Stack Overflow上提问和回答的开发者，我深知准确的问题标签对于获得快速解答有多重要。手动打标签不仅耗时，而且新手往往难以选择最合适的分类。于是决定尝试用T5模型来解决这个问题。

T5（Text-to-Text Transfer Transformer）是Google在2019年提出的一个统一文本处理框架，它将所有NLP任务都转化为"文本到文本"的形式。这种统一架构让我们可以用同一个模型处理多种任务，特别适合这种需要理解问题内容并生成对应标签的场景。

2. 技术选型与模型准备

2.1 为什么选择T5模型

相比传统的分类模型，T5有几个显著优势：

统一的文本到文本框架，不需要为不同任务设计特定架构
预训练时接触过大量网络文本数据，对编程相关术语有较好理解
可以同时处理单标签和多标签分类问题
生成的标签可以包含模型学习到的语义信息，而不仅限于训练集中的固定标签

2.2 模型版本选择

T5有几个不同规模的版本：

T5-Small（6000万参数）
T5-Base（2.2亿参数）
T5-Large（7.7亿参数）
T5-3B（30亿参数）

考虑到计算资源和实际需求，我选择了T5-Base版本。它在准确率和资源消耗之间取得了不错的平衡，适合在单个GPU上进行微调。

3. 数据准备与预处理

3.1 获取Stack Overflow数据

Stack Overflow官方提供数据转储（Data Dump），包含所有问题和答案的历史记录。我们可以使用2023年7月的数据集，其中包含：

问题标题
问题正文
问题标签（最多5个）
提问日期
浏览次数等元数据

3.2 数据清洗与格式化

原始数据需要经过以下处理步骤：

过滤非英语问题（lang字段为'en'）
移除已关闭或低质量的问题（score > 0）
合并问题标题和正文作为输入文本
将标签列表转换为逗号分隔的字符串
平衡不同标签的出现频率，避免常见标签主导模型

处理后数据格式示例：

code复制输入: "How to sort a dictionary by value in Python? I have a dictionary of values and I'd like to sort them by the values."
输出: "python,sorting,dictionary"

3.3 数据集划分

将数据按70%/15%/15%的比例划分为：

训练集：用于模型微调
验证集：用于超参数调整
测试集：用于最终评估

4. 模型微调实现

4.1 环境配置

使用Python 3.8和以下主要库：

bash复制pip install transformers==4.28.1
pip install datasets==2.11.0
pip install torch==1.13.1

4.2 微调代码实现

python复制from transformers import T5ForConditionalGeneration, T5Tokenizer
from datasets import load_dataset

# 加载预训练模型和分词器
model = T5ForConditionalGeneration.from_pretrained("t5-base")
tokenizer = T5Tokenizer.from_pretrained("t5-base")

# 加载数据集
dataset = load_dataset("csv", data_files={"train": "train.csv", "val": "val.csv"})

# 数据预处理函数
def preprocess_function(examples):
    inputs = ["generate tags: " + text for text in examples["text"]]
    model_inputs = tokenizer(inputs, max_length=512, truncation=True)
    
    with tokenizer.as_target_tokenizer():
        labels = tokenizer(examples["tags"], max_length=64, truncation=True)
    
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

# 应用预处理
tokenized_datasets = dataset.map(preprocess_function, batched=True)

# 训练参数配置
from transformers import Seq2SeqTrainingArguments

training_args = Seq2SeqTrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=3e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    weight_decay=0.01,
    save_total_limit=3,
    num_train_epochs=3,
    predict_with_generate=True,
    fp16=True,
)

# 创建Trainer
from transformers import Seq2SeqTrainer

trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["val"],
)

# 开始训练
trainer.train()

4.3 关键参数说明

learning_rate=3e-5：T5微调的典型学习率，太大容易过拟合
max_length=512：输入文本的最大长度，Stack Overflow问题通常较短
num_train_epochs=3：实验表明3个epoch足够收敛
fp16=True：使用混合精度训练减少显存占用

5. 模型评估与优化

5.1 评估指标

使用以下指标评估模型性能：

精确率（Precision）：生成的标签中正确的比例
召回率（Recall）：实际标签中被正确预测的比例
F1分数：精确率和召回率的调和平均
标签覆盖率：模型能预测的独特标签数量

5.2 常见问题与优化

标签不平衡问题：
- 现象：常见标签（如"javascript"）预测准确率高，罕见标签表现差
- 解决：对罕见标签进行过采样，或使用类别加权损失函数
多标签相关性：
- 现象：某些标签常一起出现（如"reactjs"和"javascript"）
- 解决：在损失函数中加入标签相关性惩罚项
新标签预测：
- 现象：无法预测训练集中未出现的新标签
- 解决：保留部分模型容量用于few-shot学习新标签

6. 部署与应用

6.1 模型导出与优化

训练完成后，可以导出为更高效的格式：

python复制model.save_pretrained("./t5_stackoverflow")
tokenizer.save_pretrained("./t5_stackoverflow")

# 转换为ONNX格式以优化推理速度
from transformers.convert_graph_to_onnx import convert

convert(
    framework="pt",
    model="./t5_stackoverflow",
    output="./t5_stackoverflow.onnx",
    opset=12,
)

6.2 创建预测API

使用FastAPI创建简单的预测服务：

python复制from fastapi import FastAPI
from transformers import T5ForConditionalGeneration, T5Tokenizer
import torch

app = FastAPI()

model = T5ForConditionalGeneration.from_pretrained("./t5_stackoverflow")
tokenizer = T5Tokenizer.from_pretrained("./t5_stackoverflow")
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

@app.post("/predict")
async def predict(question: str):
    input_text = "generate tags: " + question
    inputs = tokenizer(input_text, return_tensors="pt").to(device)
    
    outputs = model.generate(
        inputs.input_ids,
        max_length=64,
        num_beams=5,
        early_stopping=True
    )
    
    tags = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return {"tags": tags.split(",")}