深度学习中的交叉熵损失与LoRA微调技术解析

Dyingalive

1. 交叉熵损失函数深度解析

1.1 分类任务中的概率建模

在深度学习分类任务中，我们通常使用softmax函数将神经网络最后一层的输出转换为概率分布。假设我们有一个图像分类任务，需要判断输入图片是"牛"还是"猴"。神经网络最终会输出两个数值，经过softmax转换后得到两个概率值，比如[0.7, 0.3]，表示模型认为这张图片有70%概率是牛，30%概率是猴。

这里的关键问题是：如何量化模型预测的概率分布与真实标签之间的差异？这就是交叉熵损失函数要解决的核心问题。真实标签通常采用one-hot编码，比如[1, 0]表示"牛"这个类别。交叉熵通过比较这两个概率分布（预测分布和真实分布）来计算损失值。

1.2 极大似然估计视角

从统计学角度来看，交叉熵损失函数与极大似然估计(MLE)密切相关。让我们通过一个直观的例子理解MLE：

假设有一个装有白球和黄球的箱子，你进行了10次有放回的抽取，结果得到8次白球和2次黄球。最合理的估计是箱子中白球占比80%，因为这个估计使得观察到当前结果的概率最大。具体计算如下：

假设白球概率p=0.5时，观察到结果的概率：0.5^10 ≈ 0.00097
假设p=0.8时，概率：0.8^8 × 0.2^2 ≈ 0.0067
通过求导可以证明p=0.8时概率最大

将这个思想应用到分类任务中：我们希望找到一组模型参数，使得观察到当前训练数据的概率最大。对于单个样本，模型预测正确的概率就是预测概率分布中真实类别对应的那个概率值。对于整个训练集，我们希望这些概率的乘积最大。

实际操作中，我们会对概率乘积取对数变成求和（因为乘积可能非常小导致数值问题），然后添加负号将最大化问题转化为最小化问题，这样就得到了交叉熵损失函数。

1.3 信息论视角

从信息论角度看，交叉熵衡量了两个概率分布之间的差异。一个系统的信息熵是该系统编码所需的最小平均长度。交叉熵则是当我们用错误的概率分布q来编码真实分布p时所需的平均长度。

具体公式为：
H(p,q) = -Σ p(x) log q(x)

当预测分布q与真实分布p完全一致时，交叉熵等于信息熵，达到最小值。两者差异越大，交叉熵值就越大。

这个视角特别适合理解标签平滑(Label Smoothing)技术，因为当标签不再是严格的one-hot编码时，我们实际上是在比较两个"软化"的概率分布。

1.4 实际应用注意事项

数值稳定性：直接计算log(softmax)可能导致数值不稳定。实践中通常使用log_softmax函数或结合交叉熵的专用实现。
多分类与二分类：
- 对于二分类问题，可以使用二元交叉熵(BCE)损失
- 对于多分类问题，使用分类交叉熵(CCE)损失

类别不平衡处理：

python复制# PyTorch中带权重的交叉熵示例
criterion = nn.CrossEntropyLoss(weight=torch.tensor([1.0, 2.0]))  # 给第二类更高权重

与MSE对比：
- MSE损失假设误差服从高斯分布，更适合回归问题
- 交叉熵假设多项式分布，更适合分类问题
- 分类任务中使用MSE可能导致训练困难和平坦的损失曲面

2. 大模型生成参数详解

2.1 基础生成策略

2.1.1 贪心搜索(Greedy Search)

最简单的生成策略是每次选择概率最大的token作为输出：

code复制输入："我喜欢"
模型输出逻辑值：[吃:0.6, 学:0.3, 玩:0.1]
选择"吃"作为下一个token

这种策略的问题在于它只考虑局部最优，可能导致整体序列不是最优的。

2.1.2 Beam Search算法

Beam Search通过保留多个候选序列来解决贪心搜索的局限性。关键参数是beam width(光束宽度)，表示保留的候选序列数量。

算法步骤：

初始化：从起始token开始，保留top-k概率的序列
扩展：对每个候选序列，预测下一个token的概率
选择：计算所有可能扩展序列的总概率，保留top-k
重复：直到达到最大长度或结束token

示例：

code复制初始输入："我喜欢"
Beam宽度=2
第一步候选：["吃":0.6, "学":0.3]
第二步扩展：
- "吃" → ["吃饭":0.6×0.4=0.24, "吃菜":0.6×0.3=0.18]
- "学" → ["学习":0.3×0.7=0.21, "学校":0.3×0.2=0.06]
保留top2：["学习":0.21, "吃饭":0.24]

2.2 随机性控制参数

2.2.1 Temperature参数

Temperature控制输出分布的平滑程度：

python复制adjusted_logits = logits / temperature
probs = softmax(adjusted_logits)

temperature > 1：平滑分布，增加随机性
temperature < 1：尖锐分布，减少随机性
典型值范围：0.5-2.0

2.2.2 Top-k采样

只从概率最高的k个token中采样：

code复制原始概率：[0.5, 0.3, 0.1, 0.05, 0.05]
k=2 → 只考虑[0.5, 0.3]
重新归一化：[0.625, 0.375]

2.2.3 Top-p（核采样）

动态选择最小token集合，使其累计概率≥p：

code复制概率排序后：[0.5, 0.3, 0.1, 0.05, 0.05]
p=0.8 → 取前两个(0.5+0.3=0.8)
重新归一化：[0.625, 0.375]

2.3 参数协同工作机制

当同时设置多个参数时，处理顺序如下：

应用temperature缩放logits
执行top-k过滤
执行top-p过滤
对剩余token进行采样

伪代码表示：

python复制def generate_next_token(logits, temp=1.0, top_k=None, top_p=None):
    # Step 1: Apply temperature
    logits = logits / temp
    
    # Step 2: Top-k filtering
    if top_k is not None:
        top_k_logits, top_k_indices = torch.topk(logits, top_k)
        min_logit = top_k_logits[-1]
        logits = torch.where(logits < min_logit, torch.tensor(-float('inf')), logits)
    
    # Step 3: Top-p filtering
    if top_p is not None:
        sorted_logits, sorted_indices = torch.sort(logits, descending=True)
        probs = torch.softmax(sorted_logits, dim=-1)
        cum_probs = torch.cumsum(probs, dim=-1)
        mask = cum_probs <= top_p
        mask = torch.cat([torch.ones(1), mask[:-1]])  # Include the first that exceeds
        filtered_logits = torch.where(mask, sorted_logits, torch.tensor(-float('inf')))
        logits.scatter_(0, sorted_indices, filtered_logits)
    
    # Step 4: Sample
    probs = torch.softmax(logits, dim=-1)
    return torch.multinomial(probs, num_samples=1)

2.4 实践建议

创意性文本生成：
- 较高temperature(0.7-1.0)
- 使用top-p(0.7-0.9)
- beam width适中(3-5)
确定性任务：
- 低temperature(0.2-0.5)
- 使用beam search(beam width=5-10)
- 可结合top-k(k=10-50)
参数组合实验：
- 先单独调整每个参数观察效果
- 从保守设置开始逐步增加随机性
- 记录不同组合在验证集上的表现

3. LoRA微调技术深度剖析

3.1 低秩适应原理

LoRA(Low-Rank Adaptation)的核心思想是：模型在适应特定任务时，权重矩阵的更新具有低秩特性。这意味着我们可以用两个小矩阵的乘积来近似表示完整的权重更新。

数学表示：
原始前向传播：h = Wx
LoRA修改后：h = Wx + BAx

其中：

W ∈ ℝ^{d×k}：原始权重矩阵
A ∈ ℝ^{r×k}, B ∈ ℝ^{d×r}：低秩适配矩阵
r ≪ min(d,k)：秩(rank)，通常为4-64

3.2 实现细节

3.2.1 参数初始化

通常这样初始化LoRA矩阵：

A：随机高斯初始化(均值为0)
B：零初始化

这样训练开始时BA=0，不影响原始模型行为。

3.2.2 缩放因子

实际实现中会引入缩放因子α/r：

code复制h = Wx + (α/r)BAx

其中α是一个与r同量级的常数(通常r的2-8倍)。这个缩放使得调整r时不需要重新调整学习率。

3.2.3 合并权重

训练完成后，可以将LoRA权重合并回原权重：

code复制W' = W + (α/r)BA

这样推理时不增加额外计算。

3.3 参数选择策略

Rank选择：
- 一般从r=4或8开始尝试
- 更复杂任务可能需要r=16或32
- 实验表明许多任务r=4已经足够
应用位置：
- Transformer中的Q/V矩阵效果最好
- 可以同时应用于多个层的多个矩阵
Alpha值：
- 通常设置为r的2-8倍
- 与学习率共同影响适配强度

3.4 实际应用示例

以HuggingFace Transformers库为例，使用LoRA微调GPT-2：

python复制from peft import LoraConfig, get_peft_model

# 配置LoRA参数
config = LoraConfig(
    r=8,  # Rank
    lora_alpha=32,  # Alpha
    target_modules=["c_attn"],  # 应用于注意力层的Q/V矩阵
    lora_dropout=0.1,
    bias="none",
)

# 创建基础模型
model = GPT2LMHeadModel.from_pretrained("gpt2")

# 添加LoRA适配器
model = get_peft_model(model, config)

# 训练时只训练LoRA参数
for name, param in model.named_parameters():
    if "lora" not in name:
        param.requires_grad = False

# 训练完成后保存适配器
model.save_pretrained("lora_adapter")

3.5 优势与局限

优势：

参数效率：训练参数可减少100-1000倍
内存效率：只需存储适配器，多个任务可共享基础模型
无推理开销：可合并权重，不增加推理时间
模块化：不同任务适配器可以热切换

局限：

低秩假设可能不适用于所有任务
需要选择适当的rank和应用位置
与全参数微调相比可能略有性能下降

4. 综合应用与经验分享

4.1 交叉熵损失的实际调优

在最近的一个多标签分类项目中，我们发现标准交叉熵损失表现不佳。通过以下调整显著提升了模型性能：

标签平滑：

python复制class LabelSmoothingCrossEntropy(nn.Module):
    def __init__(self, epsilon=0.1):
        super().__init__()
        self.epsilon = epsilon
    
    def forward(self, logits, targets):
        n_classes = logits.size(-1)
        log_probs = -F.log_softmax(logits, dim=-1)
        loss = (1-self.epsilon)*log_probs.gather(1, targets) + (self.epsilon/n_classes)*log_probs.sum(dim=-1)
        return loss.mean()

类别加权：
- 根据类别频率计算权重
- 对罕见类别给予更高权重
Focal Loss变体：
- 降低易分类样本的权重
- 专注于难样本

4.2 生成参数组合实验

在客服对话生成任务中，我们系统测试了不同参数组合：

组合	Temperature	Top-k	Top-p	Beam	人工评估
1	0.7	50	0.9	1	创意性强但有时不相关
2	0.5	-	0.7	5	平衡性好
3	0.3	-	-	10	最保守但安全

最佳实践是组合2作为默认设置，对创意性要求高的场景使用组合1。

4.3 LoRA微调实战技巧

渐进式微调：
- 先用小rank(r=4)微调
- 冻结已训练适配器，添加新适配器(r=8)
- 逐步增加模型容量

混合精度训练：

python复制model = get_peft_model(model, config)
model = model.to('cuda')
scaler = torch.cuda.amp.GradScaler()

with torch.cuda.amp.autocast():
    outputs = model(inputs)
    loss = criterion(outputs, labels)
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()