大语言模型(Large Language Model, LLM)是近年来人工智能领域最具突破性的技术之一。这类模型通过分析海量文本数据,学习人类语言的统计规律和语义关系,最终获得惊人的文本理解和生成能力。ChatGPT、DeepSeek等知名产品背后都依赖这类大模型技术。
这类模型最令人惊叹的是它们展现出的"通用智能"特征——不仅能进行流畅对话,还能完成代码编写、论文摘要、诗歌创作等多样化任务。这种能力的核心在于模型通过数千亿参数的神经网络,构建了一个高度复杂的语言概率分布系统。简单来说,模型在预测"给定前文的情况下,下一个词应该是什么"这件事上达到了前所未有的准确度。
大语言模型本质上是一个极其复杂的概率模型。它的核心任务是计算条件概率:P(下一个词|已出现的所有词)。这个概率值决定了模型在生成文本时选择哪个词作为输出。
举个例子,对于句子开头"今天天气真",模型会计算:
然后根据这些概率值选择最可能的词继续生成。
现代大模型采用Transformer架构,其核心创新是自注意力机制。这种机制允许模型在处理当前词时,动态地关注输入序列中所有相关的位置,而不仅仅是相邻的几个词。
具体来说,模型会为序列中的每个词计算三个向量:
通过计算Query和Key的点积,模型得到注意力权重,然后用这些权重对Value向量进行加权求和,最终得到当前词的上下文相关表示。
预训练是大模型获得通用能力的关键阶段。在这个阶段,模型通过以下目标函数进行优化:
L(θ) = -∑ log P(x_t | x_{<t}; θ)
其中θ表示模型参数,x_t是第t个词,x_{<t}表示前t-1个词。这个目标函数要求模型最大化正确预测下一个词的概率。
实际训练中,模型会:
交叉熵损失的具体计算过程如下:
对于单个样本:
L = -∑ y_i log(p_i)
其中y_i是真实标签的one-hot编码,p_i是模型预测的概率分布。在大规模训练中,通常会使用混合精度计算来优化这个过程:
在推理阶段,模型采用自回归方式生成文本:
常见的采样策略包括:
| 策略 | 数学描述 | 特点 |
|---|---|---|
| 贪心搜索 | w_t = argmax P(w | w_{<t}) |
| 束搜索 | 保留top-k候选序列 | 质量高但计算量大 |
| 温度采样 | P(w) ∝ exp(logit/T) | 平衡多样性和质量 |
| top-p采样 | 从累积概率>p的最小集合采样 | 动态调整候选集 |
Transformer的核心计算可以表示为:
Attention(Q,K,V) = softmax(QK^T/√d_k)V
其中:
这个计算的时间复杂度为O(n^2d),这也是大模型计算成本高的主要原因。
每个Transformer层还包含一个前馈网络:
FFN(x) = W_2·ReLU(W_1x + b_1) + b_2
其中W_1 ∈ R^{d_{ff}×d}, W_2 ∈ R^{d×d_{ff}},d_{ff}通常是d的4倍。
模型的理论容量可以用VC维来估算。对于具有N个参数的模型,其VC维大约为:
VCdim ≈ O(N log N)
这意味着1750亿参数的GPT-3具有极其强大的表达能力。
训练计算量可以用以下公式估算:
C ≈ 6N·D
其中N是参数量,D是训练tokens数。例如GPT-3:
监督微调使用带标注数据优化:
L_{SFT} = -∑ log P(y|x; θ)
其中(x,y)是输入-输出对。这个过程通常使用较小的学习率(如5e-6)。
RLHF阶段使用PPO算法优化:
L_{RL} = E[min(r(θ)A, clip(r(θ),1-ε,1+ε)A)]
其中:
Transformer使用的位置编码公式:
PE(pos,2i) = sin(pos/10000^{2i/d})
PE(pos,2i+1) = cos(pos/10000^{2i/d})
这种编码让模型能够感知词的位置信息。
层归一化的计算:
LN(x) = γ⊙(x-μ)/σ + β
其中μ,σ是均值和标准差,γ,β是可学习参数。
混合精度训练的关键步骤:
梯度裁剪的实现:
g ← g·min(1, θ/||g||)
防止梯度爆炸,通常θ设为1.0。
困惑度(Perplexity)的计算:
PP = exp(-1/N ∑ log P(w_i|w_{<i}))
BLEU的计算:
BLEU = BP·exp(∑ w_n log p_n)
其中BP是简短惩罚因子,p_n是n-gram精度。
自注意力理论上可以处理任意长序列,但实际上:
模型生成错误内容的原因:
稀疏化方法如:
知识蒸馏损失:
L = αL_{task} + (1-α)L_
其中L_{distill}是师生模型输出的KL散度。