大语言模型核心原理：Next Token Prediction与Transformer架构详解

如云长翩

1. 大语言模型的核心原理：Next Token Prediction

作为一名长期从事自然语言处理研究的工程师，我经常被问到："大语言模型到底是如何工作的？"要理解这个问题的答案，我们需要从最基础的概念开始——next token prediction（下一个词元预测）。这是所有现代大语言模型（LLM）的核心机制，无论是预训练、微调还是推理阶段，模型本质上都是在做这件事。

想象一下你在玩一个文字接龙游戏：给定前面的几个字，你需要猜出下一个最可能出现的字。大语言模型的工作原理与此类似，只不过它是在一个极其庞大的文本数据集上训练出来的"接龙高手"。这个简单的机制之所以能产生如此惊人的效果，关键在于其背后的transformer架构和超大规模的训练数据。

2. Token与文本表示

2.1 什么是Token？

Token是语言模型处理文本的基本单位。它可以是单词、子词或标点符号，具体取决于所使用的分词器（tokenizer）。在英文中，"unhappiness"可能被拆分为"un"、"happi"和"ness"三个token；而在中文中，"人工智能"可能被拆分为"人工"和"智能"两个token。

不同平台对token的定义有所不同：

通义千问和千帆大模型中，1 Token ≈ 1个汉字
腾讯混元大模型中，1 Token ≈ 1.8个汉字

这种差异主要源于不同模型使用的分词器和训练数据的差异。理解token的概念非常重要，因为：

模型的处理能力通常以token数量来衡量（如上下文长度）
API调用费用通常按token计费
不同语言的token效率差异会影响生成速度

2.2 Token Embedding与位置编码

当文本被转换为token序列后，每个token会被映射为一个高维向量，称为token embedding。这个过程类似于查表操作，模型有一个固定的embedding矩阵，其中每一行对应词表中的一个token。

但是，单纯的token embedding丢失了文本的顺序信息。为了解决这个问题，transformer引入了位置编码（positional encoding）。每个位置都有一个独特的位置embedding，它与token embedding相加后作为模型的输入。这种设计使得模型能够感知token在序列中的相对位置。

位置编码的一个关键限制是上下文长度。如果模型在训练时只学习了较短长度的位置编码（如2048个位置），那么在推理阶段就无法有效处理更长的文本序列。这也是为什么有些模型需要专门的"长文本扩展"技术。

3. Transformer架构详解

3.1 基本结构

现代大语言模型大多基于decoder-only的transformer架构。这种结构由多个相同的block堆叠而成，每个block包含两个主要组件：

多头因果自注意力机制（Multi-headed Causal Self-Attention）
前馈神经网络（Feed-forward Neural Network）

这种设计使得模型能够：

通过自注意力机制捕捉长距离依赖关系
通过前馈网络进行复杂的特征变换
通过残差连接缓解梯度消失问题

3.2 因果自注意力机制

因果自注意力（Causal Self-Attention）是语言模型的核心创新。它通过引入掩码（mask）确保模型在预测下一个token时，只能"看到"当前位置之前的token。具体实现上：

计算注意力权重时，将当前时刻之后的所有位置权重设为零
这使得模型在训练时可以并行处理整个序列
在推理时保持自回归生成特性

这种机制的一个直观类比是：就像阅读时用一张纸盖住后面的内容，只能根据已经读到的部分预测下一个词。

4. 训练与推理过程

4.1 预训练阶段

在预训练阶段，模型通过next token prediction任务学习语言规律。具体步骤：

输入序列经过embedding层得到token和位置表示
通过transformer blocks进行特征转换
最后一层的输出通过线性层映射到词表大小
使用softmax转换为概率分布
计算交叉熵损失并反向传播

关键优势：

可以并行计算所有位置的loss
不需要人工标注数据（自监督学习）
能够捕捉丰富的语言知识

4.2 推理阶段

推理阶段采用自回归生成方式：

初始化输入序列（可以是空或提示词）
前向传播得到下一个token的概率分布
根据采样策略选择下一个token
将生成的token追加到输入序列
重复直到达到最大长度或停止条件

常见的采样策略包括：

贪婪搜索（总是选择概率最高的token）
核采样（从概率最高的k个token中采样）
Top-p采样（从累积概率达到p的最小token集合中采样）

5. 温度参数与生成控制

温度参数（temperature）是控制生成随机性的重要超参数：

temperature > 1：平滑概率分布，增加多样性
temperature < 1：锐化概率分布，提高确定性
temperature = 1：保持原始分布

实际应用中的经验法则：

创意写作：temperature=0.7-1.0
技术文档：temperature=0.2-0.5
代码生成：temperature=0.1-0.3

温度参数的数学表达：

code复制adjusted_logits = logits / temperature
probs = softmax(adjusted_logits)

6. 代码实现解析

以nanoGPT为例，我们来看关键实现细节：

6.1 Transformer Block实现

python复制class Block(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.ln_1 = LayerNorm(config.n_embd, bias=config.bias)
        self.attn = CausalSelfAttention(config)
        self.ln_2 = LayerNorm(config.n_embd, bias=config.bias)
        self.mlp = MLP(config)

    def forward(self, x):
        x = x + self.attn(self.ln_1(x))  # 残差连接+注意力
        x = x + self.mlp(self.ln_2(x))   # 残差连接+前馈网络
        return x

6.2 生成过程实现

python复制@torch.no_grad()
def generate(self, idx, max_new_tokens, temperature=1.0, top_k=None):
    for _ in range(max_new_tokens):
        # 裁剪超出上下文长度的部分
        idx_cond = idx if idx.size(1) <= self.config.block_size else idx[:, -self.config.block_size:]
        
        # 获取logits
        logits, _ = self(idx_cond)
        logits = logits[:, -1, :] / temperature
        
        # 可选top-k过滤
        if top_k is not None:
            v, _ = torch.topk(logits, min(top_k, logits.size(-1)))
            logits[logits < v[:, [-1]]] = -float('Inf')
        
        # 采样下一个token
        probs = F.softmax(logits, dim=-1)
        idx_next = torch.multinomial(probs, num_samples=1)
        idx = torch.cat((idx, idx_next), dim=1)
    
    return idx