大语言模型处理流程：从分词到词嵌入与注意力机制-AI智能范式网

大语言模型处理流程：从分词到词嵌入与注意力机制

作者小怪兽

1. 从文字到数字：大语言模型如何处理你的问题

当你向ChatGPT这类大语言模型提问时，看似简单的对话背后隐藏着一套精密的处理机制。让我们以"今天天气怎么样？"这个常见问题为例，拆解模型内部的完整处理流程。

首先需要明确的是，计算机本质上只能处理数字。这与人类理解文字的方式截然不同。当我们看到"天气"这个词时，脑海中会浮现阳光、雨雪等具体意象，但计算机需要先将这些符号转化为它能处理的数值形式。这个过程就像给每个单词分配一个独特的身份证号码。

1.1 分词：语言的最小单位处理

在编码之前，模型需要对输入文本进行分词处理。以中文为例：

原始输入："今天天气怎么样？"
基础分词结果：["今天", "天气", "怎么样", "？"]

但现代大语言模型通常采用更精细的子词(subword)分词方式。这种分词方法的优势在于：

能有效平衡词汇表大小和处理效率
可以拆分出常见词缀和字根
对未登录词(模型训练时没见过的词)有更好的处理能力

实际子词分词可能如下：
["今", "天", "天气", "怎么", "样", "？"]

技术细节：主流模型使用的BPE(Byte Pair Encoding)算法通过统计学习确定最佳分词方案。它会先统计训练语料中所有字符的出现频率，然后迭代合并出现频率最高的字符对，直到达到预设的词汇表大小。

1.2 词嵌入：从离散符号到连续空间

分词完成后，每个token会被转换为对应的ID。假设我们的词汇表中：
"今"→1024
"天"→2048
"天气"→3072
...

但单纯的数字ID无法表达词语之间的语义关系。词嵌入技术将这些离散ID映射到高维连续向量空间(通常是几百到几千维)，使得语义相近的词在向量空间中的位置也更接近。

例如：
"猫"→[0.2, -0.5, 0.7,...]
"狗"→[0.3, -0.4, 0.6,...]
"汽车"→[-0.8, 0.1, -0.2,...]

这种表示方式让模型能够捕捉到"猫"和"狗"都是宠物这一语义关系，而它们与"汽车"的关系则相对较远。

2. 位置编码：解决自然语言的顺序问题

2.1 为什么需要位置信息？

自然语言中，词语的顺序至关重要。比较：
"猫追老鼠"和"老鼠追猫"
这两个句子包含完全相同的词语，但含义截然不同。

传统RNN类模型通过时序处理自然包含位置信息，但Transformer架构是并行处理所有token的，因此需要显式地加入位置编码。

2.2 正弦位置编码详解

Transformer使用一组精心设计的正弦函数来编码位置信息：

PE(pos,2i) = sin(pos/10000^(2i/d_model))
PE(pos,2i+1) = cos(pos/10000^(2i+1/d_model))

其中：

pos是token在序列中的位置
i是维度索引
d_model是模型的总维度数

这种编码方式具有以下优点：

可以处理任意长度的序列
不同位置的编码是唯一的
相对位置关系可以通过线性变换表示

在实际实现中，位置编码会与词嵌入向量相加，形成最终的输入表示。这样既保留了词语的语义信息，又包含了其在句子中的位置信息。

3. 注意力机制：模型如何理解上下文关系

3.1 自注意力基本概念

自注意力机制是Transformer架构的核心创新。它允许模型在处理每个token时，动态地关注输入序列中其他相关的token。

具体实现通过Q(Query)、K(Key)、V(Value)三个向量完成：

Q向量表示当前token想要查询什么
K向量表示每个token能提供什么信息
V向量是实际要传递的信息内容

计算过程分为四步：

计算Q与所有K的点积，得到注意力分数
对分数进行缩放和softmax归一化
用归一化后的分数加权求和V向量
输出加权后的表示

3.2 多头注意力机制

实际应用中，模型会使用多头注意力机制。这意味着：

将Q、K、V投影到多个(通常是8-16个)不同的子空间
在每个子空间独立计算注意力
最后将所有头的输出拼接起来

这样做的优势是：

不同注意力头可以关注不同类型的关系
有的头可能关注局部语法关系
有的头可能捕捉长距离语义关联
有的头可能专注于特定类型的实体

4. 前馈网络：信息的深度加工

在注意力层之后，模型会通过前馈神经网络对信息进行进一步处理。这一部分通常由两个全连接层组成，中间包含一个非线性激活函数(如ReLU)。

前馈网络的主要功能包括：

整合来自不同注意力头的信息
提取更高层次的抽象特征
为下一层处理准备适当的表示

值得注意的是，每个Transformer层都包含独立的参数，这使得模型能够在不同深度学习不同级别的特征：

浅层：关注局部语法和简单语义
中层：处理句子级别的结构
深层：理解篇章级逻辑和复杂推理

5. 输出生成：从数字回到文字

5.1 解码过程详解

经过数十层(如GPT-3有96层)的Transformer块处理后，模型最终需要将高维向量表示转换回人类可读的文字。这个过程称为解码。

解码的关键步骤：

最后一个token的隐藏状态通过线性层投影到词汇表大小的空间
应用softmax函数计算每个词的概率分布
根据策略选择最可能的词作为输出

5.2 生成策略比较

常见的生成策略包括：

贪心搜索(Greedy Search)
- 简单选择概率最高的词
- 效率高但可能陷入重复循环
束搜索(Beam Search)
- 保留多个候选序列
- 平衡生成质量和效率
采样方法(Sampling)
- 按概率分布随机选择
- 可调节温度参数控制随机性

现代大语言模型通常采用改进的采样方法，如top-k采样或top-p采样，在保证多样性的同时避免低质量输出。

6. 模型幻觉的产生机制

6.1 什么是模型幻觉？

模型幻觉指的是模型生成看似合理但实际上不正确或毫无根据的信息。例如当被问及"今天天气怎么样？"时，模型可能会编造一个具体的天气预报，而不是承认它无法获取实时天气数据。

6.2 幻觉的三大根源

训练数据偏差
- 模型从互联网海量数据学习
- 数据中本身包含矛盾和不准确信息
概率生成本质
- 模型基于统计规律生成文本
- 倾向于生成高频出现的表达方式
上下文理解局限
- 长距离依赖关系处理不足
- 复杂逻辑推理能力有限

6.3 缓解幻觉的方法

虽然无法完全消除，但可以通过以下方法减轻：

提供更准确的参考信息
要求模型标注不确定的内容
结合检索增强生成技术
设计更精细的提示工程

在实际应用中，理解模型幻觉的产生机制有助于我们更合理地评估和使用大语言模型的输出。