大模型文本处理核心技术：分词与嵌入详解

红护

1. 大模型处理文本的核心技术：分词与嵌入

在自然语言处理领域，分词(Tokenization)和嵌入(Embedding)是大型语言模型(LLM)处理文本的两大核心技术。它们共同构成了机器理解人类语言的基石，将人类可读的文本转化为机器可处理的数学表示。

1.1 分词：机器阅读的第一步

分词是将文本转换为模型可理解的离散符号的过程。想象一下，当你学习一门外语时，首先要学会将句子拆分成单词或词组。对于机器而言，这个过程同样重要，但更加复杂。

1.1.1 为什么需要分词？

直接处理原始文本对计算机来说效率极低。分词的主要目的包括：

将文本转换为离散的符号序列
减少输入空间的维度
捕捉语言的基本单位
为后续的嵌入层提供输入

1.1.2 分词方案的演进

早期的分词方法主要有两种极端：

字符级(Character-level)：将文本拆分为单个字符
词级(Word-level)：将文本拆分为完整的单词

现代LLM普遍采用介于两者之间的子词切分(Subword-level)方案，它结合了两者的优点：

常用词保持完整
生僻词拆解为字根
词表大小适中(通常30k-150k)
能处理未知词

1.2 主流分词算法详解

目前主流的大模型主要使用以下三种算法的变体：

1.2.1 BPE(Byte Pair Encoding)

BPE是一种基于统计的压缩算法，被GPT系列模型广泛采用。其核心思想是：

初始时将每个单词拆分为字符
统计相邻字符对的频率
不断合并最高频的字符对
直到达到预设的词表大小

BPE的优势在于：

能自动学习常见的子词组合
对未知词有良好的处理能力
实现相对简单高效

1.2.2 WordPiece

WordPiece是BERT等模型采用的分词算法，与BPE类似但合并依据不同：

不是单纯基于频率
而是基于合并后对语言模型似然值的提升
使用公式：score = freq(x,y)/(freq(x)*freq(y))

这使得WordPiece：

能更好地处理形态变化
生成的子词更具语义相关性
但计算复杂度略高于BPE

1.2.3 SentencePiece

SentencePiece采用自顶向下的策略：

从一个大候选词表开始
使用Unigram语言模型评估每个token的重要性
逐步删除贡献最小的token
直到达到目标词表大小

其独特优势包括：

不依赖空格分词，直接处理原始文本
完美支持中文、日文等无空格语言
可完美还原原始文本(包括空格)

1.3 分词技术的新趋势

随着模型发展，分词技术也在不断演进：

词表大小从30k-50k增长到100k-150k
更智能的数字处理方式
对空格和缩进更精细的处理
原生多语言支持增强
中文等非英语语言的优化

2. 嵌入：从符号到语义空间

分词将文本转换为ID序列后，嵌入层负责将这些离散符号映射到连续的向量空间，为模型提供丰富的语义表示。

2.1 嵌入的基本概念

2.1.1 从Token ID到向量

嵌入过程可分为三个阶段：

Token ID：简单的整数索引
One-Hot编码：极度稀疏的高维向量
稠密嵌入：低维连续的语义向量

2.1.2 嵌入层的实现

嵌入层本质上是一个可学习的查找表：

维度：V×d(V是词表大小，d是嵌入维度)
初始化：通常使用随机初始化
训练：通过下游任务共同优化

现代大模型的嵌入维度通常在768到4096之间，远小于词表大小，实现了高效的维度压缩。

2.2 嵌入空间的特性

2.2.1 语义几何

嵌入空间最神奇的特性是其几何关系反映语义关系：

相似词在空间中距离相近
词与词之间存在线性关系(如：国王-男人+女人≈女王)
方向对应特定的语义关系

2.2.2 静态嵌入 vs 上下文嵌入

嵌入可分为两种类型：

静态嵌入(如Word2Vec)：
- 每个词有固定向量
- 无法处理多义词
- 计算效率高
上下文嵌入(如BERT)：
- 向量随上下文动态变化
- 能区分多义词的不同含义
- 计算成本较高

2.3 嵌入的应用

2.3.1 语义相似度计算

通过计算向量间的余弦相似度，可以：

衡量文本间的语义相关性
实现基于内容的检索
构建推荐系统

2.3.2 可视化分析

使用t-SNE或UMAP等降维技术，可以将高维嵌入投影到2D/3D空间，直观展示：

词与词之间的语义关系
文档的聚类情况
不同领域的分布

3. 实战：分词与嵌入的应用

3.1 使用TikToken进行高效分词

TikToken是OpenAI开源的高性能分词库，特别适合处理GPT系列模型的文本。

3.1.1 基本用法

python复制import tiktoken

# 获取编码器
enc = tiktoken.encoding_for_model("gpt-4")

# 编码文本
text = "Hello, world! 我爱大模型"
token_ids = enc.encode(text)
tokens = [enc.decode_single_token_bytes(tid) for tid in token_ids]

print(f"Token IDs: {token_ids}")
print(f"Tokens: {tokens}")

3.1.2 分词结果分析

不同语言的Token化效率差异很大：

英语：常用词通常保持完整
中文：可能被拆分为多个子词
数字：现代分词器有专门优化

3.2 构建语义搜索引擎

基于嵌入的语义搜索是RAG系统的核心组件。

3.2.1 基本流程

将文档库中的所有文档转换为嵌入向量
存储向量和原始文本的映射关系
对查询文本同样生成嵌入向量
计算查询向量与所有文档向量的相似度
返回最相似的前k个文档

3.2.2 代码实现

python复制from sentence_transformers import SentenceTransformer, util

# 加载预训练模型
model = SentenceTransformer('all-MiniLM-L6-v2')

# 准备语料库
corpus = ["A man is eating food.", 
          "A man is eating a piece of bread.",
          "The girl is carrying a baby."]

# 生成嵌入
corpus_embeddings = model.encode(corpus, convert_to_tensor=True)

# 处理查询
query = "Someone is having a meal"
query_embedding = model.encode(query, convert_to_tensor=True)

# 计算相似度
cos_scores = util.cos_sim(query_embedding, corpus_embeddings)[0]

# 排序结果
results = sorted(zip(cos_scores, corpus), key=lambda x: x[0], reverse=True)

for score, text in results:
    print(f"{score:.4f}\t{text}")

3.3 嵌入可视化

可视化嵌入空间有助于理解模型的语义表示。

3.3.1 使用t-SNE

python复制from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

# 准备词汇
words = ["king", "queen", "man", "woman", "cat", "dog"]

# 获取嵌入(假设已有嵌入矩阵)
embeddings = model.encode(words)

# t-SNE降维
tsne = TSNE(n_components=2, random_state=42)
vis_data = tsne.fit_transform(embeddings)

# 可视化
plt.figure(figsize=(10,8))
for i, word in enumerate(words):
    plt.scatter(vis_data[i,0], vis_data[i,1])
    plt.text(vis_data[i,0], vis_data[i,1], word, fontsize=12)
plt.show()