大语言模型(LLM)核心原理与数学基础详解

爱过河的小马锅

1. 大语言模型的基本概念与核心能力

大语言模型（Large Language Model, LLM）是近年来人工智能领域最具突破性的技术之一。这类模型通过分析海量文本数据，学习人类语言的统计规律和语义关系，最终获得惊人的文本理解和生成能力。ChatGPT、DeepSeek等知名产品背后都依赖这类大模型技术。

这类模型最令人惊叹的是它们展现出的"通用智能"特征——不仅能进行流畅对话，还能完成代码编写、论文摘要、诗歌创作等多样化任务。这种能力的核心在于模型通过数千亿参数的神经网络，构建了一个高度复杂的语言概率分布系统。简单来说，模型在预测"给定前文的情况下，下一个词应该是什么"这件事上达到了前所未有的准确度。

2. 语言模型的数学本质

2.1 概率建模的基本原理

大语言模型本质上是一个极其复杂的概率模型。它的核心任务是计算条件概率：P(下一个词|已出现的所有词)。这个概率值决定了模型在生成文本时选择哪个词作为输出。

举个例子，对于句子开头"今天天气真"，模型会计算：

P("好"|"今天天气真") = 0.85
P("差"|"今天天气真") = 0.1
P("热"|"今天天气真") = 0.05

然后根据这些概率值选择最可能的词继续生成。

2.2 上下文窗口与注意力机制

现代大模型采用Transformer架构，其核心创新是自注意力机制。这种机制允许模型在处理当前词时，动态地关注输入序列中所有相关的位置，而不仅仅是相邻的几个词。

具体来说，模型会为序列中的每个词计算三个向量：

Query向量：表示当前词"想知道什么"
Key向量：表示每个词"能提供什么"
Value向量：包含每个词的实际信息

通过计算Query和Key的点积，模型得到注意力权重，然后用这些权重对Value向量进行加权求和，最终得到当前词的上下文相关表示。

3. 训练过程的数学细节

3.1 预训练阶段

预训练是大模型获得通用能力的关键阶段。在这个阶段，模型通过以下目标函数进行优化：

L(θ) = -∑ log P(x_t | x_{<t}; θ)

其中θ表示模型参数，x_t是第t个词，x_{<t}表示前t-1个词。这个目标函数要求模型最大化正确预测下一个词的概率。

实际训练中，模型会：

从海量文本中随机采样一个片段
前向计算得到预测分布
计算预测分布与真实分布的交叉熵损失
反向传播更新参数

3.2 损失函数的计算细节

交叉熵损失的具体计算过程如下：

对于单个样本：
L = -∑ y_i log(p_i)

其中y_i是真实标签的one-hot编码，p_i是模型预测的概率分布。在大规模训练中，通常会使用混合精度计算来优化这个过程：

前向传播使用FP16
反向传播使用FP32
梯度更新使用FP32

4. 推理过程的数学原理

4.1 自回归生成

在推理阶段，模型采用自回归方式生成文本：

给定初始prompt
计算下一个词的概率分布
根据采样策略选择下一个词
将选择的词追加到输入序列
重复2-4步直到生成结束

4.2 采样策略对比

常见的采样策略包括：

策略	数学描述	特点
贪心搜索	w_t = argmax P(w	w_{<t})
束搜索	保留top-k候选序列	质量高但计算量大
温度采样	P(w) ∝ exp(logit/T)	平衡多样性和质量
top-p采样	从累积概率>p的最小集合采样	动态调整候选集