机器学习中的分布距离度量：从KL散度到Wasserstein距离

Terminucia

1. 度量与分布距离概述

在机器学习领域，如何量化两个概率分布之间的差异是一个基础而关键的问题。无论是生成模型的训练、域适配任务，还是简单的分布比较，我们都需要可靠的度量工具。这些工具可以分为三大类：

f-散度族（如KL散度、JS散度）：基于概率密度比值的积分构造
最优传输距离（如Wasserstein距离）：考虑分布间的"质量搬运"成本
基于核的度量（如MMD）：通过特征空间中的均值差异进行比较

每种方法都有其独特的性质和应用场景。例如在生成对抗网络(GAN)中，Wasserstein距离因其良好的梯度特性而被广泛采用；而在双样本检验问题中，MMD因其计算简便和理论保证常成为首选。

实际应用中，选择哪种度量取决于：① 计算复杂度要求 ② 对分布支撑集不匹配的敏感度 ③ 梯度传播的需求 ④ 样本效率

2. KL散度与JS散度详解

2.1 KL散度的定义与局限

KL(Kullback-Leibler)散度定义为：

code复制KL(P||Q) = ∫ p(x) log(p(x)/q(x)) dx

其核心特性包括：

非对称性：KL(P||Q) ≠ KL(Q||P)
非负性：KL≥0，当且仅当P=Q时为零
对零测度敏感：若存在x使得q(x)=0而p(x)>0，则KL为无穷大

这些特性导致KL散度在实际应用中存在明显局限。例如在生成模型中，当生成分布Q的支撑集小于真实分布P时，KL散度会发散，使得训练不稳定。

2.2 JS散度的改进与不足

JS(Jensen-Shannon)散度是对称化的KL散度：

code复制JS(P,Q) = 0.5*KL(P||M) + 0.5*KL(Q||M), 其中M=0.5*(P+Q)

虽然JS散度解决了对称性问题，但仍然存在：

梯度消失问题：当两个分布没有重叠时，JS散度会饱和
对低维流形上的分布区分能力有限
样本复杂度随维度指数增长

这些缺陷促使研究者寻找更鲁棒的分布距离度量。

3. Wasserstein距离的理论与实践

3.1 最优传输的直观理解

Wasserstein距离源于最优传输理论，考虑将分布P"搬运"到分布Q的最小成本。对于离散情况，可以表示为：

code复制W_p(P,Q) = (inf_γ∈Γ(P,Q) ∫||x-y||^p dγ(x,y))^(1/p)

其中Γ(P,Q)是所有联合分布，其边缘分布分别为P和Q。

3.2 三种关键形式

Monge问题：寻找最优传输映射T，使得T#P=Q
Kantorovich松弛：允许质量分裂，转化为线性规划问题
对偶形式：特别地，1-Wasserstein距离有对偶表示：
```
code复制W_1(P,Q) = sup_{||f||_L≤1} |E_P[f] - E_Q[f]|
```

3.3 数值计算挑战

原始Wasserstein距离的计算涉及线性规划，复杂度为O(n^3)。对于大规模数据，这显然不可行。解决方法包括：

熵正则化（Sinkhorn算法）
切片Wasserstein距离
神经网络近似（如WGAN中的判别器）

4. 熵正则化与Sinkhorn算法

4.1 熵正则化的数学形式

在Kantorovich问题中加入熵项：

code复制OT_ε = min_γ∈Γ(P,Q) 

其中H(γ) = -∫γ(x,y)logγ(x,y)dxdy

ε控制正则化强度：

ε→0：恢复原始OT问题
ε→∞：退化为独立耦合γ=P⊗Q

4.2 Sinkhorn迭代算法

通过交替归一化实现高效计算：

code复制输入：成本矩阵C，分布a,b，正则化参数ε
初始化：K = exp(-C/ε), u = ones(n), v = ones(m)
重复：
    v = b / (K^T u)
    u = a / (K v)
直到收敛
输出：P = diag(u) K diag(v)

4.3 实现技巧

对数域计算：避免数值下溢
批处理：充分利用GPU并行性
收敛判断：监测边际误差
ε选择：通常取成本矩阵中位数的0.1倍

5. MMD的理论与应用

5.1 最大均值差异的定义

MMD通过再生核希尔伯特空间(RKHS)中的均值嵌入来比较分布：

code复制MMD^2(P,Q) = ||μ_P - μ_Q||_H^2

其中μ_P = E_{x∼P}[φ(x)]是核φ下的均值嵌入。

5.2 核选择策略

高斯核：k(x,y)=exp(-||x-y||^2/(2σ^2))
- σ通常取样本对距离的中位数
多尺度核：组合多个带宽的核
深度核：使用神经网络学习特征映射

5.3 样本估计

无偏估计形式：

code复制MMD^2 = 1/(n(n-1))∑_{i≠j}k(x_i,x_j) 
       + 1/(m(m-1))∑_{i≠j}k(y_i,y_j)
       - 2/(nm)∑_{i,j}k(x_i,y_j)

6. 点云距离度量

6.1 Chamfer距离

有向Chamfer距离：

code复制d_{CD}(X,Y) = 1/|X|∑_{x∈X} min_{y∈Y} ||x-y||^2

特点：

非对称
对异常点敏感
计算效率高（可用KD树加速）

6.2 Hausdorff距离

定义为：

code复制d_H(X,Y) = max{sup_{x∈X} inf_{y∈Y} ||x-y||, 
               sup_{y∈Y} inf_{x∈X} ||x-y||}

反映的是两个点集之间的最大不匹配程度。

6.3 应用建议

3D重建质量评估：
- 局部精度：Chamfer距离
- 全局一致性：Hausdorff距离
- 语义匹配：EMD距离
训练技巧：
- 使用平滑的最近邻搜索（如soft-min）
- 结合多尺度评估
- 对异常点进行截断处理

7. 生成模型评估实践

7.1 图像生成评估

常用指标：

FID (Fréchet Inception Distance)：
- 在Inception-v3特征空间计算Wasserstein-2距离
- 假设特征分布为高斯
IS (Inception Score)：
- 基于生成图像的类别分布熵
精度-召回率：
- 评估生成多样性和质量

7.2 点云生成评估

推荐组合：

CD：捕捉整体形状相似度
EMD：评估点对点对应关系
法向一致性：评估表面质量
覆盖率：评估生成多样性

8. 工程实现细节

8.1 Sinkhorn的PyTorch实现

python复制def sinkhorn(C, a, b, eps, max_iter=100):
    # C: cost matrix (n,m)
    # a: source distribution (n,)
    # b: target distribution (m,)
    # eps: regularization strength
    
    K = torch.exp(-C/eps)
    u = torch.ones_like(a)
    v = torch.ones_like(b)
    
    for _ in range(max_iter):
        v = b / (K.T @ u)
        u = a / (K @ v)
    
    P = torch.diag(u) @ K @ torch.diag(v)
    return P

关键优化：

对数域计算避免数值溢出
矩阵运算保持批处理维度
提前终止条件设置

8.2 MMD的高效计算

python复制def mmd_rbf(X, Y, sigma):
    XX = torch.cdist(X, X) ** 2
    YY = torch.cdist(Y, Y) ** 2
    XY = torch.cdist(X, Y) ** 2
    
    K_XX = torch.exp(-XX / (2*sigma**2))
    K_YY = torch.exp(-YY / (2*sigma**2))
    K_XY = torch.exp(-XY / (2*sigma**2))
    
    term1 = K_XX.mean() - K_XX.diag().mean()
    term2 = K_YY.mean() - K_YY.diag().mean()
    term3 = 2 * K_XY.mean()
    
    return term1 + term2 - term3

9. 前沿应用与扩展

9.1 不平衡最优传输

处理质量不守恒的情况：

code复制OT_ε^u = min_γ 

其中D_φ是φ-散度，控制质量变化惩罚

应用场景：

部分域适配
异常值鲁棒匹配
语义分割

9.2 Gromov-Wasserstein距离

比较结构相似性：

code复制GW(P,Q) = min_γ 

其中L是结构差异函数

特别适用于：

不同空间维度的分布比较
图匹配问题
分子结构对齐

10. 实用建议与技巧

指标选择指南：
- 需要梯度传播 → Sinkhorn或MMD
- 高维小样本 → 切片Wasserstein
- 几何敏感 → EMD或Chamfer
- 统计检验 → MMD
参数调优经验：
- Sinkhorn的ε：从成本矩阵中位数的0.1倍开始
- MMD的σ：使用中位数启发式或学习得到
- 迭代次数：监控边际误差变化
常见陷阱：
- 低估Wasserstein距离的样本复杂度
- 忽视度量本身的偏差性质
- 在非欧几里得空间错误使用几何度量