在机器学习领域,生成式模型(Generative Models)和判别式模型(Discriminative Models)构成了两种根本不同的建模范式。生成式模型试图学习数据的联合概率分布P(X,Y),而判别式模型则直接建模条件概率P(Y|X)。这种本质差异导致它们在算法设计、训练目标、应用场景等方面展现出截然不同的特性。
我第一次接触这个概念是在处理医疗影像分类项目时。当时团队就"用生成对抗网络生成样本扩充数据集"还是"直接优化分类器性能"产生激烈争论,这促使我系统研究了两类模型的底层逻辑。下面分享的不仅是教科书定义,更多是实战中积累的认知。
生成式模型通过贝叶斯定理建立完整概率图:
code复制P(Y|X) = P(X|Y)P(Y)/P(X)
需要学习:
典型代表如朴素贝叶斯、隐马尔可夫模型。我曾用朴素贝叶斯处理过邮件分类,发现当特征维度爆炸时,其条件独立性假设会严重损害性能。
判别式模型则直接学习决策边界:
code复制P(Y|X) = f(X;θ)
逻辑回归、SVM等都属于此类。在金融风控场景中,逻辑回归的系数可解释性往往比精度更重要。
生成式模型的训练目标是最大化联合似然:
code复制∏ P(x_i,y_i)
需要显式建模数据生成过程。例如在语音合成中,WaveNet需要学习音频信号的精确分布。
判别式模型则优化条件似然:
code复制∏ P(y_i|x_i)
更关注分类边界。计算机视觉中的ResNet就是典型例子——它不关心图像如何生成,只专注区分类别。
高斯混合模型(GMM):
变分自编码器(VAE):
生成对抗网络(GAN):
逻辑回归:
支持向量机(SVM):
现代深度分类器:
在电商推荐系统中,我们曾用VAE生成用户潜在兴趣向量,解决了冷启动问题。
金融反欺诈场景下,逻辑回归的特征重要性分析往往比单纯的高精度更有价值。
数据效率的权衡:
计算成本考量:
评估指标选择:
在部署广告点击率预测系统时,我们发现:虽然GAN生成的特征能提升离线AUC,但增加了线上延迟,最终选择了蒸馏后的判别模型。