1. 问题背景与现象描述
最近我们团队在对某金融产品的风控系统进行模型升级时,遇到了一些意料之外的情况。原本预期新模型能够带来更好的风险识别效果,但灰度测试的结果却显示:
- KS指标异常下降:首月KS值从预期的0.30快速下滑到0.20左右
- 风险表现反常:使用新模型的灰度分支(新分支)风险水平反而高于仍使用旧模型的非灰度分支(旧分支)
这两个现象中,后者尤其值得警惕。在风控领域,风险水平的异常升高远比模型区分度下降更为严重,因为这直接关系到业务的实际损失。
这里需要特别说明的是,两个分支除了使用的模型不同外,其他所有策略规则都保持完全一致。这种控制变量的设计本应能让我们准确评估新模型的效果,但结果却出乎意料。
2. KS指标下降的深度解析
2.1 训练数据与线上数据的对比
首先,我们对比了模型训练阶段的KS值和当前线上旧分支的KS值:
- 训练集KS ≈ 0.25
- 当前旧分支KS ≈ 0.25
这个对比结果很有价值,它告诉我们两个重要信息:
- 当前线上客群的特征分布与训练数据基本一致,没有出现明显的分布偏移
- 旧模型的表现与训练阶段一致,说明模型本身没有发生衰减
2.2 重新理解KS变化
基于上述发现,我们需要重新理解新分支KS值的变化:
- 不是从0.30降到0.20
- 而是从理论基准0.25降到0.20
这个视角转换很重要。如果新模型确实有效,这种程度的下降在一定程度上是可以接受的。首月KS值偏高的0.30,很可能是由于新分支样本量较小带来的统计波动。
在实际风控工作中,我们经常遇到小样本导致的指标波动。我的经验是,对于样本量不足的情况,至少要观察3个月以上的数据才能做出可靠判断。
3. 风险异常升高的根本原因探究
相比KS值的波动,新分支风险水平高于旧分支的问题更为棘手。我们建立了四个假设来解释这个现象:
- 客群变化导致模型失效
- 新模型本身效果不如旧模型
- 新旧分支的策略实际执行存在差异
- 随机性因素导致结果偏差
3.1 假设验证过程
假设1(客群变化):已经被前面的KS对比数据否定。旧分支KS与训练阶段一致,说明客群特征稳定。
假设4(随机性):我们进行了伯努利实验验证。按新旧分支比例随机划分样本,重复实验10000次,观察风险差异的分布。结果显示,连续多个月的风险差异不太可能是随机波动导致的。
3.2 模型效果对比分析
我们重点考察了"拒绝推断"问题:新模型是否将原本被旧模型拒绝的高风险样本放行了?
通过交叉分析发现:
- 新模型头部客群落入旧模型尾部的比例较低(约5%)
- 但新分支头部客群的风险仍高于旧分支
这说明虽然新模型的拒绝推断整体合理,但还不足以解释风险升高的全部原因。
3.3 关键发现:评级与策略的错配
深入分析后,我们发现问题的核心在于:
新旧模型的评级标准与策略规则没有对齐
虽然策略团队声称规则没有变化,但实际上策略规则是与模型评级绑定的:
- 旧模型:评级A → 规则A
- 新模型:评级A → 同样使用规则A
表面看规则一致,但新旧模型对"评级A"的定义不同:
- 旧模型评级A占比约10%
- 新模型评级A占比约20%
这意味着新分支在头部客群上实际上放宽了策略,风险升高是必然结果。
4. 问题验证与解决方案
4.1 验证实验设计
为了验证这个发现,我们做了一个关键实验:
将新旧模型的评级A都统一调整为前10%的客群。结果显示:
- 新模型评级A的通过率更高
- 同时风险更低
这证明在相同头部比例下,新模型的区分度确实优于旧模型。
4.2 交叉分析结果
进一步分析发现新旧评级的客群存在明显交叉:
- 旧评级A中,仅约50%在新模型中仍为A
- 新评级A中,仅约20%在旧模型中为A
这种交叉导致了结构性风险偏移:原本在旧分支会被B/C规则拦截的客群,在新分支被归入A并放行。
5. 经验总结与改进建议
5.1 模型替换的注意事项
这次事件给我们几个重要启示:
-
模型与策略的耦合性:现有策略是基于旧模型长期迭代形成的,与旧模型高度耦合。直接替换模型而不调整策略,可能适得其反。
-
评级标准的统一:如果必须保持策略不变,新模型的排序关系应该尽量与旧模型保持线性正序。
-
灰度测试的设计:同时进行多种灰度测试(如前置/后置、尾部拦截等)虽然节省时间,但会增加问题定位的复杂度。
5.2 实操建议
基于这次经验,我总结了几点实操建议:
-
模型替换前的准备工作:
- 充分分析新旧模型的排序一致性
- 建立评级映射关系表
- 进行小规模的前置测试
-
监控指标的设置:
- 除了传统指标如KS、AUC外
- 要特别监控各评级区间的风险表现
- 设置同评级跨模型的对比指标
-
问题排查的方法论:
- 建立系统的假设验证流程
- 设计对照实验时要考虑业务实际
- 保留足够的过程数据用于分析
6. 后续优化方向
针对这次发现的问题,我们计划从以下几个方向进行优化:
-
评级标准化:建立统一的评级标准体系,使不同模型的评级具有可比性。
-
策略解耦:设计更灵活的规则引擎,减少策略对特定模型的依赖。
-
监控增强:建立更细粒度的实时监控,能够快速发现评级分布的变化。
-
迭代流程优化:完善模型迭代的测试和上线流程,增加兼容性检查环节。
在实际工作中,我发现很多风控团队都会遇到类似的模型替换问题。这个案例的价值在于它揭示了一个经常被忽视的关键点:模型效果的好坏不仅取决于算法本身,还取决于它与现有系统的融合程度。