【风控】模型算法区分度指标KS
一、KS指标的定义原理
- 背景
- KS(Kolmogorov–Smirnov)原本用于检验样本分布与理论分布或两个样本分布是否一致。
- 风控建模中,将“好样本”(Good)与“坏样本”(Bad)的模型输出概率看作两组经验分布,用KS度量它们的最大分离程度,从而评估模型的区分度。
- 数学本质
- 令 F bad ( x ) F_{\text{bad}}(x) Fbad(x)与 F good ( x ) F_{\text{good}}(x) Fgood(x)分别为坏、好样本在阈值 x x x下的经验累积分布函数(ECDF),则
K S = max x ∣ F bad ( x ) − F good ( x ) ∣ \mathrm{KS} \;=\; \max_{x}\,\bigl|\,F_{\text{bad}}(x)\;-\;F_{\text{good}}(x)\bigr| KS=xmax Fbad(x)−Fgood(x) - 直观上,KS 是两条累积分布曲线间的最大垂直距离,衡量“在某个阈值处,坏人被甄别出的累积比例”与“好人被误伤出的累积比例”之差。
- 令 F bad ( x ) F_{\text{bad}}(x) Fbad(x)与 F good ( x ) F_{\text{good}}(x) Fgood(x)分别为坏、好样本在阈值 x x x下的经验累积分布函数(ECDF),则
二、KS计算流程
分箱(Binning)
- 可选等频、等距或基于分数段(如 decile、percentile、WOE 分箱)。
- 保证每个箱内样本量满足统计显著性。
统计各箱好坏比 - 令箱 i i i中:
- n i n_i ni为总样本数,
- g i g_i gi/ b i b_i bi 分别为好/坏样本数。
- 计算比率: r i = n i N , δ g i = g i G , δ b i = b i B , r_i = \frac{n_i}{N},\quad \delta g_i = \frac{g_i}{G},\quad \delta b_i = \frac{b_i}{B}, ri=Nni,δgi=Ggi,δbi=Bbi,
其中 N , G , B N,G,B N,G,B分别为总体、好样本和坏样本总数。
累积比率 - 按得分升序(或降序)累加:
F good , i = ∑ j ≤ i δ g j , F bad , i = ∑ j ≤ i δ b j . F_{\text{good},i} = \sum_{j\le i}\delta g_j,\quad F_{\text{bad},i} = \sum_{j\le i}\delta b_j. Fgood,i=j≤i∑δgj,Fbad,i=j≤i∑δbj.
KS值 - 计算每个箱的 ∣ F bad , i − F good , i ∣ |F_{\text{bad},i} - F_{\text{good},i}| ∣Fbad,i−Fgood,i∣,取最大者即为该变量或模型的 KS:
K S = max i ∣ F bad , i − F good , i ∣ . \mathrm{KS} = \max_i \bigl|F_{\text{bad},i} - F_{\text{good},i}\bigr|. KS=imax Fbad,i−Fgood,i .
业务解读 - 在最佳分隔点(最大KS对应的分数阈值)处,坏样本累积识别率与好样本累积误识率之差即为 KS,上限即模型区分度的“天花板”。
三、KS的几何意义
-
累积分布差异图(鱼眼图)
- 横轴:阈值;纵轴:累积百分比。
- 两条曲线分别为 F bad ( x ) F_{\text{bad}}(x) Fbad(x)(虚)与 F good ( x ) F_{\text{good}}(x) Fgood(x)(实),两者差值(红)即 KS 曲线。
-
直观感受
- 当两条分布曲线重叠时,KS→0;当完全分离时,KS→1。
- 最大距离处的“鱼眼”最宽,代表最优的坏/好样本分隔效果。
四、KS在互联网风控模型中的应用价值
- 样本极度不均衡
- 风控中好坏比常为 100∶1 甚至更低,传统准确率难以反映模型性能;KS 不受类别不平衡影响,更能捕捉排序能力。
- 连续性与模糊边界
- 信用、欺诈均属于连续风险,KS 基于概率分布差异判断,契合业务定义的“软边界”概念。
- 策略制定
- KS 最优阈值可作为放贷/拒贷策略的参考切点(需进一步权衡通过率与坏账率)。
- 风控监控
- 随时间和策略变化,监控 KS 的波动,可预警模型老化、数据漂移或信息泄露。
- 优化思路
- 变量筛选:剔除已被策略使用的“重复”信息;
- 样本诊断:分析训练/验证集差异;
- 特征工程:引入更具针对性的新变量(金融属性、短期负面信号);
- 分群建模:按客户群体分级建模,提高局部区隔能力;
- Bad‑case 深挖:针对漏判与误判样本提取特征。
五、从几何角度看 KS 与 ROC 的关系
- 对应关系
- 在 ROC 曲线中,横轴为 FPR(False Positive Rate,等同于 F good ( x ) F_{\text{good}}(x) Fgood(x)),纵轴为 TPR(True Positive Rate,等同于 F bad ( x ) F_{\text{bad}}(x) Fbad(x))。
- KS 在某阈值处的差值即为 ROC 曲线上点 ( F P R , T P R ) (\mathrm{FPR},\,\mathrm{TPR}) (FPR,TPR)与对角线 y = x y=x y=x间的垂直距离。
- 几何映射
- 在 ROC 图上,过对角线(随机模型)平行线的最大切线截距即为 KS。
- KS 越大,ROC 曲线离对角线越远,AUC(曲线下面积)一般也越高。
- 取舍与权衡
- 某一阈值下,可能存在两个 KS 相同的点:一个在高 FPR/高 TPR 区,另一个在低 FPR/低 TPR 区。
- 业务可根据对“坏人召回”与“好人误伤”侧重,选取对应阈值。
- 过高警示
- KS >75% 时,ROC 曲线形态会异常凸出,往往伴随分布双峰、不合常理,需警惕过拟合或数据泄漏。
- KS >75% 时,ROC 曲线形态会异常凸出,往往伴随分布双峰、不合常理,需警惕过拟合或数据泄漏。
六、KS计算示例代码(Python)
import numpy as np
import pandas as pd
from scipy.stats import ks_2sampdef compute_ks(proba: np.ndarray, target: np.ndarray, n_bins: int = 50):"""计算KS值及对应阈值。参数:proba (np.ndarray): 模型输出的正类概率数组,形状 (n_samples,)target (np.ndarray): 真实标签数组,取值 {0,1},形状 (n_samples,)n_bins (int): 分箱数量,默认 50返回:ks_value (float): KS 统计量(最大差值)ks_cutoff (float): 达到 KS 最大值时的分数阈值"""# 构造 DataFrame 便于分箱df = pd.DataFrame({'proba': proba, 'target': target})df['bin'] = pd.qcut(df['proba'], q=n_bins, duplicates='drop')# 统计各箱好坏样本数及累积比率grouped = df.groupby('bin').agg(total=('target', 'count'),bad=('target', 'sum')).reset_index()grouped['good'] = grouped['total'] - grouped['bad']G = grouped['good'].sum()B = grouped['bad'].sum()grouped = grouped.sort_values('bin')grouped['cum_bad_rate'] = grouped['bad'].cumsum() / Bgrouped['cum_good_rate'] = grouped['good'].cumsum() / G# 计算KS及阈值grouped['ks'] = np.abs(grouped['cum_bad_rate'] - grouped['cum_good_rate'])idx = grouped['ks'].idxmax()ks_value = grouped.loc[idx, 'ks']# 取该箱上限作阈值ks_cutoff = grouped.loc[idx, 'bin'].rightreturn ks_value, ks_cutoff# 示例
if __name__ == '__main__':# 模拟数据y = np.random.binomial(1, 0.05, size=10000)scores = np.random.rand(10000) * (0.5 + 0.5 * y) # 模拟分数与标签关联ks_val, ks_thr = compute_ks(scores, y)print(f'KS = {ks_val:.4f}, 最优阈值 = {ks_thr:.4f}')
相关文章:

【风控】模型算法区分度指标KS
一、KS指标的定义原理 背景 KS(Kolmogorov–Smirnov)原本用于检验样本分布与理论分布或两个样本分布是否一致。风控建模中,将“好样本”(Good)与“坏样本”(Bad)的模型输出概率看作两组经验分布…...
道可云人工智能每日资讯|浙江省人民政府印发《关于支持人工智能创新发展的若干措施》
道可云元宇宙每日简报(2025年5月21日)讯,今日元宇宙新鲜事有: 浙江省人民政府印发《关于支持人工智能创新发展的若干措施》 为抢占人工智能发展制高点,打造全球人工智能创新发展高地,浙江省人民政府于近日…...

win11下jenkins+docker+maven自动部署springboot项目
win11下jenkinsdockermaven自动部署springboot项目 一、前置软件安装二、jenkins配置三、springboot项目准备四、jenkins打包部署项目到本地docker中五、jenkins打包部署项目到远程服务器docker中 一、前置软件安装 docker安装 需要开启wsl,以管理员身份运行docke…...
密码学标准(Cryptography Standards)介绍
密码学标准(Cryptography Standards)是为确保信息安全传输、存储和处理而制定的一系列技术规范和协议,广泛应用于通信、金融、互联网等领域。以下从分类、主流标准、应用场景和发展趋势四个方面进行详细介绍: 一、密码学标准的分类 密码学标准可根据技术原理和应用场景分…...
2 卡尔曼滤波
卡尔曼滤波是啥? 卡尔曼滤波就像是一个“智能猜谜大师”,专门用来在不确定的情况下,算出最接近真实值的答案。 核心思想: 预测(猜):根据之前的经验,猜现在大概是什么状态ÿ…...

《决策科学与艺术》No1: 决策树:概念、原理、发展历史、特点及应用
决策树:概念、原理、发展历史、特点及应用 摘要 决策树是一种广泛使用的机器学习和决策分析方法,以其可解释性、简洁性和多功能性著称。本文全面介绍了决策树的概念基础、基本原理、发展历程、显著特征及其在商业、医疗、金融和工程等多个领域的典型应用…...
手机合集(不定期更新)
一、华为手机: 1.华为手机自助维修的方法: https://blog.csdn.net/humors221/article/details/145946128 2.华为手机实用功能介绍: https://blog.csdn.net/humors221/article/details/132514011 3.华为手机清理大数据的方法:…...
掌握正则表达式:从基础语法到工程实践
引言:正则表达式的力量与边界 在信息爆炸的数字时代,正则表达式(Regular Expression) 作为文本处理的“瑞士军刀”,已成为开发者、数据分析师、运维工程师等群体的核心技能。它能用简洁的符号逻辑描述复杂…...
Prometheus 基础入门文档
目录 概述 核心组件详解 Prometheus Server Exporters Alertmanager 存储解决方案 安装与配置 安装方法 基本配置 示例配置文件 数据模型与查询语言 数据模型 PromQL 查询语言 示例查询 告警系统 告警规则 示例告警规则 Alertmanager 配置 示例 Alertmanager…...
【数据分析】什么是特征蒸馏?
引言 —— “ 在数据洪流中提炼真金——解密特征蒸馏的艺术。” 在数据爆炸的时代,我们每天产生的信息量已远超人类处理能力的极限。当企业拥有百万维的用户行为数据,医疗研究者面对TB级的基因测序记录,工程师试图从千万张图像中识别关键模式…...

【苍穹外卖】Day01—Mac前端环境搭建
目录 一、安装Nginx (一)安装Homebrew (二)Homebrew安装Nginx 1. 执行安装命令: 2. 验证安装: (三)启动与停止Nginx 二、配置Nginx 1. 替换nginx.conf 2. 替换html文件夹 三…...
Apollo10.0学习——planning模块(9)之参数详解一
planning.conf --flagfilemodules/common/data/global_flagfile.txt # 加载全局通用配置,包含基础运行参数 --traffic_rule_config_filenamemodules/planning/planning_component/conf/traffic_rule_config.pb.txt # 交通规则配置文件,定义信号灯、停车…...
Python-多进程编程 (multiprocessing 模块)
目录 一、创建进程1. Process 的语法结构2. 进程不共享全局变量 二、进程间通信1. 队列通信2. 管道通信 三、进程池1. 常用函数2. 进程池中的 Queue 四、应用:复制文件夹(多进程版)五、守护进程和进程同步六、注意事项 通过使用 multiprocess…...
GraphQL在.NET 8中的全面实践指南
一、GraphQL与.NET 8概述 GraphQL是一种由Facebook开发的API查询语言,它提供了一种更高效、更灵活的替代REST的方案。与REST不同,GraphQL允许客户端精确指定需要的数据结构和字段,避免了"过度获取"或"不足获取"的问题。…...
在mobaxterm下面执行shell脚本报错
关键步骤:在 MobaXterm 的 SSH 会话中强制指定 Bash 解释器 若你曾通过 高级 SSH 设置中的「执行命令」 填写 /bin/bash 解决脚本问题,以下是具体操作和原理说明: 1. 设置位置 打开 MobaXterm,选择需要配置的 SSH 会话࿰…...
系统集成项目管理工程师学习笔记之启动过程组
第十章 启动过程组 制定项目章程 定义 制定项目章程是编写一份正式批准项目并授权项目经理在项目活动中使用组织资源的文件的过程。 正式批准的项目文件 作用 1、明确项目与组织战略目标之间的直接联系 2、确立项目的正式地位 3、展示组织对项目的承诺 本过程仅开展一…...
OceanBase数据库全面指南(数据操作篇DML)
文章目录 一、OceanBase插入数据全指南1.1 INSERT语句基础用法1.2 高级INSERT用法1.2.1 插入查询结果1.2.2 多表插入1.2.3 条件插入1.3 INSERT性能优化技巧1.3.1 批量插入优化1.3.2 使用APPEND提示1.3.3 并行插入二、OceanBase批量插入优化2.1 多行插入语法详解2.2 批量绑定技术…...
深入解析AI中的Prompt工程:从理论到实践
目录 引言:Prompt在AI中的核心地位 第一部分:Prompt基础理论 1.1 什么是Prompt 1.2 ICIO框架:Prompt设计的结构化方法 1.3 为什么需要Prompt 1.4 Prompt的终极价值 第二部分:Prompt工程实践 2.1 Prompt工程概述 2.2 Prompt工程的具体内容 2.3 Prompt Engineer的工…...

软考中级软件设计师——设计模式篇
一、设计模式核心分类 设计模式分为 3 大类,共 23 种模式(考试常考约 10-15 种): 分类核心模式考试重点创建型模式工厂方法、抽象工厂、单例、生成器、原型单例模式的实现(懒汉、饿汉)、工厂模式的应用场…...
matlab二维随机海面模拟
二维随机海面模拟是一种重要的技术,广泛应用于海洋工程、船舶设计、雷达系统和光学通信等领域。利用蒙特卡罗方法结合二维海浪功率谱模型,可以生成符合实际海面特性的随机表面。 步骤 1: 定义海浪功率谱模型 海浪功率谱模型描述了海浪能量在不同频率和…...

Axure系统原型设计列表版方案
列表页面是众多系统的核心组成部分,承担着数据呈现与基础交互的重要任务。一个优秀的列表版设计,能够极大提升用户获取信息的效率,优化操作体验。下面,我们将结合一系列精心设计的列表版方案图片,深入探讨如何打造出实…...

微软全新开源命令行文本编辑器:Edit — 致敬经典,拥抱现代
名人说:博观而约取,厚积而薄发。——苏轼《稼说送张琥》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 一、引言:命令行的新利器二、Edit:致敬经典,拥抱现代1. 命令行的“新升级”2. 为什么要有 Edit?三、核心功能与特性一览1. 完全开源、MIT 许可证…...

年会招标抽奖活动软件———仙盟创梦IDE
年会是企业一年的总结与欢庆时刻,而抽奖环节更是点燃全场气氛的关键。如何让抽奖环节既大气又充满仪式感?选对抽奖软件至关重要!本文精心挑选了 3 款兼具实用性与氛围感的年会抽奖软件,从界面设计到功能特色,全方位为你…...

智防火灾,慧控能耗:物联网赋能金融行业电气安全革新
摘要 随着金融行业对电气安全需求的不断提升,传统用电管理模式已难以满足现代金融机构对火灾防控、能耗管理和智能运维的要求。本文基于物联网、云计算及大数据分析技术,提出一套针对金融行业的安全用电解决方案。该方案通过智能化硬件部署与平台化管理…...
Any类(C++17类型擦除,也称上帝类)
Any类(C17类型擦除,也称上帝类) 在C中,std::any 是C17标准引入的一个灵活的类型安全容器,用于存储任意类型的单个值。 1. std::any 的核心特性 类型安全:存储的值必须通过明确的类型转换(any_…...
jquery.table2excel方法导出
jquery提供了一个table2excel方法可以用来导出页面到xls等 $("#grid_595607").table2excel({exclude: ".noExport", // 排除类名为 noExport 的元素filename: "导出数据.xls",exclude_img: true, // 不导出图片exclude_links: true, // 不导…...
Spring Boot 多租户架构实现:基于上下文自动传递的独立资源隔离方案
一、核心设计思想 通过线程上下文自动传递租户ID,结合动态数据源路由和中间件连接工厂,实现MySQL、Redis、RocketMQ的完全自动化资源隔离。关键设计如下: #mermaid-svg-ZjXCGSWoCuNFMIch {font-family:"trebuchet ms",verdana,aria…...

在 JavaScript 中正确使用 Elasticsearch,第二部分
作者:来自 Elastic Jeffrey Rengifo 回顾生产环境中的最佳实践,并讲解如何在无服务器环境中运行 Elasticsearch Node.js 客户端。 想获得 Elastic 认证?查看下一期 Elasticsearch Engineer 培训的时间! Elasticsearch 拥有大量新…...

更新nvidia-container-toolkit 1.17.7-1后,运行--gpus all 卡死问题
用Arch每日一滚,结果今天用 sudo docker run -it --runtimenvidia --gpus all居然卡死了,排雷排了几小时,才从开源库发现问题 nvidia-container-toolkit 1.17.7-1 是有问题的,而且在ubuntu和arch上都存在问题。 只好Downgrade 1.…...
【Nginx学习笔记】:Fastapi服务部署单机Nginx配置说明
服务部署单机Nginx配置说明 服务.conf配置文件: upstream asr_backend {server 127.0.0.1:8010; }server {listen 80;server_name your_domain.com;location / {proxy_pass http://localhost:8000;proxy_set_header Host $host;proxy_set_header X-Real-IP $remot…...