当前位置：首页 > news >正文

成为AI产品经理——模型稳定性评估（PSI）

news 2026/2/11 4:38:25

一、PSI作用

稳定性是指模型性能的稳定程度。

上线前需要进行模型的稳定性评估，是否达到上线标准。

上线后需要进行模型的稳定性的观测，判断模型是否需要迭代。

稳定度指标(population stability index ,PSI)。通过PSI指标，我们可以获得不同样本或者不同时间下同一样本在分数段上的分布的稳定性。

PSI的计算公式为:SUM(实际占比-预期占比)*ln(实际占比/预期占比)。

PSI至少有两组分布结果，一组是预期分布结果，一组是实际分布结果。我们期望的是分布情况不要发生很大的变化。

在一个信用评估的业务中，我们将用户的信用等级分为0-100，分数越高，信用越好，我们让分数60以上的人可以进行贷款，60以下的不能进行贷款业务。

我们将上线前的OOT测试结果的分布情况作为预期，将上线后最近抽取的样本结果作为实际分布，下图是预期分布和实际分布在不同分数段的占比情况。

我们可以看出分布占比情况发生了巨大的变化，这对于业务的使用无疑是致命的，我们可能会使得不能贷款的人员办理了业务，他们有逾期还款的风险，银行会损失很多金钱。

二、PSI的计算

PSI的计算公式为:SUM(实际占比-预期占比)*ln(实际占比/预期占比)。

PSI的计算主要分为三步：

①分箱：等频分箱或等距分箱

②计算实际分布

③计算PSI数值

下面将具体说明这三步：

1.分箱

分箱分为等频分箱和等距分箱。

等频分箱就是令每一个分箱中的样本数量相同。

等距分箱是指每两个区间之间的距离一样多。

数据分箱2——等频、等距分箱_等频分箱法_呆萌的代Ma的博客-CSDN博客

因为我们信用评分模型的稳定性需要看人数分布的波动情况，我们上面案例使用的是等距分箱。

2.计算实际分布

我们已经设置好预期样本，所以只需要计算实际分布。上述案例中我们通过获得近期的用户数据传入模型得到实际的测试结果。然后将测试的结果等距分箱。

3.计算PSI

PSI的计算公式为:SUM(实际占比-预期占比)*ln(实际占比/预期占比)。

这里有一个例子：我们把开发样本占比看成实际占比，把现行样本占比看作预期样本，具体的计算就是下面这个图。

三、PSI范围标准

四、Python计算PSI

import pandas as pd
import numpy as npdef calculate_psi(expected, actual, bins=10):# 离散化数据expected_discrete = pd.cut(expected, bins=bins, labels=False)actual_discrete = pd.cut(actual, bins=bins, labels=False)# 计算每个分箱中的样本数expected_counts = pd.value_counts(expected_discrete)actual_counts = pd.value_counts(actual_discrete)# 计算每个分箱中的占比expected_percentages = expected_counts / len(expected)actual_percentages = actual_counts / len(actual)# 计算 PSIpsi = np.sum((expected_percentages - actual_percentages) * np.log(expected_percentages / actual_percentages))return psi# 示例数据
train_data = np.random.normal(loc=0, scale=1, size=1000)
test_data = np.random.normal(loc=0.2, scale=1, size=1000)# 计算 PSI
psi_value = calculate_psi(train_data, test_data)
print("PSI:", psi_value)

在这个示例中，train_data 和 test_data 是两个数据集，calculate_psi 函数用于计算 PSI。该函数首先将数据进行离散化，然后计算每个分箱的样本占比，最后计算 PSI。

请注意，这只是一个简单的示例，实际应用中可能需要根据数据的特点进行适当的调整。

将数据集导入到 Python 代码中通常使用 Pandas 库，Pandas 提供了灵活且高效的数据结构，特别适用于处理和分析数据。以下是一个简单的示例，演示如何将数据集导入到 Python 代码中：

import pandas as pd# 从CSV文件导入数据集
file_path = 'path/to/your/dataset.csv'
dataset = pd.read_csv(file_path)# 打印数据集的前几行
print(dataset.head())

上述代码假设你的数据集以 CSV 格式存储。如果数据集是以其他格式（例如 Excel、JSON、SQLite 等）存储，Pandas 提供了相应的读取函数，可以根据数据集的格式进行选择。

如果你没有一个实际的数据集，你可以创建一个示例数据集。以下是一个使用 Pandas 创建示例数据集的例子：

import pandas as pd
import numpy as np# 创建一个示例数据集
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],'Age': [25, 30, 35, 40],'Salary': [50000, 60000, 75000, 90000]}dataset = pd.DataFrame(data)# 打印数据集
print(dataset)

五、备注

1.PSI不仅在上线前需要关注，还需要在上线后进行监测，因为有些模型可能会随着时间的推移稳定性变差。

2.影响PSI的因素很多，常见的有数据源变化、用户群体变化等等，后期都需要考虑。

参考文献：刘海丰——《成为AI产品经理》自用，请勿传播

【评分卡入门教程12】模型评估2-PSI值_哔哩哔哩_bilibili

成为AI产品经理——模型稳定性评估（PSI）

一、PSI作用稳定性是指模型性能的稳定程度。上线前需要进行模型的稳定性评估，是否达到上线标准。上线后需要进行模型的稳定性的观测，判断模型是否需要迭代。稳定度指标(population stability index ,PSI)。通过PSI指标，我们可以获得不…...

编程日记 2023/12/5 6:50:47

操作系统——进程同步

目录一、信号量相关函数 1. 创建信号量集 2. 获取信号量集 3. 等待、通知信号量集 4. 控制信号量集二、简单进程同步 1. 创建信号量集 2. P操作 3. V操作 4. 删除信号量集 5. 测试： 三、生产者与消费者 1. 创建、删除共享内存及信号量集 2. 单一生产…...

编程日记 2023/12/5 6:41:39

如何能够对使用ShaderGraph开发的Shader使用SetTextureOffset和SetTextureScale方法

假设在ShaderGraph中的纹理的引用名称为"_BaseMap"，同时对这个"_BaseMap"纹理使用了采样的节点"SampleTexture2D"，然后该采样节点的uv接入的TilingAndOffset节点，此时的关键步骤是新建一个Vector4属性&#xf…...

编程日记 2023/12/5 6:39:38

力扣572：另一棵树的子树

力扣572：另一棵树的子树给你两棵二叉树 root 和 subRoot 。检验 root 中是否包含和 subRoot 具有相同结构和节点值的子树。如果存在，返回 true ；否则，返回 false 。二叉树 tree 的一棵子树包括 tree 的某个节点和这个节点的所…...

编程日记 2023/12/5 6:38:37

Linux系统中进程间通信（Inter-Process Communication, IPC）

文章目录进程间通信介绍进程间通信目的进程间通信发展管道什么是管道匿名管道用fork来共享管道原理站在文件描述符角度-深度理解管道站在内核角度-管道本质管道读写规则管道特点命名管道创建一个命名管道匿名管道与命名管道的区别命名管道的打开规则命名管道的删除用命名管…...

编程日记 2023/12/5 6:37:36

【React + Typescript】使用WebPack包管理、各种扩展插件组成的初始模板，开源协议：CC-BY-4.0

React Typescript Webpack 模板模板展示项目结构使用的部分扩展包页面配置代码Layout 公共容器组件路由Jspackage.json 开源模板下载TIP 模板展示项目结构使用的部分扩展包 📂 System ├── 📂 Plugin │ ├── 📄 file-loader | 在处…...

编程日记 2023/12/5 6:36:35

python 制作3d立体隐藏图

生成文件的3d图，例子： 文字： 隐藏图： 使用建议： １、建议不用中文，因为中文太复杂，生成立体图效果不好。 ２、需要指定FONT_PATH，为一个ttf文件，…...

编程日记 2023/12/5 6:35:34

layuissm实现数据的批量删除 //数据表格table.render({id: adminList,elem: #adminList,url: ctx "/admin/getAdminList", //数据接口cellMinWidth: 80,even: true,toolbar: #toolbarDemo,//头部工具栏limit: 10,//每页条数limits: [10, 20, 30, 40],defaultToolba…...

编程日记 2023/12/5 6:34:33

国产AI边缘计算盒子，双核心A55丨2.5Tops算力

边缘计算盒子双核心A55丨2.5Tops算力 ● 2.5TopsINT8算力，支持INT8/INT4/FP16多精度混合量化。 ● 4路以上1080p30fps视频编解码，IVE模块独立提供图像基础算子加速。 ● 支持Caffe、ONNX/PyTorch深度学习框架，提供resnet50、yolov5等AI算…...

编程日记 2023/12/5 6:33:32

C++作业4

代码整理， 将学过的三种运算符重载，每个至少实现一个运算符的重载代码： #include <iostream>using namespace std;class Stu {friend const Stu operator*(const Stu &L,const Stu &R);friend bool operator<(const Stu …...

编程日记 2023/12/5 6:31:31

计算机网络（二）| 物理层上 | 数据通信基础知识调制频率范围信噪比

文章目录 1 物理层基本概念2.数据通信基础知识2.1 数据通信基本概念2.2 信道基本概念2.2.1 基带调制（编码）方式2.2.2 带通调制方式 2.3 信道的极限速率影响因素2.3.1 **频率范围**2.3.2 **信噪比** 内容笔记来源于谢希任老师《计算机网络》物理层重点 …...

编程日记 2023/12/5 6:30:30

[STM32-1.点灯大师上线】

学习了江协科技的前4课，除了打开套件的第一秒是开心的，后面的时间都是在骂娘。因为51的基础已经几乎忘干净，c语言已经还给谭浩强，模电数电还有点底子，硬着头皮上吧。本篇主要是讲述学习点灯的过程和疑惑解释。 1.工…...

编程日记 2023/12/5 6:27:27

Web测试自动化工具Selenium的使用

Web测试自动化工具Selenium的使用 Selenium是一个Web应用测试的自动化工具，它通过模拟点击实现对Web应用的功能测试。测试时，除了Selenium，还需要对应的浏览器驱动，如在Chrome实现自动点击，则需要chromedriver。 Sel…...

编程日记 2023/12/5 6:25:25

VUE2+THREE.JS 按照行动轨迹移动人物模型并相机视角跟随人物

按照行动轨迹移动人物模型并相机视角跟随人物 1. 初始化加载模型2. 开始移动模型3. 人物模型启动4. 暂停模型移动5. 重置模型位置6. 切换区域动画7. 摄像机追踪模型8. 移动模型位置9.动画执行人物按照上一篇博客所设定的关键点位置，匀速移动 1. 初始化加载模型 //…...

编程日记 2023/12/5 6:23:24

Hadoop YARN组件

1. 请解释Yarn的基本架构和工作原理。 YARN，也被称为"Yet Another Resource Negotiator"，是Apache HadoopYARN，也被称为"Yet Another Resource Negotiator"，是Apache Hadoop的一部分，它被设计为一…...

编程日记 2023/12/5 6:22:23

Java架构师技术架构路线

目录 1 概论2 如何规划短中长期的技术架构路线图3 如何规划面向未来的架构4 如何修订路线图执行过程中的偏差5 如何落地路线图-阿里系糙快猛之下的敏捷模式想学习架构师构建流程请跳转：Java架构师系统架构设计 1 概论首先，规划一个短中长期的技术路线图是非常重要的。短中…...

编程日记 2023/12/5 6:21:22

guacamole docker一键部署脚本

前言在我学习guacamole的过程中发现全网大致有两种方式安装guacamole的方式： 1. 直接安装（下载java环境/mysql/, 修改配置） 2. docker安装（和直接安装类似，需要下载相关环境，然后做配置） 然…...

编程日记 2023/12/5 6:19:21

蓝桥杯算法心得——想吃冰淇淋和蛋糕（dp）

大家好，我是晴天学长，dp题，怎么设计状态很重要，需要的小伙伴可以关注支持一下哦！后续会继续更新的。💪💪💪 1) .想吃冰淇淋和蛋糕想吃冰淇淋与蛋糕输入格式第一行输入一个整数n。…...

编程日记 2023/12/5 6:18:20

LLM之RAG实战（二）：使用LlamaIndex + Metaphor实现知识工作自动化

最先进的大型语言模型（LLM），如ChatGPT、GPT-4、Claude 2，具有令人难以置信的推理能力，可以解锁各种用例——从洞察力提取到问答，再到通用工作流自动化。然而，他们检索上下文相关信息的能力有限。…...

编程日记 2023/12/5 6:16:18

【容器】Docker打包Linux操作系统迁移

0x0 场景因老服务器操作系统文centos6.5，现要迁移至uos v20 1050a（底层centos8），其中需要迁移的应用组件有： mysql 、tomcat、apachehttpd，因版本跨越太大，导致centos8直接安装无法完全恢复原…...

编程日记 2023/12/5 6:15:17

＜6＞-MySQL表的增删查改

目录一，create（创建表） 二，retrieve（查询表） 1，select列 2，where条件三，update（更新表） 四，delete（删除表&#xf…...

编程新知 2025/12/11 18:28:17

JavaScript 中的 ES|QL：利用 Apache Arrow 工具

作者：来自 Elastic Jeffrey Rengifo 学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。想获得 Elastic 认证吗？了解下一期 Elasticsearch Engineer 培训的时间吧！ Elasticsearch 拥有众多新功能，助你为自己…...

编程新知 2026/1/23 7:23:58

前端导出带有合并单元格的列表

// 导出async function exportExcel(fileName "共识调整.xlsx") {// 所有数据const exportData await getAllMainData();// 表头内容let fitstTitleList [];const secondTitleList [];allColumns.value.forEach(column > {if (!column.children) {fitstTitleL…...

编程新知 2026/1/25 3:21:09

QT： `long long` 类型转换为 `QString` 2025.6.5

在 Qt 中，将 long long 类型转换为 QString 可以通过以下两种常用方法实现： 方法 1：使用 QString::number() 直接调用 QString 的静态方法 number()，将数值转换为字符串： long long value 1234567890123456789LL; …...

编程新知 2026/2/1 6:30:04