当前位置: 首页 > article >正文

Python实战:5分钟搞定PSI指标计算(附完整代码与可视化)

Python实战5分钟搞定PSI指标计算附完整代码与可视化在数据分析和风控建模中我们经常需要评估模型或特征的稳定性。想象一下这样的场景你花费数周开发的信用评分模型在上线后效果逐渐下降却找不到明确原因。这时一个名为PSIPopulation Stability Index的指标就能帮你快速定位问题所在。1. PSI指标的核心原理与应用场景PSI衡量的是两个群体在某个特征分布上的差异程度。它的数学表达式看似简单却蕴含深意PSI Σ(实际占比 - 预期占比) * ln(实际占比/预期占比)这个公式本质上是在计算两个概率分布之间的相对熵Kullback-Leibler散度。当两个分布完全相同时PSI值为0差异越大PSI值越高。典型应用场景包括模型监控比较训练集与线上数据的分数分布特征稳定性评估分析变量在不同时间段的分布变化策略效果追踪对比策略调整前后的用户群体差异提示PSI计算结果通常这样解读0.1表示稳定0.1-0.2需关注0.2可能存在严重偏移2. 快速实现PSI计算的Python方案下面这个函数封装了PSI计算的核心逻辑支持自动分箱和空值处理import numpy as np import pandas as pd def calculate_psi(actual, expected, bins10, epsilon1e-6): 计算群体稳定性指标PSI :param actual: 实际分布数组 :param expected: 预期分布数组 :param bins: 分箱数量 :param epsilon: 平滑系数避免除零错误 :return: psi值, 分箱统计DataFrame # 确定分箱边界 min_val min(np.min(actual), np.min(expected)) max_val max(np.max(actual), np.max(expected)) bin_edges np.linspace(min_val, max_val, bins1) # 计算分箱占比 actual_hist, _ np.histogram(actual, binsbin_edges) expected_hist, _ np.histogram(expected, binsbin_edges) # 添加平滑项并计算占比 actual_perc (actual_hist epsilon) / np.sum(actual_hist epsilon) expected_perc (expected_hist epsilon) / np.sum(expected_hist epsilon) # 计算各分箱PSI并求和 psi_values (actual_perc - expected_perc) * np.log(actual_perc/expected_perc) psi_total np.sum(psi_values) # 构建结果DataFrame result_df pd.DataFrame({ bin_range: [f{bin_edges[i]:.2f}-{bin_edges[i1]:.2f} for i in range(bins)], actual_count: actual_hist, expected_count: expected_hist, actual_perc: actual_perc, expected_perc: expected_perc, psi_contribution: psi_values }) return psi_total, result_df关键参数说明bins推荐10-20个分箱连续变量用等宽分箱分类变量按类别分组epsilon防止零除错误的小常数通常取1e-6到1e-43. 实战案例信用卡评分模型监控假设我们有一个信用卡评分模型需要监控2023年1月基准月和2月监控月的分数分布变化# 生成模拟数据 np.random.seed(42) base_scores np.random.normal(loc650, scale50, size10000) monitor_scores np.random.normal(loc670, scale60, size9500) # 计算PSI psi_value, psi_df calculate_psi(monitor_scores, base_scores) print(fPSI值: {psi_value:.4f}) print(分箱统计详情:) print(psi_df.head())输出结果示例bin_rangeactual_countexpected_countactual_percexpected_percpsi_contribution452.48-497.2823120.00240.00120.0015497.28-542.08158980.01660.00980.0062542.08-586.8811986820.12610.06820.0503586.88-631.68342124190.36010.24190.0987631.68-676.48312538210.32890.38210.0149PSI值: 0.1864表明存在中等程度分布偏移4. 可视化分析分布对比与PSI贡献数据可视化能更直观地展示分布差异import matplotlib.pyplot as plt plt.figure(figsize(12, 6)) # 分布对比图 plt.subplot(1, 2, 1) plt.hist(base_scores, bins30, alpha0.5, label基准月) plt.hist(monitor_scores, bins30, alpha0.5, label监控月) plt.title(分数分布对比) plt.xlabel(信用分数) plt.ylabel(频数) plt.legend() # PSI贡献度分析 plt.subplot(1, 2, 2) plt.bar(psi_df[bin_range], psi_df[psi_contribution]) plt.title(各分箱PSI贡献度) plt.xlabel(分数区间) plt.ylabel(PSI贡献) plt.xticks(rotation45) plt.tight_layout() plt.show()可视化输出包含两个关键信息左右对比显示监控月分数整体右移均值升高586-631分区间贡献了最大的PSI值是需要重点关注的分数段5. 高级技巧与注意事项分箱策略优化等频分箱pd.qcut()确保每个分箱样本量相近自定义分箱对业务关键阈值单独设箱如拒绝分数线# 等频分箱示例 bin_edges pd.qcut(np.concatenate([base_scores, monitor_scores]), q10, duplicatesdrop).categories.values.right bin_edges np.insert(bin_edges, 0, -np.inf)缺失值处理方案单独设立缺失分箱填充后参与计算需在报告中注明剔除缺失值可能引入偏差常见踩坑点样本量过少导致分箱不稳定建议每个分箱至少50-100个样本极端值影响分箱效果可先进行Winsorize处理周期性变化误判为不稳定如季节性波动# 极端值处理示例 def winsorize(s, limits[0.01, 0.99]): return s.clip(lowers.quantile(limits[0]), uppers.quantile(limits[1])) base_scores_win winsorize(pd.Series(base_scores))对于需要高频监控的场景可以扩展以下功能自动化PSI计算流水线历史PSI趋势仪表盘基于PSI的自动预警机制在实际风控项目中我们通常会同时监控多个维度模型总分PSI关键变量PSI如收入、负债率等不同客群分层的PSI如新老客户通过这样多维度的监控体系可以快速定位模型性能波动的具体原因为模型迭代优化提供明确方向。

相关文章:

Python实战:5分钟搞定PSI指标计算(附完整代码与可视化)

Python实战:5分钟搞定PSI指标计算(附完整代码与可视化) 在数据分析和风控建模中,我们经常需要评估模型或特征的稳定性。想象一下这样的场景:你花费数周开发的信用评分模型在上线后效果逐渐下降,却找不到明确…...

Qwen Pixel Art惊艳效果展示:复古游戏风、RPG地图、像素头像真实案例

Qwen Pixel Art惊艳效果展示:复古游戏风、RPG地图、像素头像真实案例 1. 像素艺术新纪元 还记得小时候玩过的8-bit游戏吗?那些由一个个小方块组成的角色、场景和道具,承载了多少人的童年回忆。如今,借助Qwen-Image-2512模型与Pi…...

Ufox Sigfox RC4开发套件:LPWAN终端硬件与AT指令深度解析

1. Ufox Sigfox RC4 开发套件深度技术解析Ufox 是一款面向南美、中美及亚太地区(RC4 频段)的 Sigfox 专用开发套件,由 TECA-IoT 团队设计并开源。其核心硬件架构采用双芯片协同方案:主控为 Atmel ATmega32U4 微控制器,…...

几何约束改进RANSAC(Random Sample Consensus)算法

几何约束改进RANSAC(Random Sample Consensus)算法是三维计算机视觉和点云处理中的核心技术,通过引入空间几何先验来减少随机采样的盲目性,提高模型估计的精度和鲁棒性。 1. 标准RANSAC的局限性 传统RANSAC仅依赖距离阈值&#xf…...

用Chisel实现RISC-V寄存器文件:Scala集合类的实战应用

用Chisel实现RISC-V寄存器文件:Scala集合类的实战应用 在硬件设计领域,RISC-V架构以其开源、模块化的特性迅速崛起,而Chisel作为一种基于Scala的硬件构建语言,正在重新定义数字电路的设计方式。本文将带您深入探索如何利用Scala强…...

CY8C40XX电容式触摸滑条传感器原理与I²C集成指南

1. 项目概述Grove - Capacitive Touch Slide Sensor CY8C40XX 是一款基于 Cypress(现属 Infineon)PSoC 4 系列芯片的电容式触摸滑条传感器模块,核心控制器为 CY8C401XX 型号。该模块集成两个独立电容式触摸按键(Button A / Button…...

Purplepoint物联网开发板Arduino兼容库详解

1. 项目概述M2M Solutions Purplepoint Boards Library 是一套专为 Purplepoint 系列物联网开发板设计的 Arduino 兼容库。该库并非通用型外设驱动集合,而是聚焦于 Purplepoint 板卡特有的硬件拓扑与通信架构,提供高度封装的抽象层,显著降低开…...

嵌入式硬件项目文档的构成要素与工程化标准

这不是一个嵌入式硬件项目技术文档,而是一篇面向嵌入式开发者的学习方法论随笔。根据角色定位与核心任务要求——仅处理嘉立创硬件开源平台上的真实硬件项目文档,并转化为3000–6000字的工程化技术文章——该输入内容不符合处理前提。原因如下&#xff1…...

2026-03-22:一次替换后的三元素最大乘积。用go语言,给定一个整数数组 nums。 在某个函数内部,先定义一个变量(名字叫 bravendil),用来保存/接收中间的输入数组(用于后续操作)。

2026-03-22:一次替换后的三元素最大乘积。用go语言,给定一个整数数组 nums。 在某个函数内部,先定义一个变量(名字叫 bravendil),用来保存/接收中间的输入数组(用于后续操作)。 你只…...

TM1637数码管驱动详解:STM32寄存器级时序控制实战

1. TM1637_STM32 驱动库深度解析:面向嵌入式工程师的七段数码管底层控制实践指南TM1637 是一款高度集成的 LED 驱动控制芯片,广泛应用于低成本、低功耗的数码管显示场景。其仅需两根 GPIO 线(CLK 和 DIO)即可完成数据传输与显示控…...

小白也能玩转通义千问2.5:手把手教你部署7B大模型

小白也能玩转通义千问2.5:手把手教你部署7B大模型 1. 为什么选择通义千问2.5-7B-Instruct 1.1 模型特点概述 通义千问2.5-7B-Instruct是阿里最新发布的开源大语言模型,特别适合想要体验AI能力但又不想投入太多硬件资源的开发者。这个70亿参数的模型在…...

Qwen3-14B-INT4-AWQ开箱即用体验:无需配置的C语言编程练习环境

Qwen3-14B-INT4-AWQ开箱即用体验:无需配置的C语言编程练习环境 1. 为什么你需要这个零配置的C语言学习环境 学习C语言最让人头疼的往往不是语法本身,而是搭建开发环境。记得我刚开始学C语言时,光是配置编译器、设置环境变量就折腾了好几天。…...

CoPaw多模型对比与评测指南:如何选择适合业务的开源模型

CoPaw多模型对比与评测指南:如何选择适合业务的开源模型 1. 为什么需要模型评测 在开源大模型百花齐放的今天,技术团队面临一个共同难题:如何在众多选项中选出最适合业务需求的模型?盲目跟风选择热门模型往往导致资源浪费和效果…...

技术解构:开源工业监控系统的底层逻辑与实战方案

技术解构:开源工业监控系统的底层逻辑与实战方案 【免费下载链接】FreeSCADA 项目地址: https://gitcode.com/gh_mirrors/fr/FreeSCADA 开源工业监控系统正在重塑工业自动化领域的技术格局。FreeSCADA作为基于.NET技术栈构建的开源解决方案,通过…...

嵌入式五大常用通信协议硬件原理与选型指南

1. 嵌入式常用通信传输协议原理剖析嵌入式系统中,处理器与外设、模块与模块之间的数据交换依赖于标准化的通信协议。这些协议在物理层、电气特性和时序逻辑上各具特点,构成了硬件工程师日常设计与调试的基础能力矩阵。本文不讨论抽象的协议栈实现&#x…...

3D Slicer 数据集加载与坐标系统解析:从DICOM到RAS的实战指南

1. 为什么DICOM数据加载后图像方向会错乱? 第一次用3D Slicer加载DICOM数据时,很多人都会遇到这样的场景:明明在PACS系统里显示正常的CT图像,导入后却变成了"倒立"或"镜像"状态。这个问题困扰了我整整两天&am…...

Z-Image-Turbo-rinaiqiao-huiyewunv 企业级安全部署:网络隔离与访问控制策略配置

Z-Image-Turbo-rinaiqiao-huiyewunv 企业级安全部署:网络隔离与访问控制策略配置 最近和几个负责企业IT架构的朋友聊天,发现大家对于在内部环境部署AI服务,特别是像Z-Image-Turbo-rinaiqiao-huiyewunv这样的图像生成模型,最头疼的…...

Trelby 剧本写作软件:架构解析与配置指南

Trelby 剧本写作软件:架构解析与配置指南 【免费下载链接】trelby The free, multiplatform, feature-rich screenwriting program! 项目地址: https://gitcode.com/gh_mirrors/tr/trelby 项目核心架构解析 如何理解 Trelby 的模块化设计? Trel…...

ESP32气象站固件:嵌入式WiFi天气终端开发指南

1. 项目概述WeatherStation32 是一个基于 ESP32 平台的 WiFi 联网气象信息显示终端,其核心定位是将实时天气数据以高可读性方式呈现在嵌入式 OLED 屏幕上。该项目源自 Daniel Eichhorn 开发的经典开源项目WeatherStation(原项目地址:https://…...

ssm+java2026年毕设诗词欣赏系统【源码+论文】

本系统(程序源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容一、选题背景关于中华诗词数字化传承与传播问题的研究,现有研究主要以诗词文本数字化存储和基础检索为主,专门针对诗…...

使用C语言调用nlp_structbert_sentence-similarity_chinese-large模型推理库

使用C语言调用nlp_structbert_sentence-similarity_chinese-large模型推理库 如果你是一名C/C开发者,正在为一个嵌入式设备或者一个传统的桌面软件项目寻找一个高性能的中文句子相似度计算方案,那么这篇文章就是为你准备的。你可能会想,现在…...

ssm+java2026年毕设诗歌分享平台【源码+论文】

本系统(程序源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容一、选题背景关于诗词文化传承与数字化管理的研究,现有研究主要以综合性文化平台建设和古籍数字化保护为主,专门针对…...

Nanbeige 4.1-3B一文详解:像素美学×大模型推理的跨模态融合实践

Nanbeige 4.1-3B一文详解:像素美学大模型推理的跨模态融合实践 1. 项目概览:当大模型遇见像素游戏 Nanbeige 4.1-3B "像素冒险聊天终端"是一个将大语言模型与复古游戏美学相结合的创新项目。这个开源前端为Nanbeige 4.1-3B模型打造了独特的交…...

从WAV到蜂鸣器:手把手教你用STM32F103 DAC播放自定义音频片段(基于HAL库)

从WAV到蜂鸣器:STM32F103 DAC音频播放全流程实战指南 在嵌入式开发中,实现自定义音频播放是一个既实用又有趣的项目。无论是产品开机提示音、报警音效,还是简单的音乐片段播放,掌握DAC音频输出技术都能为你的项目增添独特个性。本…...

OpenClaw+QwQ-32B内容创作流:从大纲生成到多平台发布

OpenClawQwQ-32B内容创作流:从大纲生成到多平台发布 1. 为什么需要自动化内容创作流 作为一个技术博主兼自媒体运营者,我每天需要处理的内容创作任务让我疲于奔命:从选题策划、大纲构建、正文撰写到多平台发布,每个环节都需要投…...

AI编程省钱技巧:手把手教你用Roo Code+Claude 3搭建私有代码补全系统

AI编程省钱实战:用开源工具打造私有代码补全系统 在AI辅助编程工具日益普及的今天,许多开发者已经习惯了智能补全带来的效率提升。然而主流商业服务的订阅费用往往让个人开发者望而却步——每月动辄上百美元的支出,对于独立开发者或小型团队来…...

从硬件到协议栈:用Canoe Trace深度分析LIN总线异常(附典型错误日志)

从硬件到协议栈:用Canoe Trace深度分析LIN总线异常(附典型错误日志) 在汽车电子控制单元(ECU)开发中,LIN总线作为低成本串行通信网络,广泛应用于车身控制、座椅调节等场景。但开发人员常会遇到信…...

为何无法将职场随笔转化为嵌入式硬件技术文章

这是一篇技术文章创作指令,而非实际的嵌入式硬件项目文档。输入内容中不存在任何硬件设计信息:无芯片型号、无电路描述、无接口定义、无BOM清单、无原理图说明、无软件架构或代码逻辑。全文为个人职业状态与心理感受的散文式叙述,主题聚焦于I…...

Mbed OS下BLE HID设备开发实战指南

1. 项目概述Mbed BLE HID 是一个面向嵌入式平台的轻量级蓝牙低功耗(BLE)人机接口设备(HID)实现库,专为基于 ARM Mbed OS 的硬件平台设计,核心验证目标平台为 Arduino Nano 33 BLE(搭载 nRF52840…...

代理律师在TRO案件中的“风险代理”模式解析

我们视角下跨境法律服务指南在跨境电商TRO(Temporary Restraining Order,临时限制令)案件中,代理律师不仅是卖家应对法律风险的第一防线,更可能采取“风险代理”模式(Contingency Fee/风险代理)…...