可视化数据科学平台在信贷领域应用系列一:数据探索
引言
信贷风险数据建模是金融机构在数据量日益庞杂的时代进行信贷业务风控的关键技术。它能够帮助机构更好地控制风险、减少违约损失,并提高业务效率。通过不断优化建模方法和利用建模工具,金融机构的风险控制能力得到了显著提升。
在本文中,一位来自国内头部互联网银行的零售信贷风险建模专家使用RapidMiner软件进行信用卡违约预测建模全过程。鉴于数据保密原则和法规,他选择了公开的UCI台湾信用卡数据集进行试验和演示。
让我们一起来看看他的最终试验过程和结论。
01、数据集简介
我们用到的数据集是UCI台湾信用卡数据集,它是一个由UCI维护的公开机器学习数据集,用于信用卡违约预测,该场景是信贷风控最常见的应用场景。该数据集由台湾的一家信用卡公司提供,包含 2005 至 2017 年期间客户的人口学统计特征、信用情况、信用卡还款、信用卡账单、信用卡付款等维度的数据,整个数据集包含30000条记录、25个字段。
先来认识一下数据集各字段的具体含义:
-
ID:客户ID;
-
LIMIT_BAL:信用额度,包含个人信用额度和家庭信用额度;
-
SEX:性别,1-男、2-女;
-
EDUCATION:教育水平,1-研究生、2-本科、3-高中、4-其他、0/5/6-未知;
-
MARRIAGE:婚姻状态,1-已婚、2-单身、3-其他;
-
AGE:年龄;
-
PAY_0:2005年9月的还款状态,-2-未消费、-1-按时还款、1-延迟1个月还款、2-延迟2个月还款,依次类推,8-延迟8个月还款、9-延迟9个月还款;
-
PAY_2~PAY_6:分别对应2005年8月至2005年4月的还款状态,特征码值同上;
-
BILL_AMT1~BILL_AMT6:分别为2005年9月至2005年4月每月的账单金额,即每月信用卡消费金额;
-
PAY_AMT1~PAY_AMT6:分别为2005年9月至2005年4月每月的付款金额,包括还账单金额和存入信用卡金额;
-
default_payment_next_month:目标变量,数据集的预测变量,变量含义为下个月还款违约情况,1-是-逾期、0-否-未逾期。
补充说明:
-
若PAY_AMT低于银行规定的最低还款额,则视为违约;
-
若PAY_AMT大于上月账单金额BILL_AMT,则视为正常还款;
-
若PAY_AMT大于最低还款额但低于上月账单金额,则视为延迟还款。
02、利用RapidMiner的Turbo Prep
模块进行数据探索分析

图1 - RapidMiner欢迎界面
启动RapidMiner 后,如图1,我们从Turbo Prep进入数据准备模块,该模块可完成数据探索分析、数据清洗和特征组合衍生等工作。
(1)数据概览

图2 - 数据导入
将已准备好的UCI台湾信用卡数据集导入。基于对数据集的认识,ID为客户ID、default_payment_next_month为目标变量,在“Format your columns”环节将以上两个字段的列属性分别调整为“id”和“label”。

图3 - 数据概览界面
完成导入,我们则会看到如图3所示的数据集概览。对于每一列数据,我们可以快速地查看分布直方图的缩略图、综合有效度线条、数据类型等概览信息。右键查看数据列详情,则可观测到更多的统计信息,如图4包括汇总信息如缺失率Missing、极限值占比Infinite、ID属性程度ID-ness、稳定性Stability、有效观测值占比Valid,统计信息最值、均值、标准差,以及粗略的变量分布图。

图4 - 数据列详细信息
(2)可视化探索
应用Turbo Prep的CHARTS图表来对数据进行交互式可视化。如图5所示,Turbo Prep支持十分丰富的图表类型,折线图、散点图、面积图、直方图、密度图、热图、饼图、帕累托图等均可完美支持。

图5 - Turbo Prep支持的图表类型
如图6,展示了按照EDUCATION教育水平进行分组后,对ID列进行计数统计,以饼图的形式展示了不同教育水平的分布占比。

图6 - 饼图
Turbo Prep的CHARTS图表功能使得数据可视化工作更加灵活高效,可帮助数据科学家更好的洞察数据模式,并进行有效的信息传递。
(3)数据透视
数据透视通过分组汇总和聚合分析,快速查看数据的趋势、模式和异常值。

图7 - 信用额度透视分析

图8 - 违约比例透视分析
例如我们想要观测在性别和婚姻状态的分组下,信用额度及信用卡违约情况是如何变化的。
如图7,“已婚”人士通常可获得更高的信用额度,“已婚男性”分组下平均信用额度最高,“其他男性”分组下平均信用额度最低。
如图8,无论男性还是女性,均为婚姻状态为“其他”分组下的违约比例最高,而且各婚姻状态下,男性的违约比例都要高于女性。
综合分析,在婚姻状态中,除“已婚”、“单身”,“其他”往往意味着离异或丧偶等婚姻状态,蕴含着潜在的经济不稳定性,所以金融机构给予“其他”客户以较低的信用额度,体现到逾期表现上违约比例也是最高的。
如何评价RapidMiner?
Altair RapidMiner作为一款强大的可视化数据科学计算平台产品,其在数据探索分析中的优势包括:
高易用性:从数据导入到单变量分析、图表分析、聚合透视分析,RapidMiner在操作上体现了较高的易用性,整个数据探索分析工作仅借助产品简洁的说明信息即可完成;
强大的图表可视化功能:RapidMiner强大的图表功能有效解决了数据探索分析的可视化工作,通过丰富的图表类型揭示数据的内在模式;
交互体验好:RapidMiner数据准备模块的PIVOT数据透视功能中,拖拉式操作、实时聚合计算、透视分析结果可视化展示,体现了极佳的交互体验。
——某互联网银行风控建模团队主管
如您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,
那么,一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers”
会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发,
点击立即免费报名
关于 Altair RapidMiner
Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。
欲了解更多信息,欢迎访问:
www.altair.com.cn

相关文章:
可视化数据科学平台在信贷领域应用系列一:数据探索
引言 信贷风险数据建模是金融机构在数据量日益庞杂的时代进行信贷业务风控的关键技术。它能够帮助机构更好地控制风险、减少违约损失,并提高业务效率。通过不断优化建模方法和利用建模工具,金融机构的风险控制能力得到了显著提升。 在本文中,…...
SpringBoot发送Gmail邮件
1. 登录Gmail Gmail网址 点击右上角“小齿轮”,然后点击"查看所有设置" 点击“转发和 POP/IMAP”,按图中设置,然后点击保存: 2. 启用两步验证(https://myaccount.google.com/security) 登录上述网址,找…...
【小海实习日记】金融-现货以及合约理解
在股票和金融市场中,“单项持仓”和“双向持仓”是两个常见的概念,主要用于描述投资者在市场中的头寸及其策略。 单项持仓(单向持仓) 单项持仓是指投资者在市场中只持有一种方向的头寸(多头或空头)&#…...
html 添加元素如何能提升速度
在 HTML 中,如果你需要频繁地添加大量元素,需要确保你的操作能够以最佳性能进行。以下是一些有助于提高添加元素速度的方法: 综上所述,通过使用文档片段、innerHTML、虚拟滚动以及避免频繁的重排和重绘,你可以提高在 H…...
人工智能大模型的进化之路:探索如何让它们变得更“聪明”
一、引言 在人工智能(AI)领域,大模型凭借其强大的处理能力和广泛的应用前景,已经成为研究的热点。然而,尽管这些模型在多个领域展现出了惊人的能力,但它们仍然面临着理解力、泛化能力和适应性等方面的挑战…...
【设计模式深度剖析】【6】【结构型】【外观模式】| 以电脑开关按钮为例,并结合微服务架构的API网关加深理解
👈️上一篇:桥接模式 | 下一篇:享元模式👉️ 设计模式-专栏👈️ 目 录 外观模式(Facade Pattern)定义英文原文直译如何理解呢?字面理解代码实现中的理解生活案例:操作多功能料理机典型案例…...
2024拼多多 最新理论+实战干货,从入门到精通全链路多角度学习-7节课
基于最新规则理论结合实际的干货 课程内容: 01 2024年多多防比价新规则破局理论课与实操课.mp4 02 24年多多强付费第二节课基础内功.mp4 03 24年多多强付费第三节课直通车实操 .mp4 04 24年多多强付费第一节课市场定价格段,mp4 05 24年多多自然流第一节课市场…...
在Three.js中实现模型点击高亮:整合EffectComposer与OutlinePass的终极指南
效果【后期实现鼠标点击选中轮廓后给出一个弹窗显示相应的模型信息】 标签指示线参考我的上一篇文章 引言 Three.js不仅让WebGL的3D图形编程变得简单易懂,还通过其强大的扩展库支持丰富的后期处理效果,为3D场景增添无限魅力。本篇文章将引导您深入了…...
Webrtc支持HEVC之FFMPEG支持HEVC编解码(一)
一、前言 Webrtc使用的FFMPEG(webrtc\src\third_party\ffmpeg)和官方的不太一样,使用GN编译,各个平台使用了不一样的配置文件 以Windows为例,Chrome浏览器也类似 二、修改配置文件 windows:chromium\config\Chrome\win\x64 其他平台: chromium\config\Chrome\YOUR_SYS…...
高校实验室危险化学品及重大危险源安全管理系统
高校实验室危险化学品及重大危险源安全管理的重要性: 保障师生安全:通过严格管理,可以有效地降低这些风险,确保师生在实验室内的安全。 确保实验教学质量:良好的危化品管理能够确保实验材料的准确性和可靠性࿰…...
【Godot4自学手册】第四十一节背包系统(一)UI设置
各位同学,好久没有更新笔记了,今天开始,我准备自学背包系统。今天先学习下UI界面设置。 一、新建场景和结点 1.新建Node2D场景,命名为Inventory,保存到Scenes目录下,inventory.tscn。 2.新建TextureRect子…...
JS继承的方式
目录 原型链继承构造函数继承组合继承寄生组合继承ES6 Class 继承原型链继承 原理: 通过将子类的原型(prototype)设置为父类的一个实例,使得子类实例能够沿着原型链访问到父类的属性和方法。 function Parent() {this.parentProperty...
拓展虚拟世界边界,云手机可以做到吗
虚拟世界,AI,VR等词汇是21世纪最为流行的词汇,在科技背后,这些词汇的影响变得越来越大,已经走进了人们的世界,比如之前APPLE发布的vision pro,使人们能够更加身临其境的体验到原生os系统&#x…...
网络的功能和实现方法简介
网络的功能: 计算机网络是研究怎么样在两个端用户之间提供访问通路的。所以网络的功能是为网络上的任意两个端用户之间提供访问通路。 计算机通信的特点: 间歇性和突发性。即时而线路中没有信息流过,时而突来的大量数据需要迅速传输。为此计…...
npm有哪些插件包??
1.Web开发相关 Web开发相关的npm插件包涵盖了各种工具、框架和库,帮助开发人员简化开发流程、提高效率并实现更好的用户体验。以下是一些常见的Web开发相关的npm插件包及其功能: 1. webpack:一个现代的JavaScript应用程序的静态模块打包工具…...
SpringBoot基础篇
1:parent 目的:减少依赖配置 开发SpringBoot程序要继承spring-boot-starter-parentspring-boot-starter-parent中定义了若干个依赖管理继承parent模块可以避免多个依赖使用相同技术出现依赖版本冲突继承parent的形式也可以采用引入依赖的i形式实现效果…...
【java11】java11新特性介绍
Java11于2018年9月25日正式发布,Java11是继Java8之后的第一个LTS(Long-Term-Support)长期支持功能版本,与之前的版本(Java9和Java10)不同,它提供了长达3年的维护期,旨在提供稳定且长…...
搜维尔科技:介绍下Manus的OptiTrack 手套,体验精致的每指触觉!
搜维尔科技:介绍下Manus的OptiTrack 手套,体验精致的每指触觉! 搜维尔科技:介绍下Manus的OptiTrack 手套,体验精致的每指触觉!...
Element ui 快速入门(基础知识点)
element ui官网 前言: 在当今时代,我们在编写计算机程序时,不仅仅是写几个增删改查的简单功能,为了满足广大用户对页面美观的需求,为了让程序员们写一些功能更简便,提高团队协作效率,所以eleme…...
[数据集][目标检测]脑肿瘤检测数据集VOC+YOLO格式9787张3类别
数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):9787 标注数量(xml文件个数):9787 标注数量(txt文件个数):9787 标注…...
网络编程(Modbus进阶)
思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…...
MPNet:旋转机械轻量化故障诊断模型详解python代码复现
目录 一、问题背景与挑战 二、MPNet核心架构 2.1 多分支特征融合模块(MBFM) 2.2 残差注意力金字塔模块(RAPM) 2.2.1 空间金字塔注意力(SPA) 2.2.2 金字塔残差块(PRBlock) 2.3 分类器设计 三、关键技术突破 3.1 多尺度特征融合 3.2 轻量化设计策略 3.3 抗噪声…...
TDengine 快速体验(Docker 镜像方式)
简介 TDengine 可以通过安装包、Docker 镜像 及云服务快速体验 TDengine 的功能,本节首先介绍如何通过 Docker 快速体验 TDengine,然后介绍如何在 Docker 环境下体验 TDengine 的写入和查询功能。如果你不熟悉 Docker,请使用 安装包的方式快…...
为什么需要建设工程项目管理?工程项目管理有哪些亮点功能?
在建筑行业,项目管理的重要性不言而喻。随着工程规模的扩大、技术复杂度的提升,传统的管理模式已经难以满足现代工程的需求。过去,许多企业依赖手工记录、口头沟通和分散的信息管理,导致效率低下、成本失控、风险频发。例如&#…...
Module Federation 和 Native Federation 的比较
前言 Module Federation 是 Webpack 5 引入的微前端架构方案,允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。 概念解析 Module Federation (模块联邦) Modul…...
【git】把本地更改提交远程新分支feature_g
创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...
Linux-07 ubuntu 的 chrome 启动不了
文章目录 问题原因解决步骤一、卸载旧版chrome二、重新安装chorme三、启动不了,报错如下四、启动不了,解决如下 总结 问题原因 在应用中可以看到chrome,但是打不开(说明:原来的ubuntu系统出问题了,这个是备用的硬盘&a…...
【Java_EE】Spring MVC
目录 Spring Web MVC 编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递 注意事项 编辑参数重命名 RequestParam 编辑编辑传递集合 RequestParam 传递JSON数据 编辑RequestBody …...
基于matlab策略迭代和值迭代法的动态规划
经典的基于策略迭代和值迭代法的动态规划matlab代码,实现机器人的最优运输 Dynamic-Programming-master/Environment.pdf , 104724 Dynamic-Programming-master/README.md , 506 Dynamic-Programming-master/generalizedPolicyIteration.m , 1970 Dynamic-Programm…...
苹果AI眼镜:从“工具”到“社交姿态”的范式革命——重新定义AI交互入口的未来机会
在2025年的AI硬件浪潮中,苹果AI眼镜(Apple Glasses)正在引发一场关于“人机交互形态”的深度思考。它并非简单地替代AirPods或Apple Watch,而是开辟了一个全新的、日常可接受的AI入口。其核心价值不在于功能的堆叠,而在于如何通过形态设计打破社交壁垒,成为用户“全天佩戴…...
