当前位置: 首页 > news >正文

可视化数据科学平台在信贷领域应用系列一:数据探索

引言

信贷风险数据建模是金融机构在数据量日益庞杂的时代进行信贷业务风控的关键技术。它能够帮助机构更好地控制风险、减少违约损失,并提高业务效率。通过不断优化建模方法和利用建模工具,金融机构的风险控制能力得到了显著提升。

在本文中,一位来自国内头部互联网银行的零售信贷风险建模专家使用RapidMiner软件进行信用卡违约预测建模全过程。鉴于数据保密原则和法规,他选择了公开的UCI台湾信用卡数据集进行试验和演示。

让我们一起来看看他的最终试验过程和结论。

01数据集简介

我们用到的数据集是UCI台湾信用卡数据集,它是一个由UCI维护的公开机器学习数据集,用于信用卡违约预测,该场景是信贷风控最常见的应用场景。该数据集由台湾的一家信用卡公司提供,包含 2005 至 2017 年期间客户的人口学统计特征、信用情况、信用卡还款、信用卡账单、信用卡付款等维度的数据,整个数据集包含30000条记录、25个字段。

先来认识一下数据集各字段的具体含义:

  • ID:客户ID;

  • LIMIT_BAL:信用额度,包含个人信用额度和家庭信用额度;

  • SEX:性别,1-男、2-女;

  • EDUCATION:教育水平,1-研究生、2-本科、3-高中、4-其他、0/5/6-未知;

  • MARRIAGE:婚姻状态,1-已婚、2-单身、3-其他;

  • AGE:年龄;

  • PAY_0:2005年9月的还款状态,-2-未消费、-1-按时还款、1-延迟1个月还款、2-延迟2个月还款,依次类推,8-延迟8个月还款、9-延迟9个月还款;

  • PAY_2~PAY_6:分别对应2005年8月至2005年4月的还款状态,特征码值同上;

  • BILL_AMT1~BILL_AMT6:分别为2005年9月至2005年4月每月的账单金额,即每月信用卡消费金额;

  • PAY_AMT1~PAY_AMT6:分别为2005年9月至2005年4月每月的付款金额,包括还账单金额和存入信用卡金额;

  • default_payment_next_month:目标变量,数据集的预测变量,变量含义为下个月还款违约情况,1-是-逾期、0-否-未逾期。

补充说明:

  • 若PAY_AMT低于银行规定的最低还款额,则视为违约;

  • 若PAY_AMT大于上月账单金额BILL_AMT,则视为正常还款;

  • 若PAY_AMT大于最低还款额但低于上月账单金额,则视为延迟还款。

02利用RapidMiner的Turbo Prep

模块进行数据探索分析

图片

图1 - RapidMiner欢迎界面

启动RapidMiner 后,如图1,我们从Turbo Prep进入数据准备模块,该模块可完成数据探索分析、数据清洗和特征组合衍生等工作。

(1)数据概览

图片

图2 - 数据导入

将已准备好的UCI台湾信用卡数据集导入。基于对数据集的认识,ID为客户ID、default_payment_next_month为目标变量,在“Format your columns”环节将以上两个字段的列属性分别调整为“id”和“label”。

图片

图3 - 数据概览界面

完成导入,我们则会看到如图3所示的数据集概览。对于每一列数据,我们可以快速地查看分布直方图的缩略图、综合有效度线条、数据类型等概览信息。右键查看数据列详情,则可观测到更多的统计信息,如图4包括汇总信息如缺失率Missing、极限值占比Infinite、ID属性程度ID-ness、稳定性Stability、有效观测值占比Valid,统计信息最值、均值、标准差,以及粗略的变量分布图。

图片

图4 - 数据列详细信息

(2)可视化探索

应用Turbo Prep的CHARTS图表来对数据进行交互式可视化。如图5所示,Turbo Prep支持十分丰富的图表类型,折线图、散点图、面积图、直方图、密度图、热图、饼图、帕累托图等均可完美支持。

图片

图5 - Turbo Prep支持的图表类型

如图6,展示了按照EDUCATION教育水平进行分组后,对ID列进行计数统计,以饼图的形式展示了不同教育水平的分布占比。

图片

图6 - 饼图

Turbo Prep的CHARTS图表功能使得数据可视化工作更加灵活高效,可帮助数据科学家更好的洞察数据模式,并进行有效的信息传递。

(3)数据透视

数据透视通过分组汇总和聚合分析,快速查看数据的趋势、模式和异常值。

图片

图7 - 信用额度透视分析

图片

图8 - 违约比例透视分析

例如我们想要观测在性别和婚姻状态的分组下,信用额度及信用卡违约情况是如何变化的。

如图7,“已婚”人士通常可获得更高的信用额度,“已婚男性”分组下平均信用额度最高,“其他男性”分组下平均信用额度最低。

如图8,无论男性还是女性,均为婚姻状态为“其他”分组下的违约比例最高,而且各婚姻状态下,男性的违约比例都要高于女性。

综合分析,在婚姻状态中,除“已婚”、“单身”,“其他”往往意味着离异或丧偶等婚姻状态,蕴含着潜在的经济不稳定性,所以金融机构给予“其他”客户以较低的信用额度,体现到逾期表现上违约比例也是最高的。

如何评价RapidMiner?

Altair RapidMiner作为一款强大的可视化数据科学计算平台产品,其在数据探索分析中的优势包括:

高易用性:从数据导入到单变量分析、图表分析、聚合透视分析,RapidMiner在操作上体现了较高的易用性,整个数据探索分析工作仅借助产品简洁的说明信息即可完成;

强大的图表可视化功能:RapidMiner强大的图表功能有效解决了数据探索分析的可视化工作,通过丰富的图表类型揭示数据的内在模式;

交互体验好:RapidMiner数据准备模块的PIVOT数据透视功能中,拖拉式操作、实时聚合计算、透视分析结果可视化展示,体现了极佳的交互体验。

——某互联网银行风控建模团队主管


如您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,

那么,一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers

会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发

点击立即免费报名


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎访问:

www.altair.com.cn

图片

相关文章:

可视化数据科学平台在信贷领域应用系列一:数据探索

引言 信贷风险数据建模是金融机构在数据量日益庞杂的时代进行信贷业务风控的关键技术。它能够帮助机构更好地控制风险、减少违约损失,并提高业务效率。通过不断优化建模方法和利用建模工具,金融机构的风险控制能力得到了显著提升。 在本文中,…...

SpringBoot发送Gmail邮件

1. 登录Gmail Gmail网址 点击右上角“小齿轮”,然后点击"查看所有设置" 点击“转发和 POP/IMAP”,按图中设置,然后点击保存: 2. 启用两步验证(https://myaccount.google.com/security) 登录上述网址,找…...

【小海实习日记】金融-现货以及合约理解

在股票和金融市场中,“单项持仓”和“双向持仓”是两个常见的概念,主要用于描述投资者在市场中的头寸及其策略。 单项持仓(单向持仓) 单项持仓是指投资者在市场中只持有一种方向的头寸(多头或空头)&#…...

html 添加元素如何能提升速度

在 HTML 中,如果你需要频繁地添加大量元素,需要确保你的操作能够以最佳性能进行。以下是一些有助于提高添加元素速度的方法: 综上所述,通过使用文档片段、innerHTML、虚拟滚动以及避免频繁的重排和重绘,你可以提高在 H…...

人工智能大模型的进化之路:探索如何让它们变得更“聪明”

一、引言 在人工智能(AI)领域,大模型凭借其强大的处理能力和广泛的应用前景,已经成为研究的热点。然而,尽管这些模型在多个领域展现出了惊人的能力,但它们仍然面临着理解力、泛化能力和适应性等方面的挑战…...

【设计模式深度剖析】【6】【结构型】【外观模式】| 以电脑开关按钮为例,并结合微服务架构的API网关加深理解

👈️上一篇:桥接模式 | 下一篇:享元模式👉️ 设计模式-专栏👈️ 目 录 外观模式(Facade Pattern)定义英文原文直译如何理解呢?字面理解代码实现中的理解生活案例:操作多功能料理机典型案例…...

2024拼多多 最新理论+实战干货,从入门到精通全链路多角度学习-7节课

基于最新规则理论结合实际的干货 课程内容: 01 2024年多多防比价新规则破局理论课与实操课.mp4 02 24年多多强付费第二节课基础内功.mp4 03 24年多多强付费第三节课直通车实操 .mp4 04 24年多多强付费第一节课市场定价格段,mp4 05 24年多多自然流第一节课市场…...

在Three.js中实现模型点击高亮:整合EffectComposer与OutlinePass的终极指南

效果【后期实现鼠标点击选中轮廓后给出一个弹窗显示相应的模型信息】 标签指示线参考我的上一篇文章 引言 Three.js不仅让WebGL的3D图形编程变得简单易懂,还通过其强大的扩展库支持丰富的后期处理效果,为3D场景增添无限魅力。本篇文章将引导您深入了…...

Webrtc支持HEVC之FFMPEG支持HEVC编解码(一)

一、前言 Webrtc使用的FFMPEG(webrtc\src\third_party\ffmpeg)和官方的不太一样,使用GN编译,各个平台使用了不一样的配置文件 以Windows为例,Chrome浏览器也类似 二、修改配置文件 windows:chromium\config\Chrome\win\x64 其他平台: chromium\config\Chrome\YOUR_SYS…...

高校实验室危险化学品及重大危险源安全管理系统

高校实验室危险化学品及重大危险源安全管理的重要性: 保障师生安全:通过严格管理,可以有效地降低这些风险,确保师生在实验室内的安全。 确保实验教学质量:良好的危化品管理能够确保实验材料的准确性和可靠性&#xff0…...

【Godot4自学手册】第四十一节背包系统(一)UI设置

各位同学,好久没有更新笔记了,今天开始,我准备自学背包系统。今天先学习下UI界面设置。 一、新建场景和结点 1.新建Node2D场景,命名为Inventory,保存到Scenes目录下,inventory.tscn。 2.新建TextureRect子…...

JS继承的方式

目录 原型链继承构造函数继承组合继承寄生组合继承ES6 Class 继承原型链继承 原理: 通过将子类的原型(prototype)设置为父类的一个实例,使得子类实例能够沿着原型链访问到父类的属性和方法。 function Parent() {this.parentProperty...

拓展虚拟世界边界,云手机可以做到吗

虚拟世界,AI,VR等词汇是21世纪最为流行的词汇,在科技背后,这些词汇的影响变得越来越大,已经走进了人们的世界,比如之前APPLE发布的vision pro,使人们能够更加身临其境的体验到原生os系统&#x…...

网络的功能和实现方法简介

网络的功能: 计算机网络是研究怎么样在两个端用户之间提供访问通路的。所以网络的功能是为网络上的任意两个端用户之间提供访问通路。 计算机通信的特点: 间歇性和突发性。即时而线路中没有信息流过,时而突来的大量数据需要迅速传输。为此计…...

npm有哪些插件包??

1.Web开发相关 Web开发相关的npm插件包涵盖了各种工具、框架和库,帮助开发人员简化开发流程、提高效率并实现更好的用户体验。以下是一些常见的Web开发相关的npm插件包及其功能: 1. webpack:一个现代的JavaScript应用程序的静态模块打包工具…...

SpringBoot基础篇

1:parent 目的:减少依赖配置 开发SpringBoot程序要继承spring-boot-starter-parentspring-boot-starter-parent中定义了若干个依赖管理继承parent模块可以避免多个依赖使用相同技术出现依赖版本冲突继承parent的形式也可以采用引入依赖的i形式实现效果…...

【java11】java11新特性介绍

Java11于2018年9月25日正式发布,Java11是继Java8之后的第一个LTS(Long-Term-Support)长期支持功能版本,与之前的版本(Java9和Java10)不同,它提供了长达3年的维护期,旨在提供稳定且长…...

搜维尔科技:介绍下Manus的OptiTrack 手套,体验精致的每指触觉!

搜维尔科技:介绍下Manus的OptiTrack 手套,体验精致的每指触觉! 搜维尔科技:介绍下Manus的OptiTrack 手套,体验精致的每指触觉!...

Element ui 快速入门(基础知识点)

element ui官网 前言: 在当今时代,我们在编写计算机程序时,不仅仅是写几个增删改查的简单功能,为了满足广大用户对页面美观的需求,为了让程序员们写一些功能更简便,提高团队协作效率,所以eleme…...

[数据集][目标检测]脑肿瘤检测数据集VOC+YOLO格式9787张3类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):9787 标注数量(xml文件个数):9787 标注数量(txt文件个数):9787 标注…...

基于Flask实现的医疗保险欺诈识别监测模型

基于Flask实现的医疗保险欺诈识别监测模型 项目截图 项目简介 社会医疗保险是国家通过立法形式强制实施,由雇主和个人按一定比例缴纳保险费,建立社会医疗保险基金,支付雇员医疗费用的一种医疗保险制度, 它是促进社会文明和进步的…...

Device Mapper 机制

Device Mapper 机制详解 Device Mapper(简称 DM)是 Linux 内核中的一套通用块设备映射框架,为 LVM、加密磁盘、RAID 等提供底层支持。本文将详细介绍 Device Mapper 的原理、实现、内核配置、常用工具、操作测试流程,并配以详细的…...

React---day11

14.4 react-redux第三方库 提供connect、thunk之类的函数 以获取一个banner数据为例子 store: 我们在使用异步的时候理应是要使用中间件的,但是configureStore 已经自动集成了 redux-thunk,注意action里面要返回函数 import { configureS…...

Chromium 136 编译指南 Windows篇:depot_tools 配置与源码获取(二)

引言 工欲善其事,必先利其器。在完成了 Visual Studio 2022 和 Windows SDK 的安装后,我们即将接触到 Chromium 开发生态中最核心的工具——depot_tools。这个由 Google 精心打造的工具集,就像是连接开发者与 Chromium 庞大代码库的智能桥梁…...

Linux部署私有文件管理系统MinIO

最近需要用到一个文件管理服务,但是又不想花钱,所以就想着自己搭建一个,刚好我们用的一个开源框架已经集成了MinIO,所以就选了这个 我这边对文件服务性能要求不是太高,单机版就可以 安装非常简单,几个命令就…...

Java详解LeetCode 热题 100(26):LeetCode 142. 环形链表 II(Linked List Cycle II)详解

文章目录 1. 题目描述1.1 链表节点定义 2. 理解题目2.1 问题可视化2.2 核心挑战 3. 解法一:HashSet 标记访问法3.1 算法思路3.2 Java代码实现3.3 详细执行过程演示3.4 执行结果示例3.5 复杂度分析3.6 优缺点分析 4. 解法二:Floyd 快慢指针法(…...

python打卡day49@浙大疏锦行

知识点回顾: 通道注意力模块复习空间注意力模块CBAM的定义 作业:尝试对今天的模型检查参数数目,并用tensorboard查看训练过程 一、通道注意力模块复习 & CBAM实现 import torch import torch.nn as nnclass CBAM(nn.Module):def __init__…...

spring boot使用HttpServletResponse实现sse后端流式输出消息

1.以前只是看过SSE的相关文章,没有具体实践,这次接入AI大模型使用到了流式输出,涉及到给前端流式返回,所以记录一下。 2.resp要设置为text/event-stream resp.setContentType("text/event-stream"); resp.setCharacter…...

react更新页面数据,操作页面,双向数据绑定

// 路由不是组件的直接跳转use client,useEffect,useRouter,需3个结合, use client表示客户端 use client; import { Button,Card, Space,Tag,Table,message,Input } from antd; import { useEffect,useState } from react; impor…...

iOS 项目怎么构建稳定性保障机制?一次系统性防错经验分享(含 KeyMob 工具应用)

崩溃、内存飙升、后台任务未释放、页面卡顿、日志丢失——稳定性问题,不一定会立刻崩,但一旦积累,就是“上线后救不回来的代价”。 稳定性保障不是某个工具的功能,而是一套贯穿开发、测试、上线全流程的“观测分析防范”机制。 …...