可视化数据科学平台在信贷领域应用系列二:数据清洗
上一篇文章中,某互联网银行零售信贷风险建模专家使用数据科学平台Altair RapidMiner——完成了数据探索工作,《可视化数据科学平台在信贷领域应用系列一:数据探索》。本次这位建模专家再次和大家分享数据准备的第二步骤,数据清洗。

首先,让我们一起来看下他的数据清洗心得,以及如何高效的利用工具完成数据清洗工作。认识“数据清洗”
为什么需要“数据清洗”?
在进行机器学习建模时,数据清洗是必不可少的步骤。数据清洗的目的是确保数据的准确性、完整性和一致性,提升数据集的数据质量,提高机器学习模型的性能。
数据清洗的必要性主要体现在以下两个方面:
-
正确有效的模型离不开数据清洗。数据中的缺失值、异常值和错误数据均会影响模型的准确性,甚至导致模型错误,数据质量是模型质量的基础保证。通过数据清洗步骤校正或排除这些数据,提升数据质量和可靠性,排除无效数据对模型造成的扰动,有效提升模型的泛化能力。
-
数据清洗可提高模型开发效率。数据中异常值和错误数据会导致模型开发的效率降低。正所谓“磨刀不误砍柴工”,完整的数据清洗工作有效提升后续特征衍生和模型开发的效率。
如何进行“数据清洗”?
数据清洗是建立可靠模型的关键步骤,它确保了模型在训练和应用阶段的准确性和稳定性。
数据清洗的主要步骤包括:
-
数据检查:首先要对数据进行检查,了解数据的总体情况,包括数据的类型、格式、完整性、集中度等。
-
数据转换:根据机器学习模型对训练数据的要求,对数据类型进行转换适配,例如将类别型数据转换为数值型数据或进行数值编码。
-
数据清理:基于数据检查的结果,对数据进行清理,包括缺失值、异常值、重复值、错误值。
利用RapidMiner 的Turbo Prep模块进行数据清洗
数据清洗是信用模型开发数据准备工作的重要内容。数据清洗工作的主要内容有以下几个方面。
-
我们从数据库提取的数据集通常会因为各种原因存在种种问题,应对特征值缺失、重复数据等错误数据进行修正或剔除,提升数据准确性。
-
数据集中的特征质量不一,存在高集中度、高相关性等问题,也应当在数据清洗环节对低质量特征进行排除。实践中,对于集中度超过95%、相关系数大于0.8的特征应当剔除。
-
为适配不同类型的模型,应当对特定类型的特征进行编码或转码。对于评分卡模型,应当对连续性特征进行离散化处理,又称“分箱”,离散化增强了特征的稳定性,提升了模型的泛化能力。而对于限定连续型特征入模的模型,则应将类别型特征进行编码,使之适配模型入模要求。
我们沿用上一节采用的UCI台湾信用卡数据集,数据检查工作我们已经在探索性数据分析一篇中完成,对数据集有了整体认识,也知晓了各特征列的特点。下面我们运用RapidMiner来实操数据转换和数据清理工作。
01、TRANSFORM 数据转换
首先看一下数据转换(TRANSFORM)模块所支持的操作,包括了重命名(RENAME)、改变类型(CHANGE TYPE)、删除(REMOVE)、拷贝(COPY)、筛选(FILTER)、范围截取(RANGE)、采样(SAMPLE)、排序(SORT)、替换(REPLACE)和拆分(SPLIT)。
应用数据转换(TRANSFORM)模块可实现数据集的灵活变换,融合多个基本操作的组合可完成更复杂的数据变换处理。

图1:数据变换操作记录
例如,我们希望将性别为“1-男”的数据筛选出来,随机抽样2000条记录并按照年龄排序,将FILTER、SAMPLE、SORT组合运用即可。如图1,RM会将所有的操作记录储存下来,以便用户查看或进行回退操作。
实践中,基于数据检查和探索性分析的结果,我们可以借助数据转换(TRANSFORM)模块实现对数据表的加工变换,排除掉异常值和错误数据。
02、CLEANSE 数据清洗
数据清洗(CLEANSE)支持对数据集进行多项清洗操作,包括移除低质量特征(REMOVE LOW QUALITY)、移除相关特征(REMOVE CORELATED)、缺失值填充(REPLACE MISSING)、标准化(NORMALIZATION)、离散化(DISCRETIZATION)、哑变量编码(DUMMY ENCODING),主成分分析(PCA)、去重(REMOVE DUPLICATES),涵盖了数据清洗的所有常规操作。
重点介绍一下自动清洗(AUTO CLEANSING),RapidMiner可以自动对数据集执行数据清理,自动化地完成数据清洗为机器学习建模做好准备,对新手用户或者业务人员十分友好。

图2:自动清洗(AUTO CLEANSING)
如图2所示,仅需几个简单的操作步骤即可完成数据清洗。RapidMiner还提供了两种可能提高数值列质量的选项可供选择,主成分分析(PCA,Principal Component Analysis,一种通过将数据点映射到一个新空间来减少数据维数的方法)和归一化(通常有助于使所有列的范围大致相同,排除量纲对模型的影响)。
针对信贷风控建模,移除相关特征(REMOVE CORELATED)和离散化(DISCRETIZATION)这两个操作就必须要聊聊了。
移除相关特征,通常设定相关系数筛选阈值0.8,过滤掉高相关性特征中 iv 较低的特征。过滤高相关特征,可有效避免高相关特征在模型训练过程中耦合干扰,使开发的模型更加健壮,增强了模型的线上运行稳定性。

图3 用户信用额度原始分布

图4 用户信用额度分箱后分布
通过离散化(DISCRETIZATION)将连续型特征进行“分箱”操作,RM内置了“等距分箱”和“等频分箱”,用户可按需设定分箱箱数。如图3和图4,经过离散化操作,我们将特征“信用额度”从连续性特征“等距分10箱”得到了新的分组类别特征,增强了特征稳定性,排除了极端值和噪声值对模型的影响,增强了模型稳定性和泛化能力。
如何看待RapidMiner?
数据清洗是非标工作,但 Altair RapidMiner 在数据清洗过程中,能够很大的提效,有鲜明的优势特点:
-
数据转换与清洗功能模块完备:无论是在数据转换还是数据清洗模块中,RM所能够支持的基本操作十分完备,通过组合操作可完成数据清洗相关的工作内容,操作简洁灵活高效。
-
自动化数据清洗:RapidMiner 的AUTO CLEANSING提供了极为简化的数据清洗自动化执行模块,非专业数据科学家亦可在RM的提示下快速完成数据清洗工作。
若您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,
一定不要错过6月20日面向工程师的全球人工智能线上会议“AI for Engineers”,
会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发
点击立即免费报名
关于 Altair RapidMiner
Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。
欲了解更多信息,欢迎访问:
www.altair.com.cn

相关文章:
可视化数据科学平台在信贷领域应用系列二:数据清洗
上一篇文章中,某互联网银行零售信贷风险建模专家使用数据科学平台Altair RapidMiner——完成了数据探索工作,《可视化数据科学平台在信贷领域应用系列一:数据探索》。本次这位建模专家再次和大家分享数据准备的第二步骤,数据清洗。…...
JS面试题:hash和history的区别
一、hash 模式和 history 模式的介绍 由于 Vue 项目为单页面应用,所以整个项目在开发和构建过程中,仅存在一个HTML物理文件。通过路由系统可以实现将项目的组件与可访问的URL路径进行绑定。由于Vue项目只有一个HTML物理文件,切换页面时既需要…...
GEE案例——归一化差异水体指数丰水期、枯水期的水域面积和水深分析(青海湖为例)
简介 水深反演是指利用遥感技术从航空或卫星平台上获取的数据来推断水体的深度信息。这种技术在海洋学、湖泊和河流的科学研究与管理中非常重要。以下是几种常用的水深反演方法: 1. **光学遥感反演**: - 基于水体颜色和透明度的变化与水深的关系,使用光学遥感影像(如L…...
机器视觉检测--相机
一,相机就是CCD么? 通常,我们把相机都叫作CCD,CCD已经成了相机的代名词。其实很可能正在使用的是CMOS。CCD以及CMOS都称为感光元件,都是将光学图像转换为电子信号的半导体元件。他们在检测光时都采用光电二极管&#…...
【人工智能】第四部分:ChatGPT的技术实现
人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…...
小程序配置自定义tabBar及异形tabBar配置操作
什么是tabBar? 小程序的tabbar是指小程序底部的一组固定导航按钮,通常包含2-5个按钮,用于快速切换小程序的不同页面。每个按钮都有一个图标和文本标签,点击按钮可以切换到对应的页面。tabbar通常放置在小程序的底部,以…...
解析《动物园规则怪谈》【逻辑】
鉴赏《动物园规则怪谈》【逻辑】 前言版权推荐鉴赏《动物园规则怪谈》推理游客正方“它”方其他物品 不同规则或纸条的对比联系出现的地方及联系游客入园历程:被“它”污染的过程鉴赏升华 最后 前言 2024-5-31 13:05:38 以下内容源自《【逻辑】》 仅供学习交流使用…...
上传RKP 证书签名请求息上传到 Google 的后端服务器
上传证书签名请求 1.准备环境:OK pip3 install google-auth2.13.0 requests2.28下载 device_info_uploader.py 。 没找到先跳过 选项 1:通过 GCP 帐户使用 device_info_uploader.py 运行脚本。 ./device_info_uploader.py --credentials /secure/s…...
Debian和ubuntu 嵌入式的系统的 区别
随着开源操作系统的日益流行,Debian和Ubuntu这两个基于Linux的发行版本成为了众多开发者和系统管理员的首选。它们各自拥有独特的优势和特点,那么,在选择时,哪一个更适合你呢?接下来,我们将深入探讨两者的关…...
HTML旋转照片盒子
效果图 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><meta http-equiv"X-UA-Compatible" content…...
【UE5 刺客信条动态地面复刻】实现无界地面01:动态生成
2024.6.4更新 昨天半夜意识到生成Cube的方案不合适,又开始到处找动态地面的方法,发现了我想要的效果直接可以用nigara实现!!!! 于是这个部分就暂时告一段落,今季开始新的方向的学习。 为了快速…...
AI产品经理系列-如何使用kimi快速撰写用户故事(含提示词)
在AI时代,可能人人都可成为产品经理。 之前我们聊过如何使用kimi协助完成产品需求文档,如何写竞品分析报告,这一篇我们聊聊用户故事,如何使用kimi协助撰写产品需求文档中的用户故事。 在此之前我们先了解下什么是用户故事&#…...
MySQL索引与事务
前言👀~ 紧接着数据库的相关知识,今天讲解MySQL面试中频繁被问到的知识点,索引与事务!!! 如果各位对文章的内容感兴趣的话,请点点小赞,关注一手不迷路,如果内容有什么问题的话,欢迎各位评论纠正…...
『大模型笔记』从基础原理出发提升深度学习性能
从基础原理出发提升深度学习性能 文章目录 一. 从基础原理出发提升深度学习性能1.1. 计算(compute)1.2. 带宽(Bandwidth)1.2.1 关于内存带宽成本的推理(Reasoning about Memory-Bandwidth Costs)1.3. 开销(Overhead)二. 总结三. 参考文献Making Deep Learning Go Brrrr F…...
【二叉树】Leetcode 222. 完全二叉树的节点个数【简单】
完全二叉树的节点个数 你一棵 完全二叉树 的根节点 root ,求出该树的节点个数。 完全二叉树 的定义如下:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层的节点都集中在该层最…...
golang界面设计器,全网少见
今天登录govcl的网站,无意中看到有个简易UI设计器。 对于golang的UI专用设计器,还没在网上真正见过。 之前也用govcl来做过两三个桌面应用,好用是好用,不过要安装Lazarus的IDE来拖动设计UI,还要配置很多东西࿰…...
如何在GlobalMapper中加载高清卫星影像?
GlobalMapper在GIS行业几乎无人不知,无人不晓,但它可以直接加载卫星影像也许就不是每个人都知道的了。 这里就来分享一下如何在GlobalMapper中加载高清卫星影像,并可以在文末查看领取软件安装包和图源的方法。 如何加载高清图源 首先&…...
【机器学习】解锁AI密码:神经网络算法详解与前沿探索
👀传送门👀 🔍引言🍀神经网络的基本原理🚀神经网络的结构📕神经网络的训练过程🚆神经网络的应用实例💖未来发展趋势💖结语 🔍引言 随着人工智能技术的飞速发…...
Java如何实现pdf转base64以及怎么反转?
问题需求 今天在做发送邮件功能的时候,发现邮件的附件部分,比如pdf文档,要求先把pdf转为base64,邮件才会发送。那接下来就先看看Java 如何把 pdf文档转为base64。 两种方式,一种是通过插件 jar 包的方式引入…...
动态规划5:62. 不同路径
动态规划解题步骤: 1.确定状态表示:dp[i]是什么 2.确定状态转移方程:dp[i]等于什么 3.初始化:确保状态转移方程不越界 4.确定填表顺序:根据状态转移方程即可确定填表顺序 5.确定返回值 题目链接:62. …...
C++实现分布式网络通信框架RPC(3)--rpc调用端
目录 一、前言 二、UserServiceRpc_Stub 三、 CallMethod方法的重写 头文件 实现 四、rpc调用端的调用 实现 五、 google::protobuf::RpcController *controller 头文件 实现 六、总结 一、前言 在前边的文章中,我们已经大致实现了rpc服务端的各项功能代…...
rknn优化教程(二)
文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK,开始写第二篇的内容了。这篇博客主要能写一下: 如何给一些三方库按照xmake方式进行封装,供调用如何按…...
将对透视变换后的图像使用Otsu进行阈值化,来分离黑色和白色像素。这句话中的Otsu是什么意思?
Otsu 是一种自动阈值化方法,用于将图像分割为前景和背景。它通过最小化图像的类内方差或等价地最大化类间方差来选择最佳阈值。这种方法特别适用于图像的二值化处理,能够自动确定一个阈值,将图像中的像素分为黑色和白色两类。 Otsu 方法的原…...
页面渲染流程与性能优化
页面渲染流程与性能优化详解(完整版) 一、现代浏览器渲染流程(详细说明) 1. 构建DOM树 浏览器接收到HTML文档后,会逐步解析并构建DOM(Document Object Model)树。具体过程如下: (…...
精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南
精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南 在数字化营销时代,邮件列表效度、用户参与度和网站性能等指标往往决定着创业公司的增长成败。今天,我们将深入解析邮件打开率、网站可用性、页面参与时…...
Hive 存储格式深度解析:从 TextFile 到 ORC,如何选对数据存储方案?
在大数据处理领域,Hive 作为 Hadoop 生态中重要的数据仓库工具,其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式,很多开发者常常陷入选择困境。本文将从底…...
【Java学习笔记】BigInteger 和 BigDecimal 类
BigInteger 和 BigDecimal 类 二者共有的常见方法 方法功能add加subtract减multiply乘divide除 注意点:传参类型必须是类对象 一、BigInteger 1. 作用:适合保存比较大的整型数 2. 使用说明 创建BigInteger对象 传入字符串 3. 代码示例 import j…...
网站指纹识别
网站指纹识别 网站的最基本组成:服务器(操作系统)、中间件(web容器)、脚本语言、数据厍 为什么要了解这些?举个例子:发现了一个文件读取漏洞,我们需要读/etc/passwd,如…...
RabbitMQ入门4.1.0版本(基于java、SpringBoot操作)
RabbitMQ 一、RabbitMQ概述 RabbitMQ RabbitMQ最初由LShift和CohesiveFT于2007年开发,后来由Pivotal Software Inc.(现为VMware子公司)接管。RabbitMQ 是一个开源的消息代理和队列服务器,用 Erlang 语言编写。广泛应用于各种分布…...
根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的----NTFS源代码分析--重要
根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的 第一部分: 0: kd> g Breakpoint 9 hit Ntfs!ReadIndexBuffer: f7173886 55 push ebp 0: kd> kc # 00 Ntfs!ReadIndexBuffer 01 Ntfs!FindFirstIndexEntry 02 Ntfs!NtfsUpda…...
