2024-02-26(金融AI行业概览与大数据生态圈)
1.最开始的风控是怎么做的?
人审
吃业务经验
不能大批量处理,效率低下
不适用于移动互联网的金融场景
2.建模的概念
建模就是构造一个数学公式,能将我们手上有的数据输入进去,通过计算得到一些预测结果。
比如初高中学习的线性回归,就是最简单的建模过程。
风控模型最原始的思路就是输入一个用户的信息,得到这个人是“会还钱”还是“不会还钱”。这是个二分类问题。
而评分卡模型其实就是希望能将一系列的个人信息输入模型,然后得到一个用户的还款概率。概率越大,评分越高,越容易还钱。概率越小,评分越低,越容易跑路。典型例子就是芝麻信用分。
3.为什么一定要映射成某种分数呢?
我们可以随时根据业务需求调整通过率。
更容易向用户解释他的信用评级。
更容易向领导解释一个用户被拒绝的原因。
更容易监控一个模型的效果。
4.风控的流程
风控的角度来看,一般可以分为以下几个部分:
数据采集、反欺诈、策略、模型、催收。
数据采集:
数据采集会涉及到埋点和爬中技术,基本上业的数据都大同小异,免费的运营商数据、和安卓可爬的手机内部信息app名称,手机设备信息,部分app内容信息)、以及收费的征信数据、各种信息校验、外部黑名单之类的。还有一些特定场景的现金贷和消费金融会有自有的数据可供使用,比如阿里京东自己的电商数据、滴滴的司机数据、顺丰中通的快递数据等等。
反欺诈引擎:
反欺诈引肇主要包括两个部分,反欺诈规则和反欺诈模型,这里其实很少使用传统监督模型。涉及到的算法以无监督算法、社交网络算法、深度学习居多。大部分的公司都使用的是反欺诈规则,这也是主要提倡的。一个原因是欺诈标签不好得到,很难做监督学习的训练。还有一个原因是传统的机器学习对欺诈的检测果很差。因为所谓欺诈,就是一些黑产或者个人将自己包装成信用良好的用户,进行借款后失联或者拒不还钱,既然都伪装成了好客户,基于风控人员主观思考建立的统计模型,又怎么可能有好的效果,但是经过一段时间的实验,这一块其实用深度学习反而有意想不到的效果,基本思想可以理解为,简单评分卡解释性强,带来的坏处就是可以被逆向破解,而复杂模型的黑箱操作虽然解释性差,却有一定的安全性,尤其是搭配了在线学习等动态手段之后。反向破解的成本极高。此外还有很多算法诸如异常检测和知识图谱都在这一块有所应用。
规则引擎:
规则擎其实就是我们常说的策略,主要通过数据分析、挖掘手段以及一些监督、无监督算法,得到不同字段、各个区间的坏账率 (badrate) ,找到最佳分段区间,然后得到筛选后信用较好的一批特定人群进行放款。这一块主要有单变量分析和一些关键指标的计算和监控,比Rorate、PSI、KS、AUC,等等。通常规则和模型是组合使用的,尤其在反欺诈场景中。
风控模型:
风控模型是机器学习在风控领域的主要体现。当然前面提到的反欺诈模型也是重点之一,主要是通过监督算法构建违约概率预测模型。但是因为实际业务中,是数据的质量并不是永远那么完美,这里通常我们会使用到深度学习、无监督、弱监督等等方法去辅助 传统监督学习算法。
风控模型其中包含了A/B/C卡,模型算法之间可以没有显著区别,而是根据其发生的时间点不同而进行划分的(货前/贷中/贷后),也就是y产生的方式不一样。通常信贷领域都是用逾期天数来定义。A卡可以用客户历史逾期天数最大的天数。B卡则可以多期借款中逾期最大的一次。C卡因为用途不同有不同的建立方法。比如你们公司有内催,有外催。外催肯定是回款率低,单价贵的。那么就可以根据是否被内催催回来定义y。
催收:
催收是风控的最终手段,这个环节可以产生很多对模型有帮助的数据。比如懂收记录的文字描述、触达率、欺诈标签等等。并且坏账的客户会被列入黑名单。其实只要是能被惟回来的,都不是坏账,但是很多公司为了保险起见,逾期超过一定时间的客户,即使被懂回来,也会被拉入黑名单。这里主要的算法就是催收模型相关的,可能是监督、无监督算法。也有基于社交网络算法构造的失联模型等等。
相关文章:
2024-02-26(金融AI行业概览与大数据生态圈)
1.最开始的风控是怎么做的? 人审 吃业务经验 不能大批量处理,效率低下 不适用于移动互联网的金融场景 2.建模的概念 建模就是构造一个数学公式,能将我们手上有的数据输入进去,通过计算得到一些预测结果。 比如初高中学习的…...
git忽略某些文件(夹)更改说明
概述 在项目中,常有需要忽略的文件、文件夹提交到代码仓库中,在此做个笔录。 一、在项目根目录内新建文本文件,并重命名为.gitignore,该文件语法如下 # 以#开始的行,被视为注释. # 忽略掉所有文件名是 a.txt的文件. a.txt # 忽略所有生成的 java文件, *.java # a.j…...
python爬虫实战:获取电子邮件和联系人信息
引言 在数字时代,电子邮件和联系人信息成为了许多企业和个人重要的资源,在本文中,我们将探讨如何使用Python爬虫从网页中提取电子邮件和联系人信息,并附上示例代码。 目录 引言 二、准备工作 你可以使用以下命令来安装这些库&a…...
post请求同时上传文件并传递其他参数的前后端写法
最近有一需求,post请求从前端上传一个文件同时传递一个参数,多次实验后记录下两种写法: 方法一: 前端:重点是设置请求头代码如下: getfile(event) {//input框输入文件let file event.target.files[0];l…...
【数仓】基本概念、知识普及、核心技术
一、数仓基本概念 数仓的定义: 数据仓库(Data Warehouse,简称DW或DWH)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。简言之,它是一个大型存储库,用于存储来…...
ky10-server docker 离线安装包、离线安装
离线安装脚本 # ---------------离线安装docker------------------- rpm -Uvh --force --nodeps *.rpm# 修改docker拉取源为国内 rm -rf /etc/docker mkdir -p /etc/docker touch /etc/docker/daemon.json cat >/etc/docker/daemon.json<<EOF{"registry-mirro…...
Linux的gdb调试
文章目录 一、编译有调试信息的目标文件二、启动gdb调试文件1、查看内容list/l:l 文件名:行号/函数名,l 行号/函数名2、打断点b:b文件名:行号/函数名,b 行号/函数名 与 查看断点info/i:info b3、删除断点d:…...
IO多路复用-select模型
IO多路复用(IO Multiplexing)是一种高效的网络编程模型,可以同时监控多个文件描述符(包括套接字等),并在有数据可读或可写时进行通知。其中,select模型是最常用和最早引入的一种IO多路复用模型。…...
班级事务管理系统设计与实现
** 🍅点赞收藏关注 → 私信领取本源代码、数据库🍅 本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目希望你能有所收获,少走一些弯路。🍅关注我不迷路🍅** 一 、设计说明 1.1 选题…...
金三银四面试必问:Redis真的是单线程吗?
文章目录 01 Redis中的多线程1)redis-server:2)jemalloc_bg_thd3)bio_xxx: 02 I/O多线程03 Redis中的多进程04 结论▼延伸阅读 由面试题“Redis是否为单线程”引发的思考 作者:李乐 来源:IT阅读…...
notejs+nvm+angular+typescript.js环境 Hertzbeat 配置
D:\Program Files\nodejs\ D:\Users\Administrator\AppData\Roaming\nvm nvm命令提示 nvm arch:显示node是运行在32位还是64位。 nvm install <version> [arch] :安装node, version是特定版本也可以是最新稳定版本latest。 可选参…...
docker安装单机版canal和使用
说明:我安装的组件架构如下: 1、准备一台虚拟机,192.168.2.223,我安装的时候,docker只支持canal1.1.6版本,1.1.7无法使用docker安装.还有一点要补充,就是1.1.6好像不支持es8.0以上版本&#x…...
qt_xml文件
文章内容 简单介绍xml文件的增删改查写生成和读取xml文件的例子增删改查 Qt提供了QDomDocument类来操作XML文件。 增加节点: QDomElement root = doc.createElement("root"); doc.appendChild(root);QDomElement element = doc.createElement("element"…...
【DAY05 软考中级备考笔记】线性表,栈和队列,串数组矩阵和广义表
线性表,栈和队列,串数组矩阵和广义表 2月28日 – 天气:阴转晴 时隔好几天没有学习了,今天补上。明天发工资,开心😄 1. 线性表 1.1 线性表的结构 首先线性表的结构分为物理结构和逻辑结构 物理结构按照实…...
AutoGen Studio助力打造私人GPTs
微软最近在开源项目里的确挺能整活儿啊! 这次我介绍的是AutoGen Studio,我认为这个项目把AutoGen可用性又拔高了一个层次的项目 项目给自己的定义是交互式的多Agent workflow 项目地址:autogen/samples/apps/autogen-studio at main microsoft/autogen (github.com) 首先我…...
SpringBoot 自定义映射规则resultMap association一对一
介绍 例:学生表,班级表,希望在查询学生的时候一起返回该学生的班级,而一个实体类封装的是一个表,如需要多表查询就需要自定义映射。 表结构 班级表 学生表 SQL语句 SELECT a.id,a.name,a.classes,b.id classes…...
华东地区汽车相关夹具配套企业分布图,你了解多少?
1、华东地区 上海汽车整车厂众多,大多以设计研发为主,注重技术和造型,这与他们的整体风格息息相关。 作为与国际接轨的特大城市,中国的经济、交通、科技、工业、金融、贸易、会展和航运中心,聚集了大量的设计和研发人…...
SpringBoot - 后端数据返回前端各个数据类型全局格式化
全局配置 import com.fasterxml.jackson.annotation.JsonInclude; import com.fasterxml.jackson.databind.ObjectMapper; import com.fasterxml.jackson.databind.SerializationFeature; import com.fasterxml.jackson.databind.module.SimpleModule; import com.fasterxml.j…...
实验室记账项目(java+Mysql+jdbc)
前言: 因为自己学习能力有限和特殊情况必须要找一个项目来做,但是上网搜的那些项目有两种(一种是技术太多,自己能力不够;一种是技术太少,项目太简单)导致都不适合本人,本人现有技术只…...
spring boot 整合 minio存储 【使用篇】
zi导入依赖 <!--minio--><dependency><groupId>io.minio</groupId><artifactId>minio</artifactId><version>8.0.3</version></dependency> yml配置(默认配置) spring:# 配置文件上传大小限制s…...
避坑指南:Zephyr工作队列(Workqueue)的5个常见误用与性能调优(基于2.2.99版本)
Zephyr工作队列深度避坑:2.2.99版本实战调优手册 在嵌入式开发中,Zephyr RTOS的工作队列(Workqueue)机制是处理异步任务的利器,但许多开发者往往在看似简单的API背后踩中意想不到的"地雷"。我曾亲眼见证一个智能家居项目因工作队列…...
Spring Cloud 2027 边缘计算支持:构建分布式边缘应用
Spring Cloud 2027 边缘计算支持:构建分布式边缘应用 1. 边缘计算的概念 边缘计算是一种分布式计算范式,它将计算和数据存储移近数据源,减少延迟,提高响应速度,并减轻云端的负担。Spring Cloud 2027 正式集成了边缘计算…...
【智能代码生成×代码度量双引擎实战指南】:20年架构师亲授如何用AI写代码+量化质量,规避97%的交付返工风险
第一章:智能代码生成代码度量双引擎协同范式 2026奇点智能技术大会(https://ml-summit.org) 传统AI编程辅助工具常将代码生成与质量评估割裂为独立流程:生成模型输出后,再由静态分析器进行滞后性度量。双引擎协同范式则打破这一时序壁垒&…...
Markdown转docx 保留Latex渲染样式
需求分析 Markdown转docx有大量公式。包括行内公式和行间公式Office 自带的数学与 Latex的渲染样式存在差异。本文倾向于使用Latex的渲染样式轻量调整。转换后仅做轻微的调整,不再编辑公式。 选择方案 主要编辑在Markdown,使用Latex渲染样式ÿ…...
Go 中嵌入类型字段在派生结构体字面量中的初始化规则详解
Go 语言中,嵌入类型(embedded type)的字段虽可被派生结构体直接访问,但不能作为字段名出现在结构体字面量中;必须通过显式初始化嵌入类型本身,或先创建实例再赋值。 go 语言中,嵌入类型&am…...
实用CLI工具:命令行下的高效选择
命令行界面在开发者日常工作中占据重要位置。很多任务通过它完成时速度更快,也更直接。尤其当处理文件搜索、内容查看或者目录跳转这类重复操作时,合适的CLI工具能节省大量时间。 Homebrew官网: https://brew.sh/ 这些工具大多可以通过简单…...
纯 AI 高级攻击是伪命题?平庸的工业化才是未来三年最大的网络风险
在2026年的全球网络安全版图上,没有任何一个话题比“AI与网络攻击”更能撕裂行业共识。乐观派宣称AI将成为防御者的终极护城河,能自动识别并拦截所有未知威胁;悲观派则不断渲染“天网降临”的恐慌,声称具备自我意识的自主恶意软件…...
3分钟搞定B站缓存视频转换:m4s转MP4完整教程
3分钟搞定B站缓存视频转换:m4s转MP4完整教程 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾为B站视频下架而心痛࿱…...
手把手教你用微软官方工具搞定Win11升级,附硬件检测和文件清理指南
微软官方工具全流程指南:从Win10到Win11的无缝升级与优化 每次Windows重大版本更新都像一次数字搬家——既期待新环境带来的体验提升,又担心数据丢失和兼容性问题。作为微软近年来最重要的系统升级,Windows 11带来了全新的界面设计、性能优化…...
EmojiOne Color:终极免费彩色表情字体解决方案
EmojiOne Color:终极免费彩色表情字体解决方案 【免费下载链接】emojione-color OpenType-SVG font of EmojiOne 2.3 项目地址: https://gitcode.com/gh_mirrors/em/emojione-color 还在为不同平台上表情符号显示不一致而烦恼吗?想要在设计中添加…...
