case客户续保预测中用到的特征工程、回归分析和决策树分析的总结
文章目录
- @[toc]
- 1. 回归分析概述
- 1.1 基本概念
- 1.2 与分类的区别
- 2. 常见回归算法
- 2.1 线性回归
- 2.2 决策树回归
- 2.3 逻辑回归(Logistic Regression)
- 2.3 其他算法
- 补充:通俗版:决策树 vs 随机森林
- 🌳 决策树:像玩「20个问题」游戏
- 基本逻辑
- 🌲🌳🌴 随机森林:一群专家投票
- 核心思想
- 💡 生活类比
- 3. 建模流程
- 3.1 数据预处理
- 3.2 特征工程
- 3.3 训练与验证
- 4. 模型评估
- 4.1 常用指标
- 4.2 可视化方法
- 5. 常见问题
- Q1: 如何处理过拟合?
- Q2: 非线性数据怎么办?
- Q3: 类别特征如何处理?
- 6. 示例
- 保险客户续保预测实战案例
- 1. 数据准备
- 数据概览
- 字段说明
- 2. 特征工程
- 2.1 数据预处理
- 2.2 特征可视化
- 3. 模型训练
- 3.1 逻辑回归
- 3.2 决策树回归
- 4. 模型评估
- 4.1 性能对比
- 4.2 分类报告
- 5. 业务应用
- 5.1 续保概率分布
- 5.2 关键特征分析
文章目录
- @[toc]
- 1. 回归分析概述
- 1.1 基本概念
- 1.2 与分类的区别
- 2. 常见回归算法
- 2.1 线性回归
- 2.2 决策树回归
- 2.3 逻辑回归(Logistic Regression)
- 2.3 其他算法
- 补充:通俗版:决策树 vs 随机森林
- 🌳 决策树:像玩「20个问题」游戏
- 基本逻辑
- 🌲🌳🌴 随机森林:一群专家投票
- 核心思想
- 💡 生活类比
- 3. 建模流程
- 3.1 数据预处理
- 3.2 特征工程
- 3.3 训练与验证
- 4. 模型评估
- 4.1 常用指标
- 4.2 可视化方法
- 5. 常见问题
- Q1: 如何处理过拟合?
- Q2: 非线性数据怎么办?
- Q3: 类别特征如何处理?
- 6. 示例
- 保险客户续保预测实战案例
- 1. 数据准备
- 数据概览
- 字段说明
- 2. 特征工程
- 2.1 数据预处理
- 2.2 特征可视化
- 3. 模型训练
- 3.1 逻辑回归
- 3.2 决策树回归
- 4. 模型评估
- 4.1 性能对比
- 4.2 分类报告
- 5. 业务应用
- 5.1 续保概率分布
- 5.2 关键特征分析
1. 回归分析概述
1.1 基本概念
- 定义:通过建立自变量(X)与因变量(Y)之间的数学模型,预测连续型数值
- 应用场景:房价预测、销量预估、温度预测等
1.2 与分类的区别
| 回归问题 | 分类问题 |
|---|---|
| 输出连续值 | 输出离散标签 |
| 评估指标:MSE/R² | 评估指标:准确率/F1 |
2. 常见回归算法
2.1 线性回归
用于预测连续数值的监督学习算法,通过拟合最佳直线(或超平面)建立输入特征与输出值之间的线性关系。
from sklearn.linear_model import LinearRegression
model = LinearRegression()
特点:
- 简单易解释
- 假设数据线性可分
2.2 决策树回归
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor(max_depth=3)
特点:
- 可处理非线性关系
- 易过拟合
2.3 逻辑回归(Logistic Regression)
虽然名字含"回归",但实际是处理二分类问题的算法,通过Sigmoid函数将线性结果转换为0~1之间的概率值,常用于预测事件发生的可能性。
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression(penalty='l2', C=1.0)
特点:
- 输出概率结果:通过Sigmoid函数输出0-1之间的概率值,适合需要概率预测的场景(如风险评估)
- 强解释性:模型参数可直接解释为特征对对数几率(log-odds)的影响,便于业务分析
- 线性决策边界:本质是线性模型(可通过特征工程扩展非线性),对简单模式的数据效率极高
2.3 其他算法
- 随机森林回归
- SVM回归
- XGBoost回归
补充:通俗版:决策树 vs 随机森林
🌳 决策树:像玩「20个问题」游戏
基本逻辑
-
游戏规则:通过一系列是/否问题逐步缩小范围
(比如:“是动物吗?→ 会飞吗?→ 有羽毛吗?”) -
现实例子:
- 判断水果好坏:
① 表面有黑点吗? → 有 → 坏果
② 没有 → 闻起来香吗? → 香 → 好果
- 判断水果好坏:
-
优缺点:
✅ 简单直观,像流程图一样好懂
❌ 容易钻牛角尖(比如遇到一个特例就乱改规则)
🌲🌳🌴 随机森林:一群专家投票
核心思想
-
组建专家团:
- 随机找100个普通人(每人都用部分数据训练)
- 每人给不同的答题线索(每人随机看部分特征)
-
民主决策:
- 判断水果:
① 专家A看颜色 → 觉得是坏果
② 专家B摸硬度 → 觉得是好果
…
👉 最终按多数意见决定
- 判断水果:
-
为什么更好:
✅ 不容易被误导(个别人判断失误不影响整体)
✅ 能处理复杂情况(综合多种角度)
❌ 需要更多计算资源(要训练很多树)
💡 生活类比
| 场景 | 决策树 | 随机森林 |
|---|---|---|
| 看病 | 一个老中医把脉诊断 | 专家会诊(各科医生共同判断) |
| 天气预报 | 只看云层厚度预测 | 综合温度/湿度/气压等多因素 |
| 点菜 | 只看招牌菜决定 | 参考大众点评TOP10推荐 |
简单记住:
- 单棵树 = 个人直觉判断
- 森林 = 群众智慧(三个臭皮匠顶个诸葛亮)
3. 建模流程
3.1 数据预处理
# 标准化示例
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
3.2 特征工程
- 特征选择:剔除共线性特征
- 特征构造:多项式特征
3.3 训练与验证
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
4. 模型评估
4.1 常用指标
| 指标 | 公式 | 说明 |
|---|---|---|
| MSE | 1 n ∑ ( y i − y i ^ ) 2 \frac{1}{n}\sum(y_i-\hat{y_i})^2 n1∑(yi−yi^)2 | 越小越好 |
| R² | 1 − S S r e s S S t o t 1-\frac{SS_{res}}{SS_{tot}} 1−SStotSSres | [0,1]越近1越好 |
4.2 可视化方法
import matplotlib.pyplot as plt
plt.scatter(y_test, predictions)
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--')
5. 常见问题
Q1: 如何处理过拟合?
- 增加训练数据
- 使用正则化(L1/L2)
Q2: 非线性数据怎么办?
- 使用多项式回归
- 切换树模型或神经网络
Q3: 类别特征如何处理?
- One-Hot编码
- 目标编码
6. 示例
(可参见前文用Cursor AI编程工具完成case客户续保预测)
由于前文是Cursor生成的代码,因此这里又用AI进行了一次示例总结的撰写,帮助自己理解整个实战过程:
保险客户续保预测实战案例
1. 数据准备
数据概览
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns# 读取数据
train = pd.read_excel('training.xlsx')
test = pd.read_excel('test.xlsx')print("训练集形状:", train.shape)
print("测试集形状:", test.shape)
print("\n训练集前5行:")
display(train.head())
字段说明
| 字段名 | 类型 | 描述 |
|---|---|---|
| age | 数值 | 客户年龄 |
| policy_age | 数值 | 保单年限 |
| claim_history | 数值 | 历史理赔次数 |
| premium | 数值 | 年缴保费 |
| income | 数值 | 年收入 |
| renewal | 类别 | 是否续保(0/1) |
2. 特征工程
2.1 数据预处理
# 处理缺失值
train.fillna(train.median(), inplace=True)# 特征标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
num_features = ['age', 'policy_age', 'claim_history', 'premium', 'income']
train[num_features] = scaler.fit_transform(train[num_features])
test[num_features] = scaler.transform(test[num_features])
2.2 特征可视化
# 数值特征分布
plt.figure(figsize=(12, 6))
for i, col in enumerate(num_features):plt.subplot(2, 3, i+1)sns.histplot(train[col], kde=True)
plt.tight_layout()
plt.show()# 特征相关性
plt.figure(figsize=(8, 6))
sns.heatmap(train.corr(), annot=True, cmap='coolwarm')
plt.title('特征相关性矩阵')
plt.show()
3. 模型训练
3.1 逻辑回归
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report 准备数据
X_train = train.drop('renewal', axis=1)
y_train = train['renewal']
X_test = test.drop('renewal', axis=1)
y_test = test['renewal']# 训练模型
lr = LogisticRegression(penalty='l2', C=1.0)
lr.fit(X_train, y_train)# 预测概率
y_prob = lr.predict_proba(X_test)[:, 1]
3.2 决策树回归
from sklearn.tree import DecisionTreeClassifierdt = DecisionTreeClassifier(max_depth=3, min_samples_leaf=20)
dt.fit(X_train, y_train)# 特征重要性
plt.figure(figsize=(10, 4))
pd.Series(dt.feature_importances_, index=X_train.columns).sort_values().plot.barh()
plt.title('决策树特征重要性')
plt.show()
4. 模型评估
4.1 性能对比
from sklearn.metrics import roc_curve, auc# ROC曲线
plt.figure(figsize=(8, 6))
for model, name in [(lr, '逻辑回归'), (dt, '决策树')]:y_score = model.predict_proba(X_test)[:, 1]fpr, tpr, _ = roc_curve(y_test, y_score)plt.plot(fpr, tpr, label=f'{name} (Aauc(fpr, tpr):.2f})')plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC曲线对比')
plt.legend()
plt.show()
4.2 分类报告
print("逻辑回归性能:")
print(classification_report(y_test, lr.predict(X_test)))print("\n决策树性能:")
print(classification_report(y_test, dt.predict(X_test)))
5. 业务应用
5.1 续保概率分布
plt.figure(figsize=(10, 5))
sns.kdeplot(y_prob[y_test==0], label='未续保客户', fill=True)
sns.kdeplot(y_prob[y_test==1], label='续保客户', fill=True)
plt.xlabel('续保概率预测值')
plt.title('续保概率分布')
plt.legend()
plt.show()
5.2 关键特征分析
# 逻辑回归系数
coef_df = pd.DataFrame({'特征':X_train.columns, '系数':lr.coef_[0]})
coef_df.sort_values('系数', ascending=False)
相关文章:
case客户续保预测中用到的特征工程、回归分析和决策树分析的总结
文章目录 [toc]1. 回归分析概述1.1 基本概念1.2 与分类的区别 2. 常见回归算法2.1 线性回归2.2 决策树回归2.3 逻辑回归(Logistic Regression)2.3 其他算法补充:通俗版:决策树 vs 随机森林🌳 决策树:像玩「…...
Android系统通知机制深度解析:Framework至SystemUI全链路剖析
1. 前言 在Android 13的ROM定制化开发中,系统通知机制作为用户交互的核心组件,其实现涉及Framework层到SystemUI的复杂协作。本文将深入剖析从Notification发送到呈现的全链路流程,重点解析关键类的作用机制及系统服务间的交互逻辑ÿ…...
重学Redis:Redis常用数据类型+存储结构(源码篇)
一、SDS 1,SDS源码解读 sds (Simple Dynamic String),Simple的意思是简单,Dynamic即动态,意味着其具有动态增加空间的能力,扩容不需要使用者关心。String是字符串的意思。说白了就是用C语言自己封装了一个字符串类型&a…...
Elasticsearch的Java客户端库QueryBuilders查询方法大全
matchAllQuery 使用方法:创建一个查询,匹配所有文档。 示例:QueryBuilders.matchAllQuery() 注意事项:这种查询不加任何条件,会返回索引中的所有文档,可能会影响性能,特别是文档数量很多时。 ma…...
js原型和原型链
js原型: 1、原型诞生的目的是什么呢? js原型的产生是为了解决在js对象实例之间共享属性和方法,并把他们很好聚集在一起(原型对象上)。每个函数都会创建一个prototype属性,这个属性指向的就是原型对象。 …...
usb重定向qemu前端处理
1、qemu添加spicevmc前端时会创建vmc通道。 -chardev spicevmc,idusbredirchardev0,nameusbredir red::shared_ptr<RedCharDevice> spicevmc_device_connect(RedsState *reds, SpiceCharDeviceInstance *sin, uint8_t channel_type) {auto channel(red_vmc_channel_new(r…...
OpenHarmony - 小型系统内核(LiteOS-A)(五)
OpenHarmony - 小型系统内核(LiteOS-A)(五) 六、文件系统 虚拟文件系统 基本概念 VFS(Virtual File System)是文件系统的虚拟层,它不是一个实际的文件系统,而是一个异构文件系统之…...
PyTorch进阶学习笔记[长期更新]
第一章 PyTorch简介和安装 PyTorch是一个很强大的深度学习库,在学术中使用占比很大。 我这里是Mac系统的安装,相比起教程中的win/linux安装感觉还是简单不少(之前就已经安好啦),有需要指导的小伙伴可以评论。 第二章…...
proteus8.17 环境配置
Proteus介绍 Proteus 8.17 是一款功能强大的电子设计自动化(EDA)软件,广泛应用于电子电路设计、仿真和分析。以下是其主要特点和新功能: ### 主要功能 - **电路仿真**:支持数字和模拟电路的仿真,包括静态…...
Microsoft SQL Server Management 一键删除数据库所有外键
DECLARE ESQL VARCHAR(1000); DECLARE FCursor CURSOR --定义游标 FOR (SELECT ALTER TABLE O.name DROP CONSTRAINT F.name; AS CommandSQL from SYS.FOREIGN_KEYS F JOIN SYS.ALL_OBJECTS O ON F.PARENT_OBJECT_ID O.OBJECT_ID WHERE O.TYPE U AND F.TYPE …...
【JAVAFX】自定义FXML 文件存放的位置以及使用
情况 1:FXML 文件与调用类在同一个包中(推荐) 假设类 MainApp 的包是 com.example,且 FXML 文件放在 resources/com/example 下: 项目根目录 ├── src │ └── sample │ └── Main.java ├── src/s…...
Oracle 如何停止正在运行的 Job
Oracle 如何停止正在运行的 Job 先了解是dbms_job 还是 dbms_scheduler,再确定操作命令。 一 使用 DBMS_JOB 包停止作业(适用于旧版 Job) 1.1 查看正在运行的 Job SELECT job, what, this_date, this_sec, failures, broken FROM user_j…...
高级语言调用C接口(四)结构体(2)-Python
这个专栏好久没有更新了,主要是坑开的有点大,也不知道怎么填,涉及到的开发语言比较多,写起来比较累,需要看的人其实并不多,只能说,慢慢填吧,中间肯定还会插很多别的东西,…...
Java对接Dify API接口完整指南
Java对接Dify API接口完整指南 一、Dify API简介 Dify是一款AI应用开发平台,提供多种自然语言处理能力。通过调用Dify开放API,开发者可以快速集成智能对话、文本生成等功能到自己的Java应用中。 二、准备工作 获取API密钥 登录Dify平台控制台在「API密…...
极狐GitLab GEO 功能介绍
极狐GitLab 是 GitLab 在中国的发行版,关于中文参考文档和资料有: 极狐GitLab 中文文档极狐GitLab 中文论坛极狐GitLab 官网 Geo (PREMIUM SELF) Geo 是广泛分布的开发团队的解决方案,可作为灾难恢复策略的一部分提供热备份。Geo 不是 开箱…...
Nginx-前言
nginx是什么? 轻量级,开源免费的web服务器软件,服务器安装nginx,服务器则成为web服务器 nginx的稳定版版本号: 偶数版本 nginx的相关目录: /etc/nginx/nginx.conf nginx的主配置文件 /etc/nginx/ngi…...
LFI to RCE
LFI不止可以来读取文件,还能用来RCE 在多道CTF题目中都有LFItoRCE的非预期解,下面总结一下LFI的利用姿势 1. /proc/self/environ 利用 条件:目标能读取 /proc/self/environ,并且网页中存在LFI点 利用方式: 修改请…...
云原生(Cloud Native)的详解、开发流程及同类软件对比
以下是云原生(Cloud Native)的详解、开发流程及同类软件对比: 一、云原生核心概念 定义: 云原生(Cloud Native)是基于云环境设计和运行应用程序的方法论,强调利用云平台的弹性、分布式和自动化…...
全局唯一标识符(UID)生成策略
目录 一、UUID 二、雪花算法 三、时间戳 随机数 四、利用数据库的自增字段 五、 基于 Redis 的原子操作 总结 在信息系统中,生成唯一ID是非常常见的需求,尤其是在分布式系统或高并发场景下。以下是几种常见的生成唯一ID的算法或方式: …...
学习笔记:减速机工作原理
学习笔记:减速机工作原理 一、减速机图片二、减速比概念三、减速机的速比与扭矩之间的关系四、题外内容--电机扭矩 一、减速机图片 二、减速比概念 即减速装置的传动比,是传动比的一种,是指减速机构中,驱动轴与被驱动轴瞬时输入速…...
《UE5_C++多人TPS完整教程》学习笔记36 ——《P37 拾取组件(Pickup Widget)》
本文为B站系列教学视频 《UE5_C多人TPS完整教程》 —— 《P37 拾取组件(Pickup Widget)》 的学习笔记,该系列教学视频为计算机工程师、程序员、游戏开发者、作家(Engineer, Programmer, Game Developer, Author) Steph…...
《空间复杂度(C语言)》
文章目录 前言一、什么是空间复杂度?通俗理解: 二、空间复杂度的数学定义三、常见空间复杂度举例(含C语言代码)🔹 O(1):常数空间🔹 O(n):线性空间🔹 O(n^2):平…...
Kaggle-Store Sales-(回归+多表合并+xgboost模型)
Store Sales 题意: 给出很多商店,给出商店的类型,某时某刻卖了多少销售额。 给出了油价表,假期表,进货表。 让你求出测试集合中每个商店的销售额是多少。 数据处理: 1.由于是多表,所以要先把其他表与tr…...
在 Tailwind CSS 中优雅地隐藏滚动条
在开发中,我们经常需要隐藏滚动条但保持滚动功能,这在构建现代化的用户界面时很常见。 本文将介绍两种在 Tailwind CSS 项目中实现这一目标的方法,方便同学们记录和查阅。 方法一:使用 tailwind-scrollbar-hide 插件 这是一种更…...
智能合约安全审计平台——以太坊虚拟机安全沙箱
目录 以太坊虚拟机安全沙箱 —— 理论、设计与实战1. 引言2. 理论背景与安全原理2.1 以太坊虚拟机(EVM)概述2.2 安全沙箱的基本概念2.3 安全证明与形式化验证3. 系统架构与模块设计3.1 模块功能说明3.2 模块之间的数据流与安全性4. 安全性与密码学考量4.1 密码学保障在沙箱中…...
std::unordered_map(C++)
std::unordered_map 1. 概述2. 内部实现3. 性能特征4. 常用 API5. 使用示例6. 自定义哈希与相等比较7. 注意事项与优化8. 使用建议9. emplace和insert异同相同点不同点例子对比何时优先使用哪种? 1. 概述 定义:std::unordered_map<Key, T, Hash, KeyE…...
【MCP教程】Claude Desktop 如何连接部署在远程的remote mcp server服务器(remote host)
前言 最近MCP特别火热,笔者自己也根据官方文档尝试了下。 官方文档给的Demo是在本地部署一个weather.py,然后用本地的Claude Desktop去访问该mcp服务器,从而完成工具的调用: 但是,问题来了,Claude Deskto…...
Android Input——输入事件回调完成(十四)
前面几篇文章介绍了事件回调的相关流程,以及回调事件处理函数的相关内容,最后我们再来看一下事件处理完后,如何通知 InputDispatcher 去回调 Callback。 一、客户端回调 在 Android 的事件分发机制中,当客户端(即应用层)完成事件处理后,最终会调用 ViewRootImpl 的 fin…...
数据通信学习笔记之OSPF配置命令
华为 [huawei]ospf 10 router-id 1.1.1.1 //创建ospf进程,本地有效area 1 // 进入区域1network 192.168.1.0 0.0.0.255 // 宣告网段,使用反掩码stub // 配置为stub区域stub no-summary // 配置为Totally Stub 完全末节区域。在ABR上配置࿰…...
Python -yield 在python 中什么意思
在 Python 中,yield 是一个关键字,用于定义生成器函数(generator function)。它的作用是将一个普通函数转变为可迭代的生成器,具有惰性计算的特性。以下是关键要点: 核心概念 生成器函数: 当函数…...
