当前位置：首页 > article >正文

case客户续保预测中用到的特征工程、回归分析和决策树分析的总结

article 2026/2/8 9:33:50

文章目录

@[toc]
1. 回归分析概述
1.1 基本概念
1.2 与分类的区别

2. 常见回归算法
2.1 线性回归
2.2 决策树回归
2.3 逻辑回归（Logistic Regression）
2.3 其他算法
补充：通俗版：决策树 vs 随机森林
🌳 决策树：像玩「20个问题」游戏
基本逻辑

🌲🌳🌴 随机森林：一群专家投票
核心思想

💡 生活类比

3. 建模流程
3.1 数据预处理
3.2 特征工程
3.3 训练与验证

4. 模型评估
4.1 常用指标
4.2 可视化方法

5. 常见问题
Q1: 如何处理过拟合？
Q2: 非线性数据怎么办？
Q3: 类别特征如何处理？

6. 示例

保险客户续保预测实战案例
1. 数据准备
数据概览
字段说明

2. 特征工程
2.1 数据预处理
2.2 特征可视化

3. 模型训练
3.1 逻辑回归
3.2 决策树回归

4. 模型评估
4.1 性能对比
4.2 分类报告

5. 业务应用
5.1 续保概率分布
5.2 关键特征分析

1. 回归分析概述

1.1 基本概念

定义：通过建立自变量（X）与因变量（Y）之间的数学模型，预测连续型数值
应用场景：房价预测、销量预估、温度预测等

1.2 与分类的区别

回归问题	分类问题
输出连续值	输出离散标签
评估指标：MSE/R²	评估指标：准确率/F1

2. 常见回归算法

2.1 线性回归

用于预测连续数值的监督学习算法，通过拟合最佳直线（或超平面）建立输入特征与输出值之间的线性关系。

from sklearn.linear_model import LinearRegression
model = LinearRegression()

特点：

简单易解释
假设数据线性可分

2.2 决策树回归

from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor(max_depth=3)

特点：

可处理非线性关系
易过拟合

2.3 逻辑回归（Logistic Regression）

虽然名字含"回归"，但实际是处理二分类问题的算法，通过Sigmoid函数将线性结果转换为0~1之间的概率值，常用于预测事件发生的可能性。

from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression(penalty='l2', C=1.0)

特点：

输出概率结果：通过Sigmoid函数输出0-1之间的概率值，适合需要概率预测的场景（如风险评估）
强解释性：模型参数可直接解释为特征对对数几率（log-odds）的影响，便于业务分析
线性决策边界：本质是线性模型（可通过特征工程扩展非线性），对简单模式的数据效率极高

2.3 其他算法

随机森林回归
SVM回归
XGBoost回归

补充：通俗版：决策树 vs 随机森林

🌳 决策树：像玩「20个问题」游戏

基本逻辑

游戏规则：通过一系列是/否问题逐步缩小范围
（比如：“是动物吗？→ 会飞吗？→ 有羽毛吗？”）
现实例子：
- 判断水果好坏：
  ① 表面有黑点吗？ → 有 → 坏果
  ② 没有 → 闻起来香吗？ → 香 → 好果
优缺点：
✅ 简单直观，像流程图一样好懂
❌ 容易钻牛角尖（比如遇到一个特例就乱改规则）

🌲🌳🌴 随机森林：一群专家投票

核心思想

组建专家团：
- 随机找100个普通人（每人都用部分数据训练）
- 每人给不同的答题线索（每人随机看部分特征）
民主决策：
- 判断水果：
  ① 专家A看颜色 → 觉得是坏果
  ② 专家B摸硬度 → 觉得是好果
  …
  👉 最终按多数意见决定
为什么更好：
✅ 不容易被误导（个别人判断失误不影响整体）
✅ 能处理复杂情况（综合多种角度）
❌ 需要更多计算资源（要训练很多树）

💡 生活类比

场景	决策树	随机森林
看病	一个老中医把脉诊断	专家会诊（各科医生共同判断）
天气预报	只看云层厚度预测	综合温度/湿度/气压等多因素
点菜	只看招牌菜决定	参考大众点评TOP10推荐

简单记住：

单棵树 = 个人直觉判断
森林 = 群众智慧（三个臭皮匠顶个诸葛亮）

3. 建模流程

3.1 数据预处理

# 标准化示例
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

3.2 特征工程

特征选择：剔除共线性特征
特征构造：多项式特征

3.3 训练与验证

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

4. 模型评估

4.1 常用指标

指标	公式	说明
MSE	$\frac{1}{n}\sum(y_i-\hat{y_i})^2$	越小越好
R²	$1-\frac{SS_{res}}{SS_{tot}}$	[0,1]越近1越好

4.2 可视化方法

import matplotlib.pyplot as plt
plt.scatter(y_test, predictions)
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--')

5. 常见问题

Q1: 如何处理过拟合？

增加训练数据
使用正则化（L1/L2）

Q2: 非线性数据怎么办？

使用多项式回归
切换树模型或神经网络

Q3: 类别特征如何处理？

One-Hot编码
目标编码

6. 示例

（可参见前文用Cursor AI编程工具完成case客户续保预测）
由于前文是Cursor生成的代码，因此这里又用AI进行了一次示例总结的撰写，帮助自己理解整个实战过程：

保险客户续保预测实战案例

1. 数据准备

数据概览

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns# 读取数据
train = pd.read_excel('training.xlsx')
test = pd.read_excel('test.xlsx')print("训练集形状:", train.shape)
print("测试集形状:", test.shape)
print("\n训练集前5行:")
display(train.head())

字段说明

字段名	类型	描述
age	数值	客户年龄
policy_age	数值	保单年限
claim_history	数值	历史理赔次数
premium	数值	年缴保费
income	数值	年收入
renewal	类别	是否续保(0/1)

2. 特征工程

2.1 数据预处理

# 处理缺失值
train.fillna(train.median(), inplace=True)# 特征标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
num_features = ['age', 'policy_age', 'claim_history', 'premium', 'income']
train[num_features] = scaler.fit_transform(train[num_features])
test[num_features] = scaler.transform(test[num_features])

2.2 特征可视化

# 数值特征分布
plt.figure(figsize=(12, 6))
for i, col in enumerate(num_features):plt.subplot(2, 3, i+1)sns.histplot(train[col], kde=True)
plt.tight_layout()
plt.show()# 特征相关性
plt.figure(figsize=(8, 6))
sns.heatmap(train.corr(), annot=True, cmap='coolwarm')
plt.title('特征相关性矩阵')
plt.show()

3. 模型训练

3.1 逻辑回归

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report 准备数据
X_train = train.drop('renewal', axis=1)
y_train = train['renewal']
X_test = test.drop('renewal', axis=1)
y_test = test['renewal']# 训练模型
lr = LogisticRegression(penalty='l2', C=1.0)
lr.fit(X_train, y_train)# 预测概率
y_prob = lr.predict_proba(X_test)[:, 1]

3.2 决策树回归

from sklearn.tree import DecisionTreeClassifierdt = DecisionTreeClassifier(max_depth=3, min_samples_leaf=20)
dt.fit(X_train, y_train)# 特征重要性
plt.figure(figsize=(10, 4))
pd.Series(dt.feature_importances_, index=X_train.columns).sort_values().plot.barh()
plt.title('决策树特征重要性')
plt.show()

4. 模型评估

4.1 性能对比

from sklearn.metrics import roc_curve, auc# ROC曲线
plt.figure(figsize=(8, 6))
for model, name in [(lr, '逻辑回归'), (dt, '决策树')]:y_score = model.predict_proba(X_test)[:, 1]fpr, tpr, _ = roc_curve(y_test, y_score)plt.plot(fpr, tpr, label=f'{name} (Aauc(fpr, tpr):.2f})')plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC曲线对比')
plt.legend()
plt.show()

4.2 分类报告

print("逻辑回归性能:")
print(classification_report(y_test, lr.predict(X_test)))print("\n决策树性能:")
print(classification_report(y_test, dt.predict(X_test)))

5. 业务应用

5.1 续保概率分布

plt.figure(figsize=(10, 5))
sns.kdeplot(y_prob[y_test==0], label='未续保客户', fill=True)
sns.kdeplot(y_prob[y_test==1], label='续保客户', fill=True)
plt.xlabel('续保概率预测值')
plt.title('续保概率分布')
plt.legend()
plt.show()

5.2 关键特征分析

# 逻辑回归系数
coef_df = pd.DataFrame({'特征':X_train.columns, '系数':lr.coef_[0]})
coef_df.sort_values('系数', ascending=False)

case客户续保预测中用到的特征工程、回归分析和决策树分析的总结

文章目录 [toc]1. 回归分析概述1.1 基本概念1.2 与分类的区别 2. 常见回归算法2.1 线性回归2.2 决策树回归2.3 逻辑回归（Logistic Regression）2.3 其他算法补充：通俗版：决策树 vs 随机森林🌳 决策树：像玩「…...

编程日记 2026/2/3 19:14:53

Android系统通知机制深度解析：Framework至SystemUI全链路剖析

1. 前言在Android 13的ROM定制化开发中，系统通知机制作为用户交互的核心组件，其实现涉及Framework层到SystemUI的复杂协作。本文将深入剖析从Notification发送到呈现的全链路流程，重点解析关键类的作用机制及系统服务间的交互逻辑&#xff…...

编程日记 2025/12/2 2:24:58

重学Redis：Redis常用数据类型+存储结构（源码篇）

一、SDS 1，SDS源码解读 sds (Simple Dynamic String)，Simple的意思是简单，Dynamic即动态，意味着其具有动态增加空间的能力，扩容不需要使用者关心。String是字符串的意思。说白了就是用C语言自己封装了一个字符串类型&a…...

编程日记 2026/1/29 6:56:33

Elasticsearch的Java客户端库QueryBuilders查询方法大全

matchAllQuery 使用方法：创建一个查询，匹配所有文档。示例：QueryBuilders.matchAllQuery() 注意事项：这种查询不加任何条件，会返回索引中的所有文档，可能会影响性能，特别是文档数量很多时。 ma…...

编程日记 2025/12/19 5:23:50

js原型和原型链

js原型： 1、原型诞生的目的是什么呢？ js原型的产生是为了解决在js对象实例之间共享属性和方法，并把他们很好聚集在一起（原型对象上）。每个函数都会创建一个prototype属性，这个属性指向的就是原型对象。 …...

编程日记 2026/1/26 8:04:06

1、qemu添加spicevmc前端时会创建vmc通道。 -chardev spicevmc,idusbredirchardev0,nameusbredir red::shared_ptr<RedCharDevice> spicevmc_device_connect(RedsState *reds, SpiceCharDeviceInstance *sin, uint8_t channel_type) {auto channel(red_vmc_channel_new(r…...

编程日记 2025/12/5 14:34:19

OpenHarmony - 小型系统内核（LiteOS-A）（五）

OpenHarmony - 小型系统内核（LiteOS-A）（五） 六、文件系统虚拟文件系统基本概念 VFS（Virtual File System）是文件系统的虚拟层，它不是一个实际的文件系统，而是一个异构文件系统之…...

编程日记 2026/2/2 7:02:02

PyTorch进阶学习笔记[长期更新]

第一章 PyTorch简介和安装 PyTorch是一个很强大的深度学习库，在学术中使用占比很大。我这里是Mac系统的安装，相比起教程中的win/linux安装感觉还是简单不少（之前就已经安好啦），有需要指导的小伙伴可以评论。第二章…...

编程日记 2026/1/26 9:29:43

proteus8.17 环境配置

Proteus介绍 Proteus 8.17 是一款功能强大的电子设计自动化（EDA）软件，广泛应用于电子电路设计、仿真和分析。以下是其主要特点和新功能： ### 主要功能 - **电路仿真**：支持数字和模拟电路的仿真，包括静态…...

编程日记 2026/2/2 10:03:16

Microsoft SQL Server Management 一键删除数据库所有外键

DECLARE ESQL VARCHAR(1000); DECLARE FCursor CURSOR --定义游标 FOR (SELECT ALTER TABLE O.name DROP CONSTRAINT F.name; AS CommandSQL from SYS.FOREIGN_KEYS F JOIN SYS.ALL_OBJECTS O ON F.PARENT_OBJECT_ID O.OBJECT_ID WHERE O.TYPE U AND F.TYPE …...

编程日记 2025/12/4 20:18:41

【JAVAFX】自定义FXML 文件存放的位置以及使用

情况 1：FXML 文件与调用类在同一个包中（推荐） 假设类 MainApp 的包是 com.example，且 FXML 文件放在 resources/com/example 下： 项目根目录 ├── src │ └── sample │ └── Main.java ├── src/s…...

编程日记 2025/12/1 23:15:15

Oracle 如何停止正在运行的 Job

Oracle 如何停止正在运行的 Job 先了解是dbms_job 还是 dbms_scheduler，再确定操作命令。一使用 DBMS_JOB 包停止作业（适用于旧版 Job） 1.1 查看正在运行的 Job SELECT job, what, this_date, this_sec, failures, broken FROM user_j…...

编程日记 2026/2/3 0:59:09

高级语言调用C接口(四)结构体(2)-Python

这个专栏好久没有更新了，主要是坑开的有点大，也不知道怎么填，涉及到的开发语言比较多，写起来比较累，需要看的人其实并不多，只能说，慢慢填吧，中间肯定还会插很多别的东西，…...

编程日记 2026/1/22 1:36:51

Java对接Dify API接口完整指南

Java对接Dify API接口完整指南一、Dify API简介 Dify是一款AI应用开发平台，提供多种自然语言处理能力。通过调用Dify开放API，开发者可以快速集成智能对话、文本生成等功能到自己的Java应用中。二、准备工作获取API密钥登录Dify平台控制台在「API密…...

编程日记 2026/2/6 6:55:32

极狐GitLab GEO 功能介绍

极狐GitLab 是 GitLab 在中国的发行版，关于中文参考文档和资料有： 极狐GitLab 中文文档极狐GitLab 中文论坛极狐GitLab 官网 Geo (PREMIUM SELF) Geo 是广泛分布的开发团队的解决方案，可作为灾难恢复策略的一部分提供热备份。Geo 不是开箱…...

编程日记 2026/2/7 9:03:28

Nginx-前言

nginx是什么？ 轻量级，开源免费的web服务器软件，服务器安装nginx，服务器则成为web服务器 nginx的稳定版版本号： 偶数版本 nginx的相关目录： /etc/nginx/nginx.conf nginx的主配置文件 /etc/nginx/ngi…...

编程日记 2026/2/5 15:16:23

LFI to RCE

LFI不止可以来读取文件，还能用来RCE 在多道CTF题目中都有LFItoRCE的非预期解，下面总结一下LFI的利用姿势 1. /proc/self/environ 利用条件：目标能读取 /proc/self/environ，并且网页中存在LFI点利用方式： 修改请…...

编程日记 2026/1/19 5:47:28

云原生（Cloud Native）的详解、开发流程及同类软件对比

以下是云原生（Cloud Native）的详解、开发流程及同类软件对比： 一、云原生核心概念定义： 云原生（Cloud Native）是基于云环境设计和运行应用程序的方法论，强调利用云平台的弹性、分布式和自动化…...

编程日记 2026/1/26 13:51:35

全局唯一标识符（UID）生成策略

目录一、UUID 二、雪花算法三、时间戳随机数四、利用数据库的自增字段五、基于 Redis 的原子操作总结在信息系统中，生成唯一ID是非常常见的需求，尤其是在分布式系统或高并发场景下。以下是几种常见的生成唯一ID的算法或方式： …...

编程日记 2025/12/1 5:34:43

学习笔记：减速机工作原理

学习笔记：减速机工作原理一、减速机图片二、减速比概念三、减速机的速比与扭矩之间的关系四、题外内容--电机扭矩一、减速机图片二、减速比概念即减速装置的传动比，是传动比的一种，是指减速机构中，驱动轴与被驱动轴瞬时输入速…...

编程日记 2026/1/26 10:44:15

《UE5_C++多人TPS完整教程》学习笔记36 ——《P37 拾取组件（Pickup Widget）》

本文为B站系列教学视频《UE5_C多人TPS完整教程》 —— 《P37 拾取组件（Pickup Widget）》的学习笔记，该系列教学视频为计算机工程师、程序员、游戏开发者、作家（Engineer, Programmer, Game Developer, Author） Steph…...

编程日记 2026/1/26 12:51:52

《空间复杂度（C语言）》

文章目录前言一、什么是空间复杂度？通俗理解： 二、空间复杂度的数学定义三、常见空间复杂度举例（含C语言代码）🔹 O(1)：常数空间🔹 O(n)：线性空间🔹 O(n^2)：平…...

编程日记 2026/2/2 14:10:25

Kaggle-Store Sales-(回归+多表合并+xgboost模型)

Store Sales 题意： 给出很多商店，给出商店的类型，某时某刻卖了多少销售额。给出了油价表，假期表，进货表。让你求出测试集合中每个商店的销售额是多少。数据处理: 1.由于是多表，所以要先把其他表与tr…...

编程日记 2025/12/4 16:50:02

在 Tailwind CSS 中优雅地隐藏滚动条

在开发中，我们经常需要隐藏滚动条但保持滚动功能，这在构建现代化的用户界面时很常见。本文将介绍两种在 Tailwind CSS 项目中实现这一目标的方法，方便同学们记录和查阅。方法一：使用 tailwind-scrollbar-hide 插件这是一种更…...

编程日记 2026/2/1 3:40:04

智能合约安全审计平台——以太坊虚拟机安全沙箱

目录以太坊虚拟机安全沙箱 —— 理论、设计与实战1. 引言2. 理论背景与安全原理2.1 以太坊虚拟机（EVM）概述2.2 安全沙箱的基本概念2.3 安全证明与形式化验证3. 系统架构与模块设计3.1 模块功能说明3.2 模块之间的数据流与安全性4. 安全性与密码学考量4.1 密码学保障在沙箱中…...

编程日记 2026/1/26 10:37:52

std::unordered_map(C++)

std::unordered_map 1. 概述2. 内部实现3. 性能特征4. 常用 API5. 使用示例6. 自定义哈希与相等比较7. 注意事项与优化8. 使用建议9. emplace和insert异同相同点不同点例子对比何时优先使用哪种？ 1. 概述定义：std::unordered_map<Key, T, Hash, KeyE…...

编程日记 2026/1/19 2:36:15

【MCP教程】Claude Desktop 如何连接部署在远程的remote mcp server服务器(remote host)

前言最近MCP特别火热，笔者自己也根据官方文档尝试了下。官方文档给的Demo是在本地部署一个weather.py，然后用本地的Claude Desktop去访问该mcp服务器，从而完成工具的调用： 但是，问题来了，Claude Deskto…...

编程日记 2026/2/7 23:19:53

Android Input——输入事件回调完成（十四）

前面几篇文章介绍了事件回调的相关流程，以及回调事件处理函数的相关内容，最后我们再来看一下事件处理完后，如何通知 InputDispatcher 去回调 Callback。一、客户端回调在 Android 的事件分发机制中，当客户端（即应用层）完成事件处理后，最终会调用 ViewRootImpl 的 fin…...

编程日记 2026/1/24 2:17:11

数据通信学习笔记之OSPF配置命令

华为 [huawei]ospf 10 router-id 1.1.1.1 //创建ospf进程，本地有效area 1 // 进入区域1network 192.168.1.0 0.0.0.255 // 宣告网段，使用反掩码stub // 配置为stub区域stub no-summary // 配置为Totally Stub 完全末节区域。在ABR上配置&#xff0…...

编程日记 2026/1/18 22:49:57

Python -yield 在python 中什么意思

在 Python 中，yield 是一个关键字，用于定义生成器函数（generator function）。它的作用是将一个普通函数转变为可迭代的生成器，具有惰性计算的特性。以下是关键要点： 核心概念生成器函数： 当函数…...

编程日记 2026/1/30 4:25:14

文章目录

1. 回归分析概述

1.1 基本概念

1.2 与分类的区别

2. 常见回归算法

2.1 线性回归

2.2 决策树回归

2.3 逻辑回归（Logistic Regression）

2.3 其他算法

补充：通俗版：决策树 vs 随机森林

🌳 决策树：像玩「20个问题」游戏

基本逻辑

🌲🌳🌴 随机森林：一群专家投票

核心思想

💡 生活类比

3. 建模流程

3.1 数据预处理

3.2 特征工程

3.3 训练与验证

4. 模型评估

4.1 常用指标

4.2 可视化方法

5. 常见问题

Q1: 如何处理过拟合？

Q2: 非线性数据怎么办？

Q3: 类别特征如何处理？

6. 示例

保险客户续保预测实战案例

1. 数据准备

数据概览

字段说明

2. 特征工程

2.1 数据预处理

2.2 特征可视化

3. 模型训练

3.1 逻辑回归

3.2 决策树回归

4. 模型评估

4.1 性能对比

4.2 分类报告

5. 业务应用

5.1 续保概率分布

5.2 关键特征分析

相关文章：