当前位置：首页 > news >正文

集成学习 #数据挖掘 #Python

news 2026/4/2 11:17:17

集成学习是一种机器学习方法，它通过结合多个模型的预测结果来提高整体性能和稳定性。这种方法的主要思想是“集合智慧”，通过将多个模型（比如决策树、随机森林、梯度提升机等）的预测集成起来，可以减少单个模型的过拟合风险，同时提高对未知数据的泛化能力。

集成学习主要有两种主要形式：

bagging（自助法/Bootstrap aggregating）：这种方法创建多个训练集，每个训练集由原始数据随机抽取并保持数据的多样性。然后，对每个子集训练独立的模型，最后将它们的预测结果取平均或投票来得出最终结果。
boosting：这是一种迭代过程，每次训练时专注于那些被前一轮错误分类的样本。 AdaBoost、Gradient Boosting Machine (GBM) 等就是典型的 boosting 方法。它们逐步提高弱模型的权重，形成一个强健的组合模型。

优点：

提高准确性和稳定性：通过集成多个模型，降低了单个模型失效带来的影响。
减少过拟合：由于模型之间有竞争，它们可能不会过度拟合特定的训练数据。
可以处理各种类型的数据：包括数值型、分类型和非结构化数据。

集成学习在以下情况下特别有效：

处理复杂数据：当数据集包含多个特征和复杂的非线性关系时，集成方法如随机森林或梯度提升机能够通过组合多个模型的结果提高预测精度。
减少过拟合：通过结合多个基础模型，集成学习可以降低单个模型过拟合的风险，因为每个模型可能学习到数据的不同部分。
提高稳定性和鲁棒性：集成学习模型通常比单个模型更稳定，即使其中一个模型表现不佳，整体性能也往往不会受到太大影响。
利用不同学习算法的优势：可以将弱学习器组合成强学习器，如AdaBoost将弱分类器逐步调整以关注难以分类的数据。
数据不平衡问题：集成方法能更好地处理类别分布不均的数据，通过加权或平衡采样等方式，提高少数类别的预测能力。
模型融合：例如，通过投票、平均等方式，将不同的模型预测结果整合起来，提高最终决策的可靠性。

应用案例：信用卡还贷情况预测。

数据获取（UCI_Credit_Card.csv） 30000 行客户等还款记录，有 25 列，包含客户的基本信息，每月的还款记录，以及需要我们预测的目标—是否违约。

首先加载数据集，查看数据集概况，并做数据清洗：

1）EDUCATION（教育背景）：将其中值为 0，5，6 的样本对应值修改为 4

2）MARRIAGE（婚姻状况）：0 值的样本修改为 3

#加载数据
import pandas as pd
data = pd.read_csv('UCI_Credit_Card.csv')
#查看数据概况
data.info()
#数据清洗
#将'EDUCATION'列中值为0,5,6,改为4
data['EDUCATION'].replace({0:4,5:4,6:4},inplace=True)
#将'MARRIAGE'列中值为0,改为3
data['MARRIAGE'].replace({0:3},inplace=True)#划分特征集和类别集
x = data.iloc[:,1:-1]
y = data.iloc[:,-1]
#划分数据集
from sklearn import model_selection
x_train,x_test,y_train,y_test = model_selection.train_test_split(x,y,test_size=0.2,random_state=1)

通过.info查看数据集概况可知，该数据集有25个属性列，共30000个样本数据。没有缺失值，最后一个属性列“target”为下个月还款违约情况

建立预测集成训练模型：

1、Bagging集成模型

from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import BaggingClassifier
bagging = BaggingClassifier(KNeighborsClassifier(),max_samples=0.5,max_features=0.5)
bagging.fit(x_train,y_train)
pred1 = bagging.predict(x_test)
from sklearn.metrics import classification_report
#输出：Accuracy、Precisio、Recall、F1分数等信息
print('bagging模型评估报告：\n',classification_report(y_test,pred1))
print('bagging模型的准确率为：',bagging.score(x_test,y_test))#计算AUC得分
y_predict_proba_1 = bagging.predict_proba(x_test)
from sklearn.metrics import roc_curve
fpr_1, tpr_1, thretholds_1 = roc_curve(y_test, y_predict_proba_1[:,1])
from sklearn.metrics import auc
AUC_1 = auc(fpr_1,tpr_1)
print('ROC曲线下面积AUC为：',AUC_1)

指标说明：
Accuracy：准确率
Precisio：查准率、精确率
Recall：查全率、召回率、敏感率、真正例率
F1分数：衡量分类模型精确度的一个指标，可视为精确率和召回率的一种调和平均

2、Random Forest集成模型

from sklearn.ensemble import RandomForestClassifier
RF = RandomForestClassifier()
RF.fit(x_train,y_train)
pred2 = RF.predict(x_test)
print('RandomFore模型评估报告：\n',classification_report(y_test,pred2))
print('RandomFore模型的准确率为：',RF.score(x_test,y_test))#计算AUC得分
y_predict_proba_2 = RF.predict_proba(x_test)
from sklearn.metrics import roc_curve
fpr_2, tpr_2, thretholds_2 = roc_curve(y_test, y_predict_proba_2[:,1])
from sklearn.metrics import auc
AUC_2 = auc(fpr_2,tpr_2)
print('ROC曲线下面积AUC为：',AUC_2)

3、AdaBoost集成模型

from sklearn.ensemble import AdaBoostClassifier
AB = AdaBoostClassifier(n_estimators = 10)
AB.fit(x_train,y_train)
pred3 = AB.predict(x_test)
print('AdaBoost模型评估报告：\n',classification_report(y_test,pred3))
print('AdaBoost模型的准确率为：',AB.score(x_test,y_test))#计算AUC得分
y_predict_proba_3 = AB.predict_proba(x_test)
from sklearn.metrics import roc_curve
fpr_3, tpr_3, thretholds_3 = roc_curve(y_test, y_predict_proba_3[:,1])
from sklearn.metrics import auc
AUC_3 = auc(fpr_3,tpr_3)
print('ROC曲线下面积AUC为：',AUC_3)

#特征重要性
impotrances = RF.feature_importances_
#模型参数
RF.get_params()

#模型验证交叉验证
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import cross_val_score
clf = AdaBoostClassifier(n_estimators=30)
scores = cross_val_score(clf,x,y,cv=10)
scores.mean()

4、决策树

from sklearn.tree import DecisionTreeClassifier
dct = DecisionTreeClassifier()
dct.fit(x_train,y_train)
pred4 = dct.predict(x_test)
print('决策树 模型评估报告：\n',classification_report(y_test,pred4))
print('决策树 模型的准确率为：',dct.score(x_test,y_test))#计算AUC得分
y_predict_proba_4 =dct.predict_proba(x_test)
from sklearn.metrics import roc_curve
fpr_4, tpr_4, thretholds_4 = roc_curve(y_test, y_predict_proba_4[:,1])
from sklearn.metrics import auc
AUC_4 = auc(fpr_4,tpr_4)
print('ROC曲线下面积AUC为：',AUC_4)

对四个模型测试结果ROC曲线对比：

import matplotlib
import matplotlib.pyplot as pltplt.rcParams['font.family'] = ['SimHei']        #用来显示中文标签
plt.rcParams['axes.unicode_minus'] = False      #用来正常显示符号matplotlib.rc('axes', facecolor = 'white')      #设置背景颜色是白色
matplotlib.rc('font', size = 14)                #全局设置字体
matplotlib.rc('figure', figsize = (12, 8))      #全局设置大小
matplotlib.rc('axes', grid = True)              #显示网格fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.plot(fpr_1,tpr_1,'d:y',linestyle = 'dashed',label = 'bagging--AUC=%0.4f'%auc(fpr_1,tpr_1))
ax.plot(fpr_2,tpr_2,'s:r',linestyle = 'dashed',label = 'RandomFore --AUC=%0.4f'%auc(fpr_2,tpr_2))
ax.plot(fpr_3,tpr_3,'v:b',linestyle = 'dashed',label = 'AdaBoost--AUC=%0.4f'%auc(fpr_3,tpr_3))
ax.plot(fpr_4,tpr_4,'o:k',linestyle = 'dashed',label = 'decision tree--AUC=%0.4f'%auc(fpr_4,tpr_4))
ax.legend(loc = 'best')
plt.title('测试结果 ROC曲线对比')
plt.xlabel('FPR')
plt.ylabel('TPR')
plt.savefig('测试结果 ROC曲线对比.png')

通过以上结果可以总结出：

模型	测试结果
模型	accuracy	precision(macro avg)	recall(macro avg)	AUC
bagging	0.78	0.7	0.53	0.6587
Random Forest	0.81	0.74	0.65	0.7594
AdaBoost	0.81	0.76	0.63	0.7586
决策树	0.72	0.6	0.61	0.609

可以看出四种模型中，随机森林和AdaBoost两个模型得到的结果在各个性能评估指标上都明显地优于baging和决策树。

随机森林和AdaBoost两个模型的各个指标都十分的相近，两模型之间的性能几乎没有什么差别；而baging和决策树两个模型之间，bagging的各个性能评估指标略微地优于决策树。

由此得出：最优的模型是随机森林和AdaBoost，其次是bagging，最后是决策树。

集成学习 #数据挖掘 #Python

集成学习是一种机器学习方法，它通过结合多个模型的预测结果来提高整体性能和稳定性。这种方法的主要思想是“集合智慧”，通过将多个模型（比如决策树、随机森林、梯度提升机等）的预测集成起来，可以减少单个模型的过拟合…...

编程日记 2024/6/14 13:24:43

IDEA 中设置 jdk 的版本

本文介绍一下 IDEA 中设置 jdk 版本的步骤。一共有三处需要配置。第一处 File --> Project Structure Project 和 Modules 下都需要指定一下。第二处 File --> Settings 第三处运行时的配置...

编程日记 2024/6/14 13:23:40

AI日报｜Luma推出AI视频模型，又一Sora级选手登场？SD3 Medium发布，图中文效果改善明显

文章推荐 AI日报｜仅三个月就下架？微软GPT Builder出局AI竞争赛；马斯克将撤回对奥特曼的诉讼谁是最会写作文的AI“考生”？“阅卷老师”ChatGPT直呼惊艳！ ⭐️搜索“可信AI进展“关注公众号，获取当日最新…...

编程日记 2024/6/14 13:20:38

嵌入式系统复习（一）

第一章嵌入式系统的定义、特点嵌入式系统是以应用为中心，以计算机技术为基础，软件硬件可裁剪，适应应用系统对功能、可靠性、成本、体积、功耗严格要求的专用计算机系统。特点：嵌入性专用性计算机系统嵌入式系统典型组成…...

编程日记 2024/6/14 13:15:31

一次搞定：Java中数组拷贝VS数组克隆

哈喽，各位小伙伴们，你们好呀，我是喵手。运营社区：C站/掘金/腾讯云；欢迎大家常来逛逛今天我要给大家分享一些自己日常学习到的一些知识点，并以文字的形式跟大家一起交流，互相学习，一…...

编程日记 2024/6/14 13:13:27

Java多线程编程与并发处理

引言在现代编程中，多线程和并发处理是提高程序运行效率和资源利用率的重要方法。Java提供了丰富的多线程编程支持，包括线程的创建与生命周期管理、线程同步与锁机制、并发库和高级并发工具等。本文将详细介绍这些内容，并通过表格进行总结和…...

编程日记 2024/6/14 13:12:25

C++ 35 之对象模型基础

#include <iostream> #include <string.h> using namespace std;class Students05{ public:// 只有非静态成员变量才算存储空间，其他都不算int s_a; // 非静态成员变量，算对象的存储空间double s_c;// 成员函数不算对象的存储空间void f…...

编程日记 2024/6/14 13:09:22

PHP超级全局变量：功能、应用及最佳实践

PHP中的超级全局变量（Superglobal Variables）是预定义的数组，它们在脚本的全部作用域内都可以访问，无需使用global关键字。超级全局变量包含了关于请求、会话、服务器等各种信息，常见的有$_GET、$_POST、$_REQUEST、$_…...

编程日记 2024/6/14 13:08:16

python在windows创建的文件,换成linux系统格式

python在windows创建的文件,换成linux系统格式 dos2unix.exe的下载（下载的文件放入路径下:C:\Windows\System32） 链接：https://pan.baidu.com/s/10fC2tfvUtbh-axJ21cj_Xw?pwdm3zc 提取码：m3zc 批量修改文件格式 import subpr…...

编程日记 2024/6/14 13:07:09

C++ 34 之单例模式

#include <iostream> #include <string.h> using namespace std;class King{// 公共的函数，为了让外部可以获取唯一的实例 public:// getInstance 获取单例约定俗成static King* getInstance(){return true_king;}private: // 私有化// 构造函数设置为…...

编程日记 2024/6/14 13:02:01

SAP BW:传输转换源系统-源系统映射关系

最近有朋友再问问我源系统映射关系怎么配置，想着写一个怕以后忘了。简单说下这个是干嘛的，其实就是配置一个源系统到目标系统的一个映射，这样传输的时候才知道传过来的数据源要变成目标系统的数据源。比如下图，在开发环境&…...

编程日记 2024/6/14 12:58:55

React+TS前台项目实战（九）-- 全局常用组件弹窗Dialog封装

文章目录前言Dialog公共弹窗组件1. 功能分析2. 代码详细注释3. 使用方式4. 效果展示总结前言今天这篇主要讲全局公共弹窗Dialog组件封装，将用到上篇封装的模态框Modal组件。有时在前台项目中，偶尔要用到一两个常用的组件，如弹窗&#x…...

编程日记 2024/6/14 12:57:53

利用视觉分析技术提升水面漂浮物、水面垃圾检测效率

随着城市化进程的加速和工业化的发展，水体污染问题日益严重，水面漂浮物成为水环境治理的一大难题。传统的水面漂浮物检测方法主要依赖人工巡查和简单的传感器检测，存在着效率低、准确率不高等问题。为了提升水面漂浮物检测的效率和准确性&…...

编程日记 2024/6/14 12:56:52

NFT 智能合约实战-快速开始（1）NFT发展历史 | NFT合约标准(ERC-721、ERC-1155和ERC-998)介绍

文章目录 NFT 智能合约实战-快速开始（1）NFT发展历史国内NFT市场国内NFT合规性如何获得NFT？如何查询NFT信息？在 OpenSea 上查看我们的 NFT什么是ERC721NFT合约标准ERC-721、ERC-1155和ERC-998 对比ERC721IERC721.sol 接口内容关于合约需要接收 ERC721 资产 onERC721Received…...

编程日记 2024/6/14 12:55:49

Linux知识整理说明

最近学校Linux课程刚刚结课，但还是有其他课程在继续。所以接下来我会抽时间，根据笔记以及网络资料，整理和Linux相关的知识文档，各位可以后续留意. 完整的章目录我会先发出来，后续补充完整。所有的内容会在下周三(6…...

编程日记 2024/6/14 12:54:48

诊所管理系统哪家会好一点

随着医疗行业的快速发展和信息化进程的加速，诊所作为医疗服务的重要基层单位，其运营管理效率与服务质量的提升愈发依赖于现代化的管理工具。诊所管理系统应运而生，旨在通过集成化、智能化的技术手段，帮助诊所实现诊疗流程优化、资…...

编程日记 2024/6/14 12:53:46

前端根据权限生成三级路由

三级菜单和后端返回数组对比获取有权限的路由数组： //后端返回的数组 const arr1 [sale.management, sale.order, sale.detail]; //前端路由 const arr2 [{path: "/sale-manage",redirect: "/sale-manage/sale-order/sale-list",name: sale…...

编程日记 2024/6/14 12:52:45

Databricks超10亿美元收购Tabular；Zilliz 推出 Milvus Lite ；腾讯云支持Redis 7.0

重要更新 1. Databricks超10亿美元收购Tabular，Databricks将增强 Delta Lake 和 Iceberg 社区合作，以实现 Lakehouse 底层格式的开放与兼容([1] [2])。 2. Zilliz 推出 Milvus Lite 轻量级向量数据库，支持本地运行；Milvus Lite 复…...

编程日记 2024/6/14 12:49:43

算法day29

第一题 695. 岛屿的最大面积本题解法：采用bfs的算法； 本题使用象限数组的遍历方法和定义布尔数组vis来遍历每一个元素的上下左右元素，防治被遍历的元素被二次遍历； 本题具体分析如上题故事，但是由于要求区域的最大面…...

编程日记 2024/6/14 12:47:40

DLSS Swapper技术解析：3层架构实现游戏性能优化自动化

DLSS Swapper技术解析：3层架构实现游戏性能优化自动化【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper DLSS Swapper作为一款专注于DLSS、FSR和XeSS动态链接库管理的开源工具，通过创新的三层架构…...

编程新知 2026/4/2 9:47:28

从BGA封装到Xtacking架构：图解NAND堆叠技术如何影响SSD性能

从BGA封装到Xtacking架构：NAND堆叠技术如何重塑SSD性能格局当一块企业级SSD的读写速度突破7GB/s时，工程师们发现传统的NAND封装技术正在成为性能提升的瓶颈。在PCIe 5.0时代，信号传输速率需要达到2400MT/s才能充分发挥带宽潜力，而…...

编程新知 2026/4/2 9:08:43

如何快速掌握gdrivedl：面向新手的Google Drive下载终极指南

如何快速掌握gdrivedl：面向新手的Google Drive下载终极指南【免费下载链接】gdrivedl Google Drive Download Python Script 项目地址: https://gitcode.com/gh_mirrors/gd/gdrivedl 你是否经常需要从Google Drive下载共享文件，但总是遇到下载速…...

编程新知 2026/4/2 8:20:03

忍者像素绘卷效果展示：云端画布背景+金橙配色+浮雕UI真实渲染效果

忍者像素绘卷效果展示：云端画布背景金橙配色浮雕UI真实渲染效果 1. 视觉风格惊艳呈现忍者像素绘卷带来了全新的视觉体验，将传统像素艺术与现代设计理念完美融合。这款基于Z-Image-Turbo深度优化的图像生成工具，创造了一个明亮通透的创作环…...

编程新知 2026/4/2 6:52:45

Tencent Hunyuan3D-1.0日志轮转配置：防止磁盘空间耗尽的日志管理方案

Tencent Hunyuan3D-1.0日志轮转配置：防止磁盘空间耗尽的日志管理方案【免费下载链接】Hunyuan3D-1 腾讯开源的Hunyuan3D-1项目，创新提出两阶段3D生成方法，实现快速、高质量的文本到3D和图像到3D转换，融合Hunyuan-DiT模型&#xf…...

编程新知 2026/4/2 5:25:48

OpenClaw多语言支持：Qwen2.5-VL-7B跨语种图文处理技巧

OpenClaw多语言支持：Qwen2.5-VL-7B跨语种图文处理技巧 1. 为什么需要多语言图文处理上周我收到一份混合了英文技术文档和中文注释的项目资料，需要整理成统一格式的双语对照版本。手动复制粘贴到翻译工具再调整排版，花了我整整三个小时。这…...

编程新知 2026/4/2 2:59:26

嵌入式AI开发实战：从MCU到模型部署全流程

1. 嵌入式AI开发实战：从入门到项目落地作为一名在嵌入式领域摸爬滚打多年的工程师，我深知AI技术给这个传统行业带来的变革。记得2018年第一次接触基于MCU的简单图像识别时，那种"原来嵌入式设备也能做AI"的震撼感至今难忘。如今&…...

编程新知 2026/4/2 2:53:18

线性结构之链表[基于郝斌课程]

每个结点只有一个前续结点每个结点只有一个后续结点首结点没有前续结点尾结点没有后续结点专业术语：首结点：第一个有效结点，存放第一个有效数据尾结点：最后一个有效结点，存放最后一个有效数据头结点：在首结…...

编程新知 2026/4/2 1:46:14

Seeed rpcBLE库：RTL8720DN平台的Arduino兼容BLE开发方案

1. 项目概述 Seeed Arduino rpcBLE 是一款面向嵌入式开发者的轻量级蓝牙低功耗（BLE）软件库，专为基于 Realtek RTL8720DN SoC 的 Seeed Studio 开发板（如 Wio Terminal、Wio-E5、W600 系列）设计。该库并非从零实现 BLE…...

编程新知 2026/4/2 0:24:55

DeepSeek-Coder-V2终极指南：如何免费打造你的专属AI编程助手

DeepSeek-Coder-V2终极指南：如何免费打造你的专属AI编程助手【免费下载链接】DeepSeek-Coder-V2 DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence 项目地址: https://gitcode.com/GitHub_Trending/de/DeepSeek-Coder-V2 …...

编程新知 2026/4/1 23:30:18

集成学习 #数据挖掘 #Python

相关文章：

集成学习 #数据挖掘 #Python

IDEA 中设置 jdk 的版本

AI日报｜Luma推出AI视频模型，又一Sora级选手登场？SD3 Medium发布，图中文效果改善明显

嵌入式系统复习（一）

一次搞定：Java中数组拷贝VS数组克隆

Java多线程编程与并发处理

C++ 35 之对象模型基础

PHP超级全局变量：功能、应用及最佳实践

python在windows创建的文件,换成linux系统格式

最新区块链论文速读--CCF A会议 ICSE 2024 共13篇附pdf下载（2/2）

C++ 34 之单例模式

SAP BW:传输转换源系统-源系统映射关系

React+TS前台项目实战（九）-- 全局常用组件弹窗Dialog封装

利用视觉分析技术提升水面漂浮物、水面垃圾检测效率

NFT 智能合约实战-快速开始（1）NFT发展历史 | NFT合约标准(ERC-721、ERC-1155和ERC-998)介绍

Linux知识整理说明

诊所管理系统哪家会好一点

前端根据权限生成三级路由

Databricks超10亿美元收购Tabular；Zilliz 推出 Milvus Lite ；腾讯云支持Redis 7.0

算法day29

DLSS Swapper技术解析：3层架构实现游戏性能优化自动化

从BGA封装到Xtacking架构：图解NAND堆叠技术如何影响SSD性能

如何快速掌握gdrivedl：面向新手的Google Drive下载终极指南

忍者像素绘卷效果展示：云端画布背景+金橙配色+浮雕UI真实渲染效果

Tencent Hunyuan3D-1.0日志轮转配置：防止磁盘空间耗尽的日志管理方案

OpenClaw多语言支持：Qwen2.5-VL-7B跨语种图文处理技巧

嵌入式AI开发实战：从MCU到模型部署全流程

线性结构之链表[基于郝斌课程]

Seeed rpcBLE库：RTL8720DN平台的Arduino兼容BLE开发方案

DeepSeek-Coder-V2终极指南：如何免费打造你的专属AI编程助手