当前位置：首页 > news >正文

机器学习---集成学习报告

news 2026/5/19 16:30:09

1.原理以及举例

1.1原理

集成学习（Ensemble Learning）是一种机器学习策略，它通过结合多个基学习器（base learners）的预测来提高模型的性能。集成学习的目标是创建一个比单个基学习器更准确、更稳定的最终预测模型。这种方法可以减少过拟合、提高泛化能力，并在很多情况下，显著提高预测性能。

集成学习的主要原理包括：

多样性（Diversity）：基学习器应该在某种程度上具有差异，从而降低它们共同犯错的概率。多样性可以通过使用不同的训练数据、不同的基学习算法或不同的参数设置来实现。

结合策略（Combining Strategy）：集成学习需要一个合适的策略来结合基学习器的预测结果。常见的结合策略包括投票法（Majority Voting，用于分类任务）、平均法（Averaging，用于回归任务）和加权法（Weighted Voting/Averaging，根据基学习器的性能分配权重）。

集成学习的常见方法包括：

Bagging（Bootstrap Aggregating）：通过自助采样（Bootstrap Sampling）的方法从原始数据集中抽取多个子集，并训练多个基学习器。最终预测结果通过投票（分类任务）或平均（回归任务）得到。

Boosting：Boosting 是一种迭代方法，每个基学习器在训练时对前一个学习器犯错的样本进行加权，从而关注这些难以分类或预测的样本。预测结果通过加权投票（分类任务）或加权平均（回归任务）得到。常见的 Boosting 算法包括 AdaBoost、Gradient Boosting 和 XGBoost。

Stacking（Stacked Generalization）：训练多个基学习器，然后使用一个新的学习器（称为元学习器或次级学习器）将基学习器的输出作为输入进行训练。元学习器负责将这些基学习器的预测结果进行组合，生成最终预测结果。

通过这些方法，集成学习可以提高模型的预测性能、减少过拟合，并提高泛化能力。

1.2举例

假设我们有一个二分类问题，数据集包含以下数据：

我们将使用Bootstrap Aggregating（Bagging）方法结合3个决策树分类器（DT1，DT2，DT3）来解决这个问题。

对于每个基分类器，我们从原始数据集中随机抽样（有放回）一定数量的样本，形成新的训练集。例如，每个基分类器的训练集可能如下：

DT1 训练集： (1, 2, A), (2, 4, A), (3, 1, B), (3, 3, B)

DT2 训练集： (1, 4, A), (2, 4, A), (3, 3, B), (4, 2, B)

DT3 训练集： (1, 2, A), (1, 4, A), (3, 1, B), (4, 2, B)

使用这些新训练集分别训练3个决策树分类器。

对于新的未知数据点，例如（2, 3），我们使用这3个分类器进行预测，然后根据它们的输出进行投票：

DT1 预测：A

DT2 预测：A

DT3 预测：B

结果是类别 A 获得了2票，类别 B 获得了1票。因此，Bagging 预测该数据点属于类别 A。

通过这种方法，Bagging结合了多个基分类器的预测，降低了单个分类器的过拟合风险，并提高了整体模型的泛化能力。

2.设计思路以及代码

2.1设计思路

我们将使用scikit-learn库实现一个Bagging分类器。我们将：

(1)从scikit-learn库中导入所需的工具和数据集。

(2)实现一个Bagging分类器，其中基分类器为决策树。

(3)使用三个不同的数据集对分类器进行评估。

2.2代码实现

import numpy as np
from sklearn.datasets import load_iris, load_wine, load_breast_cancer
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
datasets = {
    'Iris': load_iris(),
    'Wine': load_wine(),
    'Breast Cancer': load_breast_cancer()
}

# 初始化决策树和Bagging分类器
base_classifier = DecisionTreeClassifier()
bagging_classifier = BaggingClassifier(base_estimator=base_classifier, n_estimators=10, random_state=42)

# 评估Bagging分类器在不同数据集上的性能
results = {}
for dataset_name, dataset in datasets.items():
    X_train, X_test, y_train, y_test = train_test_split(dataset.data, dataset.target, test_size=0.3, random_state=42)

    bagging_classifier.fit(X_train, y_train)
    y_pred = bagging_classifier.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    results[dataset_name] = accuracy

print("Bagging分类器在不同数据集上的准确率：")
for dataset_name, accuracy in results.items():
    print(f"{dataset_name}: {accuracy:.4f}")

3.测试结果

根据测试结果，我们可以看到Bagging分类器在这三个数据集上的表现都非常好。这表明Bagging方法可以有效地减少过拟合，提高模型的泛化能力。

机器学习---集成学习报告

1.原理以及举例

1.1原理

1.2举例

2.设计思路以及代码

2.1设计思路

2.2代码实现

3.测试结果

相关文章：

机器学习---集成学习报告

教你如何将PDF文件转换成PPT演示文稿

涨点技巧：谷歌强势推出优化器Lion，引入到Yolov5/Yolov7,内存更小、效率更高，秒杀Adam(W)

Windows GPU版本的深度学习环境安装

C语言实践——通讯录（3）（文件版）

GPT撑腰，微软再战谷歌 | 大厂集体抢滩ChatGPT：谁真的有实力，谁在试点商业化？

【消息队列】细说Kafka消费者的分区分配和重平衡

【Python从入门到人工智能】14个必会的Python内置函数（7）——打印输出（详细语法参考 + 参数说明 + 具体示例）| 附：Python输出表情包

为什么要创建FAQ？这篇文章告诉你

基于html+css的盒子展示1

Python 无监督学习实用指南：1~5

2023 腾讯暑期实习申请经验分享

Protocol Buffers 介绍

【模电实验】基尔霍夫定律、叠加定理和戴维南定理验证实验

java某百货店POS积分管理系统_积分点更新生成以及通票回收处理

Flutter 常用指令

定义全局变量property与getprop

双目三维测距（python）

数据结构|二叉树的三种遍历方式，你掌握了几种？

Direct3D 12——灯光——法向量

Nintendo Switch文件管理终极指南：NSC_BUILDER如何成为你的游戏库管家

留学生如何应对Turnitin检测升级：实测防翻车的3款高效降AI工具

如何用BilibiliDown轻松搞定B站视频下载：新手到高手的完整指南

MLT框架的“Producer”到底有多智能？深入loader.dict与avformat揭秘媒体文件自动解析

C++ TinyWebServer项目实战：手把手教你用阻塞队列实现高性能异步日志（附完整代码）

vscode-mssql架构设计器：无代码可视化建模数据库架构的终极工具

Page Assist终极指南：在浏览器侧边栏运行本地AI模型的完整解决方案

UVa 233 Package Pricing

告别手动计算！用Python+ArcPy脚本批量搞定MODIS ET数据从8天到月均值的完整流程

【NS-3实战指南】NetAnim可视化调试与网络拓扑分析