当前位置: 首页 > news >正文

Bagging算法_随机森林Random_Forest

Bagging

B a g g i n g Bagging Bagging是并行式集成学习方法最著名的代表,这个名字是由 B o o t s t r a p A G G r e g a t I N G Bootstrap AGGregatING BootstrapAGGregatING而来,顾名思义,该算法由 B o o s t s t r a p Booststrap Booststrap A g g r e g a t i n g Aggregating Aggregating两部分组成。

欲得到泛化性能强的集成,集成中的个体学习器应尽可能相互独立,一种可能的做法是对训练样本进行采样,产生若干不同的子集,再从每个数据子集中训练处一个学习器。同时,为了获得更好的集成,每个个体学习器不能太差。如果每次采样出的子集都完全不同,则每个基学习器只用到了一小部分训练数据,甚至不足以进行有效学习,这显然无法确保产生出比较好的基学习器。

B a g g i n g Bagging Bagging为解决这个问题,使用自助取样( B o o t s t r a p i n g Bootstraping Bootstraping)。给定包含 m m m个样本的数据集,我们先随机取出一个样本放入采样集中,再将该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样,经过 m m m次随机采样操作,我们得到含 m m m个样本的采样集,初始训练集中有的样本在采样集里多次出现,有的则从未出现,可以做一个简单的估计,样本在 m m m次采样中始终不被采到的概率是 ( 1 − 1 m ) m {(1-\frac{1}{m})}^m (1m1)m,求极限得到:
lim ⁡ m → ∞ ( 1 − 1 m ) m → 1 e ≈ 0.368 \lim_{m \to \infty }{(1-\frac{1}{m} )}^m \to \frac{1}{e} \approx 0.368 mlim(1m1)me10.368
可知,初始训练集中约有 63.2 % 63.2\% 63.2%的样本出现在采样集中。

算法:

设有一个大小为 N N N的训练数据集,每次从该数据集中有放回的选出大小为 M M M的子数据集,一共选 K K K次;
根据这 K K K个子数据集,训练学习出 K K K个模型;
使用这 K K K个模型进行预测,再通过取平均值或者多数分类的方式,得到最后的预测结果。

随机森林 Random Forest

随机森林简称 R F RF RF,是以决策树为估计器的 B a g g i n g Bagging Bagging算法。

算法:

假设训练集 T T T的大小为 N N N,特征数为 M M M,随机森林的大小为 K K K
遍历 R F RF RF的大小 K K K次:
从训练集T中有放回抽样的方式,取样 N N N次形成一个新子训练集 D D D
随机选择 m m m个特征,其中 m < M m<M m<M
使用新的训练集 D D D m m m个特征,学习出一个完整的决策树
得到随机森林。

RF的优点

  1. 针对很多任务可以产生高准确度的分类器;
  2. 可以处理大量的输入变量;
  3. 可以在决定类别时,给出变量的重要性;
  4. 在建造森林时,可以在内部对于一般化后的误差产生不偏差的估计;
  5. 包含一个好方法可以估计丢失的资料,并且如果有很大一部分的资料丢失,仍可以维持准确度;
  6. 对于不平衡的分类资料集来说,可以平衡误差;
  7. 可被延伸应用在未标记的资料上,这类资料通常是使用非监督式聚类,也可以侦测偏离者和观看资料;
  8. 学习过程很快速。

RF的缺点

  1. 不可解释性;
  2. 在噪音较大的任务上会过拟合;
  3. 在多分类任务中,RF可能无法提高基学习器的准确性。

相关文章:

Bagging算法_随机森林Random_Forest

Bagging B a g g i n g Bagging Bagging是并行式集成学习方法最著名的代表&#xff0c;这个名字是由 B o o t s t r a p A G G r e g a t I N G Bootstrap AGGregatING BootstrapAGGregatING而来&#xff0c;顾名思义&#xff0c;该算法由 B o o s t s t r a p Booststrap Boos…...

物理与网络安全

物流环境安全 场地选择考虑抗震、承重、防火、防水、供电、空气调节、电磁防护、雷击及静电 场地因素&#xff1a; 自然灾害&#xff0c;社会因素&#xff08;加油站、化工厂&#xff09;&#xff0c;配套条件&#xff08;消防&#xff0c;交通&#xff0c;电力&#xff0c;…...

torch.meshgrid和np.meshgrid的区别

numpy中meshgrid&#xff1a; 把数组a当作一行&#xff0c;再根据数组b的长度扩充行。 把数组b当作一列&#xff0c;再根据数组a的长度扩充列。 torch中meshgrid&#xff1a; 把数组a当作一列&#xff0c;再根据数组b的长度扩充列。 把数组b当作一行&#xff0c;再根据数组a的…...

【PostgreSQL】约束-唯一约束

【PostgreSQL】约束链接 检查 唯一 主键 外键 排他 唯一约束 唯一约束是数据库中的一种约束&#xff0c;用于确保某个列或字段的值在该列或字段中是唯一的。唯一约束可用于确保数据库表中的某个列中的值是唯一的&#xff0c;也可用于确保多个列的组合值是唯一的。 在创建表…...

学习使用js/jquery获取指定class名称的三种方式

学习使用js/jquery获取指定class名称的三种方式 简介一、获取元素的class名称1、通过原生JS获取元素的class名称2、通过Jquery获取元素的class名称 二、应用1、样式修改2、动画效果实现 简介 在开发网页时&#xff0c;我们经常需要通过JS获取元素的class名称进行一些操作&…...

latex数学公式

写于&#xff1a;2024年1月5日 晚 修改&#xff1a; 摘要&#xff1a;数学公式根据其位置可以分为行内公式和行间公式。行内公式更加紧凑&#xff0c;而行间公式富于变化&#xff0c;可以为其编号、引用、换行等操作。本文对数学公式的 LaTex 做简单记录和整理。 行内公式 行内…...

frp配置内网穿透访问家里的nas

frp配置内网穿透访问家里的nas 需求 家里局域网内有台nas&#xff0c;在去公司的路上想访问它 其内网地址为&#xff1a; http://192.168.50.8:6002 工具 1.frp版本v0.53.2 下载地址&#xff1a; https://github.com/fatedier/frp/releases/download/v0.53.2/frp_0.53.2_li…...

C语言-蓝桥杯2023年第十四届省赛真题-砍树

题目描述 给定一棵由 n 个结点组成的树以及 m 个不重复的无序数对 (a1, b1), (a2, b2), . . . , (am, bm)&#xff0c;其中 ai 互不相同&#xff0c;bi 互不相同&#xff0c;ai ≠ bj(1 ≤ i, j ≤ m)。 小明想知道是否能够选择一条树上的边砍断&#xff0c;使得对于每个 (a…...

python识别验证码+灰度图片base64转换图片

一、为后面识别验证码准备 1、base64转换为图片&#xff0c;保存本地、并且置灰 上文中的base64,后面的就是包含Base64编码的PNG图像的字符串复制下来 import base64 from PIL import Image import io# 这里是你的Base64编码的字符串 base64_data "iVBORw0KGgoAAAANSUhE…...

TF-IDF(Term Frequency-Inverse Document Frequency)算法 简介

TF-IDF&#xff08;Term Frequency-Inverse Document Frequency&#xff09;是一种用于信息检索和文本挖掘的常用算法。它用于评估一个词对于一个文档集合中某个文档的重要性。 这个算法的基本思想是&#xff1a;如果一个词在一个文档中频繁出现&#xff0c;并且在整个文档集合…...

企业怎么打造私域转化闭环?

一、私域矩阵构建 1、公众号 &#xff08;1&#xff09;流量来源&#xff1a;微信公众号既是私域流量的起点&#xff0c;亦为其源源不断的提供流量支持&#xff1b; &#xff08;2&#xff09;内容展示&#xff1a;公众号作为内容发布的主要渠道&#xff0c;可以通过公众号传…...

基于等保合规和滑动标尺模型的云安全建设方法

文章目录 前言一、云计算平台面临的安全挑战(一)新兴风险和传统风险的冲击(二) 云计算安全日益严峻,面临更大的安全挑战(三)提升对云计算平台的全面系统性安全建设的认知二、在云计算安全建设上的误区(一)缺乏整体视角构建云上安全,安全及运营存在割裂(二) 缺乏云内…...

MySQL数据库期末知识点总结(复习版)

一、数据库基本知识 数据库中的数据有什么特点 1、数据是按某种结构组织的 2、数据有整体性、共享性和较高的独立性 数据管理技术经历了哪三个阶段 1、手工管理 2、文件管理 3、数据库管理 数据库管理系统的主要功能有哪些 数据库管理系统的主要功能包括数据定义、数据…...

流行的Jmeter+Ant+Jenkins接口自动化测试框架在网络上走红

大致思路&#xff1a;Jmeter可以做接口测试&#xff0c;也能做压力测试&#xff0c;而且是开源软件&#xff1b;Ant是基于Java的构建工具&#xff0c;完成脚本执行并收集结果生成报告&#xff0c;可以跨平台&#xff0c;Jenkins是持续集成工具。将这三者结合起来可以搭建一套We…...

MySQL 数据页损坏处理思路

文章目录 前言1. 备份恢复2. 强制 InnoDB 恢复2.1 损坏数据页2.2 观察错误日志2.3 设置参数2.4 定位表信息2.5 分析处理2.6 恢复数据 总结 前言 研发自己搭建了一套 MySQL 没有设置双一参数&#xff0c;机房异常断电&#xff0c;导致数据页出现损坏&#xff0c;本篇文章介绍此…...

面试 Vue 框架八股文十问十答第二期

面试 Vue 框架八股文十问十答第二期 作者&#xff1a;程序员小白条&#xff0c;个人博客 相信看了本文后&#xff0c;对你的面试是有一定帮助的&#xff01;关注专栏后就能收到持续更新&#xff01; ⭐点赞⭐收藏⭐不迷路&#xff01;⭐ 1&#xff09;常见的事件修饰符及其作…...

【Python学习】2024PyCharm插件推荐

目录 【Python学习】2024PyCharm插件推荐 1. Key Promoter X2.Rainbow CSV3.Markdown4.Rainbow Brackets5.Indent Rainbow6.Regex Tester7.Regex Tester8.Background Image Plus9.Material Theme UI10. Chinese 汉化插件参考 文章所属专区 Python学习 1. Key Promoter X 方便…...

剑指offer题解合集——Week2day6

文章目录 剑指offerWeek2周六&#xff1a;表示数值的字符串AC代码思路&#xff1a; 周六&#xff1a;调整数组顺序使奇数位于偶数前面AC代码思路&#xff1a; 剑指offerWeek2 周六&#xff1a;表示数值的字符串 题目链接&#xff1a;表示数值的字符串 请实现一个函数用来判…...

算法训练第五十二天|300. 最长递增子序列、674. 最长连续递增序列、718. 最长重复子数组

300. 最长递增子序列&#xff1a; 题目链接 给你一个整数数组 nums &#xff0c;找到其中最长严格递增子序列的长度。 子序列 是由数组派生而来的序列&#xff0c;删除&#xff08;或不删除&#xff09;数组中的元素而不改变其余元素的顺序。例如&#xff0c;[3,6,2,7] 是数组…...

HTTP基础知识总结

目录 一、什么是HTTP&#xff1f; 二、与HTTP有关的协议 三、HTTP请求特征 四、HTTP组成格式 五、HTTP标头 1.通用标头 2.实体标头 3.请求标头 4.响应标头 六、HTTP状态码分类 我们在日常测试过程中&#xff0c;也可以通过浏览器F12简单定位是前端问题还是后端问题&a…...

【信息科学与工程学】【通信工程】第五十九篇 面向SDN城域网网络的算法工程02

条目:SDN-Metro-0065 (IPoE入L3VPN业务) 字段 内容 1. 编号​ SDN-Metro-0065 2. 类别​ 业务领域 / 接入与VPN 3. 领域​ 基于动态策略的IPoE用户接入L3VPN业务 4. 模型配方​ IPoE(IP over Ethernet)用户通过以太网接入,并直接进入运营商的L3VPN网络,访问企业内…...

OpenClaw 接入微信 / 企业微信完整教程

本文介绍如何通过 OpenClaw 框架&#xff0c;将个人微信和企业微信接入 AI Agent&#xff0c;实现「AI 自动回复」的功能。适用于树莓派、Mac/Windows 电脑、NAS 或云服务器等各类设备。 一、环境准备 1.1 安装 OpenClaw OpenClaw 是核心运行环境&#xff0c;负责加载插件、管…...

惠来海康医院眼科母亲节:愿岁月温柔,护她眼底有光

惠来海康医院眼科母亲节&#xff1a;愿岁月温柔&#xff0c;护她眼底有光五月浅夏&#xff0c;暖意氤氲&#xff0c;当康乃馨的芬芳漫过街巷&#xff0c;母亲节便载着满心敬意如期而至。母亲&#xff0c;是岁月里最温柔的守望者&#xff0c;用一双眼眸&#xff0c;藏下对我们所…...

如何快速配置Windows端口转发:终极图形化管理工具指南

如何快速配置Windows端口转发&#xff1a;终极图形化管理工具指南 【免费下载链接】PortProxyGUI A manager of netsh interface portproxy which is to evaluate TCP/IP port redirect on windows. 项目地址: https://gitcode.com/gh_mirrors/po/PortProxyGUI PortProx…...

使用 LikeShop 搭建商城的完整流程(从0到上线)

先说结论用 LikeShop 搭建商城&#xff0c;本质可以拆成 5 步&#xff1a;&#x1f449; 部署系统 → 配置基础 → 上架商品 → 打通交易 → 引流运营只要这 5 步跑通&#xff0c;就可以实现“可正常卖货”的商城。一、准备阶段&#xff08;很多人会忽略&#xff09;在动手之前…...

NVIDIA Profile Inspector完整指南:解锁显卡隐藏性能的终极方案

NVIDIA Profile Inspector完整指南&#xff1a;解锁显卡隐藏性能的终极方案 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 你是否曾经感觉自己的NVIDIA显卡性能没有完全发挥&#xff1f;明明配置不差&…...

微信小程序二维码生成神器:5分钟搞定前端二维码生成

微信小程序二维码生成神器&#xff1a;5分钟搞定前端二维码生成 【免费下载链接】weapp-qrcode weapp.qrcode.js 在 微信小程序 中&#xff0c;快速生成二维码 项目地址: https://gitcode.com/gh_mirrors/we/weapp-qrcode 还在为微信小程序中的二维码功能而烦恼吗&#…...

如何高效下载网易云音乐无损FLAC:完整指南与实战技巧

如何高效下载网易云音乐无损FLAC&#xff1a;完整指南与实战技巧 【免费下载链接】NeteaseCloudMusicFlac 根据网易云音乐的歌单, 下载flac无损音乐到本地.。 项目地址: https://gitcode.com/gh_mirrors/nete/NeteaseCloudMusicFlac 想要一键下载网易云音乐歌单中的无损…...

实测好用、真正免费(无水印/无强制付费) 的剪辑软件合集来啦

剪辑小白看过来&#xff01;2026年实测好用、真正免费&#xff08;无水印/无强制付费&#xff09; 的剪辑软件合集来啦&#xff01;????不管你是学生党、自媒体新人&#xff0c;还是电脑配置不高&#xff0c;这篇笔记帮你按设备&#xff08;手机/电脑/网页&#xff09; 精准…...

别再只懂PCA了!用Python手写LDA,从鸢尾花分类实战看监督降维的威力

别再只懂PCA了&#xff01;用Python手写LDA&#xff0c;从鸢尾花分类实战看监督降维的威力 鸢尾花数据集在机器学习领域就像"Hello World"之于编程——经典、简洁却蕴含丰富可能性。当大多数人用PCA处理这类数据时&#xff0c;我们往往忽略了数据本身携带的宝贵标签信…...