当前位置: 首页 > article >正文

大数据-275 Spark MLib - 基础介绍 机器学习算法 集成学习 随机森林 Bagging Boosting

点一下关注吧!!!非常感谢!!持续更新!!!

大模型篇章已经开始!

  • 目前已经更新到了第 22 篇:大语言模型 22 - MCP 自动操作 Figma+Cursor 自动设计原型

Java篇开始了!

  • MyBatis 更新完毕
  • 目前开始更新 Spring,一起深入浅出!

目前已经更新到了:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(已更完)
  • Kylin(已更完)
  • Elasticsearch(已更完)
  • DataX(已更完)
  • Tez(已更完)
  • 数据挖掘(已更完)
  • Prometheus(已更完)
  • Grafana(已更完)
  • 离线数仓(已更完)
  • 实时数仓(正在更新…)
  • Spark MLib (正在更新…)

在这里插入图片描述

集成学习

不指望单个弱模型“包打天下”,而是构造一簇互补的基学习器并让它们投票/加权,用“群体智慧”提升泛化能力、稳定性和鲁棒性。

基本定义

在这里插入图片描述
集成学习通过建立几个模型来解决单一预测问题,它的工作原理是生成多个分类器/模型,各自独立的学习和做出预测,这些预测最后结合成组合预测,因为优于任何一个单分类的做出预测。

集成学习分类

● 任务一:如何优化训练数据 - 主要用于解决欠拟合问题
● 任务二:如何提升泛化性能 - 主要用于解决过拟合问题

在这里插入图片描述
只要单分类器的表现不太差,集成学习的结果总是要好于单分类器的。

Bagging

集成原理

目标

把下面的圈和方块进行分类
在这里插入图片描述

采集不同的数据集

在这里插入图片描述

训练分类器

在这里插入图片描述

平权投票

获取最终结果
在这里插入图片描述

随机森林

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由所有树输出的类别的众数而定。
随机森林 = Bagging + 决策树
在这里插入图片描述
例如,如果你训练了5个树,其中有4个树的结果是True,1个树的结果是False,那么最终投票的结果就是True,随机森林构造过程中的关键步骤(M表示特征数目):
● 一次随机选出部分样本,有放回的抽样,重复N次(有可能出现重复的样本)
● 随机去选出 m 个特征,m << M,建立决策树

Boosting

基本概念

随着学习的积累从弱到强,简而言之:每新加入一个弱学习器,整体能力就会得到提升
在这里插入图片描述
代表算法:Adaboost、GBDT、XGBoost、LightGBM

Spark MLlib 的 GBT 相当于 “纯原生 Java/Scala 实现的 GBDT”,功能和速度距现代竞赛级框架(XGBoost / LightGBM / CatBoost)仍有差距。工业界常用以下两条路线把先进算法接进 Spark Pipeline:

  • XGBoost4J‑Spark:将每个 XGBoost worker 嵌入 Spark executor,天然支持 GPU / CPU 分布式;API 兼容 ML Pipeline,可与 VectorAssembler、ParamGridBuilder 协同工作。
  • LightGBM‑Spark(microsoft/synapseml):基于 LightGBM 的梯度直方、Leaf‑wise growth,训练速度较快,支持类别特征原生处理与分布式训练。

使用方式大体一致: 把 XGBoostClassifier 或 LightGBMRegressor 替换到 Pipeline 里,并确保 依赖 JAR 与 native lib 在所有 executor 可见。常见踩坑点:

  • 内存分配:XGBoost 需要 executor 拥有足够的 off‑heap;通过 spark.executor.memoryOverhead 和 spark.executor.cores 调整。
  • 数据格式:必须把特征向量转成 Dense 或 Sparse Vector; 并避免 StringIndexer 将类别特征过度 one‑hot,使维度爆炸。
  • GPU 调度:需要 spark.task.resource.gpu.amount=1 并在 YARN/K8s 上配置 spark.executor.resource.gpu.amount。

实现过程

训练第一个学习器

在这里插入图片描述

调整数据分布

在这里插入图片描述

训练第二个学习器

在这里插入图片描述

再次调整数据分布

在这里插入图片描述

学习器训练及数据分布调整

在这里插入图片描述

整体过程

在这里插入图片描述

相关文章:

大数据-275 Spark MLib - 基础介绍 机器学习算法 集成学习 随机森林 Bagging Boosting

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; 大模型篇章已经开始&#xff01; 目前已经更新到了第 22 篇&#xff1a;大语言模型 22 - MCP 自动操作 FigmaCursor 自动设计原型 Java篇开…...

大模型微调技术全景图:从全量更新到参数高效适配

在预训练大语言模型&#xff08;LLM&#xff09;展现出惊人能力之后&#xff0c;如何让这些“通才”模型蜕变为特定领域的“专家”&#xff1f;微调&#xff08;Fine-Tuning&#xff09;正是解锁这一潜力的核心技术。本文将深入解析主流微调技术&#xff0c;助你找到最适合任务…...

c++ chrono头文件含义

在C中&#xff0c;<chrono> 是一个标准库头文件&#xff0c;用于处理时间相关的操作&#xff0c;包括时间点、时间间隔和时钟。它提供了一套强大的时间处理功能&#xff0c;支持高精度的时间测量、时间间隔的计算以及时间点的表示。 1. <chrono> 的主要功能 <…...

git互联GitHub 使用教程

一、下载git Git 公司 右键 git config --global user.name "name" git config --global user.email "email" ssh-keygen -t rsa -C email &#xff1a;生成的ssh密钥需要到github 网站中保存ssh 二、GitHub新建repository 三、本地git互联GitHub 找…...

Python爬虫与Java爬虫深度对比:从原理到实战案例解析

在当今数据驱动的时代,网络爬虫技术已成为获取和分析网络数据的重要手段。作为两种最流行的爬虫开发语言,Python和Java各有其独特的优势和适用场景。本文将全面对比Python爬虫与Java爬虫的核心差异,并通过实际代码示例展示它们的具体实现方式,帮助开发者根据项目需求做出合…...

汇编语言综合程序设计:子程序、分支与循环深度解析

本文将通过一个完整的控制台计算器案例&#xff0c;深入探讨汇编语言中子程序、分支结构和循环结构的综合应用&#xff0c;展示模块化编程、输入输出处理和算法实现的核心技术。 一、模块化编程架构设计 1. 系统架构规划 Calculator System ├── main.asm (主程序)…...

SpringBoot+Mysql实现的停车场收费小程序系统+文档

&#x1f497;博主介绍&#x1f497;&#xff1a;✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌ 温馨提示&#xff1a;文末有 CSDN 平台官方提供的老师 Wechat / QQ 名片 :) Java精品实战案例《700套》 2025最新毕业设计选题推荐…...

面向对象进阶 | 深入探究 Java 静态成员与继承体系

个人主页 文章专栏 文章目录 个人主页文章专栏 一、static&#xff08;静态&#xff09;1.static 静态变量代码展示内存图 2.static 静态方法工具类&#xff1a;练习&#xff1a; 3.static注意事项4.重新认识main方法 二、继承1.继承概述2.继承的特点3.子类到底能继承父类中的…...

人脸识别技术成为时代需求,视频智能分析网关视频监控系统中AI算法的应用

一、应用背景&#xff1a;时代需求与技术革新的双重驱动​ 1&#xff09;传统安防系统的困境​&#xff1a;传统监控系统依赖人工逐帧筛查海量视频&#xff0c;在人流密集场所极易漏检&#xff0c;且缺乏实时锁定和主动预警能力&#xff0c;面对突发安全事件响应迟缓。​ 2&a…...

青岛国瑞数据采集网关软件平台:工业互联的智能基石——安全、高效、开放,驱动企业数字化转型

一、产品定位&#xff1a;工业数据的智能枢纽​​ 青岛国瑞数据采集网关软件平台&#xff0c;以“连接万物、赋能智能”为核心理念&#xff0c;专为工业场景打造&#xff0c;解决设备互联、数据互通、业务融合的核心痛点。无需深奥技术背景&#xff0c;通过极简配置&#xff0c…...

Git的由来与应用详解:从Linux内核到现代开发的革命性工具

1. Git的诞生背景与历史 1.1 Linux内核开发的困境 1991年,Linus Torvalds创建了开源的Linux操作系统。随着Linux的不断发展壮大,全球各地的志愿者纷纷参与到Linux内核的开发中。然而,在2002年之前,Linux内核的代码管理却处于一种原始状态——世界各地的开发者通过diff方式…...

@Prometheus 监控-MySQL (Mysqld Exporter)

文章目录 **Prometheus 监控 MySQL ****1. 目标****2. 环境准备****2.1 所需组件****2.2 权限要求** **3. 部署 mysqld_exporter****3.1 下载与安装****3.2 创建配置文件****3.3 创建 Systemd 服务****3.4 验证 Exporter** **4. 配置 Prometheus****4.1 添加 Job 到 prometheus…...

pc端小卡片功能-原生JavaScript金融信息与节日日历

代码如下 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>金融信息与节日日历</title><…...

窗口聚合窗口聚合

taskmanager.memory.managed.fraction 在 Apache Flink 中&#xff0c;配置项 taskmanager.memory.managed.fraction 用于控制任务管理器&#xff08;TaskManager&#xff09;所占用的总内存中&#xff0c;分配给管理内存&#xff08;Managed Memory&#xff09;的比例。管理内…...

es在Linux安装

如果服务器能访问外网&#xff1a; wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.4.0.zip不能就手动下载&#xff0c;解压文件到合适目录 unzip elasticsearch-6.4.0.zip -d /opt/ mv /opt/elasticsearch-6.4.0 /opt/elasticsearch创建和日志…...

Go语言学习-->第一个go程序--hello world!

Go语言学习–&#xff1e;第一个go程序–hello world! 1 写代码前的准备 1 创建编写代码的文件夹 2 使用vscode打开3 项目初始化 **go mod init*&#xff08;初始化一个go mod&#xff09;Go Module 是 Go 1.11 版本引入的官方依赖管理系统&#xff0c;用于替代传统的 GOPATH…...

高雄市12岁以下身心障碍儿童口腔保健合作院所名单数据集

描述&#xff1a; 关键字&#xff1a;儿童、口腔、保健、院所、名单 字段特征&#xff1a;序号、院所分级、合作医疗院所、市话、地址 语言&#xff1a;繁体 行数/数量&#xff1a;129行&#xff0c;5列 数据量 &#xff1a;7.27KB 格式&#xff1a;CSV、JSON、XML 目录…...

Spring Boot 自动参数校验

在 Spring Boot 中实现参数自动校验主要依靠 Java Bean Validation API&#xff08;JSR 380&#xff09;和 Spring 的集成支持。以下是详细实现步骤&#xff1a; 1. 添加依赖 在 pom.xml 中添加验证依赖&#xff1a; <dependency><groupId>org.springframework.b…...

破局新能源消纳难题!安科瑞智慧能源平台助力10KV配电网重构未来

一、政策驱动&#xff1a;新型配电网迎来 “智慧化” 刚需 随着分布式光伏、工商业储能、电动汽车充电桩等新型电力设施大规模并网&#xff0c;传统 10kV 配电网正面临 “高渗透、强波动、多交互” 的运行挑战。2025 年 6 月 1 日正式实施的《配电网通用技术导则》&#xff08;…...

推荐10个AI视频生成工具网站

以下是10个AI视频生成工具网站推荐&#xff1a; 国内工具 可灵&#xff1a;由快手AI团队研发&#xff0c;支持文生视频、图生视频、首尾帧设置和运镜调整等功能&#xff0c;生成视频画质高&#xff0c;适合短视频创作、AI唱跳、动画短片等。官网&#xff1a;可灵 即梦&#…...

TIA博途中的程序导出为PDF格式的具体方法示例

TIA博途中的程序导出为PDF格式的具体方法示例 如下图所示&#xff0c;选中想要导出为PDF的程序块&#xff0c;右击选择“打印”&#xff0c; 如下图所示&#xff0c;选择“导出为WPS PDF” 或者“Microsoft Print to PDF”&#xff0c; 如下图所示&#xff0c;设置文档布局相关…...

【大模型:知识图谱】--4.neo4j数据库管理(cypher语法1)

使用neo4j的cypher语法对图数据库进行管理&#xff1b;官网地址&#xff1a;Create, start, and stop databases - Operations Manual 目录 1.neo4j--简介 1.1.Neo4j版本的标准数据库 1.2.默认数据库 1.3.每用户主数据库 1.4.system数据库 2.neo4j--数据库管理 2.1.命名…...

Java 实现下拉框树状结构接口的核心思路

目录 核心思路 1. 定义树节点数据结构 &#xff1a; 2. 获取扁平化数据 &#xff1a; 3. 构建树形结构 &#xff1a; 4. 暴露接口 &#xff1a; TreeService.java&#xff1a;树形构建服务 解释 &#xff1a; 总结 下拉框&#xff08;Dropdown&#xff09;展示层级结构数…...

数字化时代养老机构运营实训室建设方案:养老机构运营沙盘实训模块设计

在数字化浪潮席卷各行各业的当下&#xff0c;养老机构运营实训室建设方案中的养老机构运营沙盘实训模块设计&#xff0c;已成为培养专业养老运营人才的关键环节&#xff0c;它需紧密贴合时代需求&#xff0c;构建兼具前瞻性与实用性的实训体系。点击获取实训室建设方案 一、养…...

自由开发者计划 004:创建一个苹果手机长截屏小程序

一. 背景 年初&#xff0c;一个漂亮姐姐突然问我&#xff0c;iphone这么多年一直没法长截屏&#xff0c;你们程序员就没个办法把这个硬伤补上吗&#xff1f; 虎躯一震&#xff0c;脑瓜子嗡嗡的&#xff0c;这么多年的iphone资深用户&#xff0c;最初也不是没有想过这个问题&am…...

【Go语言基础】基本语法

文章目录 一、 程序基本结构二. 词法标记&#xff08;Lexical Tokens&#xff09;&#xff08;编译器解析单元&#xff09;三、 标识符规则&#xff08;变量命名规则&#xff09;四、注释与行分隔符五、关键字与预定义标识符六、 代码示例解析 以下是基于文档的Go语言基础语法总…...

工作流引擎-18-开源审批流项目之 plumdo-work 工作流,表单,报表结合的多模块系统

工作流引擎系列 工作流引擎-00-流程引擎概览 工作流引擎-01-Activiti 是领先的轻量级、以 Java 为中心的开源 BPMN 引擎&#xff0c;支持现实世界的流程自动化需求 工作流引擎-02-BPM OA ERP 区别和联系 工作流引擎-03-聊一聊流程引擎 工作流引擎-04-流程引擎 activiti 优…...

【虚拟机版本号】如果忘记了版本号,这样查找版本号

【虚拟机版本号】如果忘记了版本号&#xff0c;这样查找版本号 找到虚拟机的文件&#xff1a; 然后用记事本打开这个&#xff1a;.vmx文件 然后搜索.version...

std::conditional_t一个用法

例子摘自&#xff1a; 《mastering-the-c17-stl-make-full-use-of-the-standard-library-components-in-c17.pdf》 struct list_node {int data;list_node *next; };template<bool Const> struct list_of_ints_iterator {friend class list_of_ints;friend class list…...

Java高效批量读取Redis数据:原理、方案与实战案例

Java高效批量读取Redis数据&#xff1a;原理、方案与实战案例 在电商大促场景中&#xff0c;某平台需要实时展示用户购物车数据&#xff0c;面对每秒10万的请求&#xff0c;传统单次读取Redis的方式导致响应延迟高达500ms。通过批量读取优化&#xff0c;最终将延迟降至20ms以内…...