当前位置：首页 > news >正文

Spark MLlib概述

news 2026/5/14 5:50:07

Spark MLlib概述

机器学习
房价预测
- 模型选型
- 数据探索
- 数据提取
- 准备训练样本
- 模型训练
- 模型效果评估

机器学习

机器学习的过程 :

基于历史数据，机器会根据一定的算法，尝试从历史数据中挖掘并捕捉出一般规律
再把找到的规律应用到新产生的数据中，从而实现在新数据上的预测与判断

在这里插入图片描述

机器学习（Machine Learning）: 一种计算过程：

对于给定的训练数据（Training samples），选择一种先验的数据分布模型（Models）
借助优化算法（Learning Algorithms）自动地持续调整模型参数（Model Weights / Parameters）
让模型不断逼近训练数据的原始分布

模型训练 (Model Training) : 调整模型参数的过程

根据优化算法，基于过往的计算误差 (Loss)，优化算法以不断迭代的方式，自动地对模型参数进行调整
模型训练时，触发了收敛条件 (Convergence Conditions) ，就结束模型的训练过程

模型测试 (Model Testing) :

模型训练完成后，会用一份新的数据集 (Testing samples)，来测试模型的预测能力，来验证模型的训练效果

机器学习开发步骤 :

数据加载 : SparkSession read API
数据提取 : DataFrame select 算子
数据类型转换 : DataFrame withColumn + cast 算子
生成特征向量 : VectorAssembler 对象及 transform 函数
数据集拆分 : DataFrame 的 randomSplit 算子
线性回归模型定义 : LinearRegression 对象及参数
模型训练 : 模型 fit 函数
训练集效果评估 : 模型 summaray 函数

房价预测

房屋数据中的不同文件 :

在这里插入图片描述

模型选型

机器学习分类 :

拟合能力 : 有线性模型 , 非线性模型
预测标 : 回归、分类、聚类、挖掘
模型复杂度 : 经典算法、深度学习
模型结构 : 广义线性模型、树模型、神经网络

房价预测的预测标的（Label）是房价，而房价是连续的数值型字段，所以用回归模型（Regression Model）来拟合数据

数据探索

要想准确预测房价，就要先确定那些属性对房价的影响最大

模型训练时，要选择那些影响大的因素，剔除那些影响小的干扰项
数据特征 (Features) : 预测标的相关的属性
特征选择 (Features Selection) : 选择有效特征的过程

特征选择时 , 先查看 Schema

import org.apache.spark.sql.DataFrameval rootPath: String = _
val filePath: String = s"${rootPath}/train.csv"// 从CSV文件创建DataFrame
val trainDF: DataFrame = spark.read.format("csv")
.option("header", true).load(filePath)trainDF.show
trainDF.printSchema

数据提取

选择对房价影响大的特征，要计算每个特征与房价之间的相关性

从 CSV 创建 DataFrame，所有字段的类型默认都是 String

训练模型时，只计算数值型数据 , 所以要把所有字段都转为整型

import org.apache.spark.sql.types.IntegerType// 提取用于训练的特征字段与预测标的（房价SalePrice）
val selectedFields: DataFrame = trainDF.select("LotArea", "GrLivArea", "TotalBsmtSF", "GarageArea", "SalePrice");// 将所有字段都转换为整 型Int
val typedFields = selectedFields.withColumn("LotAreaInt",col("LotArea").cast(IntegerType)).drop("LotArea").withColumn("GrLivAreaInt",col("GrLivArea").cast(IntegerType)).drop("GrLivArea").withColumn("TotalBsmtSFInt",col("TotalBsmtSF").cast(IntegerType)).drop("TotalBsmtSF").withColumn("GarageAreaInt",col("GarageArea").cast(IntegerType)).drop("GarageArea").withColumn("SalePriceInt",col("SalePrice").cast(IntegerType)).drop("SalePrice")typedFields.printSchema
/** 结果打印
root
|-- LotAreaInt: integer (nullable = true)
|-- GrLivAreaInt: integer (nullable = true)
|-- TotalBsmtSFInt: integer (nullable = true)
|-- GarageAreaInt: integer (nullable = true)
|-- SalePriceInt: integer (nullable = true)
*/

准备训练样本

把要训练的多个特征字段，捏合成一个特征向量（Feature Vectors）

import org.apache.spark.ml.feature.VectorAssembler// 待捏合的特征字段集合
val features: Array[String] = Array("LotAreaInt", "GrLivAreaInt", "TotalBsmtSFInt", "GarageAreaInt", "SalePriceInt")// 准备“捏合器”，指定输入特征字段集合，与捏合后的特征向量字段名
val assembler = new VectorAssembler().setInputCols(features).setOutputCol("featuresAdded")// 调用捏合器的transform函数，完成特征向量的捏合
val featuresAdded: DataFrame = assembler.transform(typedFields).drop("LotAreaInt").drop("GrLivAreaInt").drop("TotalBsmtSFInt").drop("GarageAreaInt")featuresAdded.printSchema                         
/** 结果打印
root
|-- SalePriceInt: integer (nullable = true)
|-- features: vector (nullable = true) // 注意，features的字段类型是Vector
*/

把训练样本按比例分成两份 : 一份用于模型训练，一份用于初步验证模型效果

将训练样本拆分为训练集和验证集

val Array(trainSet, testSet) = featuresAdded.randomSplit(Array(0.7, 0.3))

模型训练

用训练样本来构建线性回归模型

import org.apache.spark.ml.regression.LinearRegression// 构建线性回归模型，指定特征向量、预测标的与迭代次数
val lr = new LinearRegression().setLabelCol("SalePriceInt").setFeaturesCol("features").setMaxIter(10)// 使用训练集trainSet训练线性回归模型
val lrModel = lr.fit(trainSet)

迭代次数 :

模型训练是一个持续不断的过程，训练过程会反复扫描同一份数据
以迭代的方式，一次次地更新模型中的参数（Parameters, 权重, Weights），直到模型的预测效果达到一定的标准，才能结束训练

标准的制定 :

对于预测误差的要求 : 当模型的预测误差 < 预先设定的阈值时，模型迭代就收敛、结束训练
对于迭代次数的要求 : 不论预测误差是多少，只要达到设定的迭代次数，模型训练就结束

烘焙/模型训练的对比 :

在这里插入图片描述

完成模型的训练过程

import org.apache.spark.ml.regression.LinearRegression// 构建线性回归模型，指定特征向量、预测标的与迭代次数
val lr = new LinearRegression().setLabelCol("SalePriceInt").setFeaturesCol("features").setMaxIter(10)// 使用训练集trainSet训练线性回归模型
val lrModel = lr fit(trainSet)

模型效果评估

在线性回归模型的评估中，有很多的指标，用来量化模型的预测误差

最具代表性 : 均方根误差 RMSE（Root Mean Squared Error），用 summary 能获取模型在训练集上的评估指标

val trainingSummary = lrModel.summaryprintln(s"RMSE: ${trainingSummary.rootMeanSquaredError}")
/** 结果打印
RMSE: 45798.86
*/

房价的值域在（34,900，755,000）之间，而预测是 45,798.86 。这说明该模型是欠拟合的状态

Spark MLlib概述

Spark MLlib概述机器学习房价预测模型选型数据探索数据提取准备训练样本模型训练模型效果评估机器学习机器学习的过程 : 基于历史数据，机器会根据一定的算法，尝试从历史数据中挖掘并捕捉出一般规律再把找到的规律应用到新产生的数据中，从而…...

编程日记 2023/3/10 8:15:15

Git 命令行5步解决冲突方法（亲测有效）

总体步骤如下： git pull --rebase 解决冲突文件 file1.c。git add file1.cgit commit -m "*****" git pushgit rebase --continue ，此时冲突消失强推，git push origin xxxx -f 本人解决的例子如下： 第一步、拉取…...

编程日记 2023/3/10 8:14:12

在线帮助文档——让用户更方便地获取帮助

在当今互联网时代，人们在使用各种产品或服务时，难免会遇到问题或疑问，需要寻求帮助。而在线帮助文档则成为了一种方便、快捷、高效的解决问题的方式。Baklib作为一款优雅的云知识库构建平台，可以帮助公司在线制作各种类型的帮助文…...

编程日记 2023/3/10 8:13:07

一小时轻松掌握Git，看这一篇就足够

文章目录序言：版本控制分类一、Git环境配置下载卸载安装二、常用linux命令三、基本配置四、Git基本操作0.原理图1.项目创建及克隆方式一：本地仓库搭建方式二：克隆远程仓库2.文件操作3.配置ssh公钥4.分支5.push代码参考序言：版本控…...

编程日记 2023/3/10 8:12:03

spring cloud stream 自定义binder

背景xxx,关键字 binder stream ，解决多中间件通信及切换问题直接主菜：spring cloud stream 架构中间件 --- binder --- channel --- sink --- （处理）---source ---channel ---binder ---中间件 springcloudstream已自己集成了kafk…...

编程日记 2023/3/10 8:10:59

计算机网络之HTTP协议

目录一、HTTP的含义 1.1 理解超文本 1.2 理解应用层协议 1.3 理解HTTP协议的工作过程二、HTTP协议格式 2.1 抓包工具的使用 2.2 理解协议格式 2.2.1 请求协议格式 2.2.2. 响应格式请求一、HTTP的含义 HTTP（全称为“超文本传输协议”）&#x…...

编程日记 2023/3/10 8:09:55

如何挖掘专利创新点？

“无意中发现了一个巨牛的人工智能教程，忍不住分享一下给大家。教程不仅是零基础，通俗易懂，而且非常风趣幽默，像看小说一样！觉得太牛了，所以分享给大家。点这里可以跳转到教程。” 对于广大的软件工程师来说…...

编程日记 2023/3/10 8:08:52

虚函数和纯虚函数

多态（polymorphism）是面向对象编程语言的一大特点，而虚函数是实现多态的机制。其核心理念就是通过基类访问派生类定义的函数。多态性使得程序调用的函数是在运行时动态确定的，而不是在编译时静态确定的。使用一个基类类型的指针或…...

编程日记 2023/3/10 8:07:50

Framework源码面试——Handler与事件传递机制面试集合

Handler面试题 Handler的作用： 当我们需要在子线程处理耗时的操作（例如访问网络，数据库的操作），而当耗时的操作完成后，需要更新UI，这就需要使用Handler来处理，因为子线程不能做更新…...

编程日记 2023/3/10 8:06:44

iOS开发-bugly符号表自动上传发布自动化shell

这里介绍的是通过build得到的app文件和dSYM文件来打包分发和符号表上传。通过Archive方式打包和获得符号表的方式以后再说。一：bugly工具jar包准备 bugly符号表工具下载地址：(下载完成后放入项目目录下，如不想加入git可通过gitIgnore忽略…...

编程日记 2023/3/10 8:05:41

MySQL OCP888题解046-哪些语句会被记录到binlog

文章目录1、原题1.1、英文原题1.2、中文翻译1.3、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3.1、知识点1：binlog_format选项3.2、知识点2：Performance Schema(性能模式)4、总结1、原题 1.1、英文原题 You enable binary logging on MySQL S…...

编程日记 2023/3/10 8:04:39

【前端学习】D5：CSS进阶

文章目录前言系列文章目录1 精灵图Sprites1.1 为什么需要精灵图？1.2 精灵图的使用2 字体图标iconfont2.1 字体图标的产生2.2 字体图标的优点2.3 字体文件格式2.4 字体图标的使用2.5 字体图标的引入2.6 字体图标的追加3 CSS三角3.1 普通三角3.2 案例4 CSS用户界面样式…...

编程日记 2023/3/10 8:03:35

【bioinfo】融合检测软件FusionMap分析流程和报告结果

文章目录写在前面FusionMap融合检测原理FusionMap与其他软比较FusionMap分析流程FusionMap结果文件说明FusionMap mono CUP设置图片来源: https://en.wikipedia.org/wiki/Fusion_gene写在前面下面主要内容是关于RNA-seq数据分析融合，用到软件是FusionMap 【Fusion…...

编程日记 2023/3/10 8:02:31

C++基础了解-17-C++日期时间

C日期 & 时间一、C日期 & 时间 C 标准库没有提供所谓的日期类型。C 继承了 C 语言用于日期和时间操作的结构和函数。为了使用日期和时间相关的函数和结构，需要在 C 程序中引用头文件。有四个与时间相关的类型：clock_t、time_t、size_t 和 …...

编程日记 2023/3/10 8:01:24

MOV压敏电阻的几种电路元件功能及不同优势讲解

压敏电阻，通常是电路为防护浪涌冲击电压而使用的一种电子元器件，相比其他的浪涌保护器来说，也有那么几个不一样的优势，那么，具体有哪些？以及关于它的作用，你都知道吗？以下优恩小编为…...

编程日记 2023/3/10 8:00:20

uniapp+uniCloud实战项目报修小程序开发

前言本项目基于 uniapp uniCloud 云开发，简单易用，逻辑主要是云数据库的增删查改，页面大部分自写，部分使用uniUI, uView 组件库。大家可用于学习或者二次开发，有什么不懂的地方可联系 wechat：MrYe443。用…...

编程日记 2023/3/10 7:59:14

演唱会的火车票没了？Python实现12306查票以及zidong购票....

嗨害大家好！我是小熊猫~ 不知道大家抢到演唱会的门票没有呢? 不管抢到没有，火车票也是很重要的哇 24小时抢票不间断的那种喔~ ~ ~ 不然可就要走路去了喔~ 准备工作环境 Python 3.8Pycharm 插件谷歌浏览器驱动模块需要安装的第三方模块&am…...

编程日记 2023/3/10 7:58:09

Linux发行版本与发行版的简单的介绍

Linux linux下有很多发行的版本，或者称之为魔改版本。以下介绍一些常见的版本，以避免名词的混淆。 linux是提供了一个内核，就像是谷歌的内核一样，QQ浏览器就是使用的谷歌的内核，也算是一个发行版本。 Ubuntu&#x…...

编程日记 2023/3/10 7:57:04

前后端分离项目学习-vue+springboot 博客

前后端分离项目文章总体分为2大部分，Java后端接口和vue前端页面项目演示：www.markerhub.com:8084/blogs Java后端接口开发 1、前言从零开始搭建一个项目骨架，最好选择合适，熟悉的技术，并且在未来易拓展&#xf…...

编程日记 2023/3/10 7:56:00

关于指针运算的一道题

目录刚看到这道题的时候我也和大多数小白一样感到无从下手，但是在我写这篇博客的前几分钟开始我对这道题有了一点点的理解。所以我就想着趁热打铁，写一篇博客来记录一下我的想法。题目如下： 画图： 逐一解答： 题一…...

编程日记 2023/3/10 7:54:54

把旧笔记本变成第二台电脑的“上网卡”：Win10/11网络共享实战指南

旧笔记本秒变网络共享中心：Windows ICS高阶配置指南你是否遇到过这样的场景：书房里的台式机没有无线网卡，而客厅的旧笔记本却闲置着？其实只需一根网线，就能让这台"退役"设备重新上岗，成为全屋网…...

编程新知 2026/5/14 5:30:19

ARM LDM指令原理与应用详解

1. ARM LDM指令架构解析LDM(Load Multiple)指令是ARM架构中用于批量加载数据的核心指令之一。作为一位长期从事ARM底层开发的工程师，我经常需要在中断处理、上下文切换等场景中使用LDM指令。与单寄存器加载指令相比，LDM指令通过单条指令即可实现从连续内…...

编程新知 2026/5/14 5:07:45

基于LLM与Playwright的智能网页自动化：Web-Use项目实战解析

1. 项目概述：一个能“看懂”网页的智能体如果你也厌倦了那些重复、繁琐的网页操作——比如在不同电商平台比价、手动填写表单、或者从一堆搜索结果里筛选信息——那么今天聊的这个项目，你可能会非常感兴趣。它叫 Web-Use ，本质上是一个 …...

编程新知 2026/5/14 3:12:37

异构推测解码技术：加速大语言模型推理的突破方案

1. 项目概述：异构推测解码技术解析在自然语言处理领域，大语言模型（LLM）的推理速度一直是制约其实际应用的关键瓶颈。传统自回归生成方式需要逐个token顺序输出，导致高延迟问题。推测解码（Speculative Decod…...

编程新知 2026/5/14 2:01:30

dojo.md：从提示词工程到技能工程，打造稳定可靠的AI智能体

1. 项目概述：为什么你的AI助手在演示时很聪明，一上线就“翻车”？ 你有没有过这样的经历？精心调教了一个AI助手，让它帮你写邮件、处理客服问题或者生成广告文案，在测试环境里它对答如流，表现堪称…...

编程新知 2026/5/14 1:39:54

电子围栏系统设计：基于基站定位的防疫隔离技术方案解析

1. 项目概述：电子围栏系统的核心逻辑与设计初衷在2020年初那场席卷全球的公共卫生事件中，如何有效管理居家隔离人员，防止疫情在社区内扩散，成了各国政府面临的共同难题。当时，我作为技术顾问，深度参与了一些…...

编程新知 2026/5/14 1:29:28

使用taotoken cli工具一键配置ubuntu开发环境中的多工具密钥

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度使用taotoken cli工具一键配置ubuntu开发环境中的多工具密钥在开发环境中接入多个大模型工具时，手动配置每个工具的AP…...

编程新知 2026/5/14 0:28:28

BK3633深度睡眠功耗实测：如何配置到1uA并保持定时器工作（避坑指南）

BK3633深度睡眠功耗优化实战：从理论到1uA的完整实现路径在电池供电的物联网设备设计中，低功耗性能往往直接决定产品的市场竞争力。BK3633作为一款集成蓝牙5.2和专有2.4GHz协议的双模芯片，其规格书中标榜的"深度睡眠约1uA"参数尤其…...

编程新知 2026/5/13 23:10:34

基于OpenClaw的AI智能体脚手架Tradeclaw：构建跨境贸易决策支持系统

1. 项目概述：为跨境贸易打造的AI智能体脚手架如果你正在从事跨境电商或外贸采购，每天面对海量的产品信息、繁杂的供应商数据和模糊的市场信号，感觉像在信息海洋里盲目捕捞，那么Tradeclaw这个项目可能就是为你量身定制的“数字捕手…...

编程新知 2026/5/13 22:10:27

用手机遥控电脑演讲：开源项目Presentation-Control部署与实战指南

1. 项目概述与核心价值最近在准备一个重要的线上技术分享，过程中遇到了一个几乎所有演讲者都会头疼的问题：如何优雅地控制幻灯片播放，同时又能自如地操作电脑上的其他演示工具，比如代码编辑器、终端或者在线Demo？传统的…...

编程新知 2026/5/13 21:51:18

Spark MLlib概述

机器学习

房价预测

模型选型

数据探索

数据提取

准备训练样本

模型训练

模型效果评估

相关文章：