当前位置：首页 > news >正文

pyspark使用XGboost训练模型实例

news 2026/2/9 21:49:32

遇到一个还不错的使用Xgboost训练模型的githubhttps://github.com/MachineLP/Spark-/tree/master/pyspark-xgboost

1、这是一个跑通的代码实例，使用的是泰坦尼克生还数据，分类模型。

这里使用了Pipeline来封装特征处理和模型训练步骤，保存为pipelineModel。

注意这里加载xgboost依赖的jar包和zip包的方法。

#这是用 pipeline 包装了XGBOOST的例子。 此路通！import os
import sys
import time
import pandas as pd
import numpy as np
import pyspark.sql.types as typ
import pyspark.ml.feature as ft
from pyspark.sql.functions import isnan, isnullfrom pyspark.sql.types import StructType, StructFieldfrom pyspark.sql.types import *
from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml import Pipeline
from pyspark.sql.functions import col
from pyspark.sql import SparkSessionos.environ['PYSPARK_PYTHON'] = 'Python3.7/bin/python'
os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars xgboost4j-spark-0.90.jar,xgboost4j-0.90.jar pyspark-shell'spark = SparkSession \.builder \.appName("PySpark XGBOOST Titanic") \.config('spark.driver.allowMultipleContexts', 'true') \.config('spark.pyspark.python', 'Python3.7/bin/python') \.config('spark.yarn.dist.archives', 'hdfs://ns62007/user/dmc_adm/_PYSPARK_ENV/Python3.7.zip#Python3.7') \.config('spark.executorEnv.PYSPARK_PYTHON', 'Python3.7/bin/python') \.config('spark.sql.autoBroadcastJoinThreshold', '-1') \.enableHiveSupport() \.getOrCreate()spark.sparkContext.addPyFile("sparkxgb.zip")schema = StructType([StructField("PassengerId", DoubleType()),StructField("Survived", DoubleType()),StructField("Pclass", DoubleType()),StructField("Name", StringType()),StructField("Sex", StringType()),StructField("Age", DoubleType()),StructField("SibSp", DoubleType()),StructField("Parch", DoubleType()),StructField("Ticket", StringType()),StructField("Fare", DoubleType()),StructField("Cabin", StringType()),StructField("Embarked", StringType())])upload_file = "titanic/train.csv"
hdfs_path = "hdfs://tmp/gao/dev_data/dmb_upload_data/"
file_path = os.path.join(hdfs_path, upload_file.split("/")[-1])df_raw = spark\.read\.option("header", "true")\.schema(schema)\.csv(file_path)df_raw.show(20)
df = df_raw.na.fill(0)sexIndexer = StringIndexer()\.setInputCol("Sex")\.setOutputCol("SexIndex")\.setHandleInvalid("keep")cabinIndexer = StringIndexer()\.setInputCol("Cabin")\.setOutputCol("CabinIndex")\.setHandleInvalid("keep")embarkedIndexer = StringIndexer()\.setInputCol("Embarked")\.setHandleInvalid("keep")# .setOutputCol("EmbarkedIndex")\vectorAssembler = VectorAssembler()\.setInputCols(["Pclass", "Age", "SibSp", "Parch", "Fare"])\.setOutputCol("features")from sparkxgb import XGBoostClassifier
xgboost = XGBoostClassifier(maxDepth=3,missing=float(0.0),featuresCol="features",labelCol="Survived"
)pipeline = Pipeline(stages=[vectorAssembler, xgboost])trainDF, testDF = df.randomSplit([0.8, 0.2], seed=24)
trainDF.show(2)
model = pipeline.fit(trainDF)print (88888888888888888888)
model.transform(testDF).select(col("PassengerId"), col("Survived"), col("prediction")).show()
print (9999999999999999999)# Write model/classifier
model.write().overwrite().save(os.path.join(hdfs_path,"xgboost_class_test"))from pyspark.ml import PipelineModel
model1 = PipelineModel.load(os.path.join(hdfs_path,"xgboost_class_test"))
model1.transform(testDF).show()

这是执行结果：

2、当然也可以不用pipeline封装，直接训练xgboost模型，并保存。

但这里遇到无法加载训练好的xgb模型的问题。

# Train a xgboost model
from pyspark.ml.feature import VectorAssembler, StringIndexer, OneHotEncoder, StandardScaler
from pyspark.ml import Pipeline
from sparkxgb import XGBoostClassifierassembler = VectorAssembler(inputCols=[ 'Pclass', 'Age', 'SibSp', 'Parch','Fare'],outputCol="features", handleInvalid="skip")xgboost = XGBoostClassifier(maxDepth=3,missing=float(0.0),featuresCol="features", labelCol="Survived")# pipeline = Pipeline(stages=[assembler, xgboost])
# trained_model = pipeline.fit(data)td = assembler.transform(data)
trained_raw_model = xgboost.fit(td)result = trained_raw_model.transform(td)
result.select(["Survived", "rawPrediction", "probability", "prediction"]).show()# save trained model to local disk
trained_raw_model.nativeBooster.saveModel("outputmodel.xgboost")# 无法加载已经训练好的XGB模型
from sparkxgb import XGBoostClassifier,XGBoostClassificationModel
model1= XGBoostClassificationModel.load("outputmodel.xgboost")
model1.transform(td).show()

这是运行结果：

这里报错，无法使用 XGBoostClassificationModel加载已经训练好的XGB模型。

pyspark使用XGboost训练模型实例

遇到一个还不错的使用Xgboost训练模型的githubhttps://github.com/MachineLP/Spark-/tree/master/pyspark-xgboost 1、这是一个跑通的代码实例，使用的是泰坦尼克生还数据，分类模型。这里使用了Pipeline来封装特征处理和模型训练步骤，保存为…...

编程日记 2023/8/5 10:03:12

从心所欲不逾矩天大地大皆可去一、官方模型的初使用使用VGG16模型 VGG模型使用代码示例： import torchvision.models from torch import nndataset torchvision.datasets.CIFAR10(/cifar10, False, transformtorchvision.transforms.ToTensor())vgg16_true …...

编程日记 2023/8/5 10:02:10

PtahDAO：全球首个DAO治理资产信托计划的金融平台

金融科技是当今世界最具创新力和影响力的领域之一，区块链技术作为金融科技的核心驱动力，正在颠覆传统的金融模式，为全球用户提供更加普惠、便捷、安全的金融服务。在这个变革的浪潮中，PtahDAO（普塔道）作为全…...

编程日记 2023/8/5 10:01:09

从零搭建一个react + electron项目

最近打算搭建一个react electron的项目，发现并不是那么傻瓜式于是记录一下自己的实践步骤通过create-react-app 创建react项目 npx create-react-app my-app 安装electron依赖 npm i electron -D暴露react项目的配置文件（这一步看自己需求&#xff0c…...

编程日记 2023/8/5 10:00:08

MATLAB /Simulink 快速开发STM32(使用st官方工具 STM32-MAT/TARGET)，以及开发过程

配置好环境以后就是开发： stm32cube配置芯片，打开matlab添加ioc文件，写处理逻辑，生成代码，下载到板子中去。配置需要注意事项： STM32CUBEMAX6.5.0 MABLAB2022BkeilV5.2 Matlab生成的代码CTRLB 其中关键的…...

编程日记 2023/8/5 9:59:07

LeetCode 热题 100 JavaScript--102. 二叉树的层序遍历

给你二叉树的根节点 root ，返回其节点值的层序遍历。 （即逐层地，从左到右访问所有节点）。输入：root [3,9,20,null,null,15,7] 输出：[[3],[9,20],[15,7]] 示例 2： 输入：root [1…...

编程日记 2023/8/5 9:58:06

常见Git命令

Git常见命令 1. 添加单个文件 git add a.txt2. 添加多个文件 git add a.txt b.txt c.txt3. 添加(commit)修改，此时修改还未push到服务器上 git commit -m "修改了a.txt内容"4. 提交(push)修改，此时修改会同步到服务器上 git push5. 查看当…...

编程日记 2023/8/5 9:57:04

在C语言中调用汇编语言的函数

在C语言中调用汇编文件中的函数，要做的主要工作有两个： 一是在C语言中声明函数原型，并加extern关键字； 二是在汇编中用EXPORT导出函数名，并用该函数名作为汇编代码段的标识，最后用mov pc, lr返回。然后&a…...

编程日记 2023/8/5 9:56:02

Delphi Professional Crack,IDE插件开发和扩展IDE

Delphi Professional Crack,IDE插件开发和扩展IDE 构建具有强大视觉设计功能的单源多平台本机应用程序。 Delphi帮助您使用Object Pascal为Windows、Mac、Mobile、IoT和Linux构建和更新数据丰富、超连接、可视化的应用程序。Delphi Professional适合个人开发人员和小型团队构建…...

编程日记 2023/8/5 9:55:00

程序框架-公共MONO模块

作用：让没有继承MONO的类可以开启协程，可以update更新，可以统一管理update MonoController脚本继承MonoBehaviour使得脚本过场不移除，并通过UnityAction可以添加多个函数（多播委托），实现Update…...

编程日记 2023/8/5 9:53:58

采用鲁棒随机森林实现的流异常检测：Python应用的一种新型机器学习方法

在数字化和互联网化日益普遍的现代社会，处理海量的网络流量数据是网络安全分析中不可或缺的一部分。流异常检测是一种重要的技术，用于发现可能的安全威胁，例如：网络攻击、恶意行为和系统故障等。随机森林是一种普遍用于解决这类问题的机器学习算法。在本文中，我们将介绍一…...

编程日记 2023/8/5 9:52:56

缓存友好在实际编程中的重要性

引入当CPU执行程序时，需要频繁地访问主存储器（RAM）中的数据和指令。然而，主存储器的访问速度相对较慢，与CPU的运算速度相比存在显著差异，每次都从主存中读取数据都会导致相对较长的等待时间，从…...

编程日记 2023/8/5 9:51:55

uni-ajax网络请求库使用

uni-ajax网络请求库使用 uni-ajax是什么 uni-ajax是基于 Promise 的轻量级 uni-app 网络请求库,具有开箱即用、轻量高效、灵活开发特点。下面是安装和使用教程安装该请求库到项目中 npm install uni-ajax编辑工具类request.js // ajax.js// 引入 uni-ajax 模块 import ajax…...

编程日记 2023/8/5 9:50:53

MYSQL进阶-事务

1.什么是数据库事务？ 事务是一个不可分割的数据库操作序列，也是数据库并发控制的基本单位，其执行的结果必须使数据库从一种一致性状态变到另一种一致性状态。事务是逻辑上的一组操作，要么都执行，要么都不执行。事务…...

编程日记 2023/8/5 9:49:50

python 常见数据类型和方法

不可变数据类型不支持直接增删改只能查 str 字符串 int 整型 bool 布尔值 None None型特殊常量 tuple 元组(,,,)回到顶部可变数据类型，支持增删改查 list 列表[,,,] dic 字典{"":"","": ,} set 集合("",""…...

编程日记 2023/8/5 9:48:48

a-date-picker报错TypeError: date4.locale is not a function

问题描述使用日期选择器，数据从后端获得，再赋值给a-date-picker做数据回显，遇到这个报错，排错后定位到a-date-picker组件本身接收数据的问题。如果使用了dayjs或moment库来处理时间字符串，并且使用.format对时间数据…...

编程日记 2023/8/5 9:47:47

LNMP安装

目录 1、LNMP简述： 1.1、概述 1.2、LNMP是一个缩写词，及每个字母的含义 1.3、编译安装与yum安装差异 1.4、编译安装的优点 2、通过LNMP创建论坛 2.1、安装nginx服务 2.1.1、关闭防火墙 2.1.2、创建运行用户 2.1.3、编译安装 2.1.4、优化路…...

编程日记 2023/8/5 9:46:46

matplotlib绘图风格

文章目录绘图风格测试代码默认和mpl风格复制风格seaborn风格绘图风格 matplotlib功能强大，可以定制各种绘图要素，以满足个性化的绘图需求，而更换绘图风格也十分便捷，一个matplotlib.style.use函数轻松搞定，而可用的…...

编程日记 2023/8/5 9:45:45

【初级教程】Appium 启动应用 log 日志分析

刚开始学习 appium 时，老师给我布置了 appium 启动应用 log 分析的作业。由于工作比较忙，再者自己想先动手用 appium 写个公司的 app 的 UI 测试（目前简单的框架基本完成，在不断完善用例管理中）。写这篇文章是为了完成…...

编程日记 2023/8/5 9:44:44

FANUC机器人SRVO-300机械手断裂故障报警原因分析及处理办法

FANUC机器人SRVO-300机械手断裂故障报警原因分析及处理办法首先，我们查看报警说明书上的介绍：总结：即在机械手断裂设置为无效时，机器人检测出了机械手断裂信号（不该有的信号，现在检测到了，所以报警）使机械手断裂设定为无效/有效的具体方法：  按下示教器的MENU菜单…...

编程日记 2023/8/5 9:43:43

wordpress后台更新后前端没变化的解决方法

使用siteground主机的wordpress网站，会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后，网站没有变化的情况。不熟悉siteground主机的新手，遇到这个问题，就很抓狂，明明是哪都没操作错误&#x…...

编程新知 2026/2/9 2:42:46

conda相比python好处

Conda 作为 Python 的环境和包管理工具，相比原生 Python 生态（如 pip 虚拟环境）有许多独特优势，尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处： 一、一站式环境管理&#xff1a…...

编程新知 2025/11/29 6:54:19

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

使用rpicam-app通过网络流式传输视频使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素文章来源： http://raspberry.dns8844.cn/documentation 原文网址使用 rpicam-app 通过网络流式传输视频本节介绍来自 rpica…...

编程新知 2025/11/5 13:03:58

多场景 OkHttpClient 管理器 - Android 网络通信解决方案

下面是一个完整的 Android 实现，展示如何创建和管理多个 OkHttpClient 实例，分别用于长连接、普通 HTTP 请求和文件下载场景。 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas…...

编程新知 2025/12/15 1:34:37

【SQL学习笔记1】增删改查+多表连接全解析（内附SQL免费在线练习工具）

可以使用Sqliteviz这个网站免费编写sql语句，它能够让用户直接在浏览器内练习SQL的语法，不需要安装任何软件。链接如下： sqliteviz 注意： 在转写SQL语法时，关键字之间有一个特定的顺序，这个顺序会影响到…...

编程新知 2026/2/5 4:36:53

WEB3全栈开发——面试专业技能点P2智能合约开发（Solidity）

一、Solidity合约开发下面是 Solidity 合约开发的概念、代码示例及讲解，适合用作学习或写简历项目背景说明。 🧠 一、概念简介：Solidity 合约开发 Solidity 是一种专门为以太坊（Ethereum）平台编写智能合约的高级编…...

编程新知 2026/1/27 9:33:09

Android 之 kotlin 语言学习笔记三（Kotlin-Java 互操作）

参考官方文档：https://developer.android.google.cn/kotlin/interop?hlzh-cn 一、Java（供 Kotlin 使用） 1、不得使用硬关键字不要使用 Kotlin 的任何硬关键字作为方法的名称或字段。允许使用 Kotlin 的软关键字、修饰符关键字和特殊标识…...

编程新知 2026/2/8 0:33:04

大数据学习（132）-HIve数据分析

🍋🍋大数据学习🍋🍋 🔥系列专栏： 👑哲学语录: 用力所能及，改变世界。 💖如果觉得博主的文章还不错的话，请点赞👍收藏⭐️留言&#x1f4…...

编程新知 2025/10/7 8:52:21

优选算法第十二讲：队列 + 宽搜优先级队列

优选算法第十二讲：队列宽搜 && 优先级队列 1.N叉树的层序遍历2.二叉树的锯齿型层序遍历3.二叉树最大宽度4.在每个树行中找最大值5.优先级队列 -- 最后一块石头的重量6.数据流中的第K大元素7.前K个高频单词8.数据流的中位数 1.N叉树的层序遍历 2.二叉树的锯…...

编程新知 2026/1/20 17:18:59

Mobile ALOHA全身模仿学习

一、题目 Mobile ALOHA：通过低成本全身远程操作学习双手移动操作传统模仿学习（Imitation Learning）缺点：聚焦与桌面操作，缺乏通用任务所需的移动性和灵活性本论文优点：（1）在ALOHA…...

编程新知 2026/1/27 14:18:20

pyspark使用XGboost训练模型实例

1、这是一个跑通的代码实例，使用的是泰坦尼克生还数据，分类模型。

2、当然也可以不用pipeline封装，直接训练xgboost模型，并保存。

相关文章：

pyspark使用XGboost训练模型实例

完整模型的训练套路

PtahDAO：全球首个DAO治理资产信托计划的金融平台

从零搭建一个react + electron项目

MATLAB /Simulink 快速开发STM32(使用st官方工具 STM32-MAT/TARGET)，以及开发过程

LeetCode 热题 100 JavaScript--102. 二叉树的层序遍历

常见Git命令

在C语言中调用汇编语言的函数

Delphi Professional Crack,IDE插件开发和扩展IDE

程序框架-公共MONO模块

采用鲁棒随机森林实现的流异常检测：Python应用的一种新型机器学习方法

缓存友好在实际编程中的重要性

uni-ajax网络请求库使用

MYSQL进阶-事务

python 常见数据类型和方法

a-date-picker报错TypeError: date4.locale is not a function

LNMP安装

matplotlib绘图风格

【初级教程】Appium 启动应用 log 日志分析

FANUC机器人SRVO-300机械手断裂故障报警原因分析及处理办法

wordpress后台更新后前端没变化的解决方法

conda相比python好处

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

多场景 OkHttpClient 管理器 - Android 网络通信解决方案

【SQL学习笔记1】增删改查+多表连接全解析（内附SQL免费在线练习工具）

WEB3全栈开发——面试专业技能点P2智能合约开发（Solidity）

Android 之 kotlin 语言学习笔记三（Kotlin-Java 互操作）

大数据学习（132）-HIve数据分析

优选算法第十二讲：队列 + 宽搜优先级队列

Mobile ALOHA全身模仿学习