当前位置：首页 > news >正文

【pyspark学习从入门到精通23】机器学习库_6

news 2026/5/17 14:33:19

分割连续变量

标准化连续变量

分类

分割连续变量

我们经常处理高度非线性的连续特征，而且只用一个系数很难拟合到我们的模型中。
在这种情况下，可能很难只通过一个系数来解释这样一个特征与目标之间的关系。有时，将值划分到离散的桶中是有用的。

首先，让我们使用以下代码创建一些伪造数据：

import numpy as np
x = np.arange(0, 100)
x = x / 100.0 * np.pi * 4
y = x * np.sin(x / 1.764) + 20.1234

现在，我们可以通过以下代码创建一个 DataFrame：

schema = typ.StructType([typ.StructField('continuous_var', typ.DoubleType(), False)
])
data = spark.createDataFrame([[float(e), ] for e in y], schema=schema)

接下来，我们将使用 QuantileDiscretizer 模型将我们的连续变量分割成五个桶（numBuckets 参数）：

discretizer = ft.QuantileDiscretizer(numBuckets=5, inputCol='continuous_var', outputCol='discretized')

让我们看看我们得到了什么：

data_discretized = discretizer.fit(data).transform(data)

我们的函数现在看起来如下：

现在我们可以将这个变量当作分类变量，并使用 OneHotEncoder 进行编码，以便将来使用。

标准化连续变量

标准化连续变量不仅有助于更好地理解特征之间的关系（因为解释系数变得更容易），而且还有助于计算效率，并防止陷入一些数值陷阱。以下是如何在 PySpark ML 中进行操作。

首先，我们需要创建我们的连续变量的向量表示（因为它只是一个单独的浮点数）：

vectorizer = ft.VectorAssembler(inputCols=['continuous_var'], outputCol= 'continuous_vec')

接下来，我们构建我们的标准化器和管道。通过将 withMean 和 withStd 设置为 True，该方法将去除均值，并将方差缩放到单位长度：

normalizer = ft.StandardScaler(inputCol=vectorizer.getOutputCol(), outputCol='normalized', withMean=True,withStd=True
)
pipeline = Pipeline(stages=[vectorizer, normalizer])
data_standardized = pipeline.fit(data).transform(data)

这是转换后的数据的样子：

如你所见，数据现在围绕 0 振荡，具有单位方差（绿线）。

分类

到目前为止，我们只使用了 PySpark ML 中的 LogisticRegression 模型。在这一部分，我们将使用 RandomForestClassifier 再次模拟婴儿的生存机会。

在我们可以做到这一点之前，我们需要将标签特征转换为 DoubleType：

import pyspark.sql.functions as func
births = births.withColumn('INFANT_ALIVE_AT_REPORT', func.col('INFANT_ALIVE_AT_REPORT').cast(typ.DoubleType())
)
births_train, births_test = births \.randomSplit([0.7, 0.3], seed=666)

现在我们已经将标签转换为双精度，我们准备构建我们的模型。我们以与之前类似的方式进行，区别是我们将重用本章早期的编码器和 featureCreator。numTrees 参数指定应该有多少决策树在我们的随机森林中，maxDepth 参数限制了树的深度：

classifier = cl.RandomForestClassifier(numTrees=5, maxDepth=5, labelCol='INFANT_ALIVE_AT_REPORT')
pipeline = Pipeline(stages=[encoder,featuresCreator, classifier])
model = pipeline.fit(births_train)
test = model.transform(births_test)

现在让我们来看看 RandomForestClassifier 模型与 LogisticRegression 模型相比表现如何：

evaluator = ev.BinaryClassificationEvaluator(labelCol='INFANT_ALIVE_AT_REPORT')
print(evaluator.evaluate(test, {evaluator.metricName: "areaUnderROC"}))
print(evaluator.evaluate(test, {evaluator.metricName: "areaUnderPR"}))

我们得到以下结果：

嗯，正如你看到的，结果比逻辑回归模型好大约 3 个百分点。让我们测试一下单棵树的模型表现如何：

classifier = cl.DecisionTreeClassifier(maxDepth=5, labelCol='INFANT_ALIVE_AT_REPORT')
pipeline = Pipeline(stages=[encoder,featuresCreator, classifier])
model = pipeline.fit(births_train)
test = model.transform(births_test)
evaluator = ev.BinaryClassificationEvaluator(labelCol='INFANT_ALIVE_AT_REPORT')
print(evaluator.evaluate(test, {evaluator.metricName: "areaUnderROC"}))
print(evaluator.evaluate(test, {evaluator.metricName: "areaUnderPR"}))

前面的代码给出了以下结果：

一点也不差！实际上，在精确度-召回率关系方面，它的表现比随机森林模型更好，而且在 ROC 下面积方面只是稍微差一些。我们可能刚刚发现了一个赢家！

【pyspark学习从入门到精通23】机器学习库_6

目录分割连续变量标准化连续变量分类分割连续变量我们经常处理高度非线性的连续特征，而且只用一个系数很难拟合到我们的模型中。在这种情况下，可能很难只通过一个系数来解释这样一个特征与目标之间的关系。有时，将值划分到离散的桶中…...

编程日记 2024/12/8 22:34:23

FPGA实战篇（呼吸灯实验）

1.呼吸灯简介呼吸灯采用 PWM 的方式，在固定的频率下，通过调整占空比的方式来控制 LED 灯亮度的变化。 PWM（Pulse Width Modulation ），即脉冲宽度调制，它利用微处理器输出的 PWM 信号，实现对…...

编程日记 2024/12/8 22:32:21

面经自测——自我介绍

前言这是作者新开的坑，一切题目都是从网上找的原题，为了总结网上有关的面经，以便在真实面试中较为流利的回答面试官的问题面试之——自我介绍自我介绍是面试中最常见的问题之一，主要目的是让面试官了解你的背景、技能和职业…...

编程日记 2024/12/8 22:27:13

在 LS-DYNA 中将应力转换为用户定义的坐标系

介绍通常，使用 LS-DYNA 或 Ansys Mechanical 等仿真工具解决工程问题需要将张量结果与解析解进行比较。一个这样的例子是加压圆柱体，其中圆周应力或环状应力是感兴趣的主要应力度量。例如，如果对具有复杂端部处理的几何结构进行此类仿真&am…...

编程日记 2024/12/8 22:24:10

【Spark】 groupByKey与reduceByKey的区别

groupByKey 操作：将相同键的所有值收集到一个集合中。实现：不会在map端进行局部聚合，而是直接将所有相同键的数据传输到reduce端进行聚合。缺点：由于没有本地聚合，groupByKey会导致大量的数据传输和shuffle&#xff0c…...

编程日记 2024/12/8 22:23:08

数据库与数据库管理系统概述

title: 数据库与数据库管理系统概述 date: 2024/12/7 updated: 2024/12/7 author: cmdragon excerpt: 在信息化迅速发展的时代，数据已成为企业和组织的重要资产。数据库与数据库管理系统（DBMS）是高效存储、管理和利用数据的核心工具。本文首先定义了数据库的基本概念和特…...

编程日记 2024/12/8 22:21:03

（简单5步实现，免费且比GPT4.0更好用）部署本地AI大语言模型聊天系统：Chatbox AI + 马斯克grok2.0大模型

摘要： 本文将指导您如何部署一个本地AI大语言模型聊天系统，使用Chatbox AI客户端应用和grok-beta大模型，以实现高效、智能的聊天体验。引言： 由马斯克X-AI发布的Grok 2大模型以其卓越的性能超越了GPT4.0。Grok模型支持超长文本…...

编程日记 2024/12/8 22:20:02

滚珠螺杆导程的定义与重要性

滚珠螺杆导程是指螺杆每旋转一圈时，螺母（或与之配合的移动部件）沿螺杆轴线方向移动的距离。这个参数在机械设计和制造中非常重要，因为它直接影响到传动系统的速度、精度和效率。导程是滚珠螺杆的重要参数之一，它与切削…...

编程日记 2024/12/8 22:18:00

【特殊子序列 DP】力扣509. 斐波那契数

斐波那契数 （通常用 F(n) 表示）形成的序列称为斐波那契数列。该数列由 0 和 1 开始，后面的每一项数字都是前面两项数字的和。也就是： F(0) 0，F(1) 1 F(n) F(n - 1) F(n - 2)，其中 n > 1 给定 n &…...

编程日记 2024/12/8 22:13:55

linux 架构详解

Linux 是一种开源的操作系统内核，最初由 Linus Torvalds 于 1991 年创建。它是一个基于 Unix 的操作系统内核，用于构建完整的操作系统。Linux 架构是指 Linux 操作系统的内部结构和组成组件的工作方式。整体架构 Linux系统通常被看作是一个层次化的结…...

编程日记 2024/12/8 22:12:53

Spring Data Elasticsearch

简介说明 spring-data-elasticsearch是比较好用的一个elasticsearch客户端，本文介绍如何使用它来操作ES。本文使用spring-boot-starter-data-elasticsearch，它内部会引入spring-data-elasticsearch。 Spring Data ElasticSearch有下边这几种方法操作El…...

编程日记 2024/12/8 22:03:43

OpenGL编译用户着色器shader

shader相信很多朋友们都听说过，shader就是运行再GPU上的程序。虽然是这么说，但是我们发现，很多IDE开发工具比如说visual studio 没有办法直接去运行shader代码。这是因为，许多编译器不会自动将shader文件编译成可执行的代码然后发…...

编程日记 2024/12/8 22:01:40

过期策略、内存淘汰机制

1.过期策略：请求时删除定期删除请求时删除：使用key之前，检查是否过期，属于一种被动的处理方式。因此，过期时间到了不表示这个key真的被删除了定期删除：Redis默认每隔100ms检查，有过期ke…...

编程日记 2024/12/8 22:00:38

Scala的正则表达式

package hfdobject Test35_3 {def main(args: Array[String]): Unit {println("a\tb")//定义一个规则正则表达式//1. .表示除了换行之外的其他的任意单个字符//2. \d等于[0-9] 匹配一个数字//3. \D除了\d之外的其他的任意字符，表示非数字//4. \w等价于[…...

编程日记 2024/12/8 21:55:32

关于睡懒觉

我们经常听到一个词：睡懒觉。我认为，睡懒觉这个词，是错误的。人，是需要睡眠的，睡不够，就不会醒。睡够了，自然会醒，也不想继续睡。不信你试试，睡够了，你…...

编程日记 2024/12/8 21:53:29

【算法day10】栈与队列：拓展与应用

题目引用逆波兰表达式求值滑动窗口最大值前k个高频元素 1.逆波兰表达式求值给你一个字符串数组 tokens ，表示一个根据逆波兰表示法表示的算术表达式。请你计算该表达式。返回一个表示表达式值的整数。注意： 有效的算符为 ‘’、‘-’、‘*’ 和…...

编程日记 2024/12/8 21:51:27

爆肝Android JNI - 延展Android蓝牙JNI学习

零. 前言由于Bluedroid的介绍文档有限，以及对Android的一些基本的知识需要了(Android 四大组件/AIDL/Framework/Binder机制/JNI/HIDL等)，加上需要掌握的语言包括Java/C/C++等，加上网络上其实没有一个完整的介绍Bluedroid系列的文档，所以不管是蓝牙初学者还是蓝牙从业人员…...

编程日记 2024/12/8 21:50:25

总篇：Python3+Request+Pytest+Allure+Jenkins接口自动化框架设计思路

1、技术选型 Python3 Python 是一种广泛使用的高级编程语言，具有简洁、易读、易维护的特点。 Python 拥有丰富的第三方库，可以方便地进行接口测试的开发。 Request Request 是一个强大的 HTTP 库，用于发送 HTTP 请求和处理响应。 Request 支持多种 HTTP 方法，如 GET、P…...

编程日记 2024/12/8 21:49:24

Java的Map介绍以及常见方法和三种遍历方式

Java的Map介绍以及常见方法和三种遍历方式 1 Java 中的 Map 介绍在 Java 中，Map 是一个接口，它提供了一种存储键值对（key-value pairs）的方式。每个键（key）都关联着一个值（value）…...

编程日记 2024/12/8 21:48:21

C/C++基础知识复习（39）

1) 什么是封装性？C中如何实现封装？ 封装性（Encapsulation）是面向对象编程中的一个重要概念，它指的是将对象的状态（数据）和行为（方法）绑定在一起，并且通过访问…...

编程日记 2024/12/8 21:47:20

颠覆性创新：为什么Upkie开源轮式双足机器人正在重新定义机器人开发范式

颠覆性创新：为什么Upkie开源轮式双足机器人正在重新定义机器人开发范式【免费下载链接】upkie Open-source wheeled biped robots 项目地址: https://gitcode.com/gh_mirrors/up/upkie 在传统机器人设计面临轮式与足式两难选择的今天，一个革命性…...

编程新知 2026/5/17 10:55:31

从纹波和EMI出发：实战分析DC-DC降压电路中PWM与PFM的取舍与优化技巧

从纹波和EMI出发：实战分析DC-DC降压电路中PWM与PFM的取舍与优化技巧在射频模块或高精度ADC供电设计中，电源的纯净度直接决定系统性能上限。当输出电压纹波超出ADC的LSB范围，或EMI噪声耦合到敏感信号链时，工程师往往需要重新审视D…...

编程新知 2026/5/17 10:12:10

Hitboxer终极指南：专业级游戏键盘重映射与SOCD清理工具完全教程

Hitboxer终极指南：专业级游戏键盘重映射与SOCD清理工具完全教程【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd Hitboxer是一款专为竞技游戏玩家设计的专业级键盘按键重映射和SOCD清理工具&#xff…...

编程新知 2026/5/17 9:24:51

终极FGO自动化助手：告别枯燥刷本，每天节省3小时游戏时间

终极FGO自动化助手：告别枯燥刷本，每天节省3小时游戏时间【免费下载链接】FGA Auto-battle app for F/GO Android 项目地址: https://gitcode.com/gh_mirrors/fg/FGA Fate/Grand Automata（简称FGA）是一款专为Fate/Grand Or…...

编程新知 2026/5/17 8:52:13

全域态势数字孪生，筑牢楼宇长效安全透明防护屏障

全域态势数字孪生，筑牢楼宇长效安全透明防护屏障副标题：全要素三维动态实时复刻楼宇实景，依托无感全域人员感知、多机位跨镜联动追踪、身体指纹唯一身份归档，异常行为、区域滞留、安全隐患提前透明预警处置一、方案概述伴随城市高…...

编程新知 2026/5/17 7:16:00

游戏技能工程化：用数据驱动与计算机视觉构建Apex Legends个人成长系统

1. 项目概述：从“Apex Growth”到“OpenClaw Skill”的爬升之路如果你是一名游戏开发者，尤其是对竞技类FPS（第一人称射击）游戏感兴趣，那么“Apex Legends”这个名字你一定不陌生。这款游戏以其快节奏、高机动性和深度的…...

编程新知 2026/5/17 6:36:33

【仅剩217份】《Midjourney后印象派风格白皮书》V2.3——含17位艺术家专属LoRA适配建议、32组跨文化色彩映射表及实时风格强度校准工具（2024.06内部封测版）

更多请点击： https://intelliparadigm.com 第一章：后印象派风格的视觉基因与Midjourney语义解码后印象派并非对自然的模仿，而是对色彩、结构与主观情绪的系统性重构——梵高旋转的星云、塞尚凝固的苹果、高更平面化的塔希提图腾&#xff0c…...

编程新知 2026/5/17 6:10:27

手把手带你激活Matlab2016b：Windows 64位系统下的完整许可配置指南

1. 准备工作：确保激活环境完整在开始激活Matlab2016b之前，我们需要做好充分的准备工作。首先确认你已经按照官方流程完成了基础安装，并且安装目录下存在完整的文件结构。我遇到过不少朋友因为安装不完整导致后续激活失败的情况，所…...

编程新知 2026/5/17 5:21:25

【最新 v2.7.1 版本安装包】OpenClaw 零基础无痛部署，无需命令零代码保姆级快速上手

OpenClaw（小龙虾）Windows 一键部署保姆级教程 | 10 分钟搭建专属数字员工【点击下载最新OpenClaw安装包】前言 2026 年开源圈热门 AI 智能体 OpenClaw（昵称小龙虾），GitHub 星标突破 28 万，凭借本地运行 …...

编程新知 2026/5/17 5:04:24

EL电致发光线与3D打印技术打造可穿戴发光骨架服

1. 项目概述：当发光骨架“活”过来每年万圣节，看着满大街的“幽灵”和“僵尸”，我总想搞点不一样的。直到去年，我决定不再满足于商店里千篇一律的服装，而是想自己动手，做一件真正能“发光”的、有科技感的骨…...

编程新知 2026/5/17 4:29:32

分割连续变量

标准化连续变量

分类

相关文章：