当前位置：首页 > news >正文

Python学习从0到1 day27 第三阶段 Spark ② 数据计算Ⅰ

news 2026/5/16 18:02:05

人总是会执着于失去的，而又不珍惜现在所拥有的

—— 24.11.9

一、map方法

PySpark的数据计算，都是基于RDD对象来进行的，采用依赖进行，RDD对象内置丰富的成员方法（算子）

map算子

功能：map算子，是将RDD的数据一条条处理（处理的逻辑：基于map算子中接收的处理函数)，返回新的RDD

语法:

from pyspark import SparkConf,SparkContext# 设置spark中的python解释器对象
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)# 准备一个RDD对象
rdd = sc.parallelize([1,2,3,4,5,6,7,8,9])
# 通过map方法将全部的数据乘以10
# 能够接受一个函数，并且将函数作为参数传递进去
# 方法1：接受一个匿名函数lambda
rdd1 = rdd.map(lambda x:x*10)
print("rdd1:",rdd1.collect())# 方法2：接受一个函数
def multi(x):return x * 10rdd2 = rdd.map(multi)
print("rdd2：",rdd2.collect())# 匿名函数链式调用
# 将每一个数乘以100再加上7再减去114
rdd3 = rdd.map(lambda x:x*100).map(lambda x:x+7).map(lambda x:x-114)
print("rdd3:",rdd3.collect())

注：

map算子可以通过lambda匿名函数进行链式调用，处理复杂的功能

二、flatMap方法

flatMap算子

计算逻辑和map一样

比map多出：解除一层嵌套的功能

功能：

对rdd执行map操作，然后进行解除嵌套操作

用法

from pyspark import SparkConf,SparkContext# 设置spark中的python解释器对象
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)rdd = sc.parallelize(["一切都会解决 回头看","轻舟已过万重山 一切都会好的","我一直相信"])# 需求：将RDD数据里面的一个个单词提取出来
rdd1 = rdd.map(lambda x:x.split(" "))
print("rdd1：", rdd2.collect())rdd2 = rdd.flatMap(lambda x:x.split(" "))
print("rdd2：", rdd3.collect())

注：

计算逻辑和map一样，比map多出解除一层嵌套的功能

三、reduceByKey方法

reduceByKey算子

功能:

① 自动分组：针对KV型（二元元组）RDD,自动按照 key 分组

② 分组聚合：接受一个处理函数，根据你提供的聚合逻辑，完成组内数据 (valve) 的聚合操作.

用法：

rdd.reduceByKey(func)
# func:(V，V)→V
# 接受2个传入参数(类型要一致)，返回一个返回值，类型和传入要求一致

reduceByKey的聚合逻辑是：

比如，有[1，2，3，4，5]，然后聚合函数是：lambda a，b：a + b

将容器中的所有元素进行聚合

语法：

from pyspark import SparkConf,SparkContext# 设置spark中的python解释器对象
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)# 准备一个二元元组rdd对象
rdd = sc.parallelize([("男",99),("男",88),("女",99),("男",77),("女",88)])# 求男生和女生两个组的成绩之和
rdd2 = rdd.reduceByKey(lambda x , y : x + y)
print(rdd2.collect())

注：

1.reduceByKey算子：接受一个处理函数，对数据进行两两计算

四、WordCount案例

使用PySpark进行单词计数的案例

读取文件，统计文件内，单词的出现数量

WordCount文件：

So long as men can breathe or eyes can see,
So long lives this，and this gives life to thee.

代码

将所有单词都转换成二元元组，单词为key，value设置为1，value表示每个单词出现的次数，作为value，初始化为1，若单词相等，则表示key相同，value值进行累加

from pyspark import SparkConf,SparkContext# 设置spark中的python解释器对象
import os
os.environ['PYSPARK_PYTHON'] = "E:/python.learning/pyt/scripts/python.exe"conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)# 读取数据文件
rdd = sc.textFile("D:/2LFE\Desktop\WordCount.txt")
# 取出全部单词
word_rdd = rdd.flatMap(lambda x:x.split(" "))
print(word_rdd.collect())
# 将所有单词都转换成二元元组，单词为key，value设置为1，value表示每个单词出现的次数，作为value，
# 若单词相等，则表示value相同，key值进行累加
word_with_one_rdd = word_rdd.map(lambda word:(word,1))
# 分组并求和
result_rdd = word_with_one_rdd.reduceByKey(lambda a,b:a+b)
# 打印并输出结果
print(result_rdd.collect())

Python学习从0到1 day27 第三阶段 Spark ② 数据计算Ⅰ

人总是会执着于失去的，而又不珍惜现在所拥有的 —— 24.11.9 一、map方法 PySpark的数据计算，都是基于RDD对象来进行的，采用依赖进行，RDD对象内置丰富的成员方法（算子） map算子功能：map算子…...

编程日记 2024/11/10 14:04:30

Python学习从0到1 day27 第三阶段 Spark ③ 数据计算 Ⅱ

目录一、Filter方法功能语法代码总结 filter算子二、distinct方法功能语法代码总结 distinct算子三、SortBy方法功能语法代码总结 sortBy算子四、数据计算练习需求： 解答总结去重函数： 过滤函数： 转换函数： 排…...

编程日记 2024/11/10 14:03:29

腾讯混元3D模型Hunyuan3D-1.0部署与推理优化指南

腾讯混元3D模型Hunyuan3D-1.0部署与推理优化指南摘要： 本文将详细介绍如何部署腾讯混元3D模型Hunyuan3D-1.0，并针对不同硬件配置提供优化的推理方案。我们将探讨如何在有限的GPU内存下，通过调整配置来优化模型的推理性能。 1. 项目概览腾…...

编程日记 2024/11/10 14:02:28

基于 PyTorch 从零手搓一个GPT Transformer 对话大模型

一、从零手实现 GPT Transformer 模型架构近年来，大模型的发展势头迅猛，成为了人工智能领域的研究热点。大模型以其强大的语言理解和生成能力，在自然语言处理、机器翻译、文本生成等多个领域取得了显著的成果。但这些都离不开其背后的核心架…...

编程日记 2024/11/10 14:01:27

IDEA构建JavaWeb项目，并通过Tomcat成功运行

目录一、Tomcat简介二、Tomcat安装步骤 1.选择分支下载 2.点击下载zip安装包 3.解压到没有中文、空格和特殊字符的目录下 4.双击bin目录下的startup.bat脚本启动Tomcat 5.浏览器访问Tomcat 6.关闭Tomcat服务器三、Tomcat目录介绍四、WEB项目的标准结构五、WEB…...

编程日记 2024/11/10 13:58:23

Mac解决 zsh: command not found: ll

Mac解决 zsh: command not found: ll 文章目录 Mac解决 zsh: command not found: ll解决方法解决方法 1.打开bash_profile 配置文件vim ~/.bash_profile2.在文件中添加配置：alias llls -alF键盘按下 I 键进入编辑模式3. alias llls -alF添加完配置后，按…...

编程日记 2024/11/10 13:57:22

库打包工具 rollup

库打包工具 rollup 摘要 **概念：**rollup是一个模块化的打包工具注：实际应用中，rollup更多是一个库打包工具与Webpack的区别： 文件处理： rollup 更多专注于 JS 代码，并针对 ES Module 进行打包webpa…...

编程日记 2024/11/10 13:53:19

unplugin-vue-components 库作用

一、基本概念与用途 1. 自动导入 Vue 组件 unplugin - vue - components是一个用于 Vue 项目的插件，主要功能是自动导入组件，从而减少在 Vue 组件中手动导入其他组件的繁琐过程。在大型 Vue 项目中，往往会有许多自定义组件或者第三方组件…...

编程日记 2024/11/10 13:50:16

LinkedList和单双链表。

java中提供了双向链表的动态数据结构 --- LinkedList，它同时也实现了List接口，可以当作普通的列表来使用。也可以自定义实现链表。单向链表：一个节点本节点数据下个节点地址给定两个有序链表的头指针head1和head2，打印两个链表…...

编程日记 2024/11/10 13:49:15

AI与OCR：数字档案馆图像扫描与文字识别技术实现与项目案例

文末有免费工具可在线体验，或者网络搜索关键词“思通开源AI能力平台” 一、扫描与图像预处理技术实现过程在纸质档案的数字化过程中，首先需要使用高精度扫描仪对纸质文档进行扫描，生成高清的数字图像。这一步骤是整个OCR流程的基础&#xf…...

编程日记 2024/11/10 13:48:14

Spring boot 读模块项目升级为spring cloud 项目步骤以及问题

1.结构说明 bean 模块 ，public 模块， client 模块， erp模块，system 主模块。 2.环境说明以及pom 原本环境新环境 mysql 5.7 -------------- mysql 8.0 maven 3.9.6 jdk 8 -----------…...

编程日记 2024/11/10 13:47:13

时序数据库之influxdb和倒排索引以及LSM-TREE

一、时序数据库的特点 1、时序数据库用作打点，用来做监控使用，属于写多读少的场景，而且由于时间不可逆，几乎不可能出现更新的操作。而且监控数据一般只会查询最近几分钟数据，冷热数据查询频率非常明显。因此非常贴合ES…...

编程日记 2024/11/10 13:45:11

如何避免消息的重复消费问题？（消息消费时的幂等性）

如何避免消息的重复消费问题 1、消息的幂等性1.1、概念1.2、产生业务场景 2、全局唯一IDRedis解决消息幂等性问题2.1、application.yml配置文件2.2、生产者发送消息2.3、消费者接收消息2.4、pom.xml引入依赖2.5、RabbitConfig配置类2.6、启动类2.7、订单对象2.8、测试 1、消息…...

编程日记 2024/11/10 13:43:08

【Java SE】类与对象

现实世界中，随处可见的一个事物实体就是对象，而类就是同一类事物（或对象）的统称，由一个类构造对象的过程称为创建这个类的一个实例（instance），即： 类（class&…...

编程日记 2024/11/10 13:42:07

基于springboot的公益服务平台的设计与实现

文章目录项目介绍主要功能截图：部分代码展示设计总结项目获取方式🍅 作者主页：超级无敌暴龙战士塔塔开 🍅 简介：Java领域优质创作者🏆、简历模板、学习资料、面试题库【关注我，都给你】 🍅文末获取源码联系🍅 项目介绍基于springboot的公益服务平台的设计与实…...

编程日记 2024/11/10 13:41:06

Tomcat(6) 什么是Servlet容器？

Servlet容器是Java EE技术中的一个关键组件，它负责管理和执行Servlet。Servlet容器提供了运行时环境，使得Servlet能够接收和响应来自客户端的HTTP请求。以下是Servlet容器的详细解释，以及一些相关的代码示例。 Servlet容器的主要功能加载和…...

编程日记 2024/11/10 13:35:59

用js去除变量里的html标签

要用 JavaScript 去除字符串中的 HTML 标签，你可以使用正则表达式。以下是一个简单的示例代码： function removeHTMLTags(str) {return str.replace(/<[^>]*>/g, ); }// 示例 var str <p>This is <b>bold</b> text with <…...

编程日记 2024/11/10 13:29:53

Vue3+element-plus摘要

1.如果自己电脑vue版本是vue2版本，下面将详细介绍如何在vue2版本基础上继续安装 vue3版本且不会影响vue2版本的使用 1-1 在c盘或者别的盘建一个文件夹vue3 1-2 在这个文件夹里使用WINR 打开终端输入命令 npm install vue/cli 安装完即可 1-3 然后进入此文件夹中的n…...

编程日记 2024/11/10 13:28:52

Android Studio 将项目打包成apk文件

第一步：选择Build -> Generate Signed APK 会出现： 我们选择 Create new… 然后选择你要存放密钥的地方点击ok之后，则选择好了文件，并生成了jks文件了。点击ok之后， 会出现： 选择release&#xf…...

编程日记 2024/11/10 13:25:47

贪心算法day2（最长递增子序列）

目录 1.最长递增子序列方法一：动态规划方法二：贪心二分查找 1.最长递增子序列链接：. - 力扣（LeetCode） 方法一：动态规划思路：我们定义dp[i]为最长递增子序列，那么dp[j]就是…...

编程日记 2024/11/10 13:24:45

番茄小说下载器：从网页到电子书的完整离线阅读解决方案

番茄小说下载器：从网页到电子书的完整离线阅读解决方案【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 番茄小说下载器是一款基于Rust语言开发的开源工具&#xff…...

编程新知 2026/5/16 17:46:26

别再手动写矩阵运算了！C++项目里用Eigen库的正确姿势（附性能对比）

别再手动写矩阵运算了！C项目里用Eigen库的正确姿势（附性能对比） 在计算机视觉、机器人控制或物理仿真领域，C开发者经常需要处理复杂的矩阵运算。我曾见过一个SLAM项目的前端代码，仅为了计算两个坐标系之间的变换矩阵&a…...

编程新知 2026/5/16 16:17:12

终极CH55xduino指南：5分钟构建低成本USB微控制器项目

终极CH55xduino指南：5分钟构建低成本USB微控制器项目【免费下载链接】ch55xduino An Arduino-like programming API for the CH55X 项目地址: https://gitcode.com/gh_mirrors/ch/ch55xduino CH55xduino为CH55X系列低成本MCS51 USB微控制器提供了完整的Ardu…...

编程新知 2026/5/16 16:05:55

Uncle小说阅读器：桌面级智能小说聚合与个性化阅读方案

Uncle小说阅读器：桌面级智能小说聚合与个性化阅读方案【免费下载链接】uncle-novel 📖 Uncle小说，PC版，一个全网小说下载器及阅读器，目录解析与书源结合，支持有声小说与文本小说，可下载mobi、e…...

编程新知 2026/5/16 14:28:53

别再只盯着PWM了！手把手教你为你的Arduino项目选择合适的DCDC调制方式（PFM/PWM/Burst Mode全解析）

别再只盯着PWM了！手把手教你为你的Arduino项目选择合适的DCDC调制方式（PFM/PWM/Burst Mode全解析） 当你为Arduino项目挑选电源模块时，是否曾被数据手册上PWM、PFM、Burst Mode这些术语搞得一头雾水？我曾在一个低功耗气…...

编程新知 2026/5/16 12:09:53

D2DX暗黑2宽屏补丁：3分钟让经典游戏焕发新生的终极优化方案

D2DX暗黑2宽屏补丁：3分钟让经典游戏焕发新生的终极优化方案【免费下载链接】d2dx D2DX is a complete solution to make Diablo II run well on modern PCs, with high fps and better resolutions. 项目地址: https://gitcode.com/gh_mirrors/d2/d2dx 还在…...

编程新知 2026/5/16 11:48:02