当前位置：首页 > news >正文

spark的共享变量

news 2025/10/29 4:37:38

因为RDD在spark中是分布式存储

1、python中定义的变量仅仅在driver中运行，在excutor中是获取不到值的——广播变量

2、若定义了一个变量进行累加，先分别在driver和excutor中进行累加，但是结果是不会主动返回给driver的——累加器

Broadcast Variables广播变量

driver中存放python变量广播到别的excutor中
若不使用，就会每个task存放一个
不能修改，只能读
通过value使用该变量

if __name__ == '__main__':# 配置环境os.environ['JAVA_HOME'] = 'D:/Program Files/Java/jdk1.8.0_271'# 配置Hadoop的路径，就是前面解压的那个路径os.environ['HADOOP_HOME'] = 'D:/hadoop-3.3.1/hadoop-3.3.1'# 配置base环境Python解析器的路径os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base环境Python解析器的路径os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'# 获取 conf 对象# setMaster  按照什么模式运行，local  bigdata01:7077  yarn#  local[2]  使用2核CPU   * 你本地资源有多少核就用多少核#  appName 任务的名字conf = SparkConf().setMaster("local[*]").setAppName("第一个Spark程序")# 假如我想设置压缩# conf.set("spark.eventLog.compression.codec","snappy")# 根据配置文件，得到一个SC对象，第一个conf 是 形参的名字，第二个conf 是实参的名字sc = SparkContext(conf=conf)fileRdd = sc.textFile("../datas/user.tsv",2)city_dict = {1: "北京",2: "上海",3: "广州",4: "深圳",5: "苏州",6: "无锡",7: "重庆",8: "厦门",9: "大理",10: "成都"}# 将一个变量广播出去，广播到executor中，不是task中city_dict_broad = sc.broadcast(city_dict)# 广播变量# <class 'pyspark.broadcast.Broadcast'>print(type(city_dict_broad ))# <class 'dict'>print(type(city_dict_broad.value))def getLine(line):list01 = line.split(" ")#cityName = city_dict.get(int(list01[3]))# 使用广播变量的变量获取数据cityName = city_dict_broad.value.get(int(list01[3]))# print(cityName)return line + " " + cityNamemapRdd = fileRdd.map(getLine)mapRdd.foreach(print)# 释放广播变量city_dict_broad.unpersist()# 使用完后，记得关闭sc.stop()

累加器

将所有的excutor中的变量返回到driver中，进行汇总。

否则变量是放在excutor中的，而打印的是driver中，变量值不会改变。

用于修改——汇总

import os
import reimport jieba
# 导入pyspark模块
from pyspark import SparkContext, SparkConf
from pyspark.storagelevel import StorageLevel"""
------------------------------------------Description : TODO：SourceFile : _06SouGou案例Author  : yangeDate  : 2024/10/31 星期四
-------------------------------------------
"""
if __name__ == '__main__':# 配置环境os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk1.8.0_241'# 配置Hadoop的路径，就是前面解压的那个路径os.environ['HADOOP_HOME'] = 'D:/hadoop-3.3.1'# 配置base环境Python解析器的路径os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base环境Python解析器的路径os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'# 获取 conf 对象# setMaster  按照什么模式运行，local  bigdata01:7077  yarn#  local[2]  使用2核CPU   * 你本地资源有多少核就用多少核#  appName 任务的名字conf = SparkConf().setMaster("local[*]").setAppName("搜索热词案例")# 假如我想设置压缩# conf.set("spark.eventLog.compression.codec","snappy")# 根据配置文件，得到一个SC对象，第一个conf 是 形参的名字，第二个conf 是实参的名字sc = SparkContext(conf=conf)mapRdd = sc.textFile("../../datas/zuoye/sogou.tsv",minPartitions=8) \.filter(lambda line:len(re.split("\s+",line)) == 6) \.map(lambda line:(re.split("\s+",line)[0],re.split("\s+",line)[1],re.split("\s+",line)[2][1:-1])).persist(StorageLevel.MEMORY_AND_DISK_2)# 统计一天每小时点击量并按照点击量降序排序_sum = 0def sumTotalLine(tuple1):global _sum # 把_sum 设置为全局变量timeStr = tuple1[0] # 10:19:18if timeStr[0:2] == '10':_sum += 1mapRdd.foreach(lambda tuple1:sumTotalLine(tuple1))print(_sum) # 结果是0# 使用完后，记得关闭sc.stop()

上面程序最终结果是：0，因为 sum=0 是在 Driver 端的内存中的，executor 中程序再累加也是无法改变 Driver 端的结果的。下面的则为正确的

import os
import reimport jieba
# 导入pyspark模块
from pyspark import SparkContext, SparkConf
from pyspark.storagelevel import StorageLevel"""
------------------------------------------Description : TODO：SourceFile : _06SouGou案例Author  : yangeDate  : 2024/10/31 星期四
-------------------------------------------
"""
if __name__ == '__main__':# 配置环境os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk1.8.0_241'# 配置Hadoop的路径，就是前面解压的那个路径os.environ['HADOOP_HOME'] = 'D:/hadoop-3.3.1'# 配置base环境Python解析器的路径os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base环境Python解析器的路径os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'# 获取 conf 对象# setMaster  按照什么模式运行，local  bigdata01:7077  yarn#  local[2]  使用2核CPU   * 你本地资源有多少核就用多少核#  appName 任务的名字conf = SparkConf().setMaster("local[*]").setAppName("搜索热词案例")# 假如我想设置压缩# conf.set("spark.eventLog.compression.codec","snappy")# 根据配置文件，得到一个SC对象，第一个conf 是 形参的名字，第二个conf 是实参的名字sc = SparkContext(conf=conf)accCounter = sc.accumulator(0)mapRdd = sc.textFile("../../datas/zuoye/sogou.tsv",minPartitions=8) \.filter(lambda line:len(re.split("\s+",line)) == 6) \.map(lambda line:(re.split("\s+",line)[0],re.split("\s+",line)[1],re.split("\s+",line)[2][1:-1])).persist(StorageLevel.MEMORY_AND_DISK_2)# 统计一天每小时点击量并按照点击量降序排序#_sum = 0def sumTotalLine(tuple1):#global _sum # 把_sum 设置为全局变量timeStr = tuple1[0] # 10:19:18if timeStr[0:2] == '10':accCounter.add(1)mapRdd.foreach(lambda tuple1:sumTotalLine(tuple1))print(accCounter.value) # 104694# 假如我不知道累加器这个操作，这个题目怎么做？print(mapRdd.filter(lambda tuple1: tuple1[0][0:2] == '10').count())# 使用完后，记得关闭sc.stop()

spark的共享变量

因为RDD在spark中是分布式存储 1、python中定义的变量仅仅在driver中运行，在excutor中是获取不到值的——广播变量 2、若定义了一个变量进行累加，先分别在driver和excutor中进行累加，但是结果是不会主动返回给driver的——累加器 Broadcas…...

编程日记 2024/12/13 6:22:08

Scrapy与MongoDB

Scrapy可以在非常短的时间里获取大量的数据。这些数据无论是直接保存为纯文本文件还是CSV文件，都是不可取的。爬取一个小时就可以让这些文件大到无法打开。这个时候，就需要使用数据库来保存数据了。 MongoDB由于其出色的性能，已经成为爬虫的首…...

编程日记 2024/12/13 6:21:07

爬虫基础与实践

爬虫技术基础与实践在当今数字化的时代，数据成为了宝贵的资源。爬虫技术作为获取数据的重要手段，受到了广泛的关注和应用。本文将介绍爬虫的基本概念、工作原理以及一些常用的技术和工具。一、爬虫的基本概念爬虫，也称为网络蜘蛛或网络机器…...

编程日记 2024/12/13 6:18:03

快速上手Serverless架构与FastAPI结合实现自动化移动应用后端

快速上手Serverless架构与FastAPI结合实现自动化移动应用后端引言随着云计算技术的发展，Serverless架构已经成为构建现代应用的一种流行选择。它允许开发者将更多精力集中在核心业务逻辑上，而无需管理底层基础设施。本文将以AWS Lambda和API Gateway…...

编程日记 2024/12/13 6:16:00

ansible自动化运维（二）playbook模式详解

一.Ansible中的playbook模式 Playbook不同于使用单个模块操作远程服务器，Playbook的功能更加强大。如果说单个模块执行类似于Linux系统中的命令，那么Playbook就类似于shell脚本，将多个模块组合起来实现一组的操作。 Playbook还是会用到ad-h…...

编程日记 2024/12/13 6:14:58

基于Springboot社团管理系统【附源码】

基于Springboot社团管理系统效果如下： 系统登录页面用户管理页面社团信息管理页面社团活动管理页面经费信息管理页面新闻信息管理页面系统主页面社团信息页面研究背景在当今高校与社区环境中，学生社团蓬勃发展，成为学生课余生活…...

编程日记 2024/12/13 6:09:52

CSS：html中，.png的动态图，怎么只让它显示部分，比如只显示右上部分的，或右边中间部分

目录背景方法 1: 使用 background-image 和 background-position 示例代码解释方法 2: 使用 clip-path 裁剪图像示例代码解释方法 3: 使用 object-fit 和 overflow 示例代码解释示例总结背景在HTML中，如果你有一个 .png 的动态图（例如一个 GIF 动画或…...

编程日记 2024/12/13 6:08:50

解读CVPR2024-论文分享|RepViT: Revisiting Mobile CNN From ViT Perspective

论文标题 RepViT: Revisiting Mobile CNN From ViT Perspective 论文链接： https://arxiv.org/abs/2307.09283 论文作者 Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding 内容简介这篇论文探讨了在资源受限的移动设备上，轻量级视觉变…...

编程日记 2024/12/13 6:07:47

linux部署安装wordpress

一、环境准备首先我们先介绍下环境和实验中所需要的包环境： 我使用的是centos7.6的系统建议关掉selinux和影响到80端口的防火墙策略 selinux永久有效修改 /etc/selinux/config 文件中的 SELINUX"" 为 disabled ，然后重启。 selinux即…...

编程日记 2024/12/13 6:06:45

[Java] 配置Powershell 的 Maven 环境变量

目录前言单独为 Powershell 设置 Maven 环境变量前言安装使用 maven 的时候发现，明明已经配置好了环境变量。但是在 powershell 中还是无法识别 mvn 命令。原来这货需要另外配置。单独为 Powershell 设置 Maven 环境变量要在 PowerShell 中永久配置 Maven 环…...

编程日记 2024/12/13 6:05:43

Android -- [SelfView] 自定义弹窗式颜色选择器

Android – [SelfView] 自定义弹窗式颜色选择器 PS: 1. 弹框式显示； 2. 支持透明度设置； 3. 支持拖动控件选择颜色； 4. 支持 ARGB | HEX 数值填写预览颜色并返回； 5. 输出支持Hex 和 Int 两种格式；效果使用方法&…...

编程日记 2024/12/13 6:04:42

vue-echarts高度缩小时autoresize失效

背景项目中采用动态给x-vue-echarts style赋值width，height的方式实现echarts图表尺寸的改变 <v-chart...autoresize></v-chart>给v-chart添加autoresize后，在图表宽度变化，高度增加时无异常，高度减小时图表并未缩…...

编程日记 2024/12/13 6:03:40

Error: unable to perform an operation on node rabbitASUS-PC. Please see diagnostics information and suggestions below. 遇到上图这个错大部分问题可能是由于 RabbitMQ CLI 工具的 Erlang Cookie 与服务器上的不匹配而导致连接问题。Erlang Cookie 在 RabbitMQ 节点之间…...

编程日记 2024/12/13 6:00:36

linux c++ uuid编译时的问题

linux c uuid编译时的问题写在前面可能编译过和不能编译过的可以编译和link过的不能编译过的写在前面几次翻车与uuid相关，超出我认知。所以，把一些遇到的相关问题写在这里。可能编译过和不能编译过的可以编译和link过的 cmake_minimum_require…...

编程日记 2024/12/13 5:59:35

【STM32】RTT-Studio中HAL库开发教程九：FLASH中的OPT

文章目录一、概要二、内部FLASH排布三、内部FLASH主要特色四、OTP函数介绍五、测试验证一、概要 STM32系列是一款强大而灵活的微控制器，它的片内Flash存储器可以用来存储有关代码和数据，在实际应用中，我们也需要对这个存储器进行读写操作。…...

编程日记 2024/12/13 5:58:31

[SWPUCTF 2021 新生赛]crypto9

[MoeCTF 2021]Web安全入门指北—GET 意思是GET传参，moeflag 就可以得到falg 输入?moeflag flag为： NSSCTF{ff26110b-8793-403c-990e-15c7f1820596} [SWPUCTF 2021 新生赛]crypto9 #gpt写的代码 from itertools import product letter_list ABCDEFG…...

编程日记 2024/12/13 5:57:28

vue中常用的指令

v - if 指令功能详细解释它是一种真正的条件渲染指令。在 Vue 实例初始化以及数据更新过程中，Vue.js 会对v - if指令中的表达式进行求值。这个表达式可以是简单的布尔变量，也可以是一个复杂的计算表达式，只要最终结果是布尔值就行。当表达式…...

编程日记 2024/12/13 5:55:26

Docker Compose实战三：轻松部署PHP

通过前面的文章（Docker Compose基础语法与MySQL部署），你已经掌握了Docker Compose的基本语法和常用指令，并成功部署了一个MySQL数据库服务器。今天，我们将继续深入探索Docker Compose的强大功能，介绍如何使…...

编程日记 2024/12/13 5:54:23

数据分析实战—房价特征关系

1.实战内容 （1） 读取房价特征关系表（house_price.npz）绘制离地铁站的距离与单位面积的房价的散点图，并对其进行分析； import pandas as pd import numpy as np import warnings warnings.filterwarnings(&…...

编程日记 2024/12/13 5:52:17

云和恩墨 zCloud 与华为云 GaussDB 完成兼容性互认证

近日，云和恩墨（北京）信息技术有限公司（以下简称：云和恩墨）的多元数据库智能管理平台 zCloud 与华为云计算技术有限公司（以下简称：华为云）的 GaussDB 数据库完成了兼容性互…...

编程日记 2024/12/13 5:51:14

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件，常用于在两个集合之间进行数据转移，如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。核心特性与用法基本属性 v-model：绑定右侧列表的值&…...

编程新知 2025/10/26 23:03:04

UDP(Echoserver)

网络命令 Ping 命令检测网络是否连通使用方法: ping -c 次数网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法：netstat [选项] 功能：查看网络状态常用选项： n 拒绝显示别名&#…...

编程新知 2025/10/27 9:35:00

【SQL学习笔记1】增删改查+多表连接全解析（内附SQL免费在线练习工具）

可以使用Sqliteviz这个网站免费编写sql语句，它能够让用户直接在浏览器内练习SQL的语法，不需要安装任何软件。链接如下： sqliteviz 注意： 在转写SQL语法时，关键字之间有一个特定的顺序，这个顺序会影响到…...

编程新知 2025/10/21 23:39:44

Spring AI 入门：Java 开发者的生成式 AI 实践之路

一、Spring AI 简介在人工智能技术快速迭代的今天，Spring AI 作为 Spring 生态系统的新生力量，正在成为 Java 开发者拥抱生成式 AI 的最佳选择。该框架通过模块化设计实现了与主流 AI 服务（如 OpenAI、Anthropic）的无缝对接&…...

编程新知 2025/10/27 21:06:53

视频行为标注工具BehaviLabel（源码+使用介绍+Windows.Exe版本）

前言： 最近在做行为检测相关的模型，用的是时空图卷积网络（STGCN），但原有kinetic-400数据集数据质量较低，需要进行细粒度的标注，同时粗略搜了下已有开源工具基本都集中于图像分割这块&#xff0c…...

编程新知 2025/10/25 0:12:07

VM虚拟机网络配置（ubuntu24桥接模式）：配置静态IP

编辑-虚拟网络编辑器-更改设置选择桥接模式，然后找到相应的网卡（可以查看自己本机的网络连接） windows连接的网络点击查看属性编辑虚拟机设置更改网络配置，选择刚才配置的桥接模式静态ip设置： 我用的ubuntu24桌…...

编程新知 2025/10/25 23:24:31

脑机新手指南（七）：OpenBCI_GUI：从环境搭建到数据可视化（上）

一、OpenBCI_GUI 项目概述 （一）项目背景与目标 OpenBCI 是一个开源的脑电信号采集硬件平台，其配套的 OpenBCI_GUI 则是专为该硬件设计的图形化界面工具。对于研究人员、开发者和学生而言，首次接触 OpenBCI 设备时，往…...

编程新知 2025/10/28 15:30:31

高防服务器价格高原因分析

高防服务器的价格较高，主要是由于其特殊的防御机制、硬件配置、运营维护等多方面的综合成本。以下从技术、资源和服务三个维度详细解析高防服务器昂贵的原因： 一、硬件与技术投入大带宽需求 DDoS攻击通过占用大量带宽资源瘫痪目标服务器，因此…...

编程新知 2025/10/17 8:25:51

CppCon 2015 学习:REFLECTION TECHNIQUES IN C++

关于 Reflection（反射） 这个概念，总结一下： Reflection（反射）是什么？ 反射是对类型的自我检查能力（Introspection） 可以查看类的成员变量、成员函数等信息。反射允许枚…...

编程新知 2025/10/23 18:25:55

【Java】Ajax 技术详解

文章目录 1. Filter 过滤器1.1 Filter 概述1.2 Filter 快速入门开发步骤：1.3 Filter 执行流程1.4 Filter 拦截路径配置1.5 过滤器链2. Listener 监听器2.1 Listener 概述2.2 ServletContextListener3. Ajax 技术3.1 Ajax 概述3.2 Ajax 快速入门服务端实现：客户端实现：4. Axi…...

编程新知 2025/10/29 4:33:36

spark的共享变量

Broadcast Variables广播变量

累加器

相关文章：

spark的共享变量

Scrapy与MongoDB

爬虫基础与实践

快速上手Serverless架构与FastAPI结合实现自动化移动应用后端

ansible自动化运维（二）playbook模式详解

基于Springboot社团管理系统【附源码】

CSS：html中，.png的动态图，怎么只让它显示部分，比如只显示右上部分的，或右边中间部分

解读CVPR2024-论文分享|RepViT: Revisiting Mobile CNN From ViT Perspective

linux部署安装wordpress

[Java] 配置Powershell 的 Maven 环境变量

Android -- [SelfView] 自定义弹窗式颜色选择器

vue-echarts高度缩小时autoresize失效

rabbitMq的rabbitmqctl status报错

linux c++ uuid编译时的问题

【STM32】RTT-Studio中HAL库开发教程九：FLASH中的OPT

[SWPUCTF 2021 新生赛]crypto9

vue中常用的指令

Docker Compose实战三：轻松部署PHP

数据分析实战—房价特征关系

云和恩墨 zCloud 与华为云 GaussDB 完成兼容性互认证

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

UDP(Echoserver)

【SQL学习笔记1】增删改查+多表连接全解析（内附SQL免费在线练习工具）

Spring AI 入门：Java 开发者的生成式 AI 实践之路

视频行为标注工具BehaviLabel（源码+使用介绍+Windows.Exe版本）

VM虚拟机网络配置（ubuntu24桥接模式）：配置静态IP

脑机新手指南（七）：OpenBCI_GUI：从环境搭建到数据可视化（上）

高防服务器价格高原因分析

CppCon 2015 学习:REFLECTION TECHNIQUES IN C++

【Java】Ajax 技术详解