当前位置：首页 > news >正文

PySpark用sort-merge join解决数据倾斜的完整案例

news 2026/5/20 15:18:51

假设有两个大表 table1 和 table2 ，并通过 sort-merge join 来解决可能的数据倾斜问题。

from pyspark.sql import SparkSession
from pyspark.sql.functions import col# 初始化SparkSession
spark = SparkSession.builder.appName("SortMergeJoinExample").getOrCreate()# 加载数据，假设数据来自parquet文件
table1 = spark.read.parquet("path/to/table1.parquet")
table2 = spark.read.parquet("path/to/table2.parquet")# 查看表的大小
print("table1 size: ", table1.count())
print("table2 size: ", table2.count())# 为了演示数据倾斜，假设我们直接使用join，这里用inner join举例
joined = table1.join(table2, table1["id"] == table2["id"], "inner")# 先对连接键进行排序，为sort-merge join做准备sorted_table1 = table1.sortWithinPartitions("id")
sorted_table2 = table2.sortWithinPartitions("id")# 使用sort-merge join进行连接
joined = sorted_table1.join(sorted_table2, sorted_table1["id"] == sorted_table2["id"], "inner")# 触发Action，查看执行计划，此时可以去Spark WebUI查看任务执行情况
joined.count()# 停止SparkSession
spark.stop()

代码解释

初始化SparkSession：创建一个SparkSession对象，这是与Spark交互的入口。

spark = SparkSession.builder.appName("SortMergeJoinExample").getOrCreate()

加载数据并查看表大小：从Parquet文件加载两张表，并打印出它们的行数，以此来了解表的规模。

table1 = spark.read.parquet("path/to/table1.parquet")
table2 = spark.read.parquet("path/to/table2.parquet")print("table1 size: ", table1.count())
print("table2 size: ", table2.count())

数据预处理：在进行 sort-merge join 之前，对两个表按照连接键 id 在每个分区内进行排序。

sorted_table1 = table1.sortWithinPartitions("id")
sorted_table2 = table2.sortWithinPartitions("id")

执行sort-merge join：利用排序后的表，执行 sort-merge join 操作，这里选择的是内连接。

joined = sorted_table1.join(sorted_table2, sorted_table1["id"] == sorted_table2["id"], "inner")

触发Action并查看执行情况：调用 count() 方法触发一个Action，此时Spark会真正执行整个计算流程。与此同时，可以打开Spark WebUI（通常是 http://your-spark-master:4040 ），在 Stages 页面查看任务执行计划，尤其是查看各个阶段的数据分布情况，确认数据倾斜是否得到解决。

joined.count()

停止SparkSession：任务完成后，关闭SparkSession释放资源。

spark.stop()

要在Spark WebUI中查看数据倾斜：

在执行 joined.count() 后，迅速打开浏览器访问Spark WebUI。进入 Stages 标签页，找到正在执行的 join 相关阶段。查看每个任务的处理数据量，如果之前存在数据倾斜，经过 sort-merge join 处理后，各个任务处理的数据量应该相对均匀。

PySpark用sort-merge join解决数据倾斜的完整案例

假设有两个大表 table1 和 table2 ，并通过 sort-merge join 来解决可能的数据倾斜问题。 from pyspark.sql import SparkSession from pyspark.sql.functions import col# 初始化SparkSession spark SparkSession.builder.appName("SortMergeJoinExample&quo…...

编程日记 2025/1/11 17:33:25

sklearn-逻辑回归-制作评分卡

目录数据集处理分箱分多少个箱子合适分箱要达成什么样的效果对一个特征进行分箱的步骤分箱的实现封装计算 WOE 值和 IV值函数画IV曲线，判断最佳分箱数量结论 pd.qcut 执行报错功能函数封装判断分箱个数在银行借贷场景中，评分卡是…...

编程日记 2025/1/11 17:32:24

scrapy爬取图片

scrapy 爬取图片环境准备 python3.10scrapy pillowpycharm 简要介绍scrapy Scrapy 是一个开源的 Python 爬虫框架，专为爬取网页数据和进行 Web 抓取而设计。它的主要特点包括： 高效的抓取性能：Scrapy 采用了异步机制，能够高效…...

编程日记 2025/1/11 17:31:21

在 Vue 项目中使用地区级联选

在 Vue 项目中使用地区级联选择的完整流程： 1.安装依赖包，这个包提供了中国省市区的完整数据。 npm install element-china-area-data --save 2.导入数据 import { regionData } from element-china-area-data 这个包提供了几种不同的数据格式&#…...

编程日记 2025/1/11 17:26:11

【简博士统计学习方法】第1章：1. 统计学习的定义与分类

自用笔记 1. 统计学习的定义与分类 1.1 统计学习的概念统计学习（Statistical Machine Learning）是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。以计算机和网络为平台；以数据为研究对象；以…...

编程日记 2025/1/11 17:25:09

利用 Python 脚本批量创建空白 Markdown 笔记

文章目录利用 Python 脚本批量创建空白 Markdown 笔记1 背景介绍2 需求描述3 明确思路4 具体实现4.1. 遍历 toc.md 文件，收集文件名和对应的文件内容4.2. 实现文件批量生成逻辑4.3. 补全缺失的工具函数4.4. 进一步补全工具函数中的工具函数 5 脚本运行6 注意事项利…...

编程日记 2025/1/11 17:21:04

【Qt】C++11 Lambda表达式

1. 举例 connect(ui->pushButton, &QPushButton::clicked, [](bool checked){//具体代码qDebug() << "Hello" << checked;}); 2. 详情 //完整形式 [ capture ] ( params ) opt -> ret { body; }; capture 是捕获列表params 是参数表opt 是函数…...

编程日记 2025/1/11 17:18:01

怎样提高服务器中的数据传输速度？

服务器中的数据传输速度会影响着用户的体验感，当企业中的数据传输速度出现卡顿或者是过慢时，用户不能及时浏览到所需的内容，给用户造成不好的体验感，那么企业该怎样才能提高服务器中的数据传输速度呢？ 服务器之间如何传…...

编程日记 2025/1/11 17:10:44

Vue 封装公告滚动

文章目录需求分析1. 创建公告组件Notice.vue2. 注册全局组件3. 使用需求系统中需要有一个公告展示，且这个公告位于页面上方，每个页面都要看到分析 1. 创建公告组件Notice.vue 第一种在你的项目的合适组件目录下（比如components目录&a…...

编程日记 2025/1/11 17:08:40

JVM实战—12.OOM的定位和解决

大纲 1.如何对系统的OOM异常进行监控和报警 2.如何在JVM内存溢出时自动dump内存快照 3.Metaspace区域内存溢出时应如何解决(OutOfMemoryError: Metaspace) 4.JVM栈内存溢出时应如何解决(StackOverflowError) 5.JVM堆内存溢出时应该如何解决(OutOfMemoryError: Java heap s…...

编程日记 2025/1/11 17:03:29

【python翻译软件V1.0】

如果不想使用密钥的形式，且需要一个直接可用的中英文翻译功能，可以使用一些免费的公共 API，如 opencc 或其他无需密钥的库，或直接用 requests 获取翻译结果。其中，我可以给你一个简单的代码示例，使用 tra…...

编程日记 2025/1/11 17:02:26

Spring Boot中的依赖注入是如何工作

Spring Boot 中的依赖注入（Dependency Injection，简称 DI）是通过 Spring 框架的核心机制——控制反转（Inversion of Control，IOC）容器来实现的。Spring Boot 基于 Spring Framework，在应用中自动…...

编程日记 2025/1/11 17:01:11

ubuntu22.04 编译安装libvirt 10.x

环境安装 sudo apt-get update -y sudo apt-get install qemu-system-x86 bridge-utils libyajl-dev -y sudo apt-get install build-essential autoconf automake libtool -y sudo apt-get install libxml2-dev libxslt1-dev libgnutls28-dev libpciaccess-dev libnl-3-de…...

编程日记 2025/1/11 17:00:08

[fastadmin] 第三十四篇 FastAdmin 商城模块标签使用详解

FastAdmin 商城模块标签使用详解一、标签基本语法 1.1 基础语法格式 {shop:goodslist flag"参数值" id"变量名" row"数量"} {/shop:goodslist}1.2 常用参数说明 flag: 商品标记筛选id: 循环变量名row: 显示数量 1.…...

编程日记 2025/1/11 16:59:03

（2024，LLaVA-Bench (Wilder)，LLaVA-NeXT，LLaMA3，Qwen-1.5，语言模型扩展）

LLaVA-NeXT: Stronger LLMs Supercharge Multimodal Capabilities in the Wild 目录 1. 简介 2. 探索大规模语言模型的能力极限 3. LLaVA-Bench (Wilder)：日常生活视觉聊天基准 4. Benchmark 结果 1. 简介我们通过引入近期更强大的开源大语言模型（…...

编程日记 2025/1/11 16:57:53

IPEX-LLM开发项目过程中的技术总结和心得

IPEX-LLM开发项目过程中的技术总结和心得在人工智能快速发展的时代，高效地开发和部署大语言模型（LLM）已成为技术人员的必备技能。在我们的项目中，我们采用了 Intel Extension for PyTorch（简称 IPEX）和 L…...

编程日记 2025/1/11 16:55:38

HTTP/HTTPS ②-Cookie || Session || HTTP报头

这里是Themberfue 上篇文章介绍了HTTP报头的首行信息本篇我们将更进一步讲解HTTP报头键值对的含义~~~ ❤️❤️❤️❤️ 报头Header ✨再上一篇的学习中，我们了解了HTTP的报头主要是通过键值对的结构存储和表达信息的；我们已经了解了首行的HTTP方法和UR…...

编程日记 2025/1/11 16:51:02

【软考】软件设计师

「学习路线」（推荐该顺序学习，按照先易后难排序） 1、上午题—计算机系统（5~6分）[1.8; ] 2、上午题—程序设计语言（固定6分）[1.9; ] 3、下午题—试题一（15分） 4、上午题—…...

编程日记 2025/1/11 16:49:53

K8s Pod OOMKilled，监控却显示内存资源并未打满

1. 问题现象 pod一直重启，通过grafana查看，发现内存使用率并没有100%。 2. 排查过程 2.1 describe查看pod最新一次的状态可以明显看到，最近一次的重启就是因为内存不足导致的。 2.2 describe 查看node节点状态找到原因了，原来…...

编程日记 2025/1/11 16:47:48

C++ 原子变量

C 原子变量文章目录 C 原子变量1. 原子变量是什么？2. 原子操作的特点3. 原子变量的作用1. 多线程安全的共享数据访问2. 替代锁机制3. 实现低级同步算法 4. 原子变量的常见操作5. 内存顺序（Memory Ordering）内存顺序控制在原子变量中的作用如…...

编程日记 2025/1/11 16:42:39

将JSON文件作为Python的配置文件，读取和使用的写法

import osimport json#获取配置path os.getcwd() os.sep "config.json"conf Nonewith open(path, "r", encoding"utf-8") as f:if conf is None:conf json.loads(f.read())heard {"_token": f"{conf[token]}"}...

编程新知 2026/5/20 15:11:35

告别手动挖洞：用Netsparker自动化扫描你的Web应用（附实战报告解读）

告别手动挖洞：用Netsparker自动化扫描你的Web应用（附实战报告解读） 在快节奏的Web开发环境中，安全测试往往成为项目后期被压缩的环节。传统手动渗透测试需要安全专家投入数十小时，而中小团队常面临资源不足的困境。Net…...

编程新知 2026/5/20 15:09:29

5步掌握BG3SE：让《博德之门3》成为你的创意画布

5步掌握BG3SE：让《博德之门3》成为你的创意画布【免费下载链接】bg3se Baldurs Gate 3 Script Extender 项目地址: https://gitcode.com/gh_mirrors/bg/bg3se BG3SE（博德之门3脚本扩展器） 是一款革命性的开源工具，它通过L…...

编程新知 2026/5/20 14:21:20

Proteus与Keil联调实战：从零搭建智能温控仿真系统

1. 环境准备与工具安装第一次接触Proteus和Keil联调时，我花了大半天时间在环境配置上。现在回想起来，其实只要按步骤操作，半小时就能搞定所有准备工作。先说说必备的软件清单：Proteus 8.9以上版本、Keil MDK-ARM（记得…...

编程新知 2026/5/20 13:49:55

终极指南：3步快速掌握日语漫画OCR识别神器MangaOCR

终极指南：3步快速掌握日语漫画OCR识别神器MangaOCR 【免费下载链接】manga-ocr Optical character recognition for Japanese text, with the main focus being Japanese manga 项目地址: https://gitcode.com/gh_mirrors/ma/manga-ocr 你是否曾经面对日文漫…...

编程新知 2026/5/20 13:26:22

别再只会用OpenCV的equalizeHist了！用Python实战图像增强，让你的目标检测模型精度提升一个台阶

突破OpenCV基础操作：Python图像增强实战与目标检测精度优化在目标检测项目的实际开发中，我们常常遇到这样的困境：模型在标准测试集上表现优异，一旦部署到真实场景，面对复杂光照、低对比度的图像时，性能却…...

编程新知 2026/5/20 13:03:52

为什么你的Perplexity本地服务响应慢3.7倍？：NVIDIA驱动版本、vLLM推理后端与量化精度的隐性博弈

更多请点击： https://codechina.net 第一章：Perplexity本地服务查询 Perplexity 作为一款强调实时信息检索与引用溯源的 AI 工具，其官方未提供公开的本地化部署方案。但开发者可通过构建轻量级代理服务，将本地运行的大语言模型&a…...

编程新知 2026/5/20 12:46:22

Symfony String测试指南：如何编写高质量的字符串操作测试用例

Symfony String测试指南：如何编写高质量的字符串操作测试用例【免费下载链接】string Provides an object-oriented API to strings and deals with bytes, UTF-8 code points and grapheme clusters in a unified way 项目地址: https://gitcode.com/gh_mirrors…...

编程新知 2026/5/20 12:42:21

为什么你的扑克策略总在关键牌局失效？Desktop Postflop给你答案

为什么你的扑克策略总在关键牌局失效？Desktop Postflop给你答案【免费下载链接】desktop-postflop [Development suspended] Advanced open-source Texas Holdem GTO solver with optimized performance 项目地址: https://gitcode.com/gh_mirrors/de/desktop-po…...

编程新知 2026/5/20 11:54:54

三步搞定Windows和Office永久激活：KMS_VL_ALL_AIO智能激活全攻略

三步搞定Windows和Office永久激活：KMS_VL_ALL_AIO智能激活全攻略【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统频繁弹出激活提示而烦恼吗？Office突然…...

编程新知 2026/5/20 11:37:22

相关文章：