当前位置：首页 > news >正文

Spark读取JDBC调优

news 2026/3/31 15:53:21

Spark读取JDBC调优，如何调参

一、场景构建
二、参数设置
- 1.灵活运用分区列

实际问题：工作中需要读取一个存放了三四年历史数据的pg数仓表（缺少主键id），需要将数据同步到阿里云 MC中，Spark在使用JDBC读取关系型数据库时，默认只开启一个task去执行，性能低下，因此需要通过设置一些参数来提高并发度。一定要充分理解参数的含义，否则可能会因为配置不当导致数据倾斜！

翻看了网络上好多相关介绍，都沾边。下边总结一下！

您是菜鸟就好好学习，您是大佬欢迎提出修改意见！

一、场景构建

以100行数据为例（实际307983条）：

创建表

CREATE TABLE IF NOT EXISTS test(good_id STRING ,title STRING ,sellcount BIGINT,salesamount Double
)COMMENT '测试表'
PARTITIONED BY (dt	STRING	COMMENT '分区字段'
);

插入数据

insert into test partition (dt = '202001') 
values ('1001','卫衣',1,100.1),('1002','卫裤',2,101.2),('1003','拖鞋',3,10.3)...,('1100','帽子',100,19.23)

二、参数设置

配置文件示例：

jdbc: &jdbcoptions.url: "jdbc:postgresql://xxx.xxx.xxx.xxx:8000/postgres"options.user: "xxxxxx"options.password: "xxxxxx"options.driver: "org.postgresql.Driver"input:- moduleClass: "JDBC"<<: *jdbcoptions.dbtable: "SELECT *,cast(good_id as bigint)*1%6 mo FROM test.test where dt = '202001'"options.fetchsize: "100"options.partitionColumn: "mo" # 分区列，一般为自增id，下边解释下为啥用mooptions.numPartitions: "6" #分区数options.lowerBound: "0"options.mytime: "${yyyy}-${MM}-${dd}"options.upperBound: "6" # 该值设置为和分区列最大值差不多的值resultDF: "df"

提交spark配置

  spark-submit \--class xx.xxx.xxx.xxx \--master local[*] \--num-executors 6 \--executor-cores 1 \--executor-memory 2G \--driver-memory 4G \/root/test/xxx.jar \-p xxx/xxx.yaml -cyctime $cyctime

options.fetchsize：一次性读取的数据条数，按集群规模（例：64核128G）一次1000条；阿里云Spark集群链接不了华为云pg数仓，我开了一台独立机器（8核16G）一次100条
options.partitionColumn：分区列，必须是bigint类型；
options.numPartitions：设置分区数，最好和spark提交的executors数一致；上文中spark任务数为6，分区数也为6
options.lowerBound：分区开始值
options.upperBound：分区结束值；numPartitions、lowerBound、upperBound这三个必须同时设置，每个分区的数据量计算公式为：upperBound / numPartitions - lowerBound / numPartitions，任务运行时间看的是最长的那个任务，所以要尽可能保证每一个分区的数据量差不多

官方配置文档：
在这里插入图片描述

1.灵活运用分区列

有的小伙伴就该思考为啥不用自增id做分区列呢？

因为实际生产环境中，一是不需要，二是创建表忽略了自增id等等。

为啥要新做一列mo，而不直接将商品id转bigint用呢？

算是一个补救措施，新做一个数据列，在读取过程用mo做shuffle，mo是商品id强转为bigint后对6取膜，结果为0-5共6种可能，提高了shuffle的效率，计算分区的数据量：6 / 6 - 0 / 6 = 1；也就是说分区值为0，1，2，3，4，（大于5），对应6个任务，6个核心。

下面是运行shuffle结束后的截图，可以看到每一个task获取的数据量都比较均匀

没有数据倾斜
下面来看一个错误的案例：
在这里插入图片描述
上图配置就会导致数据倾斜
numPartitions=10，
lowerBound=0，
upperBound=100，
表的数据量是1000。
根据计算公式每个分区的数据量是100/10-0/10=10，分10个区，那么前9个分区数据量都是10，但最后一个分区数据量却达到了910，即数据倾斜了，所以upperBound-lowerBound要和表的分区字段最大值差不多

有啥需要优化的欢迎评论纠正

Spark读取JDBC调优

Spark读取JDBC调优，如何调参一、场景构建二、参数设置1.灵活运用分区列实际问题：工作中需要读取一个存放了三四年历史数据的pg数仓表（缺少主键id），需要将数据同步到阿里云 MC中，Spark在使用JDBC读取关系型数…...

编程日记 2023/3/20 5:47:53

【文心一言】什么是文心一言，如何获得内测和使用方法。

文心一言什么是文心一言怎么获得内测资格接下来就给大家展示一下文学创作商业文案创作数理逻辑推算中文理解多模态生成用python写一个九九乘法表写古诗前言： 🏠个人主页：以山河作礼。 📝📝:本文章是帮助大家了解文心…...

编程日记 2023/3/20 5:42:50

CentOS8服务篇10：FTP服务器配置与管理

一、安装与启动FTP服务器 1、安装VSFTP服务器所需要的安装包 #yum -y install vsftpd 2、查看配置文件参数 Vim /etc/vsftpd/vsftpd.conf （1）是否允许匿名登录 anonymous_enableYES 该行用于控制是否允许匿名用户登录。 （2&…...

编程日记 2023/3/20 5:37:49

笔试强训3.14

一、选择题 1.以下说法错误的是（C） A.数组是一个对象 B.数组不是一种原生类 C.数组的大小可以任意改变 D.在Java中，数组存储在堆中连续内存空间里相关知识点：原生/内置数组是那八个，其他的都是引用的，借…...

编程日记 2023/3/20 5:32:45

elasticsearch 环境搭建和基本操作

参考资料适合后端编程人员的elasticsearch快速实战教程 ElasticSearch最新实战教程 ElasticSearch配套笔记自制搜索引擎 https://www.elastic.co/guide/en/elasticsearch/reference/7.17/setup.html restful风格的api REST 设计风格例如以下springboot示例 RestContr…...

编程日记 2023/3/20 5:27:42

IDEA操作：Springboot项目打包为jar包并运行

在IDEA环境下对Springboot项目打包为jar包且在terminal运行操作 1、 2、 3、注意：在项目目录里创建一个用来存放jar包的文件夹（res）,该路径不能使用IDEA设置的默认路径，必须手动创建。 4、 5、点击ok后加载运行包 （8…...

编程日记 2023/3/20 5:22:41

原理底层计划---JVM

二、JVM对空间大小怎么配置？各区域怎么划？ 新生代：短时间生成，可以马上回收老生代：少部分对象会存在很久，回收策略应不同三、JVM哪些内存区域会发生内存溢出（程序计数器不会） …...

编程日记 2023/3/20 5:17:38

CSDN-猜年龄、纸牌三角形、排他平方数

猜年龄原题链接：https://edu.csdn.net/skill/practice/algorithm-a413078fb6e74644b8c9f6e28896e377/2258 美国数学家维纳(N.Wiener)智力早熟，11岁就上了大学。他曾在1935~1936年应邀来中国清华大学讲学。一次，他参加某个重要会议&#xf…...

编程日记 2023/3/20 5:12:36

【Linux】软件包管理器 yum

什么是软件包和软件包管理器在 Linux 下需要安装软件时， 最原始的办法就是下载到程序的源代码， 进行编译得到可执行程序。但是这样太麻烦了，所以有些人就把一些常用的软件提前编译好, 做成软件包 ( 就相当于windows上的软件安装程序)放在服…...

编程日记 2023/3/20 5:07:34

一天吃透TCP面试八股文

本文已经收录到Github仓库，该仓库包含计算机基础、Java基础、多线程、JVM、数据库、Redis、Spring、Mybatis、SpringMVC、SpringBoot、分布式、微服务、设计模式、架构、校招社招分享等核心知识点，欢迎star~ Github地址：https://github.com/…...

编程日记 2023/3/20 5:02:31

zzu天梯赛选拔

C. NANA去上课 — 简单数学需要记录上一步处在哪个位置然后判断如果是同一侧移动距离就是abs（x1 - x2） 如果不同就是x1 x2 #include <iostream> #include <cmath> using namespace std; #define int long long signed main() {int n; c…...

编程日记 2023/3/20 4:57:30

【C语言】一篇让你彻底吃透（结构体与结构体位段）

本章重点主要讲解结构体和位移动的使用和定义与声明，并且结构体和位段在内存中是如何存储的。文章目录结构体结构体类型的声明结构体特殊的声明结构体变量的定义和初始化结构体成员的访问结构的自引用结构体内存对齐结构体传参位段什么是位段位段的内存分配位段的…...

编程日记 2023/3/20 4:52:29

数据结构之二叉树构建、广度/深度优先(前序、中序、后序)遍历

一、二叉树 1.1 树说到树，我们暂时忘记学习，来看一下大自然的树： 哈哈以上照片是自己拍的，大家凑合看看回归正题，那么在数据结构中，树是什么呢，通过上面的图片大家也可以理解树是一种非…...

编程日记 2023/3/20 4:47:26

“国产版ChatGPT”文心一言发布会现场Demo硬核复现

文章目录前言实验结果一、文学创作问题1 :《三体》的作者是哪里人？问题2：可以总结下三体的核心内容吗？如果要续写的话，可以从哪些角度出发？问题3：如何从哲学角度来进行续写？问题4：电…...

编程日记 2023/3/20 4:42:22

202304读书笔记|《不被定义的女孩》——做最真实最漂亮的自己，依心而行

202304读书笔记|《不被定义的女孩》——做最真实最漂亮的自己，依心而行《不被定义的女孩》作者ASEN，很棒的书。处处透露着洒脱，通透，悦己，阅世界的自由的氛围和态度！ 部分节选如下： 让自己活得…...

编程日记 2023/3/20 4:37:21

SpringBoot帮你优雅的关闭WEB应用程序

Graceful shutdown 应用 Graceful shutdown说明 Graceful shutdown is supported with all four embedded web servers (Jetty, Reactor Netty, Tomcat, and Undertow) and with both reactive and servlet-based web applications. It occurs as part of closing the applica…...

编程日记 2023/3/20 4:32:17

Spark读取JDBC调优

Spark读取JDBC调优，如何调参

一、场景构建

二、参数设置

1.灵活运用分区列

相关文章：

Spark读取JDBC调优

【文心一言】什么是文心一言，如何获得内测和使用方法。

CentOS8服务篇10：FTP服务器配置与管理

笔试强训3.14

elasticsearch 环境搭建和基本操作

IDEA操作：Springboot项目打包为jar包并运行

原理底层计划---JVM

CSDN-猜年龄、纸牌三角形、排他平方数

【Linux】软件包管理器 yum

一天吃透TCP面试八股文

zzu天梯赛选拔

【C语言】一篇让你彻底吃透（结构体与结构体位段）

数据结构之二叉树构建、广度/深度优先(前序、中序、后序)遍历

“国产版ChatGPT”文心一言发布会现场Demo硬核复现

202304读书笔记|《不被定义的女孩》——做最真实最漂亮的自己，依心而行

SpringBoot帮你优雅的关闭WEB应用程序

递归与递推

使用＜style scoped＞导致的样式问题

Elasticsearch深入理解（十八）-集群关键指标及调优指南

Transformer到底为何这么牛

硬币凑钱--动态规划--完全背包的变式

静息态fMRI分析避坑指南：DPARSFA预处理中那些容易踩的‘雷’（附解决方案）

除了阿里云，还有哪些靠谱的身份证实名认证方案？SpringBoot整合横向评测

Hunyuan-MT-7B保姆级教程：Pixel Language Portal在树莓派5上的轻量级翻译终端部署

Ubuntu系统资源监控实战：从命令行到图形化工具全解析

VxLAN网络如何“破圈”？聊聊Type5路由在云网融合中的真实应用场景

intv_ai_mk11行业落地：教育机构课件辅助生成、HR招聘文案批量产出案例

终极免费抖音无水印视频下载完整教程：3步快速获取高清素材

记一次攻防演练复盘（蓝队）

数据科学入门指南：10周掌握数据分析核心技能 [特殊字符]