当前位置：首页 > news >正文

大数据-Spark-Spark开发高频面试题

news 2026/5/12 16:19:51

一、spark的内存分布

堆内内存：在这使用堆内内存的时候，如果我们设置了堆内内存2个g的话，读取的数据也是两个g，此时又来两个g的数据，这样就会产生OOM溢出，因为处理完两个g的数据，并不会马上进行GC。
堆外内存：这样我们就可以使用堆外内存，也就是物理内存，堆外内存可以精准的申请和释放空间，不需要Gc，性能比较高，提升了任务的效率。

二、Spark的宽窄依赖

宽依赖：一个父RDD分区中的数据划分到多个子RDD分区的过程，也就说明有shuffle的过程。如GroupByKey，reduceByKey，join，sortByKey等。
窄依赖：一个父RDD分区中的数据被一个子RDD分区所使用，map，filter。

三、Spark中reduceByKey和groupByKey的区别

reduceByKey：按照key进行聚合，在shuffle之前有个combine预聚合的操作，返回的结果是RDD(K,V)
groupByKEy：直接按照key进行进行分组，直接进行shuffle
建议使用reduceByKey 但注意是否会影响最终的业务逻辑

四、Spark的缓存

将频繁使用的RDD进行缓存到内存中，后面RDD用到的时候去内存中区就不需要重复了，提高任务的执行效率
cache时间数据保存在内存中
程序结束后会被清除或手动调用unpersist方法清除
会记录RDD的血缘关系

五、什么是RDD

一个弹性分布式的数据集
数据可以保存在内存中也可以保存在磁盘中
他是一个分布式的计算的集合
RDD有3个特征分区、不可变、并行操作
RDD是有好多分区组成的，操作RDD的时候，对RDD里的每个分区进行操作
RDD使用算子进行操作
算子分为转换算子与行动算子

六、Spark落盘场景

在shuffle中会进行落盘的操作
shuffle分为shuffle write和shuffle read
在这期间会进行一次落盘操作

七、Spark的shffle

Spark使用涉及到一些shuffle算子的时候就会进行shuffle
shuffle的过程：

八、Spark内存OOM的情况

1. map过程中产生大量对象导致内存溢出
2. 数据不平衡导致内存溢出
3. coalesce调用导致内存溢出
4. shuffle后内存溢出
5. standalone模式下资源分配不均匀导致内存溢出
6. 在RDD中，公用对象能减少OOM的情况

九、怎样避免SparkOOM

1. 使用mapPartition代替部分map操作，或者连续使用map的操作
2. broadcast join和普通join
3. 先filter在join
4. partitionBy优化
5. combineDyKey的使用
6. 参数优化

十、Spark shuffle的默认并行度

由spark.sql.shuffle.partitions决定默认并行度为200，数据量比较的是并且集群性能可以的时候也已适当的加大

十一、Coalesce和Repartition的区别

Coalesce和Repartition两个都是用来改变分区的，Coalesce用来缩减分区但不会进行shuffle，Repartition用来增加分区会进行shuffle的操作，在spark中减少文件个数会使用coalesce来减少分区，但如果分区量过大，分区数过少就会出现OOM，所以coalesce缩小分区个数也需合理。

十二、如何使用spark实现TopN的操作

方法一：（1）按照key对数据进行聚合（reduceByKey）（2）将value转换为数组，利用scala中sortBy或者sortWith进行排序（mapValues）数据量太大，会OOM。
方法二：（1）自定义分区器，按照key进行分区，使不同的key进到不同的分区中（2）对每个分区运用spark的排序算子进行排序

十三、spark中的共享变量

累加器是spark中提供的一种分布式变量机制，其原理类似与mapreduce先分后合，累加器的一个常用用途在对作业执行中的事件进行计数。而广播变量用来搞笑分发较大的对象。

十四、Coalesce和Repartition的关系与区别

关系：都是用来修改RDD的partition数量的，repartiotion底层调用的就是coalesce()方法coalesce(numPaitition,shuffle=true)
区别：repartiotion一定会发生shuffle，coalesce根据传入的参数来判断是否会发生shuffle一般情况下增大rdd的partition的数量使用repartition，减少partition数量使用coalesce

十五、Spark的调优

遵循几个原则
原则一：避免重复使用的RDD
原则二：尽可能复用一个RDD
原则三：对多次使用的RDD进行持久化
原则四：尽量避免使用shuffle类的算子
原则五：使用map-side预聚合的shuffle操作
原则六：使用高性能的算子
原则七：广播大变量
原则八：使用Kryo优化序列化性能
原则九；优化数据结构

十六、Spark中RDD与DataFream及DataSet之间的关系

宏观：RDD：弹性分布式数据集Datafream在RDD上多了一层schemaDataset在datafream之上多了一个数据结构
微观：RDD：优点 编译时：编译时可以检查类型是否安全面向对象的风格：可以通过直接点方法对数据进行操作缺点 序列化与反序列化消耗资源太大，反序列化时会将数据结构与数据内容都序列化GC操作频繁，RDD要频繁的创建和销毁，务必会产生很多的GC操作Datafream：在RDD之上引入一层schema与off-head多个RDD每行的数据结构都一致，spark就可以通过schema来识别数据结构在反序列化的时候可以只反序列化数据而结构就可以省略掉了Dataset：综合了RDD与Datafream的优点，并引入encoding数据再进行序列化时ancoding出来的字节码和off-head互通，这样就可以按需读取数据			
三者之间的转换：rdd - df = toDFrdd - ds = toDSdf - ds = as[]ds - df = toDFds - rdd = RDDdf - rdd = RDD

十七、简述介绍sparkStreaming窗口函数的原理

窗口函数就是在原来定义的sparkStreaming计算批次大小的基础上在进行封转，每次计算多个批次的数据，同时还需要传递一个滑动步长的参数，用来设置当前任务完成之后下次从什么地方开始计算。

十八、SparkStreaming精准一次消费

1. 手动维护偏移量
2. 处理完业务数据后，在进行提交偏移量的操作
极端条件下，如果在提交偏移量断网或停电会造成spark程序第二次启动时重复消费问题，所以在涉及到金额或精确度非常高的场景会使用事务保持精准一次消费。

大数据-Spark-Spark开发高频面试题

一、spark的内存分布堆内内存：在这使用堆内内存的时候，如果我们设置了堆内内存2个g的话，读取的数据也是两个g，此时又来两个g的数据，这样就会产生OOM溢出，因为处理完两个g的数据，并不会马上进行…...

编程日记 2023/9/19 19:56:19

云原生容器平台——新华资产数字化转型加速器

新华资产管理股份有限公司（以下简称“新华资产”）于2006年5月经中国保险监督管理委员会批准、7月3日正式挂牌成立，是国内首批专业保险资产管理机构。2020年上半年，公司管理的资产规模突破万亿元人民币，投资收益水平居行…...

编程日记 2023/9/19 19:54:17

ubuntu 22.04运行opencv4的c++程序遇到的问题

摘要：本文介绍一下在ubuntu系统中，运行一个最简单的opencv4程序都出问题的解决方法，并对其基本原理作简单阐述。解决问题的方法有很多，本文只提供其中一种。 opencv版本是4.2.0，ubuntu版本是20.04 查询opencv版本的指…...

编程日记 2023/9/19 19:53:16

MDPI模板报错的问题---提示缺少sty文件

MDPI模板报错的问题—提示缺少sty文件平时大多数提交IEEE trans模板时大多使用CTEX编译，然而，MDPI模板需要用texlive，二者之间如果先安装CTEX后安装texlive将会导致库文件的冲突。结果将会报缺少sty的文件错。网上提供了很多解决方案&#…...

编程日记 2023/9/19 19:51:14

【教程】微信小程序导入外部字体详细流程

前言在微信小程序中，我们在wxss文件中通过font-family这一CSS属性来设置文本的字体，并且微信小程序有自身支持的内置字体，可以通过代码提示查看微信小程序支持字体： 这些字体具体是什么样式可以参考： 微信小程序--字…...

编程日记 2023/9/19 19:50:13

关于Kali部署OneForAll，不能运行问题

问题描述运行OneForAll后，出现了如下报错问题： importterror:无法从’re’导入名称’sre_parse’ (/usr/lib/python3.11/re/init.py) Traceback (most recent call last):File "/home/kali/桌面/App/OneForAll/oneforall.py", line 16, in…...

编程日记 2023/9/19 19:46:07

vue3中使用el-upload + tui-image-editor进行图片处理

效果如下看之前请先看上一篇《vue3中使用组件tui-image-editor进行图片处理》中的 1、第一步安装 2、第二部封装组件本篇只是在这基础上结合el-upload使用组件 3、第三步结合el-upload使用组件 <template><el-dialog:title"dialogTitle":modelValue&qu…...

编程日记 2023/9/19 19:44:05

二叉树顺序结构及实现

👉二叉树顺序结构及实现 1.二叉树的顺序结构2.堆的概念及结构3.堆的实现3.1堆向下调整算法3.2堆向上调整算法 4.堆的创建4.1堆创建方法14.1.1构建堆结构体4.1.2堆的初始化4.1.3堆数据添加向上调整4.1.4主函数内容 4.2堆的创建方法24.2.1堆数据添加向下调整 4.3堆数据…...

编程日记 2023/9/19 19:43:03

python读取influxdb中数据

示例代码一：从infludb中获取指定时间段time和value值，并作图保存 from influxdb_client import InfluxDBClient import matplotlib.pyplot as plt# InfluxDB连接信息 url "http://localhost:8086" token "your_token" org "…...

编程日记 2023/9/19 19:42:02

【网络编程】UDP Socket编程

UDP Socket编程一. DatagramSocket二. DatagramPacket三. InetSocketAddress四. 执行流程五. 代码示例: UDP 回显服务器数据报套接字： 使用传输层 UDP 协议 UDP: 即 User Datagram Protocol（用户数据报协议），传输层协议。 UDP…...

编程日记 2023/9/19 19:41:01

[GIT]版本控制工具

[GIT]版本控制工具 Git 的命令Git 的配置信息查看现有 Git 配置信息设置 Git 配置信息用户信息配置文本编辑器配置差异分析工具配置编辑 Git 配置文件 Git 仓库操作初始化 Git 仓库克隆 Git 仓库Git 分支仓库创建Git 远程仓库命令 Git 提交历史Git 标签添加标签查看已有标签删…...

编程日记 2023/9/19 19:40:00

Linux文件管理命令

Linux命令行命令空格参数(可写可不写)空格文件(可写可不写)ls/opt 根目录下的opt文件夹ls-a 显示所有文件及隐藏文件/optls -l 详细输出文件夹内容 ls -h 输出文件大小(MB...)ls--full-time 完整时间格式输出ls-d 显示文件夹本身信息，不输出内容ls-t 根据最后修改…...

编程日记 2023/9/19 19:38:59

Netty面试题(三)

文章目录前言一、如何选择序列化协议？二、Netty 的零拷贝实现？总结前言如何选择序列化协议？Netty 的零拷贝实现？ 一、如何选择序列化协议？ 具体场景对于公司间的系统调用，如果性能要求在 100ms 以上的…...

编程日记 2023/9/19 19:37:58

地址为 GitHub - chipsalliance/riscv-dv: Random instruction generator for RISC-V processor verificationRandom instruction generator for RISC-V processor verification - GitHub - chipsalliance/riscv-dv: Random instruction generator for RISC-V processor verif…...

编程日记 2023/9/19 19:34:55