当前位置: 首页 > news >正文

【大数据面试题】35 Spark 怎么做优化?

一步一个脚印,一天一道大数据面试题

博主希望能够得到大家的点赞收,藏支持!非常感谢~
点赞,收藏是情分,不点是本分。祝你身体健康,事事顺心!

Spark 如何做优化一直是面试过程中常问的问题。那么这次也仅以此篇文章总结梳理,希望对大家有帮助。

通用优化

Spark 一般遇到了报错,紧急处理时,第一时间能想到的处理方法。
不过这样的方法使用范围较为有限。

  1. 增大资源
    增大 executor 的 cpu 核,内存。

  2. 减少 shuffle 输入数据
    做多一些 filter 过滤,输入数据少了,便不容易报错。

Spark 任务优化

能在 Spark 计算任务中进行配置,修改而做的优化。

  1. 数据倾斜
    shuffle 可以说是 spark 最容易报错的地方,而深层原因就是容易到时 shuffle 报错的主要原因。
    1.1. 定位数据倾斜:
    Spark UI 中看到个别executor 处理的数据量远大于其它 executor,并出现了报错。
    1.2. 增大并行度:
    可能是并行度太小,导致个别 executor 处理数据量过大,增大并行度能减小报错的可能。
    就像 100份工作随机给 5 人做,调整到随机给 10 人做的区别。
// 增大 DataFrame 的分区数
dataFrame.repartition(100

相关文章:

【大数据面试题】35 Spark 怎么做优化?

一步一个脚印,一天一道大数据面试题 博主希望能够得到大家的点赞收,藏支持!非常感谢~ 点赞,收藏是情分,不点是本分。祝你身体健康,事事顺心! Spark 如何做优化一直是面试过程中常问的问题。那么这次也仅以此篇文章总结梳理,希望对大家有帮助。 通用优化 Spark 一般遇…...

2024年保安员职业资格考试题库大数据揭秘,冲刺高分!

186.安全技术防范是一种由探测、()、快速反应相结合的安全防范体系。 A.保安 B.出警 C.延迟 D.监控 答案:C 187.安全技术防范是以()和预防犯罪为目的的一项社会公共安全业务。 A.预防灾害 B.预防损失 C.预防失…...

怎么搭建个人博客教程,附云主机选购指南

一、搭建个人博客教程 1. 规划博客内容与技术栈 确定博客主题:首先明确博客的定位和主题,这将影响后续的技术选择和内容规划。选择技术栈:根据个人偏好和技术背景,选择合适的建站技术。例如,可以使用WordPress&#…...

使用Llama3/Qwen2等开源大模型,部署团队私有化Code Copilot和使用教程

目前市面上有不少基于大模型的 Code Copilot 产品,部分产品对于个人开发者来说可免费使用,比如阿里的通义灵码、百度的文心快码等。这些免费的产品均通过 API 的方式提供服务,因此调用时均必须联网、同时需要把代码、提示词等内容作为 API 的…...

C语言_结构体初阶(还未写完)

结构体的声明 1. 什么是结构?结构是一些值的集合,这些值称为成员变量。结构的每个成员可以是不同类型的变量 数组:一组相同类型元素的集合 结构体:一组不一定相同类型元素的集 2. 结构的声明 struct tag //tag根据实际情况给名字…...

MyBatis-Plus:快速入门

1. 概念 MyBatis-Plus(简称 MP)是一个MyBatis 的增强工具,在 MyBatis 的基础上只做增强不做改变,为简化开发、提高效率而生。其突出的特性如下: * **无侵入**:只做增强不做改变,引入它不会对现有…...

【高级篇】第9章 Elasticsearch 监控与故障排查

9.1 引言 在现代数据驱动的应用架构中,Elasticsearch不仅是海量数据索引和搜索的核心,其稳定性和性能直接影响到整个业务链路的健康度。因此,建立有效的监控体系和掌握故障排查技能是每一位Elasticsearch高级专家的必备能力。 9.2 监控工具:洞察与优化的利器 在Elastics…...

【前端】上传和下载zip文件,有进度条(el-progess)

文章目录 上传下载进度条 场景:要上传一个zip,调用接口,然后下载一个zip。调用接口的接口响应要显示在进度条中。 上传 上传用的是input原生控件,在页面中隐藏。accept"application/zip"限制只能上传zip。 点击button…...

2024年软件测试面试题,精选100+,附答案+文档

🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 Part1 1、你的测试职业发展是什么? 测试经验越多,测试能力越高。所以我…...

在vue项目的.gitignore文件忽略不想要提交到git仓库的文件

在Vue项目中,使用.gitignore文件来忽略不需要提交到Git仓库的文件是一个常见的做法。.gitignore文件包含了一系列的规则,这些规则告诉Git哪些文件或目录应该被忽略。以下是一些Vue项目中常用的.gitignore文件示例和具体规则说明: 示例 .gitig…...

时序(流式)图谱数据仓库AbutionGraph功能介绍-Streaming Graph OLAM Database

AbutionGraph是一款端到端的流式数据实时分析的图谱数据库,实时(流式写入实时、高QPS决策分析实时、流式预处理实时)表现在: 构建实时查询QPS响应时长与历史数据量无关的图模型;接入流式数据并实时更新图计算指标&…...

windows实现Grafana+Loki+loki4j轻量级日志系统,告别沉重的ELK

文章目录 Loki下载Loki下载安装Loki添加Loki数据源springboot日志推送 Loki下载 下载地址:https://github.com/grafana/loki/releases/ 找到loki-windows-amd64.exe.zip点击开始下载,我这里下载的2.9.9版本 Loki下载 下载地址:https://gr…...

跟《经济学人》学英文:2024年06月01日这期 The side-effects of the TikTok tussle

The side-effects of the TikTok tussle tussle:美 [ˈtəsəl] 激烈扭打;争夺 注意发音 side-effects:副作用;(side-effect的复数) As the app’s future hangs in the balance, the ramifications of …...

Ubuntu安装PostgreSQL

Ubuntu(在线版) 更新软件源 sudo apt-get update 添加PostgreSQL官方数字签名 wget --quiet -O - https://www.postgresql.org/media/keys/ACCC4CF8.asc | sudo apt-key add - 将地址添加到系统的软件包源列表中 echo "deb http://apt.postgresql.org/pub/repos/a…...

【HarmonyOS NEXT】鸿蒙如何让List组件不满一屏时,还要能滑动和回弹

当List组件不满一屏时,还要能滑动和回弹,就向系统设置 - 移动网络 页面一样 List设置如下属性: .edgeEffect(EdgeEffect.Spring, {alwaysEnabled: true}) edgeEffect edgeEffect(value: EdgeEffect, options?: EdgeEffectOptions) 设置边缘滑动效果。…...

JDK-SPI-服务提供者接口

归档 GitHub: JDK-SPI-服务提供者接口 SPI 源码说明 java.util.ServiceLoader /*** 服务加载器&#xff1a;给定接口&#xff0c;查找实现类。实现可迭代接口 */ public final class ServiceLoader<S> implements Iterable<S> {/*** 返回 ServiceLoader 实例 *…...

【docker】容器内配置环境变量

背景&#xff1a; 我要把下面的环境变量写到bash脚本里&#xff0c;起名叫environment_start.sh。 目的&#xff1a; 用于每次进入容器dev_into.sh的时候&#xff0c;让系统获取到环境变量。 操作步骤&#xff1a; 先在容器外找个合适的位置写环境变量bash脚本&#xff0c…...

Java 乐观锁与悲观锁

1. 前言 本节内容主要是对 Java 乐观锁与悲观锁进行更加深入的讲解,本节内容更加偏重于对乐观锁的讲解,因为 synchronized 悲观锁对于大部分学习者并不陌生,本节主要内容如下: 乐观锁与悲观锁的概念,之前有所讲解,这里用很小的篇幅进行知识的回顾,巩固;乐观锁与悲观锁…...

python学习2-数据结构与算法-链表

单链表是一种链式存取的数据结构&#xff0c;用一组地址任意的存储单元存放线性表中的数据元素。链表中的数据是以结点来表示的&#xff0c;每个结点的构成&#xff1a;元素(数据元素的映象) 指针(指示后继元素存储位置)&#xff0c;元素就是存储数据的存储单元&#xff0c;指…...

项目一 nfs 共享服务器 Haproxy 代理 Keepalive 高可用集群

深入理解程序的数据存储 配置NFS服务器 配置ansible环境...

明星数字人运营失效率高达68%?AI Agent驱动的粉丝交互系统,已帮3家MCN提升留存率217%

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;AI Agent娱乐行业应用的现状与挑战 近年来&#xff0c;AI Agent在娱乐行业的渗透持续加速&#xff0c;从智能剧本生成、虚拟偶像实时交互&#xff0c;到个性化内容推荐与跨平台用户行为建模&#xff0c…...

WiFi感知技术在智能家居中的原理与应用

1. WiFi感知技术&#xff1a;重新定义智能家居环境感知在智能家居领域&#xff0c;环境感知一直是个技术难题。传统方案主要依赖摄像头、红外传感器&#xff08;PIR&#xff09;和毫米波雷达等专用设备&#xff0c;但这些方案要么存在隐私顾虑&#xff0c;要么安装复杂且成本高…...

国曙GOSHINE正式亮相:一家人力资源服务机构的“长期主义”转向!

在人力资源行业&#xff0c;越来越多企业开始意识到&#xff1a;真正困难的&#xff0c;从来不是招聘&#xff0c;而是复杂用工环境下的长期管理。从社保合规到劳动风险&#xff0c;从跨区域用工到组织效率&#xff0c;企业面对的挑战正在不断增加。尤其在劳动密集型行业&#…...

昇腾CANN runtime Stream 调度引擎:从命令队列到 AI Core 的执行链路

用户看到的是一行 torch.nn.functional.softmax(x)&#xff0c;背后 runtime 要做&#xff1a;分配 Stream、入队命令、调度到 AI Core、等待完成、同步结果。如果这一行的延迟是 10μs&#xff0c;runtime 的调度开销必须 < 0.5μs——否则就是 5% 的性能损失。 runtime 的…...

对比直连与通过Taotoken调用大模型API的延迟体感差异

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 对比直连与通过Taotoken调用大模型API的延迟体感差异 在集成大模型API到应用时&#xff0c;开发者通常会关注请求的响应速度&#…...

《男人来自火星,女人来自金星4:生活篇》第1-3章深度解读:大脑化学物质如何决定两性关系

前言 《男人来自火星&#xff0c;女人来自金星》系列自问世以来&#xff0c;全球销量已超过5000万册&#xff0c;被翻译成40多种语言&#xff0c;成为近几十年来最畅销的两性关系书籍之一。作为系列的第四部&#xff0c;《生活篇》&#xff08;也被称为《健康篇》&#xff09;从…...

【 linux 】理解进程状态

目录 1.僵尸进程与孤儿进程 1.1 孤儿进程 1.2 僵尸进程&#xff08;Z&#xff09; 2.进程状态 3.进程退出与进程等待 3.1 进程退出 3.2 进程等待 3.2.1 wait和waitpid对比 3.3 WEXITSTATUS 和 WIFEXITED 1.僵尸进程与孤儿进程 1.1 孤儿进程 父进程结束了子进程还没有…...

STM32F103驱动TFT-LCD屏避坑指南:FSMC时序配置与ILI9341初始化那些事儿

STM32F103驱动TFT-LCD屏的实战技巧&#xff1a;时序优化与初始化陷阱全解析 1. 硬件连接与FSMC基础配置 对于STM32F103开发者而言&#xff0c;驱动TFT-LCD屏最常见的硬件方案是通过FSMC&#xff08;灵活的静态存储控制器&#xff09;接口模拟8080并行时序。这种设计巧妙利用了S…...

数据网格(Data Mesh):下一代数据架构的核心思想与实践

在数字化转型的浪潮中&#xff0c;数据已成为企业最核心的资产。然而&#xff0c;传统的数据架构&#xff0c;如集中式数据湖和数据仓库&#xff0c;正面临着前所未有的挑战&#xff1a;数据孤岛林立、数据质量参差不齐、业务响应缓慢、维护成本高昂。这些问题严重制约了企业数…...

QLoRA:4-bit 量化微调的完整链路

本文基于昇腾CANN和昇腾NPU&#xff0c;围绕 cann-recipes-train 仓库的相关技术展开。 QLoRA 不是简单的 LoRA 量化。它在 LoRA 的冻结权重上做了 NF4 量化&#xff0c;同时保留了 LoRA 适配器的 FP16 精度。CANN 上部署 QLoRA 模型时&#xff0c;NF4 的反量化要在 NPU 上做&…...