当前位置：首页 > news >正文

详解 Spark 核心编程之 RDD 持久化

news 2026/2/9 18:05:03

一、问题引出

/**
案例：对同一份数据文件分别做 WordCount 聚合操作和 Word 分组操作
期望：针对数据文件只进行一次分词、转换操作得到 RDD 对象，然后再对该对象分别进行聚合和分组，实现数据重用
*/
object TestRDDPersist {def main(args: Array[String]): Unit = {val conf = new SparkConf().setMaster("local[*]").setAppName("persist")val sc = new SparkContext(conf)val rdd = sc.makeRDD(List("hello world", "hello spark"))val flatRdd = rdd.flatMap(_.split(" "))val mapRdd = flatRdd.map(word => {println("@@@@@@@@@@")(word, 1)})// 聚合操作val reduceRdd = mapRdd.reduceByKey(_ + _)reduceRdd.collect().foreach(println)println("**********")// 分组操作val groupRdd = mapRdd.groupByKey()groupRdd.collect().foreach(println)}
}/**
结果：flatRdd.map过程在聚合时和分组时分别都执行了，说明针对数据文件的分词、转换操作被重复执行了，只有对象被重用，而数据没有被重用
解析：1.RDD是不会存储数据的，当某个 RDD 转换成新的 RDD 后，该 RDD 中的数据就没有了2.如果需要再次用到该 RDD 的数据，则需要从数据源开始重新执行到该 RDD 来获取数据
解决：针对某个需要被重复使用的 RDD 对象在其进行下一步操作时先将数据进行缓存持久化或checkpoint，后续的其它操作从缓存持久化或checkpoint中获取数据
*/

二、RDD Cache

/**
缓存或持久化方法：1.rdd.cache()：底层调用 persist() 方法，默认是将数据保存到 JVM 堆内存中2.rdd.persist(StorageLevel)：可以指定数据的保存级别
说明：1.持久化方法被调用时不会立即进行缓存，而是在触发action算子时，数据才会被缓存在计算节点的内存中2.缓存除了用于数据重用，还可以提高容错性
*/
object TestRDDPersist {def main(args: Array[String]): Unit = {val conf = new SparkConf().setMaster("local[*]").setAppName("persist")val sc = new SparkContext(conf)val rdd = sc.makeRDD(List("hello world", "hello spark"))val flatRdd = rdd.flatMap(_.split(" "))val mapRdd = flatRdd.map(word => {println("@@@@@@@@@@")(word, 1)})//mapRdd.cache()mapRdd.persist()// 聚合操作val reduceRdd = mapRdd.reduceByKey(_ + _)reduceRdd.collect().foreach(println)println("**********")// 分组操作val groupRdd = mapRdd.groupByKey()groupRdd.collect().foreach(println)/*结果：聚合和分组前的操作过程只执行了一遍，实现了数据重用*/}
}// 存储级别
object StorageLevel {val NONE = new StorageLevel(false, false, false, false)val DISK_ONLY = new StorageLevel(true, false, false, false)val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2) // 副本val MEMORY_ONLY = new StorageLevel(false, true, false, true) // 内存不足丢弃数据val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)val MEMORY_AND_DISK = new StorageLevel(true, true, false, true) // 内存不足溢写磁盘val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)val OFF_HEAP = new StorageLevel(true, true, true, false, 1)
}

三、RDD CheckPoint

/**
方法：rdd.checkpoint()，将 RDD 中间结果写入磁盘
说明：1.对 RDD 进行 checkpoint 操作并不会马上被执行，必须执行 Action 操作才能触发2.checkpoint保存由于在job执行完不会被删除，所以必须指定保存路径，一般保存在分布式文件系统
*/
object TestRDDPersist {def main(args: Array[String]): Unit = {val conf = new SparkConf().setMaster("local[*]").setAppName("persist")val sc = new SparkContext(conf)// 指定checkpoint保存路径sc.setCheckpointDir("checkpoint")val rdd = sc.makeRDD(List("hello world", "hello spark"))val flatRdd = rdd.flatMap(_.split(" "))val mapRdd = flatRdd.map(word => {println("@@@@@@@@@@")(word, 1)})mapRdd.checkpoint()// 聚合操作val reduceRdd = mapRdd.reduceByKey(_ + _)reduceRdd.collect().foreach(println)println("**********")// 分组操作val groupRdd = mapRdd.groupByKey()groupRdd.collect().foreach(println)/*结果：聚合和分组前的操作过程只执行了一遍，实现了数据重用*/}
}

四、缓存和检查点区别

cache 和 persist 会在原有的血缘关系中添加新的依赖，一旦数据出错可以重头读取数据；checkpoint 检查点会切断原有的血缘关系，重新建立新的血缘关系，相当于改变数据源
cache 是将数据临时存储在 JVM 堆内存中，性能较高，但安全性低，persist 可以指定存储级别，将数据临时存储在磁盘文件中，涉及到 IO，性能较低，作业执行完毕后临时文件会被删除；checkpoint 是将数据长久地存储分布式文件系统中，安全性较高，但涉及 IO 且会独立开启一个作业从数据源开始获取数据，所以性能较低，一般在 checkpoint 前先进行 cache，当 checkpoint 时 job 只需从缓存中读取数据即可，可以提高性能

详解 Spark 核心编程之 RDD 持久化

一、问题引出 /** 案例：对同一份数据文件分别做 WordCount 聚合操作和 Word 分组操作期望：针对数据文件只进行一次分词、转换操作得到 RDD 对象，然后再对该对象分别进行聚合和分组，实现数据重用 */ object TestRDDPersist {def …...

编程日记 2024/6/2 3:31:37

创新融合，5G+工业操作系统引领未来工厂

为加速企业完成生产制造自动化和经营管理自动化，从而走向未来工厂，蓝卓不断探索supOS工业操作系统与前沿技术的的创新融合，而5G技术为工业操作系统提供了更多元化的赋能手段和想象空间。目前，supOS围绕生产、安全、质检、监控等领…...

编程日记 2024/6/2 3:30:36

自监督表示学习和神经音频合成实现语音修复

关键词：语音修复、自监督模型、语音合成、语音增强、神经声码器语音和/或音频修复的目标是增强局部受损的语音和/或音频信号。早期的工作基于信号处理技术，例如线性预测编码、正弦波建模或图模型。最近，语音/音频修复开始使用深度神经网络&a…...

编程日记 2024/6/2 3:28:34

【论文复现|智能算法改进】融合黑寡妇思想的蜣螂优化算法

目录 1.算法原理2.改进点3.结果展示4.参考文献5.代码获取 1.算法原理【智能算法】蜣螂优化算法（DBO）原理及实现 2.改进点 ICMIC混沌映射 z n 1 sin ⁡ ( α z n ) , α ∈ ( 0 , ∞ ) (1) z_{n1}\sin(\frac{\alpha}{z_n}),\alpha\in(0,\infty)\ta…...

编程日记 2024/6/2 3:26:32

效果预览：花海（带移动方向） VFX 实例脚本示例使用TouchScript，计算玩家是否移动，且计算移动方向 using System.Collections; using System.Collections.Generic; using TouchScript; using TouchScript.Pointers; using UnityEngine; using UnityEngine.VFX;public …...

编程日记 2024/6/2 3:25:31

英语翻译程序，可以对用户自己建立的词汇表进行增删查改

⑴ 自行建立一个包含若干英文单词的词汇表文件，系统初始化时导入内存，用于进行句子翻译。 ⑵ 用户可以输入单词或者句子，在屏幕上显示对应翻译结果。 ⑶ 用户可对词汇表进行添加和删除，并能将更新的词汇表存储到文件中。 #defi…...

编程日记 2024/6/2 3:24:29

Django ORM魔法：用Python代码召唤数据库之灵！

探索Django ORM的神奇世界，学习如何用Python代码代替复杂的SQL语句，召唤数据库之灵，让数据管理变得轻松又有趣。从基础概念到高级技巧，阿佑带你一步步成为Django ORM的魔法师，让你的应用开发速度飞起来！ 文…...

编程日记 2024/6/2 3:23:28

JetBrains Mono字体下载及安装

百度云字体下载提取码：zida 1.mac 安装选择文件夹中的所有字体文件，然后双击它们。点击“安装字体”按钮。 2.windows 安装选择文件夹中的字体文件，右键单击其中任何一个，然后从菜单中选择“安装”。 3.linux 安装将字体…...

编程日记 2024/6/2 3:22:27

【OS】AUTOSAR OS系统调用产生Trap的过程详解

目录前言正文 1.Os_Hal_Trap使用示例 2. Os_Hal_Trap的定义 3. syscall详解详解...

编程日记 2024/6/2 3:20:25

Java中的异常处理机制

在Java中，异常处理是一种重要的编程机制，用于处理程序运行时可能出现的错误情况。它提供了一种结构化的方式来处理异常情况，使程序能够更健壮、更易于维护。下面将从技术难点、面试官关注点、回答吸引力和代码举例四个方面来详细描述Java中的…...

编程日记 2024/6/2 3:18:23

什么是PLAB?

接上文PLAB---》可以看到和TLAB很像，PLAB即 Promotion Local Allocation Buffers。用在年轻代对象晋升到老年代时。在多线程并行执行YGC时，可能有很多对象需要晋升到老年代，此时老年代的指针就"热"起来了，于是搞了个…...

编程日记 2024/6/2 3:17:22

复试不考机试，初试300分以上，上岸稳了？东北林业大学计算机考研考情分析！

东北林业大学（Northeast Forestry University），简称东北林大（NEFU），位于黑龙江省哈尔滨市，是一所以林科为优势、林业工程为特色的中华人民共和国教育部直属高校，由教育部、国家林业局…...

编程日记 2024/6/2 3:16:20

【30天精通Prometheus：一站式监控实战指南】第12天：windows_exporter从入门到实战：安装、配置详解与生产环境搭建指南，超详细

亲爱的读者们👋 欢迎加入【30天精通Prometheus】专栏！📚 在这里，我们将探索Prometheus的强大功能，并将其应用于实际监控中。这个专栏都将为你提供宝贵的实战经验。🚀 Prometheus是云原生和DevOps的…...

编程日记 2024/6/2 3:15:19

微信小程序的事件绑定方式

微信小程序的事件绑定方式主要包括以下几种，每种方式都有其特定的用法和特性： 基础绑定方式： bind：这是最基础的绑定方式，用于绑定事件处理函数。例如，bindtap用于绑定点击事件。当组件触发事件时&#xf…...

编程日记 2024/6/2 3:14:18

AR和AP重分类（Regroup）[FAGLF101/OBBU/OBBV]

一、为什么AR和AP科目需要重分类 1.1 执行操作的前提(重要) 存在AR的当月总余额在贷方（客户贷项凭证、预收账款等）或AP的当月总余额在借方（供应商贷项凭证、预收账款等），这种情况下无法真实的反映出资产和负债情况&…...

编程日记 2024/6/2 3:13:18

进程——linux

目录冯诺依曼体系结构（计算机组成原理与体系结构） 关于冯诺依曼，必须强调几点： 操作系统(Operator System) 概念设计OS的目的定位如何理解 "管理" 总结系统调用和库函数概念承上启下一、进程基本概念…...

编程日记 2024/6/2 3:12:16

关于如何通过APlayer+MetingJS为自己的wordpress博客网页添加网易音乐播放器（无需插件）

本文转自博主的个人博客：https://blog.zhumengmeng.work,欢迎大家前往查看。原文链接：点我访问序言：最近在网上冲浪，发现大家的博客大部分都有一个音乐播放器能够播放音乐，随机我也开始寻找解决方法。可是找来找去我…...

编程日记 2024/6/2 3:07:12

架构师如何以打游戏的心态做开发？

为什么打游戏可以很好玩，能够自发学习，从青铜到黄金很简单。换个角度思考🤔，以打游戏的心态如何进行架构开发，可以采用以下策略： 设定目标和里程碑： 就像游戏中的任务和关卡一样，为…...

编程日记 2024/6/2 3:06:11

【WP|6】WordPress 主题开发详解

WordPress主题开发是打造独特、功能强大的网站的重要途径。无论是创建全新的主题还是对现有主题进行自定义，掌握主题开发技能都是非常重要的。本文将详细讲解 WordPress 主题开发的基本步骤、文件结构、模板层次以及一些高级技巧，帮助你从零开始创建一个…...

编程日记 2024/6/2 3:05:09

Kivy.garden.NavigationDrawer 后续学习

如百词斩部分代码 MRWord\pages\infopage\info.kv <InfoPage>:anim_type: slide_above_simpleid: main_winbox_button_anchor: box_button_anchor.__self__three_labels_box: three_labels_box.__self__box_phonetic: box_phonetic.__self__BoxLayout:BoxLayout:id: ma…...

编程日记 2024/6/2 3:04:08

地震勘探——干扰波识别、井中地震时距曲线特点

目录干扰波识别反射波地震勘探的干扰波井中地震时距曲线特点干扰波识别有效波：可以用来解决所提出的地质任务的波；干扰波：所有妨碍辨认、追踪有效波的其他波。地震勘探中，有效波和干扰波是相对的。例如，在反射波…...

编程新知 2026/2/8 20:43:05

synchronized 学习

学习源： https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.应用场景不超卖，也要考虑性能问题（场景） 2.常见面试问题： sync出…...

编程新知 2025/12/14 17:38:17

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

使用rpicam-app通过网络流式传输视频使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素文章来源： http://raspberry.dns8844.cn/documentation 原文网址使用 rpicam-app 通过网络流式传输视频本节介绍来自 rpica…...

编程新知 2025/11/5 13:03:58