当前位置: 首页 > news >正文

大数据课程K4——Spark的DAGRDD依赖关系

文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州

 ▲ 本章节目的

⚪ 了解Spark的DAG;

⚪ 掌握Spark的RDD的依赖关系;

⚪ 了解Spark对于DAG的Stage的划分;

一、DAG概念

1. 概述

Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG。接下来以“Word Count”为例,详细描述这个DAG生成的实现过程。

2. 案例1解释

Spark Scala版本的Word Count程序如下:

val file=sc.textFile("hdfs://hadoop01:9000/hello1.txt")

val counts = file.flatMap(line => line.split(" "))

           .map(word => (word, 1))

           .reduceByKey(_ + _)

 counts.saveAsTextFile("hdfs://...")

file和counts都是RDD,其中file是从HDFS上读取文件并创建了RDD,而counts是在file的基础上通过flatMap、map和reduceByKey这三个RDD转换生成的。最后,counts调用了动作saveAsTextFile,用户的计算逻辑就从这里开始提交的集群进行计算。

 上图展示的是word count案例的计算链,Spark底层会将这个计算链抽象为一个DAG(有向无环图)。关键的是,这个DAG记录了RDD之间的依赖关系,借助RDD之间的依赖关系,可以实现数据容错。比如上图中,RDD1是RDD2的父RDD。反之RDD2是RDD1的子RDD。从分区的角度,有父分区和子分区的概念。

即当某个子分区数据丢失,借助RDD之间的依赖关系,可以从上游的父分区进行恢复。

那么上面这5行代码的具体实现是什么呢?

1. 行1:sc是org.apache.spark.SparkContext的实例,它是用户程序和Spark的交互接口,会负责连接到集群管理者,并根据用户设置或者系统默认设置来申请计算资源,完成RDD的创建等。

sc.textFile("hdfs://...")就完成了一个org.apache.spark.rdd.HadoopRDD的创建,并且完成了一次RDD的转换:通过map转换到一个org.apache.spark.rdd.MapPartitions-RDD。也就是说,file实际上是一个MapPartitionsRDD,它保存了文件的所有行的数据内容。

2. 行2:将file中的所有行的内容,以空格分隔为单词的列表,然后将这个按照行构成的单词列表合并为一个列表。最后,以每个单词为元素的列表被保存到MapPartitionsRDD。

3. 行3:将第2步生成的MapPartittionsRDD再次经过map将每个单词word转为(word,1)的元组。这些元组最终被放到一个MapPartitionsRDD中。

4. 行4:首先会生成一个MapPartitionsRDD,起到m

相关文章:

大数据课程K4——Spark的DAGRDD依赖关系

文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 了解Spark的DAG; ⚪ 掌握Spark的RDD的依赖关系; ⚪ 了解Spark对于DAG的Stage的划分; 一、DAG概念 1. 概述 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关…...

disable 禁用元素后无法触发点击事件

业务需求点击被禁用的输入框触发事件 在被禁用元素上套一层div div上绑定事件 原本是不需要加事件穿透即可触发 但是最近谷歌更新触发不了 加一个事件穿透就好了 核心代码 style"pointer-events:none"style“pointer-events:none” 事件穿透 整体代码 <el-table-…...

uni-app开启gzip配置

指令&#xff1a;npm install webpack4.46.0 --save-dev 指令&#xff1a;npm install compression-webpack-plugin6.1.1 --save-dev vue.config.js const CompressionWebpackPlugin require(compression-webpack-plugin);module.exports {configureWebpack: config > {…...

房屋结构健康监测,科技助力让建筑更安全

房屋建筑是人们赖以生存的场所&#xff0c;然而当前我国许多房屋已经达到了使用寿命的中期&#xff0c;房屋的安全系数逐年降低&#xff0c;风险也随着时间的推移而累积。长期以来&#xff0c;我国的房屋普遍存在寿命短、隐患多的问题&#xff0c;“重建设&#xff0c;轻管理”…...

Android 面试之Glide做了哪些优化?

前言 Glide可以说是最常用的图片加载框架了&#xff0c;Glide链式调用使用方便&#xff0c;性能上也可以满足大多数场景的使用&#xff0c;Glide源码与原理也是面试中的常客。 但是Glide的源码内容比较多&#xff0c;想要学习它的源码往往千头万绪&#xff0c;一时抓不住重点.…...

【韩顺平 零基础30天学会Java】数组、排序和查找(2days)

数组、排序、查找和多维数组 数组可以存放多个同一类型的数据。数组也是一种数据类 型&#xff0c;是引用数据类型。 定义一个数组 double[] hens {3,5,1,3.4,2,50} 遍历数组得到数组所有元素的和 hens[下标]&#xff0c;下标是从0开始编号的。 可以通过数组名.lenght得到数组…...

VUE笔记(一)初识vue

一、vue的简介 1、什么是vue 官网地址:Vue.js Vue (读音 /vjuː/&#xff0c;类似于 view) 是一套用于构建用户界面的渐进式框架。 构建用户界面&#xff1a;之前在学习vue之前通过原生js对DOM操作进行构建用户界面的 使用原生js构建用户界面的不足 - 没有规范&#xff0c…...

3D点云处理:学习总结(更新整理中)

文章目录 开发工具个人看法 微信&#xff1a;dhlddx B站演示视频 前置说明&#xff1a;仅是个人在使用pcl开发过程中的总结&#xff08;点云处理顺序或比较实用的功能&#xff09;&#xff0c;不喜勿喷&#xff1b; 开发工具 开发IDE&#xff1a;Qt Creator&#xff08;Windo…...

Day45|leetcode 70. 爬楼梯、322. 零钱兑换、279.完全平方数

leetcode 70. 爬楼梯 题目链接&#xff1a;70. 爬楼梯 - 力扣&#xff08;LeetCode&#xff09; 本题可以用背包问题来解决&#xff0c;就相当于楼顶是背包&#xff0c;台阶是物品&#xff0c;相当于之前写法的进阶版。 代码实现 class Solution { public:int climbStairs(in…...

arm:day9

1。思维导图 2..I2C实验&#xff0c;检测温度和湿度 iic.h #ifndef __IIC_H__ #define __IIC_H__ #include "stm32mp1xx_gpio.h" #include "stm32mp1xx_rcc.h" #include "gpio.h" /* 通过程序模拟实现I2C总线的时序和协议* GPIOF ---> AHB4…...

【大模型AIGC系列课程 1-2】创建并部署自己的ChatGPT机器人

OpenAI API 调用 获取 openai api api-key https://platform.openai.com/account/api-keys 利用 python requests 请求 openai 参考 openai 接口说明:https://platform.openai.com/docs/api-reference/chat/create import json # 导入json包 import requests # 导入req…...

启动metastore服务报错

启动Metastore的时候报错&#xff1a; 简略的报错信息&#xff1a; MetaException(message:Error creating transactional connection factory)Caused by: MetaException(message:Error creating transactional connection factory)Caused by: javax.jdo.JDOFatalInternalExce…...

c 语言 算法 技巧 之 用移位来代替乘除

除法 当你需要计算一个数的一半时&#xff0c;通常我们会考虑使用除法运算&#xff08;/&#xff09;来实现。然而&#xff0c;计算机内部的运算中&#xff0c;除法通常比加法和乘法运算慢得多&#xff0c;因为除法需要更多的处理步骤。 位运算在这种情况下可以提供一个快速的…...

python爬虫实战零基础(3)——某云音乐

爬取某些云网页音乐&#xff0c;无需app 分析网页第二种方式批量爬取 声明&#xff1a;仅供参考学习&#xff0c;参考&#xff0c;若有不足&#xff0c;欢迎指正 你是不是遇到过这种情况&#xff0c;在pc端上音乐无法下载&#xff0c;必须下载客户端才能下载&#xff1f; 那么&…...

渗透测试漏洞原理之---【XSS 跨站脚本攻击】

文章目录 1、跨站 脚本攻击1.1、漏洞描述1.2、漏洞原理1.3、漏洞危害1.4、漏洞验证1.5、漏洞分类1.5.1、反射性XSS1.5.2、存储型XSS1.5.3、DOM型XSS 2、XSS攻防2.1、XSS构造2.1.1、利用<>2.1.2、JavaScript伪协议2.1.3、时间响应 2.2、XSS变形方式2.2.1、大小写转换2.2.2…...

【浮点数二分】

数的三次方根 #include<iostream> using namespace std;double n;int main(){cin>>n;double l -10000;double r 10000;while((r-l)>1e-8){double mid (lr)/2;if((mid*mid*mid)>n) r mid;else l mid;}printf("%lf",l);return 0; }...

基于FPGA的FIR低通滤波器实现(附工程源码),matlab+vivado19.2+simulation

基于FPGA的FIR低通滤波器实现(附工程源码) 文章目录 基于FPGA的FIR低通滤波器实现(附工程源码)前言一、matlab设计FIR滤波器&#xff0c;生成正弦波1.设计FIR滤波器1.生成正弦波.coe 二、vivado1.fir滤波器IP核2.正弦波生成IP核3.时钟IP核设置4.顶层文件/测试文件代码 三.simul…...

c++ qt--事件(第六部分)

c qt–事件&#xff08;第六部分&#xff09; 一.编辑伙伴&#xff0c;编辑顺序&#xff08;按TAB进行切换&#xff09; 1.编辑伙伴 此功能在设计界面如下的位置 1.设置伙伴关系 鼠标左键长按一个Label组件然后把鼠标移到另一个组件上 2.伙伴关系的作用 伙伴关系的作用就是…...

嵌入式系统入门实战:探索基本概念和应用领域

嵌入式系统是一种专用的计算机系统,它是为了满足特定任务而设计的。这些系统通常具有较低的硬件资源(如处理器速度、内存容量和存储容量),但具有较高的可靠性和实时性。嵌入式系统广泛应用于各种领域,如家用电器、汽车、工业控制、医疗设备等。 嵌入式系统的基本概念 微控…...

关于hive sql进行调优的理解

这是一个面试经常面的问题&#xff0c;很不幸&#xff0c;在没有准备的时候&#xff0c;我面到了这个题目&#xff0c;反思了下&#xff0c;将这部分的内容进行总结&#xff0c;给大家一点分享。 hive其实是基于hadoop的数据库管理工具&#xff0c;底层是基于MapReduce实现的&a…...

tcpdump 核心选项与过滤表达式实战指南:从基础到高效网络排查

1. 从命令行到洞察力&#xff1a;为什么你需要精通 tcpdump如果你在运维、开发或者网络安全领域工作&#xff0c;网络问题排查几乎是你绕不开的日常。当服务调用超时、接口响应异常&#xff0c;或者流量出现诡异波动时&#xff0c;你需要的不是猜测&#xff0c;而是证据。tcpdu…...

Linux网络编程核心:Socket、字节序与TCP/UDP实战解析

1. 从零开始理解 Linux 网络编程&#xff1a;Socket、字节序与地址转换如果你刚开始接触 Linux 下的网络编程&#xff0c;看到一堆socket、bind、connect、htonl之类的函数&#xff0c;还有sockaddr_in这种结构体&#xff0c;可能会觉得头大。别担心&#xff0c;这种感觉我十几…...

【计算机毕业设计】基于Spring Boot的秒杀系统设计与实现+万字文档

博主介绍&#xff1a;✌全网粉丝3W,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌ 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、…...

Go HTTP Router 深度解析:从原理到实战

Go HTTP Router 深度解析&#xff1a;从原理到实战 引言 在Go语言的Web开发中&#xff0c;Router是核心组件之一。高效的路由系统能够显著提升Web应用的性能和可维护性。本文将深入探讨Go语言HTTP Router的实现原理&#xff0c;并通过实战案例展示如何构建高性能的路由系统。 一…...

ARM处理器命名后缀解析与技术演进

1. ARM处理器命名后缀解析&#xff1a;从TDMI-S到T2F-S的技术演进作为一名长期从事嵌入式开发的工程师&#xff0c;我经常需要查阅ARM处理器的技术文档。初次接触ARM7TDMI-S、ARM926EJ-S这类命名时&#xff0c;那些神秘的字母后缀确实让人困惑。今天我们就来彻底拆解这些命名背…...

CANN-Ascend-C存储体系-昇腾NPU的四级缓存怎么用才算对

写 Ascend C 算子&#xff0c;最常犯的错误不是计算写错&#xff0c;是数据搬运写错。昇腾NPU有四级存储&#xff0c;每一级的容量、带宽、延迟都不同。数据该放在哪一级、什么时候搬、搬多少&#xff0c;直接决定算子性能。 四级存储级别名称容量带宽延迟用途L0HBM&#xff08…...

什么是占位符

占位符就是字符串里预留空位&#xff0c;后面填上真实数据&#xff0c;PyCharm里直接写代码就能运行调试1.%格式化占位符&#xff08;旧式格式化&#xff09;语法格式&#xff1a;"模板字符串"%(数据1&#xff0c;数据2...)基础类型占位符1.%s &#xff1a;适配字符串…...

大模型常识能力构建:从幻觉到可信赖推理的四层工程实践

1. 项目概述&#xff1a;当大模型开始“琢磨事儿”——我们离真正有常识的AI还有多远&#xff1f;你有没有试过让当前最火的大模型帮你解决一个看似简单、却需要生活经验的问题&#xff1f;比如&#xff1a;“如果我把一罐可乐放进冰箱冷冻室&#xff0c;两小时后拿出来&#x…...

JWT权限治理:从无状态凭证到可管控权限单元

1. 这不是又一个“登录后跳转首页”的玩具项目JWT在Java Web权限控制里被讲烂了&#xff0c;但绝大多数人写的所谓“基于JWT的系统”&#xff0c;其实连Token刷新都靠前端定时重登&#xff0c;后端连黑名单都没建&#xff0c;更别提并发登出、设备绑定、权限粒度动态变更这些真…...

MySQL调优实战:MySQL日志机制深入解析,redo/undo/binlog/slow/error日志底层全通透

一、MySQL五大日志总览&#xff08;全局认知&#xff09;MySQL 日志严格分为两层&#xff1a;Server层日志 InnoDB引擎层日志。这是90%人混淆的根源&#xff1a;1.1 Server层日志&#xff08;所有引擎通用&#xff09;Binlog&#xff08;二进制日志&#xff09;&#xff1a;主…...