当前位置：首页 > news >正文

大数据课程K5——Spark的框架核心概念

news 2026/5/12 23:35:41

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州

▲ 本章节目的

⚪ 了解Spark的框架核心概念；

⚪ 掌握Spark的Spark集群模式安装；

⚪ 掌握Spark的Spark架构；

⚪ 掌握Spark的Spark调度模块；

一、Spark框架核心概念

1. RDD。弹性分布式数据集，是Spark最核心的数据结构。有分区机制，所以可以分布式进行处理。有容错机制，通过RDD之间的依赖关系来恢复数据。

2. 依赖关系。RDD的依赖关系是通过各种Transformation（变换）来得到的。父RDD和子RDD之间的依赖关系分两种：①窄依赖 ②宽依赖。

①针对窄依赖：父RDD的分区和子RDD的分区关系是：一对一。

窄依赖不会发生Shuffle，执行效率高，spark框架底层会针对多个连续的窄依赖执行流水线优化，从而提高性能。例如 map flatMap等方法都是窄依赖方法。

②针对宽依赖：父RDD的分区和子RDD的分区关系是：一对多。

宽依赖会产生shuffle，会产生磁盘读写，无法优化。

3. DAG。有向无环图，当一整条RDD的依赖关系形成之后，就形成了一个DAG。一般来说，一个DAG，最后都至少会触发一个Action操作，触发执行。一个Action对应一个Job任务。

4. Stage。一个DAG会根据RDD之间的依赖关系进行Stage划分，流程是：以Action为基准，向前回溯，遇到宽依赖，就形成一个Stage。遇到窄依赖，则执行流水线优化（将多个连续的窄依赖放到一起执行）。

5. task。任务。一个分区对应一个task。可以这样理解：一个Stage是一组Task的集合。

6. RDD的Transformation（变换）操作：懒执行，并不会立即执行。

7. RDD的Action(执行）操作：触发真正的执行。

二、Spark集群模式安装

大数据课程K5——Spark的框架核心概念

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州 ▲ 本章节目的 ⚪ 了解Spark的框架核心概念； ⚪ 掌握Spark的Spark集群模式安装； ⚪ 掌握Spark的Spark架构； ⚪ 掌握Spark的Spark调度模块；一、Spark框架核心概念 1. RDD。弹性分布式数据集，是Spark最…...

编程日记 2023/8/24 6:41:32

【⑬MySQL | 数据类型(一)】简介 | 整数 | 浮点 | 定点类型

前言 ✨欢迎来到小K的MySQL专栏，本节将为大家带来MySQL数据类型简介 | 整数 | 浮点 | 定点类型的分享✨ 目录前言0.数据类型简介1 整数类型2 浮点类型3 定点类型4 日期/时间类型总结 0.数据类型简介数据类型（data_type）是指系统中所允许的…...

编程日记 2023/8/24 6:40:31

5.6 汇编语言：汇编高效数组寻址

数组和指针都是用来处理内存地址的操作，二者在C语言中可以互换使用。数组是相同数据类型的一组集合，这些数据在内存中是连续存储的，在C语言中可以定义一维、二维、甚至多维数组。多维数组在内存中也是连续存储的，只是数据的组织方…...

编程日记 2023/8/24 6:39:30

uniapp - 实现卡片式胶囊单选后右上角出现 “√“ 对勾对号选中效果功能，适用于小程序h5网页app全平台通用（一键复制组件源码，开箱即用！）

效果图 uniapp全平台兼容（小程序/h5网页/app）实现点击选择后，右上角出现 √ 对号效果（角标形式展现），功能组件，改个样式，直接复制使用该组件。组件源码在 components 组件文件夹下，随便建立一个 .vue 文件，一键复制下方源码。...

编程日记 2023/8/24 6:38:29

使用Jetpack Compose构建可折叠Card

使用Jetpack Compose构建可折叠Card 为何在Android应用开发中使用扩展卡片扩展卡片在Android应用开发中广受欢迎，它们可以让开发者打造干净紧凑的用户界面，同时可以轻松展开，显示额外的内容。通过巧妙地使用扩展卡片，开发者可…...

编程日记 2023/8/24 6:37:28

安卓手机跑 vins slam （1）

我是迪卡魏曼依奇，一直是用手机拍照，将图片导出到电脑，然后使用RealityCapture三维重建。 RealityCapture是靠特征点去把拍摄的多个图像进行对齐的。需要拍摄的足够多，且有特征才能对齐，要不然很多图像会找不到公共点…...

编程日记 2023/8/24 6:36:27

腾讯云-对象存储服务（COS）的使用总结

简介对象存储（Cloud Object Storage，COS）是腾讯云提供的一种存储海量文件的分布式存储服务，具有高扩展性、低成本、可靠安全等优点。通过控制台、API、SDK 和工具等多样化方式，用户可简单、快速地接入 COS&#xff0…...

编程日记 2023/8/24 6:35:26

一、实体类定义： public class Company {private String name;private String address;public String getName() {return name;}public void setName(String name) {this.name name;}public String getAddress() {return address;}public void setAddress(String a…...

编程日记 2023/8/24 6:34:24

Unity 图片资源的适配

前言最近小编做Unity项目时，发现在资源处理这方面和Android有所不同；例如：Android的资源文件夹res下会有着mipmap-mdpi，mipmap-hdpi，mipmap-xhdpi，mipmap-xxhdpi，mipmap-xxxhdpi这五个文件夹&a…...

编程日记 2023/8/24 6:33:23

【Axure高保真原型】通过输入框动态控制折线图

今天和大家分享通过输入框动态控制折线图的原型模板，在输入框里维护项目数据，可以自动生成对应的折线图，鼠标移入对应折点，可以查看对应数据。使用也非常方便，只需要修改输入框里的数据，或者复制粘贴文本&a…...

编程日记 2023/8/24 6:32:21

【Java】树结构数据的搜索

这里写自定义目录标题需要实现的效果前端需要的json格式：一定是一个完整的树结构错误错误的返回格式错误的返回格式实现的效果正确正确的返回格式正确的展示画面后端逻辑分析代码总览数据库表结构需要实现的效果前端需要的json格式：一定是一个完整…...

编程日记 2023/8/24 6:31:19

ElementUI中的日历组件加载无效的问题

在ElementUI中提供了一个日历组件。在某些场景下还是比较有用的。只是在使用的时候会有些下坑，大家要注意下。官网提供的信息比较简介。我们在引入到项目中使用的时候可以能会出现下面的错误提示。 Unknown custom element: <el-calendar> - did you …...

编程日记 2023/8/24 6:30:18

Git版本管理（03）stash临时操作和.gitignore配置

1 git stash操作(临时存储) 1.1 git stash常见流程当你修改了某一个分支，但此时要切换分支时如果直接切换会因为一些修改冲突而checkout失败，那么此时就可以使用git stash命令来解决该问题。一般流程为： $git pull# 将当前未提交的修改…...

编程日记 2023/8/24 6:29:17

【ThingJS | 3D可视化】开发框架，一站式数字孪生

博主：_LJaXi Or 東方幻想郷专栏： 数字孪生 | 3D可视化框架开发工具：ThingJS在线开发工具 ThingJs 低代码开发 ThingJs 低代码开发注意点场景效果配置层级层级常用API实例化 Thing，加载场景load 加载函数ThingJs 层级关系图查找层…...

编程日记 2023/8/24 6:28:16

SpringBoot返回响应排除为 null 的字段

SpringBoot返回响应排除为 null 的字段可以通过全局配置，使返回响应中为null的字段，不在出现在返回结果中。注意：这样配置，使得返回响应包含的字段随请求结果变化，响应到底包含哪些字段不直观；除非业务…...

编程日记 2023/8/24 6:27:14

华为数通方向HCIP-DataCom H12-821题库(单选题：41-60)

第41题以下关于IS-IS协议说法错误的是? A、IS-IS协议支持CLNP网络 B、IS-IS 协议支持IP 网络 C、IS-IS 协议的报文直接由数据链路层封装 D、IS-IS协议是运行在AS之间的链路状态协议答案：D 解析： 关于IS-IS协议的说法错误是D. IS-IS协议是运行在A…...

编程日记 2023/8/24 6:26:13

OpenAI推出GPT-3.5Turbo微调功能并更新API；Midjourney更新局部绘制功能

🦉 AI新闻 🚀 OpenAI推出GPT-3.5Turbo微调功能并更新API，将提供GPT-4微调功能摘要：OpenAI宣布推出GPT-3.5Turbo微调功能，并更新API，使企业和开发者能够定制ChatGPT，达到或超过GPT-4的能力。通…...

编程日记 2023/8/24 6:25:12

相机成像之3A算法的综述

3A算法是摄像机成像控制技术中的三大自动控制算法。随着计算机视觉的迅速发展，该算法在摄像器材领域具有广泛的应用和前景。那么3A控制算法又是指什么呢？ (1)AE (Auto Exposure)自动曝光控制 (2)AF (Auto Focus)自动聚焦控制 (3)AWB (Auto White Balance)自动白平衡控…...

编程日记 2023/8/24 6:24:12