当前位置：首页 > news >正文

大数据学习之Spark分布式计算框架RDD、内核进阶

news 2026/1/1 3:27:38

一.RDD

28.RDD_为什么需要RDD

29.RDD_定义

30.RDD_五大特性总述

31.RDD_五大特性1

32.RDD_五大特性2

33.RDD_五大特性3

34.RDD_五大特性4

35.RDD_五大特性5

36.RDD_五大特性总结

37.RDD_创建概述

38.RDD_并行化创建

演示代码：

// 获取当前 RDD 的分区数

@Since ( "1.6.0" )

final def getNumPartitions : Int =

partitions . length

// 显示出 RDD 被分配到不同分区的信息

/**Return an RDD created by coalescing all

elements within each partition into an

array.*/

def glom (): RDD [ Array [ T ]]

package com . itbaizhan . rdd

//1. 导入 SparkConf 类、 SparkContext

import org . apache . spark . rdd . RDD

import org . apache . spark .{ SparkConf ,

SparkContext }

object CreateByParallelize {

def main ( args : Array [ String ]): Unit = {

//2. 构建 SparkConf 对象。并设置本地运行和程序的

名称

val conf = new

SparkConf (). setMaster ( "local[2]" ). setAppName

( "CreateRdd1" )

//3. 构建 SparkContext 对象

val sc = new SparkContext ( conf )

//4. 通过并行化创建 RDD 对象：将本地集合 -> 分布式的

RDD 对象

//val rdd: RDD[Int] =

sc.parallelize[Int](List(1, 2, 3, 4, 5, 6,

7, 8))

val rdd : RDD [ Int ] =

sc . parallelize ( List ( 1 , 2 , 3 , 4 , 5 , 6 , 7 ,

8 ), 3 )

//5. 输出默认的分区数

//5.1

setMaster("local[*]")&¶llelize(List(1,

2, 3, 4, 5, 6, 7, 8))

//println(" 默认分区

数： "+rdd.getNumPartitions)//8, 默认当前系统的

CPU 数

//5.2

setMaster("local[2]")&¶llelize(List(1,

2, 3, 4, 5, 6, 7, 8))

//println(" 默认分区

数： "+rdd.getNumPartitions)//2

//5.3

setMaster("local[2]")&¶llelize(List(1,

2, 3, 4, 5, 6, 7, 8),3)

println ( " 默认分区

数： " + rdd . getNumPartitions ) //3

//6.collect 方法：将 rdd 对象中每个分区的数据，都

发送到 Driver ，形成一个 Array 对象

val array1 : Array [ Int ] = rdd . collect ()

println ( "rdd.collect()=" + array1 . mkString ( ",

" ))

//7. 显示出 rdd 对象中元素被分布到不同分区的数据信

息

80 运行结果：

实时效果反馈

1. 以下关于并行化创建 RDD 的描述错误的是：

通过并行化集合创建，将本地集合对象转分布式 RDD 。

parallelize() 方法必须传递两个参数。

parallelize 没有给定分区数 , 默认分区数等于执行程序的当前

服务器 CPU 核数。

答案：

val array2 : Array [ Array [ Int ]] =

rdd . glom (). collect ()

println ( "rdd.glom().collect() 的内容是 :" )

/*for(eleArr<- array2){

println(eleArr.mkString(","))

}*/

array2 . foreach ( eleArr => println ( eleArr . mkStr

ing ( "," )))

}

默认分区数： 3

rdd.collect()=1,2,3,4,5,6,7,8

rdd.glom().collect() 的内容是 :

1,2

3,4,5

6,7,8

39.RDD_读取文件创建RDD

40.RDD_读取小文件创建RDD

扩展 wholeTextFiles 适合读取一堆小文件：

//path 指定小文件的路径目录

//minPartitions 最小分区数可选参数

def wholeTextFiles ( path :

String , minPartitions : Int =

defaultMinPartitions ): RDD [( String , String )]

85 代码演示：

package com . itbaizhan . rdd

//1. 导入类

import org . apache . spark . rdd . RDD

import org . apache . spark .{ SparkConf ,

SparkContext }

object CreateByWholeTextFiles {

def main ( args : Array [ String ]): Unit = {

//2. 构建 SparkConf 对象，并设置本地运行和程序名

称

val conf : SparkConf = new

SparkConf (). setMaster ( "local[*]" ). setAppName

( "WholeTextFiles" )

//3. 使用 conf 对象构建 SparkContet 对象

val sc = new SparkContext ( conf )

//5. 读取指定目录下的小文件

val rdd : RDD [( String , String )] =

sc . wholeTextFiles ( "data/tiny_files" )

//(filePath1, " 内容 1"),(filePath2, " 内容

2"),...,(filePathN, " 内容 N")

val tuples : Array [( String , String )] =

rdd . collect ()

tuples . foreach ( ele => println ( ele . _1 , ele . _2 ))

//6. 获取小文件中的内容

val array : Array [ String ] =

rdd . map ( _ . _2 ). collect ()

println ( "---------------------------" )

println ( array . mkString ( "|" ))

//4. 关闭 sc 对象

86 运行输出结果 :

RDD_ 算子概述

定义： 分布式集合 RDD 对象的方法被称为算子

算子分类：

Transformation 转换算子

Action 行动算子

sc . stop ()

}

(file:/D:/codes/itbaizhan/sparkdemo/data/tin

y_files/file1.txt,hello Linux

hello Zookeper

hello Maven

hello hive

hello spark)

(file:/D:/codes/itbaizhan/sparkdemo/data/tin

y_files/file2.txt,Spark Core

Spark RDD

Spark Sql)

----------------

hello Linux

hello Zookeper

hello Maven

hello hive

hello spark|Spark Core

Spark RDD

Spark Sql

41.RDD_算子概述

42.RDD_转换算子map

43.RDD_转换算子flatmap

44.RDD_转换算子reducebykey

45.RDD_转换算子filter

46.RDD_转换算子distinct

47.RDD_转换算子glom

48.RDD_转换算子groupby

object RddGroupBy {

def main ( args : Array [ String ]): Unit = {

//2. 构建 SparkConf 对象，并设置本地运行和程序名

称

val conf : SparkConf = new

SparkConf (). setMaster ( "local[*]" ). setAppName

( "groupBy" )

//3. 使用 conf 对象构建 SparkContet 对象

val sc = new SparkContext ( conf )

//5. 创建 Rdd

val rdd : RDD [( Char , Int )] =

sc . parallelize ( Array (( 'a' , 1 ), ( 'a' , 2 ),

( 'b' , 1 ), ( 'b' , 2 ), ( 'a' , 3 ), ( 'a' , 4 )))

//6. 通过 groupBy 算子对 rdd 对象中的数据进行分组

//groupBy 插入的函数的用意是指定按照谁进行分组

// 分组后的结果是有二元组组成的 RDD

val gbRdd : RDD [( Char , Iterable [( Char ,

Int )])] = rdd . groupBy ( tupEle => tupEle . _1 )

// 收集到 Driver 端

val result1 : Array [( Char ,

Iterable [( Char , Int )])] = gbRdd . collect ()

//(a,CompactBuffer((a,1), (a,2), (a,3),

(a,4))),(b,CompactBuffer((b,1), (b,2)))

println ( result1 . mkString ( "," ))

//7. 使用 map 转换算子

//(a,List((a,1), (a,2), (a,3), (a,4))),

(b,List((b,1), (b,2)))

val result2 : Array [( Char , List [( Char ,

Int )])] = gbRdd . map ( tup => ( tup . _1 ,

tup . _2 . toList )). collect ()

println ( result2 . mkString ( "," ))

104 实时效果反馈

1. 以下关于

rdd.groupBy(tupEle => tupEle._1)

的描述错误的是：

groupBy 传入的函数的意思是 : 通过这个函数 , 确定按照谁来

分组。

groupBy 方法适用于元素为元祖类型的 RDD ，元祖元素的个

数只能为 2 。

groupBy 方法适用于元素为元祖类型的 RDD ，元祖元素的个

数 >=2 。

答案：

1=>B

49.RDD_转换算子groupbyKey

50.RDD_转换算子sortby

51.RDD_转换算子sortbyKey

52.RDD_转换算子union并集

53.RDD_转换算子交集和差集

54.RDD_转换算子关联算子

55.RDD_转换算子partitionBy

56.RDD_转换算子mapPatitions

57.RDD_转换算子sample

58.RDD_行动算子foreachPartition

59.RDD_行动算子foreach

60.RDD_行动算子saveAsTestFile

61.RDD_行动算子countByKey

62.RDD_行动算子reduce

63.RDD_行动算子fold

64.RDD_行动算子first_take_count

65.RDD_行动算子top_takeOrderd

66.RDD_行动算子takeSample

二.内核进阶

67.内核进阶_DAG概述

68.内核进阶_血缘关系

69.内核进阶_宽窄依赖关系

70.内核进阶_stage划分

71.内核进阶_任务调度概述

72.内核进阶_管道计算模式上

73.内核进阶_管道计算模式下

74.内核进阶_cache缓存

75.内核进阶_checkpoint检查点

76.内核进阶_cache和checkpoint区别

77.内核进阶_并行度

78.内核进阶_广播变量

79.内核进阶_累加器一

80.内核进阶_累加器二

81.内核进阶_累加器之重复计算

82.内核进阶_项目实战PVUV需求分析

83.内核进阶_项目实战PV分析

84.内核进阶_项目实战UV分析

85.内核进阶_二次排序实战

86.内核进阶_分组取topN实战

87.内核进阶_卡口统计项目需求分析

88.内核进阶_卡口统计项目统计正常的卡口

89.内核进阶_卡口统计项目TOP5

90.内核进阶_卡口统计项目统计不同区域同时出现的车辆

91.内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹一

92.内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹二

93.内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹三

94.内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹四

大数据学习之Spark分布式计算框架RDD、内核进阶

一.RDD 28.RDD_为什么需要RDD 29.RDD_定义 30.RDD_五大特性总述 31.RDD_五大特性1 32.RDD_五大特性2 33.RDD_五大特性3 34.RDD_五大特性4 35.RDD_五大特性5 36.RDD_五大特性总结 37.RDD_创建概述 38.RDD_并行化创建演示代码： // 获取当前 RDD 的分区数 Since ( …...

编程日记 2025/2/7 10:05:35

Unity 加载OSGB(webgl直接加载，无需转换格式！)

Unity webgl加载倾斜摄影数据前言效果图后续不足前言 Unity加载倾斜摄影数据，有很多的插件方便好用，但是发布到网页端均失败，因为webgl 的限制，IO读取失效。前不久发现一个开源项目: UnityOSGB-main 通过两种方式在 Unity 中…...

编程日记 2025/2/7 10:04:32

tcp/ip网络协议，tcp/ip网络协议栈

TCP/IP网络协议和TCP/IP网络协议栈是互联网通信的基石，它们定义了电子设备如何连入因特网以及数据如何在它们之间传输的标准。以下是对TCP/IP网络协议和TCP/IP网络协议栈的详细解释： 一、TCP/IP网络协议 TCP/IP（Transmission Control Proto…...

编程日记 2025/2/7 9:57:16

【Debug】the remote host closed the connection错误信息分析

出现的情况说明：QT软件。刚开始都可以连接成功之后连接断开几次就会出现连接失败错误信息是the remote host closed the connection。the remote host closed the connection广泛原因分析这个错误通常意味着远端 STM32 服务器主动关闭了连接。可能的原因包括&a…...

编程日记 2025/2/7 9:56:08

SpringBoot扩展篇：@Scope和@Lazy源码解析

SpringBoot扩展篇：Scope和Lazy源码解析 1. 研究主题及Demo2. 注册BeanDefinition3. 初始化属性3.1 解决依赖注入3.2 创建代理 ContextAnnotationAutowireCandidateResolver#getLazyResolutionProxyIfNecessary3.3 代理拦截处理3.4 单例bean与原型bean创建的区别 4. …...

编程日记 2025/2/7 9:54:04

“AI隐患识别系统，安全多了道“智能护盾”

家人们，在生活和工作里，咱们都知道安全那可是头等大事。不管是走在马路上，还是在工厂车间忙碌，又或是住在高楼大厦里，身边都可能藏着一些安全隐患。以前，发现这些隐患大多靠咱们的眼睛和经验，可…...

编程日记 2025/2/7 9:53:03

通向AGI之路：人工通用智能的技术演进与人类未来

文章目录引言：当机器开始思考一、AGI的本质定义与技术演进1.1 从专用到通用：智能形态的范式转移1.2 AGI发展路线图二、突破AGI的五大技术路径2.1 神经符号整合（Neuro-Symbolic AI）2.2 世界模型架构（World Models）2.3 具身认知理论（Embodied Cognition）三、AGI安全：价…...

编程日记 2025/2/7 9:52:02

论文阅读：InstanceDiffusion: Instance-level Control for Image Generation

CVPR2024文章摘要： 文本到图像扩散模型产生高质量的图像，但不提供对图像中单个实例的控制。我们引入了InstanceDiffusion，它将精确的实例级控制添加到文本到图像扩散模型中。InstanceDiffusion 支持每个实例的自由形式的语言条件&#xff…...

编程日记 2025/2/7 9:51:00

7.攻防世界 wzsc_文件上传

打开题目页面如下上传了一张带有木马的图片返回的页面是空白的，不过路径变了猜测存在根目录/upload 也可以通过dirsearch扫描根目录命令： dirsearch -u http://61.147.171.105:65024/ -e* 终于得到了上传的文件的信息但是测试发现.php文件以及.…...

编程日记 2025/2/7 9:47:57

以为是响应式对象丢失导致数据没有回显

背景：之前ruoyi生成的vue2代码， <el-form ref“form”，后面我改成vue3的写法，没有实例化form， 在vue3中是需要定义const form ref(); 导致点击了修改后，页面弹框显示出来，数据没有回显。一直…...

编程日记 2025/2/7 9:44:50

来 Gitcode 免费体验 DeepSeek 蒸馏模型，开启 AI 探索新旅程

在 AI 技术飞速发展的时代，你是否也怀揣着对前沿科技的无限好奇与探索欲望？然而，昂贵的模型体验费用和复杂的操作流程，是不是让你一次次望而却步？现在，这些都不再是问题！DeepSeek 蒸馏模型现已强…...

编程日记 2025/2/7 9:42:46

2.Mkdocs配置说明（mkdocs.yml）【最新版】

官方文件：Changing the colors - Material for MkDocs 建议详细学习一下上面的官方网站↑↑↑ 我把我目前的配置文件mkdocs.yml代码写在下面👇🏻 #[Info] site_name: Mkdocs教程 #your site name 显示在左上角 site_url: http://wcowin.wo…...

编程日记 2025/2/7 9:40:41

云轴科技ZStack+海光DCU：率先推出DeepSeek私有化部署方案

针对日益强劲的AI推理需求和企业级AI应用私有化部署场景（Private AI），云轴科技ZStack联合海光信息，共同推动ZStack智塔全面支持DeepSeek V3/R1/Janus Pro系列模型，基于海光DCU实现高性能适配，为企业提供安全…...

编程日记 2025/2/7 9:37:38

扩增子分析|零模型2——基于βNTI的微生物随机性和确定性装配过程（箱线图和柱状图R中实现）

一、引言我们之前发布的周集中老师团队零模型R中实战案例：扩增子分析|基于零模型的群落确定性和随机性构建过程——R实战_bmntd-CSDN博客。在文末只输出了一个.csv 表格。并没有提供绘图的方法，有小伙伴问如何在R中一键成图呢？还真可以&…...

编程日记 2025/2/7 9:35:36

专题：剑指offer

链表 JZ6 从尾到头打印链表思路：先顺序输出到栈里面然后再以此从栈顶弹出即可 /** * struct ListNode { * int val; * struct ListNode *next; * ListNode(int x) : * val(x), next(NULL) { * } * }; */ #include …...

编程日记 2025/2/7 9:31:31

DeepSeek 部署过程中的问题

文章目录 DeepSeek 部署过程中的问题一、部署扩展：docker 部署 DS1.1 部署1.2 可视化二、问题三、GPU 设置3.1 ollama GPU 的支持情况3.2 更新 GPU 驱动3.3 安装 cuda3.4 下载 cuDNN3.5 配置环境变量四、测试 DeepSeek 部署过程中的问题 Windows 中利用 ollama 来…...

编程日记 2025/2/7 9:30:26

DeepSeek R1本地化部署 Ollama + Chatbox 打造最强 AI 工具

🌈 个人主页：Zfox_ 🔥 系列专栏：Linux 目录一：🔥 Ollama 🦋 下载 Ollama🦋 选择模型🦋 运行模型🦋 使用 && 测试二：🔥 Chat…...

编程日记 2025/2/7 9:21:17

应急场景中的数据融合与对齐

1. 概述在应急管理中，快速、准确地掌握现场状况、实时监控灾情并进行决策至关重要。各类数据（如卫星影像、无人机图像、激光雷达点云、地理信息系统（GIS）数据、传感器数据、社交媒体信息、移动终端数据等）具有来源广泛、格式多样、时空特性不同等特点。如何将这些异构数…...

编程日记 2025/2/7 9:18:14

手机上运行AI大模型(Deepseek等)

最近deepseek的大火，让大家掀起新一波的本地部署运行大模型的热潮，特别是deepseek有蒸馏的小参数量版本，电脑上就相当方便了，直接ollamaopen-webui这种类似的组合就可以轻松地实现，只要硬件，如显存&#xf…...

编程日记 2025/2/7 9:17:11

Mellanox网卡信息查看

1、查看Mellanox网卡的SN（序列号）和PN mstvpd 04:00.0或者lspci -s 04:00.0 -vvv来自https://enterprise-support.nvidia.com/s/article/MLNX2-117-2532kn 2、查看Mellanox网卡驱动、固件版本 ethtool -i ens6np0...

编程日记 2025/2/7 9:14:07

利用ngx_stream_return_module构建简易 TCP/UDP 响应网关

一、模块概述 ngx_stream_return_module 提供了一个极简的指令： return <value>;在收到客户端连接后，立即将 <value> 写回并关闭连接。<value> 支持内嵌文本和内置变量（如 $time_iso8601、$remote_addr 等）&a…...

编程新知 2025/9/21 0:49:02

SCAU期末笔记 - 数据分析与数据挖掘题库解析

这门怎么题库答案不全啊日来简单学一下子来一、选择题（可多选） 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 A. 频繁模式挖掘：专注于发现数据中…...

编程新知 2025/12/30 17:15:14

376. Wiggle Subsequence

376. Wiggle Subsequence 代码 class Solution { public:int wiggleMaxLength(vector<int>& nums) {int n nums.size();int res 1;int prediff 0;int curdiff 0;for(int i 0;i < n-1;i){curdiff nums[i1] - nums[i];if( (prediff > 0 && curdif…...

编程新知 2025/12/21 4:14:07

工程地质软件市场：发展现状、趋势与策略建议

一、引言在工程建设领域，准确把握地质条件是确保项目顺利推进和安全运营的关键。工程地质软件作为处理、分析、模拟和展示工程地质数据的重要工具，正发挥着日益重要的作用。它凭借强大的数据处理能力、三维建模功能、空间分析工具和可视化展示手段&…...

编程新知 2025/10/6 6:10:29

管理学院权限管理系统开发总结

文章目录 🎓 管理学院权限管理系统开发总结 - 现代化Web应用实践之路📝 项目概述🏗️ 技术架构设计后端技术栈前端技术栈 💡 核心功能特性1. 用户管理模块2. 权限管理系统3. 统计报表功能4. 用户体验优化 🗄️ 数据库设…...

编程新知 2025/10/23 14:10:35

中医有效性探讨

文章目录西医是如何发展到以生物化学为药理基础的现代医学？传统医学奠基期（远古 - 17 世纪）近代医学转型期（17 世纪 - 19 世纪末）现代医学成熟期（20世纪至今） 中医的源远流长和一脉相承远古至…...

编程新知 2025/12/31 14:28:57

C++：多态机制详解

目录一. 多态的概念 1.静态多态（编译时多态） 二.动态多态的定义及实现 1.多态的构成条件 2.虚函数 3.虚函数的重写/覆盖 4.虚函数重写的一些其他问题 1）.协变 2）.析构函数的重写 5.override 和 final关键字 1&#…...

编程新知 2025/12/31 17:36:45

Mysql8 忘记密码重置，以及问题解决

1.使用免密登录找到配置MySQL文件，我的文件路径是/etc/mysql/my.cnf，有的人的是/etc/mysql/mysql.cnf 在里最后加入 skip-grant-tables重启MySQL服务 service mysql restartShutting down MySQL… SUCCESS! Starting MySQL… SUCCESS! 重启成功 2.登…...

编程新知 2025/11/18 6:15:28

基于Springboot+Vue的办公管理系统

角色： 管理员、员工技术： 后端: SpringBoot, Vue2, MySQL, Mybatis-Plus 前端: Vue2, Element-UI, Axios, Echarts, Vue-Router 核心功能： 该办公管理系统是一个综合性的企业内部管理平台，旨在提升企业运营效率和员工管理水…...

编程新知 2025/12/31 22:39:20

C语言中提供的第三方库之哈希表实现

一. 简介前面一篇文章简单学习了C语言中第三方库（uthash库）提供对哈希表的操作，文章如下： C语言中提供的第三方库uthash常用接口-CSDN博客本文简单学习一下第三方库 uthash库对哈希表的操作。二. uthash库哈希表操作示例 u…...

编程新知 2025/11/9 14:40:17

一.RDD

28.RDD_为什么需要RDD

29.RDD_定义

30.RDD_五大特性总述

31.RDD_五大特性1

32.RDD_五大特性2

33.RDD_五大特性3

34.RDD_五大特性4

35.RDD_五大特性5

36.RDD_五大特性总结

37.RDD_创建概述

38.RDD_并行化创建

39.RDD_读取文件创建RDD

40.RDD_读取小文件创建RDD

41.RDD_算子概述

42.RDD_转换算子map

43.RDD_转换算子flatmap

44.RDD_转换算子reducebykey

45.RDD_转换算子filter

46.RDD_转换算子distinct

47.RDD_转换算子glom

48.RDD_转换算子groupby

49.RDD_转换算子groupbyKey

50.RDD_转换算子sortby

51.RDD_转换算子sortbyKey

52.RDD_转换算子union并集

53.RDD_转换算子交集和差集

54.RDD_转换算子关联算子

55.RDD_转换算子partitionBy

56.RDD_转换算子mapPatitions

57.RDD_转换算子sample

58.RDD_行动算子foreachPartition

59.RDD_行动算子foreach

60.RDD_行动算子saveAsTestFile

61.RDD_行动算子countByKey

62.RDD_行动算子reduce

63.RDD_行动算子fold

64.RDD_行动算子first_take_count

65.RDD_行动算子top_takeOrderd

66.RDD_行动算子takeSample

二.内核进阶

67.内核进阶_DAG概述

68.内核进阶_血缘关系

69.内核进阶_宽窄依赖关系

70.内核进阶_stage划分

71.内核进阶_任务调度概述

72.内核进阶_管道计算模式上

73.内核进阶_管道计算模式下

74.内核进阶_cache缓存

75.内核进阶_checkpoint检查点

76.内核进阶_cache和checkpoint区别

77.内核进阶_并行度

78.内核进阶_广播变量

79.内核进阶_累加器一

80.内核进阶_累加器二

81.内核进阶_累加器之重复计算

82.内核进阶_项目实战PVUV需求分析

83.内核进阶_项目实战PV分析

84.内核进阶_项目实战UV分析

85.内核进阶_二次排序实战

86.内核进阶_分组取topN实战

87.内核进阶_卡口统计项目需求分析

88.内核进阶_卡口统计项目统计正常的卡口

89.内核进阶_卡口统计项目TOP5

90.内核进阶_卡口统计项目统计不同区域同时出现的车辆

91.内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹一

92.内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹二

93.内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹三

94.内核进阶_卡口统计项目统计某卡口下通过的车辆轨迹四

相关文章：