当前位置: 首页 > news >正文

大数据学习(22)-spark

&&大数据学习&&

🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


Spark是一个基于内存计算的大数据并行计算框架,具有快速、易用、通用等特点。它支持多种数据处理模式,包括批处理、迭代算法、交互式查询、流处理等,可以一站式地完成大数据领域的离线批处理、交互式查询、流式计算、机器学习、图计算等常见的任务。Spark内置了Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX等技术组件,可以高效地处理大规模数据。相比于MapReduce,Spark的中间输出结果可以缓存到内存中,从而不再需要读写HDFS,减少了磁盘数据交互,能够更好地适应机器学习和数据挖掘等需要迭代的算法。

核心概念

  1. RDD(弹性分布式数据集):RDD是Spark的基本计算单元,一组RDD可形成执行的有向无环图(RDD Graph),并且具有“弹性”的特征,既可以在内存优先存储并计算,如果内存不够,再拿磁盘顶上。
  2. 执行器(Executor):在worker节点上启动的进程,负责执行任务。
  3. Worker:从节点,负责控制计算节点,启动Executor。
  4. Driver:运行Application的main()函数并创建SparkContext(应用程序的入口)。和集群的executor进行交互。
  5. SparkContext:整个应用的上下文,控制应用的生命周期。
  6. Stage:Spark基本概念总结中的一个阶段,由hdfs block或者hbase regioin数目决定。一个job可以划分为多个stage,stage之间是并行关系。每个stage可以有多个task。
  7. ClusterManager:在standalone模式中是Master(主节点),控制整个集群,监控Worker。在YARN模式下是资源管理器。
  1. Application:Spark应用程序,是用户提交的Spark任务,包含了应用程序的名称、集群的URL、提交的类名等信息。
  2. Application jar:Spark应用程序打包后的jar文件,包含了应用程序的代码和依赖项。
  3. Driver program:Spark的驱动程序,负责启动和管理应用程序的执行。在Spark中,每个应用程序都有一个对应的驱动程序。
  4. Cluster manager:Spark集群管理器,负责在集群中分配和管理资源。Spark支持多种集群管理器,例如Apache Mesos、YARN和Kubernetes等。
  5. Deploy mode:Spark应用程序的部署模式,它决定了应用程序如何在集群中运行。Spark支持三种部署模式:client、cluster和client+cluster。
  6. Worker node:Spark集群中的工作节点,它负责运行Spark应用程序中的任务(Task)。
  7. Executor:Spark应用程序运行在Executor上,它是一个进程,负责执行任务并管理应用程序的资源。每个Executor都有其自己的JVM和内存空间。
  8. Task:Spark任务是工作单元,它负责处理数据集中的一个分片(partition)。每个任务都被调度到一个Executor上执行。
  9. Job:Spark作业是一组相关的任务,它们被一起调度和执行。一个作业可以包含多个阶段(Stage)。
  10. Stage:Spark阶段是作业的一部分,它包含一组任务(Task)。阶段之间通过shuffle进行划分,每个阶段都会进行一次shuffle操作。

总结来说,Spark应用程序(Application)是用户提交的任务,驱动程序(Driver program)负责启动和管理应用程序的执行,集群管理器(Cluster manager)负责在集群中分配和管理资源,部署模式(Deploy mode)决定了应用程序如何在集群中运行。工作节点(Worker node)是负责运行任务的节点,而Executor进程负责执行任务和管理应用程序的资源。任务(Task)是工作单元,作业(Job)是一组相关的任务,阶段(Stage)则是作业的一部分,包含一组任务。
 

之后会持续更新spark,hive已经学完啦!

相关文章:

大数据学习(22)-spark

&&大数据学习&& 🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门 💖如果觉得博主的文章还不错的话,请点赞👍收藏⭐️留言📝支持一下博主哦&#x1f91…...

String类常用方法总结

目录 一.简单认识String 二.String对象的比较 1.equals 内部实现原理: 2.compareTo 3.compareToIgnoreCase 三.字符串查找 示例: 四.字符串与其他类型转化 1.数值和字符串相互转换 2.大小写相互转化 3.字符串转数组 4.格式化转化 五.字符串…...

TensorFlow实战教程(二十八)-Keras实现BiLSTM微博情感分类和LDA主题挖掘分析

从本专栏开始,作者正式研究Python深度学习、神经网络及人工智能相关知识。前一篇文章通过Keras深度学习构建CNN模型识别阿拉伯手写文字图像,一篇非常经典的图像分类文字。这篇文章将结合文本挖掘介绍微博情感分类知识,包括数据预处理、机器学习和深度学习的情感分类,后续结…...

个人博客添加访问人数以及访问时间-githubpage

layout: post # 使用的布局(不需要改) title: 个人博客添加访问人数以及访问时间 # 标题 subtitle: 个人博客优化 #副标题 date: 2023-11-18 # 时间 author: BY ThreeStones1029 # 作者 header-img: img/about_bg.jpg #这篇文章标题背景图片 catalog: tr…...

Django--重定向redirect

在 Django 中,redirect 是一个用于进行重定向的函数。它允许你将用户从一个 URL 重定向到另一个 URL,通常用于处理表单提交、用户登录、用户注册等操作后的页面跳转。redirect 函数属于 django.shortcuts 模块。 以下是 redirect 函数的基本用法和一些参…...

在html和css中的引用svg(一)

问题&#xff1a;如何让 DIV 中的svg垂直居中&#xff1f; HTML 代码&#xff1a; <div class"content"><svg ...> ... </svg></div> CSS代码&#xff1a; .content svg { vertical-align: middle;} 实用扩展&#xff1a;如何让 DIV 中…...

C/C++ 实现:自然排序:针对两个需要排序的字符串,不仅逐个比较每个字符的顺序,对于连在一起的数字字符会作为一个完整数字进行比较 某知名企业的笔试题

目录 题目描述: 分析: 代码实现: 完整代码: 运行结果: 题目描述: 下面是一个自然排序函数的声明,请实现该函数; 自然排序是指:针对两个需要排序的字符串,不仅逐个比较每个...

sse实时通信

使用原因&#xff1a;用户网络环境较差&#xff0c;之前使用ws总是出现断连重连&#xff0c;导致数据总是不能实时更新&#xff0c;所以更换为sse npm install event-source-polyfill createWebSocket&#xff1a;创建sse连接 getWebSocketMsg&#xff1a;接收sse消息 impo…...

Qt专栏3—Qt项目创建Hello World

setp1 打开软件 双击Qt Creator 11.0.3 (Community)&#xff0c;打进入软件界面 step2 创建项目 点击创建项目 step3 选择模板 选着Application&#xff08;Qt&#xff09;->Qt Widgets Application setp4 设置项目 名称中填入项目号名&#xff0c;创建路径中填入项目保存位…...

linux输出的重定向无效问题和解决

我们在调试程序或者打印日志时经常会遇到重定向的问题,而有时候会遇到重定向无效的问题,下面给一个简单的例子,首先写一个简单的test.c #include <stdio.h>int main(){fprintf(stdout, "hello\n");fprintf(stderr, "world\n");return 0; }编译生…...

chromium114添加新的语言国际化支持

一、需求说明 需要chromium114支持新语言体系,例如藏语,蒙古语,苗语等 二、操作步骤 1. build/config/locales.gni修改 在all_chrome_locales变量中添加新的语种标识,如下图。 2. 添加编译文件,告诉浏览器在编译时需要加载和输出那些文件 尝试编译出现错误一提示。需要…...

赛氪荣幸受邀参与中国联合国采购促进会第五次会员代表大会

11 月21 日 &#xff08;星期二&#xff09; 下午14:00&#xff0c;在北京市朝阳区定福庄东街1号中国传媒大学&#xff0c;赛氪荣幸参与中国联合国采购促进会第五次会员代表大会。 2022年以来&#xff0c;联合国采购杯全国大学生英语大赛已经走上了国际舞台&#xff0c;共有来自…...

车载通信架构 —— 传统车内通信网络发展回顾

车载通信架构 —— 传统车内通信网络发展回顾 我是穿拖鞋的汉子&#xff0c;魔都中坚持长期主义的汽车电子工程师。 老规矩&#xff0c;分享一段喜欢的文字&#xff0c;避免自己成为高知识低文化的工程师&#xff1a; 屏蔽力是信息过载时代一个人的特殊竞争力&#xff0c;任何…...

`maven.test.skip` 和 `skipTests` 的区别

maven.test.skip 和 skipTests 的区别 -DskipTests&#xff0c;不执行测试用例&#xff0c;但编译测试用例类生成相应的class文件至target/test-classes下。 -Dmaven.test.skiptrue&#xff0c;不执行测试用例&#xff0c;也不编译测试用例类。...

linux输出的重定无效问题和解决

我们在调试程序或者打印日志时经常会遇到重定向的问题,而有时候会遇到重定向无效的问题,下面给一个简单的例子,首先写一个简单的test.c #include <stdio.h>int main(){fprintf(stdout, "hello\n");fprintf(stderr, "world\n");return 0; }编译生…...

开发上门按摩系统对技师如何管理,薪资结构怎么设计

开发完上门按摩系统平台上线之后&#xff0c;对技师的管理和薪资结构是非常重要的环节&#xff0c;关乎着平台的服务能力和服务质量&#xff0c;那么应该如何去管理和设计薪资结构呢 首先说技师管理&#xff1a; 一、培训和认证&#xff1a;平台应对技师进行全面的培训&#xf…...

云HIS系统源码,医院管理系信息统源码,融合B/S版四级电子病历系统

医院管理信息系统是以推进公共卫生、医疗、医保、药品、财务监管信息化建设为着力点&#xff0c;整合资源&#xff0c;加强信息标准化和公共服务信息平台建设&#xff0c;逐步实现统一高效、互联互通的管理系统。 SaaS模式Java版云HIS系统&#xff0c;在公立二甲医院应用三年…...

Redis篇---第十篇

系列文章目录 文章目录 系列文章目录前言一、怎么提高缓存命中率&#xff1f;二、Redis 如何解决 key 冲突&#xff1f;三、Redis 报内存不足怎么处理&#xff1f; 前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分…...

(vue)前后端配合实现文件预览功能

(vue)前后端配合实现文件预览功能 1.页面&#xff1a; 2.后台返回数据&#xff1a; 3.预览效果&#xff1a; 4.代码&#xff1a; <el-descriptions-item><template slot"label">文件名称</template><el-button type"text" click"…...

.NET 6 在已知拓扑路径的情况下使用 Dijkstra,A*算法搜索最短路径

📢欢迎点赞 :👍 收藏 ⭐留言 📝 如有错误敬请指正,赐人玫瑰,手留余香!📢本文作者:由webmote 原创📢作者格言:新的征程,我们面对的不仅仅是技术还有人心,人心不可测,海水不可量,唯有技术,才是深沉黑夜中的一座闪烁的灯塔 !背景介绍 突然闯到路径搜索算法里…...

论文解读:生成式智能体让25个AI小人自己组织了一场情人节派对

有没有想过&#xff0c;一个AI能不能"过日子"&#xff1f;不是回答你的问题&#xff0c;不是帮你写代码&#xff0c;不是在benchmark上刷分——而是真的像一个人那样&#xff0c;早上起来刷牙&#xff0c;出门前和家人聊两句&#xff0c;路上碰到邻居寒暄几句选举八卦…...

AISMM模型不是方法论,而是生存协议:致所有正在烧钱却看不到AI ROI的CEO(限时开放前100份能力成熟度快筛)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;AISMM模型不是方法论&#xff0c;而是生存协议 AISMM&#xff08;Autonomous Intelligence Security & Maintenance Model&#xff09;并非传统意义上供团队“选择采用”的工程方法论&#xff0c;而…...

LangGraph 重构个人知识库问答系统(稳定 + 可扩展版)

用 LangGraph 把之前的 RAG 系统重构为模块化、可扩展、带持久化、带错误处理的生产级架构。核心设计思想是&#xff1a;节点解耦、状态清晰、流程灵活、易于扩展。一、系统架构设计&#xff08;可扩展核心&#xff09;1. 核心流程&#xff08;图结构&#xff09;用户提问 → 检…...

从零搭建一个拼多多CPS返利小程序:我的踩坑记录与避坑指南

从零搭建一个拼多多CPS返利小程序&#xff1a;我的踩坑记录与避坑指南 去年夏天&#xff0c;我决定尝试开发一个拼多多CPS返利小程序。作为一个独立开发者&#xff0c;我本以为凭借多年的编程经验&#xff0c;两周就能搞定这个"小项目"。没想到从API对接、用户绑定到…...

AISMM模型落地难题:3步构建动态竞争分析体系,90%企业已错过最佳窗口期

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;AISMM模型与竞争分析 AISMM&#xff08;Artificial Intelligence Strategic Maturity Model&#xff09;是一种面向企业级AI能力演进的五阶段评估框架&#xff0c;涵盖意识&#xff08;Awareness&#…...

AISMM与DCAM/DMM整合实践全图谱(2024权威认证版):覆盖L1-L5成熟度跃迁的12个关键耦合点

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;AISMM与DCAM/DMM整合的理论根基与演进逻辑 AISMM&#xff08;Artificial Intelligence Systems Maturity Model&#xff09;并非孤立演进的评估框架&#xff0c;其设计深度植根于数据治理成熟度模型&am…...

终极指南:使用homemade-machine-learning实现机器学习系统健康监测与异常检测

终极指南&#xff1a;使用homemade-machine-learning实现机器学习系统健康监测与异常检测 【免费下载链接】homemade-machine-learning &#x1f916; Python examples of popular machine learning algorithms with interactive Jupyter demos and math being explained 项目…...

UML分析与设计 - 软考备战(五十四)

UML分析与设计 参考资料&#xff1a; 九种常见UML图&#xff08;分类图解&#xff09; - HZX↑ - 博客园 UML科普文&#xff0c;一篇文章掌握14种UML图 - 知乎 『这就是UML&#xff01;』系列内容第8讲&#xff1a;协作图 - ProcessOn知识社区 『这就是UML&#xff01;』系…...

HarmonyOS应用开发全流程深度解析:从入门到精通的20000字指南

第一章 鸿蒙生态架构与开发理念1.1 鸿蒙操作系统双版本体系 HarmonyOS与OpenHarmony构成华为"18N"全场景战略的技术底座。商业版HarmonyOS由华为维护&#xff0c;集成消费级设备专有功能&#xff1b;开源版OpenHarmony由开放原子基金会管理&#xff0c;适配工业、电网…...

支付账单拉取和标准化怎么做才稳?渠道获取、格式解析、统一账单模型全讲清

支付账单拉取和标准化怎么做才稳&#xff1f;渠道获取、格式解析、统一账单模型全讲清 这篇直接按支付账单拉取和标准化来拆&#xff0c;不只讲“把文件拉下来”&#xff0c;而是把渠道差异、格式解析、统一模型和补拉讲具体。 目标是你看完后&#xff0c;能把账单拉取从一个下…...