当前位置：首页 > news >正文

Spark学习

news 2026/5/26 11:56:59

Spark简介

1.Spark是什么

首先spark是一个计算引擎，而不是存储工具，计算引擎有很多：
第一代：MapReduce廉价机器实现分布式大数据处理
第二代：Tez基于MR优化了DAG，性能比MR快一些
第三代：Spark优先使用内存式计算引擎，国内目前主要应用的离线计算引擎
第四代：Flink：实时流式计算引擎 , 国内目前最主流实时计算引擎

spark的诞生原因就是因为MR太慢了，MR是基于磁盘的，而Spark是基于内存的。

2.Spark能做什么

实现离线数据批处理：类似于MapReduce、Pandas，写代码做处理：代码类的离线数据处理。

实现交互式即时数据查询：类似于Hive、Presto、Impala，使用SQL做即席查询分析：SQL类的离线数据处理

实现实时数据处理：类似于Storm、Flink实现分布式的实时计算：代码类实时计算或者SQL类的实时计算

实现机器学习的开发：代替传统一些机器学习工具

3.Spark组成部分

Hadoop的组成部分：common、MapReduce、Hdfs、Yarn

Spark Core：Spark最核心的模块，可以基于多种语言实现代码类的离线开发【类似于MR】

Spark SQL：类似于Hive，基于SQL进行开发，SQL会转换为SparkCore离线程序【类似Hive】

Spark Streaming：基于SparkCore之上构建了准实时的计算模块【淘汰了】

Struct Streaming：基于SparkSQL之上构建了结构化实时计算模块【替代了Spark Streaming】

Spark ML lib：机器学习算法库，提供各种机器学习算法工具，可以基于SparkCore或者SparkSQL实现开发。

4.各大计算引擎的对比

Impala：集成Hive实现数据分析，优点是性能最好，缺点数据接口比较少，只支持Hive和Hbase数据源。是一个基于CDH的一个软件，Impala 能写sql，它写出来的sql，叫 Impala SQL (大部分跟我们普通的sql没啥区别) ，操作hive或者hbase 速度非常快！

Presto：集成Hive实现数据分析，优点性能适中，支持数据源非常广泛，与大数据接口兼容性比较差。Presto也可以写sql,只是写的sql叫做 Presto SQL (大部分跟我们普通的sql没啥区别) ，特点：可以跨数据源。比如mysql的表可以和oracle中的一个表关联查询。

SparkSQL：集成Hive实现数据分析，优点功能非常全面、开发接口多，学习成本低，缺点实时计算不够完善。实时计算交给了Flink。

5.Spark的应用

spark可以做数仓，数仓中也可以分层。

离线场景：实现离线数据仓库中的数据清洗、数据分析、即席查询等应用

实时场景：实现实时数据流数据处理，相对而言功能和性能不是特别的完善，工作中建议使用Flink替代。

6.spark五种模式

本地模式Local：一般用于做测试，验证代码逻辑，不是分布式运行，只会启动1个进程来运行所有任务。

集群模式Cluster：一般用于生产环境，用于实现PySpark程序的分布式的运行
        Standalone：Spark自带的分布式资源平台，功能类似于YARN
        YARN：Spark on YARN，将Spark程序提交给YARN来运行，工作中主要使用的模式
        Mesos：类似于YARN，国外见得多，国内基本见不到
        K8s：基于分布式容器的资源管理平台，运维层面的工具。

7.Spark为什么比MR快

1、MR不支持DAG【有向无环图】，计算过程是固定，一个MR 只有1个Map和1个Reduce构成。一个Map和Reduce是一个过程，和另一个Map和Reduce是不一样的。

从落地到磁盘的那一刻，上一个过程已经结束了，下一个过程和上一个过程没有关系了。

2、MR是一个基于磁盘的计算框架，读写效率比较低

3、MR的Task计算是进程级别的，每次运行一个Task都需要启动一个进程，然后运行结束还是释放进程，比较慢。【一个进程可以包含多个线程，比如qq是一个进程，发消息，传文件是一个个线程】

MapTask：进程

ReduceTask：进程

进程启动和销毁是比较耗时的

spark为什么那么快？

1、Spark支持DAG，一个Spark程序中的过程是不固定，由代码所决定。

2、Task任务都是线程级别的

3、计算是基于内存的。

MR和Spark区别
区别	MapReduce	Spark
计算流程结构	1个Map+1个Reduce，每步结果都必须进入磁盘	支持DAG，一个程序中可以有多个Map、Reduce过程，多个Map之间的操作可以直接在内存中完成
Shuffle过程	分区、排序、分组	会根据具体的操作来经过不同的过程
Task运行方式	进程： MapTask ReduceTask	进程之启动一次，所有的Task都以线程方式存在，不需要频繁启动、申请资源

Spark学习

Spark简介

1.Spark是什么

2.Spark能做什么

3.Spark组成部分

4.各大计算引擎的对比

5.Spark的应用

6.spark五种模式

7.Spark为什么比MR快

相关文章：

Spark学习

一些小细节代码笔记汇总

L4.【LeetCode笔记】链表题的VS平台调试代码

JavaCV 之高斯滤波：图像降噪与细节保留的魔法

VsCode显示空格

.Net C# 基于EFCore的DBFirst和CodeFirst

w012基于springboot的社区团购系统设计

笔记本降频超鬼锁屏0.39电脑卡到不行解决办法实操记录

优选算法第四讲：前缀和模块

ubuntu20.04 加固方案-设置限制su命令用户组

TDengine数据备份与恢复

2024最新的开源博客系统：vue3.x+SpringBoot 3.x 前后端分离

研究中的“异质性”、“异质性结果”是指？

Springboot整合AOP和redis

freetype学习总结

上海亚商投顾：沪指缩量调整华为概念股午后爆发

操作系统与进程【单身狗定制版】

监听el-table中自定义封装的某个组件的值发现改变调用函数

frida安装

链表详解(三)

[智能体-69]：重新认知MCP：协议不生产智能，只是AI全域交互的标准化基石

BLE蓝牙扫描深度剖析：扫描原理、核心参数、前后台差异

告别浪费！SolidWorks企业级共享方案，实现降本增效全攻略

‌2026智慧校园规划必读：如何在预算吃紧下选到高性价比方案‌

Mysql：事务管理（中）

论文润色深度测评：GPT-5.5 + Gemini 3.1 Pro：教你学会1+1＞2的论文润色方法

Arcmap实操：如何用‘渔网’给你的地图做一次‘CT扫描’——以韶关市路网密度可视化为例

ZTE光猫工厂模式解锁：5分钟开启隐藏功能的终极指南

Taotoken的审计日志功能为企业API安全与合规管理提供支持

艾尔登法环存档迁移终极指南：3分钟解决角色转移难题