当前位置：首页 > news >正文

SparkSQL的执行过程：从源码角度解析逻辑计划、优化计划和物理计划

news 2026/2/9 14:51:15

SparkSQL的执行过程可以分为以下几个阶段：从用户的SQL语句到最终生成的RDD执行，涵盖逻辑计划、优化计划和物理计划。以下是详细的源码角度解析：

1. 解析阶段（Parsing）

SQL语句解析：Spark 使用 Catalyst 引擎将用户输入的 SQL 语句解析为 抽象语法树（AST, Abstract Syntax Tree）。
代码位置：org.apache.spark.sql.catalyst.parser.SqlBase.g4 定义了语法规则，SqlParser 使用 ANTLR 工具解析 SQL。
输出结果：解析后的 LogicalPlan，表示 SQL 的初始逻辑计划。

2. 分析阶段（Analysis）

任务：通过元数据和表的 Schema 校验逻辑计划中的字段、函数等，并为计划补充缺失信息。
关键组件：
- Catalog：Spark 用 Catalog 管理表的元数据。
- Analyzer：负责逻辑计划的语义分析。
- 规则应用：Analyzer 通过一系列规则（rules）完成字段校验、类型推断。
代码位置：
- org.apache.spark.sql.catalyst.analysis.Analyzer。
输出结果：生成一个经过校验和补全的逻辑计划，称为 Analyzed Logical Plan。

3. 逻辑优化阶段（Logical Optimization）

任务：对逻辑计划进行规则化优化，比如谓词下推、列剪裁、常量折叠等。
关键组件：
- Optimizer：基于规则的优化器，应用各种优化规则。
- 典型优化规则：
  - 谓词下推：将 Filter 操作下推到最靠近数据源的位置。
  - 列剪裁：只保留查询所需的列。
  - 常量折叠：将表达式中的常量计算提前。
代码位置：
- org.apache.spark.sql.catalyst.optimizer.Optimizer。
输出结果：一个经过优化的逻辑计划，称为 Optimized Logical Plan。

4. 物理计划生成阶段（Physical Planning）

任务：将逻辑计划转化为物理计划，选择最优执行方案。
关键组件：
- Planner：为逻辑操作选择物理操作的执行方式。
- 成本模型：基于代价估算，选择最佳的物理计划。例如：选择 SortMergeJoin 或 BroadcastHashJoin。
代码位置：
- org.apache.spark.sql.execution.SparkPlanner。
- org.apache.spark.sql.execution.strategy 包含了具体的物理计划生成策略。
输出结果：多个候选的物理计划，最终选定一个最优计划作为 Physical Plan。

5. 代码生成阶段（Code Generation）

任务：对物理计划中的部分操作生成更高效的 Java 字节码（bytecode）。
关键组件：
- WholeStageCodegen：SparkSQL 中的重要优化，能将多个操作结合为单一代码片段以减少任务调度的开销。
代码位置：
- org.apache.spark.sql.execution.WholeStageCodegenExec。
输出结果：带有代码生成（Codegen）信息的物理计划。

6. RDD生成阶段（Execution Preparation）

任务：将物理计划转化为低层次的 RDD 操作。
关键组件：
- 每个 Exec 物理节点都会实现 doExecute 方法，负责生成对应的 RDD。
- 示例：ScanExec 节点生成数据源的 RDD，ProjectExec 节点生成投影操作的 RDD。
代码位置：
- 各种执行节点的实现位于 org.apache.spark.sql.execution 包中。
输出结果：Spark 的执行引擎中直接运行的 RDD DAG。

7. 执行阶段（Execution）

任务：提交作业并执行 RDD 转换。
过程：
- DAG 构建：根据 RDD 依赖构建执行 DAG。
- 任务调度：通过 TaskScheduler 提交任务到集群执行。
代码位置：
- RDD 转换由 org.apache.spark.rdd.RDD 的 compute 方法完成。
- 调度部分由 DAGScheduler 和 TaskScheduler 完成。

总结执行流程示意图

解析阶段

SELECT name FROM students WHERE age > 18;

↓

初始逻辑计划

LogicalPlan(Filter(age > 18), Project(name))

↓

分析计划

LogicalPlan(Filter(students.age > 18), Project(students.name))

↓

优化计划

Filter(age > 18) -> Project(name)
↓
Pushed Filters -> Optimized LogicalPlan

物理计划

Scan Students RDD -> Apply Filters -> Project Columns

RDD 生成

studentsRDD.filter(age > 18).map(name => name)

通过以上步骤，SparkSQL 实现了从用户查询到集群执行的全过程，并通过 Catalyst 提供了高度灵活的优化和扩展能力。

SparkSQL的执行过程：从源码角度解析逻辑计划、优化计划和物理计划

SparkSQL的执行过程可以分为以下几个阶段：从用户的SQL语句到最终生成的RDD执行，涵盖逻辑计划、优化计划和物理计划。以下是详细的源码角度解析： 1. 解析阶段（Parsing） SQL语句解析：Spark 使用 Catalyst 引…...

编程日记 2024/11/21 13:18:58

Leetcode打卡：新增道路查询后的最短距离II

执行结果：通过题目：3244 新增道路查询后的最短距离II 给你一个整数 n 和一个二维整数数组 queries。有 n 个城市，编号从 0 到 n - 1。初始时，每个城市 i 都有一条单向道路通往城市 i 1（ 0 < i < n - 1&…...

编程日记 2024/11/21 13:16:56

Spring Web入门练习

加法计算器约定前后端交互接⼝约定 "前后端交互接⼝" 是进⾏ Web 开发中的关键环节. 接⼝⼜叫 API（Application Programming Interface), 我们⼀般讲到接⼝或者 API，指的都是同⼀个东西. 是指应⽤程序对外提供的服务的描述, ⽤于交换信息…...

编程日记 2024/11/21 13:15:55

计算机毕业设计 | SpringBoot+vue汽车资讯网站汽车购买咨询管理系统(附源码+论文)

1，绪论 1.1 研究背景随着计算机技术的发展以及计算机网络的逐渐普及，互联网成为人们查找信息的重要场所，二十一世纪是信息的时代，所以信息的管理显得特别重要。因此，使用计算机来管理汽车资讯网站的相关信息成为必然…...

编程日记 2024/11/21 13:11:51

stm32下的ADC转换(江科协 HAL版)

十二. ADC采样文章目录十二. ADC采样12.1 ADC的采样原理12.2 STM32的采样基本过程1.引脚与GPIO端口的对应关系2.ADC规则组的四种转换模式(**)2.2 关于转换模式与配置之间的关系 12.3 ADC的时钟12.4 代码实现(ADC单通道 & ADC多通道)1. 单通道采样2. 多通道采样 19.ADC模数…...

编程日记 2024/11/21 13:10:50

解决IntelliJ IDEA的Plugins无法访问Marketplace去下载插件

勾选Auto-detect proxy setting并填入 https://plugins.jetbrains.com 代理URL，可以先做检查连接：...

编程日记 2024/11/21 13:07:46

react 如何修改弹出的modal的标题

原来标题的样子： 修改为： 实现方式： <Modal title<span>股价趋势/{this.state.pccode}</span> visible{this.state.isPriceModalOpen} style{{ top: 20 }} width{1320} height{400} footer{null} onCancel{()>this.hideMo…...

编程日记 2024/11/21 13:05:44

C#中的二维数组的应用：探索物理含义与数据结构的奇妙融合

在C#编程中，二维数组（或矩阵）是一种重要的数据结构，它不仅能够高效地存储和组织数据，还能通过其行、列和交叉点（备注：此处相交处通常称为“元素”或“单元格”，代表二维数组中的一个…...

编程日记 2024/11/21 13:02:42

HTML5拖拽API学习托拽排序和可托拽课程表

文章目录前言拖拽API核心概念拖拽式使用流程例子注意事项综合例子🌰 可拖拽课程表拖拽排序前言前端拖拽功能让网页元素可以通过鼠标或触摸操作移动。HTML5 提供了标准的拖拽API，简化了拖放操作的实现。以下是拖拽API的基本使用指南： 拖拽…...

编程日记 2024/11/21 13:00:40

内容补充页(相关公式解释)

from 学习日记_20241117_聚类方法（高斯混合模型） 学习日记_20241117_聚类方法（高斯混合模型） 公式 P ( Z k ) π k P(Zk) \pi_k P(Zk)πk 在高斯混合模型 (GMM) 中，公式 P ( Z k ) π k P(Zk) \pi_k P(Zk…...

编程日记 2024/11/21 12:58:31

vue中动态渲染静态图片资源

不报错且f12查看元素的时候，显示的src说明已经渲染到html的src上，但是就是不显示在页面上原因在vue上，动态渲染静态图片资源（比如从assets文件夹加载的图片）需要注意打包工具对静态资源的解析方式由于vue2的脚手…...

编程日记 2024/11/21 12:57:29

管伊佳ERP，原名华夏ERP，一个简约易上手的国产ERP系统

JSH_ERP（管伊佳ERP）是一款开源、模块化的企业资源计划系统，旨在为中小企业提供高效的管理工具。它基于SpringBoot框架和SaaS模式，支持进销存、财务、生产等业务模块，包括零售、采购、销售、仓库和报表管理。核心特点…...

编程日记 2024/11/21 12:56:29

学习虚幻C++开发日志——委托（持续更新中）

委托官方文档：Delegates and Lamba Functions in Unreal Engine | 虚幻引擎 5.5 文档 | Epic Developer Community | Epic Developer Community 简单地说，委托就像是一个“函数指针”，但它更加安全和灵活。它允许程序在运行时动态地调用不…...

编程日记 2024/11/21 12:55:28

开窗函数 - first_value/last_value

1、开窗函数是什么？ 开窗函数用于为行定义一个窗口（这里的窗口是指运算将要操作的行的集合），它对一组值进行操作，不需要使用 GROUP BY 子句对数据进行分组，能够在同一行中同时返回基础行的列和聚合列。 2、…...

编程日记 2024/11/21 12:54:27

「一」HarmonyOS端云一体化概要

关于作者白晓明宁夏图尔科技有限公司董事长兼CEO、坚果派联合创始人华为HDE、润和软件HiHope社区专家、鸿蒙KOL、仓颉KOL 华为开发者学堂/51CTO学堂/CSDN学堂认证讲师开放原子开源基金会2023开源贡献之星「目录」「一」HarmonyOS端云一体化概要「二」体验HarmonyOS端云一…...

编程日记 2024/11/21 12:53:25

nodejs21: 快速构建自定义设计样式Tailwind CSS

Tailwind CSS 是一个功能强大的低级 CSS 框架，只需书写 HTML 代码，无需书写 CSS，即可快速构建美观的网站。 1. 安装 Tailwind CSS React 项目中安装 Tailwind CSS： 1.1 安装 Tailwind CSS 和相关依赖安装 Tailwind CSS: npm…...

编程日记 2024/11/21 12:50:22

从JSON数据提取嵌套字段并转换为独立列的简洁方法

从JSON数据提取嵌套字段并转换为独立列的简洁方法在数据处理和数据分析的日常工作中，我们经常遇到复杂的嵌套数据结构，特别是嵌入在JSON字段中的数据。这些数据往往需要解析并展开成独立的列，以便后续分析和建模。本文将详细介绍如何在Pyth…...

编程日记 2024/11/21 12:45:16

湘潭大学软件工程算法设计与分析考试复习笔记（四）

回顾湘潭大学软件工程算法设计与分析考试复习笔记（一）湘潭大学软件工程算法设计与分析考试复习笔记（二）湘潭大学软件工程算法设计与分析考试复习笔记（三） 前言现在是晚上十一点，我平时是十…...

编程日记 2024/11/21 12:40:11

特征交叉-DeepCross Network学习

一 tensorflow官方实现 tensorflow的官方实现已经是V2版本 class Cross(tf.keras.layers.Layer):"""Cross Layer in Deep & Cross Network to learn explicit feature interactions.Args:projection_dim: int，低秩矩阵的维度，应该小…...

编程日记 2024/11/21 12:38:09

stm32cubemx+VSCODE+GCC+makefile 开发环境搭建

title: stm32cubemxVSCODEGCCmakefile 开发环境搭建 tags: FreertosHalstm32cubeMx 文章目录内容往期内容导航第一步准备环境vscode 插件插件配置点灯内容往期内容导航第一步准备环境 STM32CubeMXVSCODEMinGWOpenOcdarm-none-eabi-gcc 然后把上面下载的软件 3 4 5 bin 文…...

编程日记 2024/11/21 12:36:07

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…...

编程新知 2026/2/7 23:18:39

Python爬虫实战：研究MechanicalSoup库相关技术

一、MechanicalSoup 库概述 1.1 库简介 MechanicalSoup 是一个 Python 库，专为自动化交互网站而设计。它结合了 requests 的 HTTP 请求能力和 BeautifulSoup 的 HTML 解析能力，提供了直观的 API，让我们可以像人类用户一样浏览网页、填写表单和提交请求。 1.2 主要功能特点…...

编程新知 2025/10/10 18:13:55

PHP和Node.js哪个更爽?

先说结论，rust完胜。 php：laravel，swoole，webman，最开始在苏宁的时候写了几年php，当时觉得php真的是世界上最好的语言，因为当初活在舒适圈里，不愿意跳出来，就好比当初活在…...

编程新知 2025/9/14 7:59:52

多场景 OkHttpClient 管理器 - Android 网络通信解决方案

下面是一个完整的 Android 实现，展示如何创建和管理多个 OkHttpClient 实例，分别用于长连接、普通 HTTP 请求和文件下载场景。 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas…...

编程新知 2025/12/15 1:34:37

Golang dig框架与GraphQL的完美结合

将 Go 的 Dig 依赖注入框架与 GraphQL 结合使用，可以显著提升应用程序的可维护性、可测试性以及灵活性。 Dig 是一个强大的依赖注入容器，能够帮助开发者更好地管理复杂的依赖关系，而 GraphQL 则是一种用于 API 的查询语言，能够提…...

编程新知 2025/12/31 8:38:23

华为OD机试-食堂供餐-二分法

import java.util.Arrays; import java.util.Scanner;public class DemoTest3 {public static void main(String[] args) {Scanner in new Scanner(System.in);// 注意 hasNext 和 hasNextLine 的区别while (in.hasNextLine()) { // 注意 while 处理多个 caseint a in.nextIn…...

编程新知 2026/1/28 11:11:03

苍穹外卖--缓存菜品

1.问题说明用户端小程序展示的菜品数据都是通过查询数据库获得，如果用户端访问量比较大，数据库访问压力随之增大 2.实现思路通过Redis来缓存菜品数据，减少数据库查询操作。缓存逻辑分析： ①每个分类下的菜品保持一份缓存数据…...

编程新知 2026/2/7 15:39:49

vue3 定时器-定义全局方法 vue+ts

1.创建ts文件路径：src/utils/timer.ts 完整代码： import { onUnmounted } from vuetype TimerCallback (...args: any[]) > voidexport function useGlobalTimer() {const timers: Map<number, NodeJS.Timeout> new Map()// 创建定时器con…...

编程新知 2025/8/9 0:31:20

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。主要功能：服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

编程新知 2026/2/6 15:01:23

腾讯云V3签名

想要接入腾讯云的Api，必然先按其文档计算出所要求的签名。之前也调用过腾讯云的接口，但总是卡在签名这一步，最后放弃选择SDK，这次终于自己代码实现。可能腾讯云翻新了接口文档，现在阅读起来，清晰了很多&…...

编程新知 2026/1/24 4:39:04