《Access Path Selectionin a Relational Database Management System》论文笔记
以下是根据论文归纳出的一些查询优化器公式和知识点,有没有用不知道,先码起来。
SQL执行优化过程
处理SQL语句是从解析用户输入的SQL语句开始,经过一系列优化过程,最终生成机器代码并执行的过程。这个过程涉及到多个复杂的步骤,每个步骤都是为了确保SQL语句能够高效、正确地执行。通常包括以下四个主要步骤:
解析器(Parser)
这个步骤负责对用户输入的SQL语句进行词法和语法分析,检查SQL语句是否遵循SQL语法规则。
解析器通常使用像yacc这样的工具来完成这个工作,语法解析的结果是一个“抽象语法树”(Abstract Syntax Tree, AST),这是一个表示SQL语句结构的内部数据结构。
优化器(逻辑优化):
- 语义检查:这一步骤确保SQL语句在逻辑上是有意义的,例如检查SQL中引用的表和字段是否真实存在于数据库中。
- 统计信息和元信息读取:优化器会读取数据库的“元数据表”来获取关系对象(表、视图等)的统计信息和结构信息。
- 确定查询块评估顺序:优化器决定执行查询中不同部分(称为查询块)的顺序。
- 关系和连接处理:对于FROM子句中的每个关系(表),如果一个查询块中有多个关系,优化器还需要计算这些关系的连接顺序和方法。
- 选择最小总成本的访问路径:优化器会选择一个成本最小的执行路径,这个选择过程涉及到从多个可能的访问路径中挑选。
- 生成执行计划:最终,这个步骤会产生一个执行计划(plan),这个计划用一种叫做ASL(Abstract Set Language)的语言来描述。
代码生成器(物理优化):
在确定了每个查询块的执行计划并在抽象语法树中表示这个计划之后,代码生成器被调用。代码生成器是一个将ASL树转换为机器语言代码的程序,这些代码用来执行优化器选择的计划。它使用一组有限的代码模板,每种连接方法(包括不需要连接的情况)都对应一个模板。嵌套查询的查询块被当作“子程序”处理,它们在执行时返回值给调用它们的查询块。
执行:
在代码生成器阶段,解析树被转换成可执行的机器代码和相关的数据结构。这些生成的机器代码可以直接执行,也可以保存在数据库中,以备将来执行。当代码执行时,它会通过存储系统接口(RSI)调用System R的内部存储系统(RSS)来执行物理存储关系的扫描。这些扫描操作会沿着优化器选择的访问路径进行。
单表代价计算公式
代价评估公式用于估算执行特定查询的资源消耗,主要包括I/O和CPU的消耗。
- COST:代表执行查询的总代价,包括I/O代价和CPU代价。
- PAGE FETCHES:表示为了获取所需数据,需要从磁盘读取的数据页和索引页的数量,这是I/O代价的一部分。
- W:是一个权重因子,用于平衡I/O和CPU之间的代价,因为它们的性能可能不同。
- RSI CALLS:表示存储系统接口调用的次数,即实际读取的元组(行)数量,这是CPU代价的一部分。
统计信息项
数据库优化器使用以下统计信息来估计查询的代价:
-
关系T:
- NCARD(T):关系T中元组(行)的数量。
- TCARD(T):关系T中数据页的数量。
- P(T):关系T的数据页占有的segment比例。
-
对于T的任意索引I:
- ICARD(I):索引I中去重后的键值数量。
- NINDX(I):索引I占用的页的数量。
用户可以通过执行UPDATE STATISTICS
命令来更新这些统计信息。
选择率F
选择率是指满足某个条件的元组占总元组的比例,用于估计查询的选择性:
-
column = value:
- 如果有索引,F = 1 / ICARD(column index)。
- 如果没有索引,F = 1 / 10(默认值)。
-
column1 = column2:
- 如果两个列都有索引,F = 1 / MAX(ICARD(column1 index), ICARD(column2 index))。
- 如果只有一个列有索引,F = 1 / ICARD(column-i index)。
- 如果两个列都没有索引,F = 1 / 10。
-
column > value 或 (v1 < column < v2):
- 如果column的值是数值型且均匀分布,F = (high key value - value) / (high key value - low key value)。
- 如果value非数值型,F = 1/3。
-
column IN (list of values):
- F = (列表中的项数) * (column = value 的选择性因子),但最多不超过1/2。
-
逻辑表达式的选择率:
- OR:F = F(pred1) + F(pred2) - F(pred1) * F(pred2)。
- AND:F = F(pred1) * F(pred2),这假设列值是独立的。
- NOT:F = 1 - F(pred)。
选择最优访问路径
在所有可能的访问路径中,优化器会根据上述代价评估公式和选择率,选择一个总代价最小的路径。如果查询需要按照某种特定的顺序(比如由GROUP BY或ORDER BY子句指定的顺序)输出元组,而这个顺序可以通过索引直接获得,那么这个顺序被称为一个“有趣的顺序”,优化器在决定使用索引的时候会考虑这个因素。
连接操作优化
Nested-Loop Join(嵌套循环连接)
嵌套循环连接是最简单的连接方法,它涉及两个步骤:
- 遍历外表中的每个元组(行)。
- 对于外表中的每个元组,遍历内表的所有元组,并对每对元组执行连接谓词的判断。
嵌套循环连接的成本计算公式为:
C-nested-loop-join(path1, path2) = C-outer(path1) + N * C-inner(path2)
其中:
C-outer(path1)
是遍历外表的成本。N
是外表中满足连接谓词的元组数量。C-inner(path2)
是遍历内表的成本。
这种方法在内表非常小或者外表中满足连接条件的元组非常少时可能是有效的,但是如果两个表都很大,这种方法将会非常低效。
Merge Join(合并连接)
合并连接是一种更高效的连接方法,尤其是当两个表的连接列都已经排序时。合并连接的步骤如下:
- 同时遍历两个已排序的表。
- 比较当前行的连接列,并根据排序顺序移动指针。
合并连接的成本计算公式为:
C-merge(path1, path2) = C-outer(path1) + N * C-inner(path2)
其中:
C-outer(path1)
是读取并排序外表的成本。N
是外表的元组数量。C-inner(path2)
是读取内表的成本。
如果内表没有预先排序,你可能需要先对内表进行排序,这会增加额外的成本。
对于已排序的内表,我们可以使用以下公式来计算内部扫描的成本:
C-inner(sorted list) = TEMPPAGES/N + W * RSICARD
其中:
TEMPPAGES
是存储内表所需的临时页面数。N
是外表的元组数量。W
是CPU和IO之间的权重因子。RSICARD
是在合并过程中预计会读取的内表元组数量。
这个公式假设在合并过程中,内表的每个页面只被读取一次,这是基于内表已经被排序的事实。由于内表是排序的,合并连接可以有效地通过比较排序键来快速找到匹配的元组,而不必遍历整个内表。
总结
在实际的数据库查询优化中,优化器会考虑多种因素来选择最佳的连接策略,包括表的大小、索引的存在、连接列的排序状态以及内存的可用量。优化器还会使用统计信息来更精确地估计成本和选择率,从而生成一个总体成本最低的查询执行计划。
相关文章:
《Access Path Selectionin a Relational Database Management System》论文笔记
以下是根据论文归纳出的一些查询优化器公式和知识点,有没有用不知道,先码起来。 SQL执行优化过程 处理SQL语句是从解析用户输入的SQL语句开始,经过一系列优化过程,最终生成机器代码并执行的过程。这个过程涉及到多个复杂的步骤&…...

【AI_Design】Midjourney学习笔记
目录 后缀解析Promot合格使用prompt关键词描述 关键词化合作用关键词网站推荐 联合Chatgpt使用总结 后缀解析 –ar:宽高比设置–c:多样性设置(数值0-100,默认值0)–s:风格化设置(数值0-1000&am…...

面试宝典之深谈JVM
面试宝典之深谈JVM 1.为什么需要JVM,不要JVM可以吗? 1.JVM可以帮助我们屏蔽底层的操作系统 一次编译,到处运行 2.JVM可以运行Class文件 2.JDK,JRE以及JVM的关系 3.我们的编译器到底干了什么事? 仅仅是将我们的 .ja…...

idea配置tomcat
推荐链接:IntelliJ IDEA中配置Tomcat(超详细)_idea怎么配置tomcat服务器-CSDN博客 1,官员下载链接:Apache Tomcat - Welcome! 附本人下载的 tomcat9 的百度网盘链接 链接:https://pan.baidu.com/s/1DpyBGnG4mUGTm5Z…...

【MyBatis】操作数据库——入门
文章目录 为什么要学习MyBatis什么是MyBatisMyBatis 入门创建带有MyBatis框架的SpringBoot项目数据准备在配置文件中配置数据库相关信息实现持久层代码单元测试 为什么要学习MyBatis 前面我们肯定多多少少学过 sql 语言,sql 语言是一种操作数据库的一类语言&#x…...

免费分享一套SpringBoot+Vue药店(药房)管理系统,帅呆了~~
大家好,我是java1234_小锋老师,看到一个不错的SpringBootVue药店(药房)管理系统 ,分享下哈。 项目视频演示 【免费】SpringBootVue药店(药房)管理系统 Java毕业设计_哔哩哔哩_bilibili【免费】SpringBootVue药店(药房)管理系统 Java毕业设计…...

视频怎么加水印?分享两个简单的加水印的方法
在数字媒体时代,视频已经成为信息传播的重要方式。许多人在创作视频是会加上自己独特的水印,防止视频被盗用。水印作为数字版权保护技术的一种,可以有效地防止视频被非法复制、传播或篡改,从而保护创作者的权益和利益。下面我分享…...

Apache Commons Collection3.2.1反序列化分析(CC1)
Commons Collections简介 Commons Collections是Apache软件基金会的一个开源项目,它提供了一组可复用的数据结构和算法的实现,旨在扩展和增强Java集合框架,以便更好地满足不同类型应用的需求。该项目包含了多种不同类型的集合类、迭代器、队…...
MySQL入门篇(10)-聚合函数的应用
MySQL数据库聚合函数的应用 在MySQL数据库中,聚合函数用于计算一组数据的统计值并返回结果。这些函数可以应用于查询语句中,对数据进行汇总、计数、平均值计算等操作。本文将介绍一些常用的MySQL聚合函数及其应用。 1. COUNT函数 COUNT函数用于计算指…...
Vue3基本概念
script部分 export default对象的属性: name:组件的名称 components:存储中用到的所有组件 props:存储父组件传递给子组件的数据 watch():当某个数据发生变化时触发 computed:动态计算某个数据 setup(pro…...
每日OJ题_算法_模拟①_力扣1576. 替换所有的问号
目录 模拟算法原理 力扣1576. 替换所有的问号 解析代码 模拟算法原理 模拟算法是一种常用的计算机算法,它模拟了实际问题的运行过程,并通过数学模型来预测结果。模拟算法可以应用于各个领域,例如物理、化学、生物、计算机网络等等。 模拟算…...

杂题——试题 算法训练 区间最大和
分析: 如果使用两个for循环遍历所有情况,运行会超时解决运行超时的关键点在于:及时停止累加,丢弃当前的子序列 比如【1,-2,3,10】从第一个数字开始的子序列的和小于从第三个数字开始的子序列的和…...
(安卓)跳转应用市场APP详情页的方式
前言 最近在做一个需求,需要从自己APP进入到系统的应用市场 方便用户在应用市场给自己的APP打分 于是查阅了一些资料,下面说一下实现方法 实现方案 一般来说,最简单的方案就是这样: val uri Uri.parse("market://details…...

亚信安全助力宁夏首个人工智能数据中心建成 铺设绿色算力安全底座
近日,由宁夏西云算力科技有限公司倾力打造,亚信安全科技股份有限公司(股票代码:688225)全力支撑,总投资达数十亿元人民币的宁夏智算中心项目,其一期工程——宁夏首个采用全自然风冷技术的30KW机…...
ASP.NET Core WebAPI_解决跨域问题(前端后端)
说明 我的前端框架为Vue3 前后端跨域选其一即可 前端跨域 在项目的根目录找到vite.config.js文件,添加代码: server: {proxy: {/api: {target: https://localhost:xxxx,changeOrigin: true,secure: false},},} axios代码片段: …...

保姆级的指针详解(超详细)
目录 一.内存和地址 1.初识指针 2.如何理解编址 二. 指针变量 三.指针的解引用操作符 1.指针变量的大小 四.指针变量类型的意义 五.指针的运算 1.指针加减整数 2.指针减指针 3.野指针 3.1指针未初始化 3.2指针越界访问 3.3指针指向的空间被提前释放 3.4如何规…...

R-YOLO
Abstract 提出了一个框架,名为R-YOLO,不需要在恶劣天气下进行注释。考虑到正常天气图像和不利天气图像之间的分布差距,我们的框架由图像翻译网络(QTNet)和特征校准网络(FCNet)组成,…...

Qt无边框窗口拖拽和阴影
先看下效果: 说明 自定义窗口控件的无边框,窗口事件由于没有系统自带边框,无法实现拖拽拉伸等事件的处理,一种方法就是重新重写主窗口的鼠标事件,一种时通过nativeEvent事件处理。重写事件相对繁琐,我们这里推荐nativeEvent处理。注意后续我们在做win平…...
ES6 Proxy详解
文章目录 概述Proxy 实例的方法get(target, propKey, receiver)set(target, propKey, value, receiver)has(target, propKey)deleteProperty(target, propKey)defineProperty(target, propKey, propDesc)getOwnPropertyDescriptor(target, propKey)getPrototypeOf(target)setPr…...

Prompt Learning 的几个重点paper
Prefix Tuning: Prefix-Tuning: Optimizing Continuous Prompts for Generation 在输入token之前构造一段任务相关的virtual tokens作为Prefix,然后训练的时候只更新Prefix部分的参数,PLM中的其他参数固定。针对自回归架构模型:在句子前面添…...
镜像里切换为普通用户
如果你登录远程虚拟机默认就是 root 用户,但你不希望用 root 权限运行 ns-3(这是对的,ns3 工具会拒绝 root),你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案:创建非 roo…...
鱼香ros docker配置镜像报错:https://registry-1.docker.io/v2/
使用鱼香ros一件安装docker时的https://registry-1.docker.io/v2/问题 一键安装指令 wget http://fishros.com/install -O fishros && . fishros出现问题:docker pull 失败 网络不同,需要使用镜像源 按照如下步骤操作 sudo vi /etc/docker/dae…...

C++使用 new 来创建动态数组
问题: 不能使用变量定义数组大小 原因: 这是因为数组在内存中是连续存储的,编译器需要在编译阶段就确定数组的大小,以便正确地分配内存空间。如果允许使用变量来定义数组的大小,那么编译器就无法在编译时确定数组的大…...

代码规范和架构【立芯理论一】(2025.06.08)
1、代码规范的目标 代码简洁精炼、美观,可持续性好高效率高复用,可移植性好高内聚,低耦合没有冗余规范性,代码有规可循,可以看出自己当时的思考过程特殊排版,特殊语法,特殊指令,必须…...

day36-多路IO复用
一、基本概念 (服务器多客户端模型) 定义:单线程或单进程同时监测若干个文件描述符是否可以执行IO操作的能力 作用:应用程序通常需要处理来自多条事件流中的事件,比如我现在用的电脑,需要同时处理键盘鼠标…...
第7篇:中间件全链路监控与 SQL 性能分析实践
7.1 章节导读 在构建数据库中间件的过程中,可观测性 和 性能分析 是保障系统稳定性与可维护性的核心能力。 特别是在复杂分布式场景中,必须做到: 🔍 追踪每一条 SQL 的生命周期(从入口到数据库执行)&#…...
Linux系统部署KES
1、安装准备 1.版本说明V008R006C009B0014 V008:是version产品的大版本。 R006:是release产品特性版本。 C009:是通用版 B0014:是build开发过程中的构建版本2.硬件要求 #安全版和企业版 内存:1GB 以上 硬盘…...
前端调试HTTP状态码
1xx(信息类状态码) 这类状态码表示临时响应,需要客户端继续处理请求。 100 Continue 服务器已收到请求的初始部分,客户端应继续发送剩余部分。 2xx(成功类状态码) 表示请求已成功被服务器接收、理解并处…...
【实施指南】Android客户端HTTPS双向认证实施指南
🔐 一、所需准备材料 证书文件(6类核心文件) 类型 格式 作用 Android端要求 CA根证书 .crt/.pem 验证服务器/客户端证书合法性 需预置到Android信任库 服务器证书 .crt 服务器身份证明 客户端需持有以验证服务器 客户端证书 .crt 客户端身份…...

轻量级Docker管理工具Docker Switchboard
简介 什么是 Docker Switchboard ? Docker Switchboard 是一个轻量级的 Web 应用程序,用于管理 Docker 容器。它提供了一个干净、用户友好的界面来启动、停止和监控主机上运行的容器,使其成为本地开发、家庭实验室或小型服务器设置的理想选择…...