《Access Path Selectionin a Relational Database Management System》论文笔记
以下是根据论文归纳出的一些查询优化器公式和知识点,有没有用不知道,先码起来。
SQL执行优化过程
处理SQL语句是从解析用户输入的SQL语句开始,经过一系列优化过程,最终生成机器代码并执行的过程。这个过程涉及到多个复杂的步骤,每个步骤都是为了确保SQL语句能够高效、正确地执行。通常包括以下四个主要步骤:
解析器(Parser)
这个步骤负责对用户输入的SQL语句进行词法和语法分析,检查SQL语句是否遵循SQL语法规则。
解析器通常使用像yacc这样的工具来完成这个工作,语法解析的结果是一个“抽象语法树”(Abstract Syntax Tree, AST),这是一个表示SQL语句结构的内部数据结构。
优化器(逻辑优化):
- 语义检查:这一步骤确保SQL语句在逻辑上是有意义的,例如检查SQL中引用的表和字段是否真实存在于数据库中。
- 统计信息和元信息读取:优化器会读取数据库的“元数据表”来获取关系对象(表、视图等)的统计信息和结构信息。
- 确定查询块评估顺序:优化器决定执行查询中不同部分(称为查询块)的顺序。
- 关系和连接处理:对于FROM子句中的每个关系(表),如果一个查询块中有多个关系,优化器还需要计算这些关系的连接顺序和方法。
- 选择最小总成本的访问路径:优化器会选择一个成本最小的执行路径,这个选择过程涉及到从多个可能的访问路径中挑选。
- 生成执行计划:最终,这个步骤会产生一个执行计划(plan),这个计划用一种叫做ASL(Abstract Set Language)的语言来描述。
代码生成器(物理优化):
在确定了每个查询块的执行计划并在抽象语法树中表示这个计划之后,代码生成器被调用。代码生成器是一个将ASL树转换为机器语言代码的程序,这些代码用来执行优化器选择的计划。它使用一组有限的代码模板,每种连接方法(包括不需要连接的情况)都对应一个模板。嵌套查询的查询块被当作“子程序”处理,它们在执行时返回值给调用它们的查询块。
执行:
在代码生成器阶段,解析树被转换成可执行的机器代码和相关的数据结构。这些生成的机器代码可以直接执行,也可以保存在数据库中,以备将来执行。当代码执行时,它会通过存储系统接口(RSI)调用System R的内部存储系统(RSS)来执行物理存储关系的扫描。这些扫描操作会沿着优化器选择的访问路径进行。
单表代价计算公式
代价评估公式用于估算执行特定查询的资源消耗,主要包括I/O和CPU的消耗。
- COST:代表执行查询的总代价,包括I/O代价和CPU代价。
- PAGE FETCHES:表示为了获取所需数据,需要从磁盘读取的数据页和索引页的数量,这是I/O代价的一部分。
- W:是一个权重因子,用于平衡I/O和CPU之间的代价,因为它们的性能可能不同。
- RSI CALLS:表示存储系统接口调用的次数,即实际读取的元组(行)数量,这是CPU代价的一部分。
统计信息项
数据库优化器使用以下统计信息来估计查询的代价:
-
关系T:
- NCARD(T):关系T中元组(行)的数量。
- TCARD(T):关系T中数据页的数量。
- P(T):关系T的数据页占有的segment比例。
-
对于T的任意索引I:
- ICARD(I):索引I中去重后的键值数量。
- NINDX(I):索引I占用的页的数量。
用户可以通过执行UPDATE STATISTICS
命令来更新这些统计信息。
选择率F
选择率是指满足某个条件的元组占总元组的比例,用于估计查询的选择性:
-
column = value:
- 如果有索引,F = 1 / ICARD(column index)。
- 如果没有索引,F = 1 / 10(默认值)。
-
column1 = column2:
- 如果两个列都有索引,F = 1 / MAX(ICARD(column1 index), ICARD(column2 index))。
- 如果只有一个列有索引,F = 1 / ICARD(column-i index)。
- 如果两个列都没有索引,F = 1 / 10。
-
column > value 或 (v1 < column < v2):
- 如果column的值是数值型且均匀分布,F = (high key value - value) / (high key value - low key value)。
- 如果value非数值型,F = 1/3。
-
column IN (list of values):
- F = (列表中的项数) * (column = value 的选择性因子),但最多不超过1/2。
-
逻辑表达式的选择率:
- OR:F = F(pred1) + F(pred2) - F(pred1) * F(pred2)。
- AND:F = F(pred1) * F(pred2),这假设列值是独立的。
- NOT:F = 1 - F(pred)。
选择最优访问路径
在所有可能的访问路径中,优化器会根据上述代价评估公式和选择率,选择一个总代价最小的路径。如果查询需要按照某种特定的顺序(比如由GROUP BY或ORDER BY子句指定的顺序)输出元组,而这个顺序可以通过索引直接获得,那么这个顺序被称为一个“有趣的顺序”,优化器在决定使用索引的时候会考虑这个因素。
连接操作优化
Nested-Loop Join(嵌套循环连接)
嵌套循环连接是最简单的连接方法,它涉及两个步骤:
- 遍历外表中的每个元组(行)。
- 对于外表中的每个元组,遍历内表的所有元组,并对每对元组执行连接谓词的判断。
嵌套循环连接的成本计算公式为:
C-nested-loop-join(path1, path2) = C-outer(path1) + N * C-inner(path2)
其中:
C-outer(path1)
是遍历外表的成本。N
是外表中满足连接谓词的元组数量。C-inner(path2)
是遍历内表的成本。
这种方法在内表非常小或者外表中满足连接条件的元组非常少时可能是有效的,但是如果两个表都很大,这种方法将会非常低效。
Merge Join(合并连接)
合并连接是一种更高效的连接方法,尤其是当两个表的连接列都已经排序时。合并连接的步骤如下:
- 同时遍历两个已排序的表。
- 比较当前行的连接列,并根据排序顺序移动指针。
合并连接的成本计算公式为:
C-merge(path1, path2) = C-outer(path1) + N * C-inner(path2)
其中:
C-outer(path1)
是读取并排序外表的成本。N
是外表的元组数量。C-inner(path2)
是读取内表的成本。
如果内表没有预先排序,你可能需要先对内表进行排序,这会增加额外的成本。
对于已排序的内表,我们可以使用以下公式来计算内部扫描的成本:
C-inner(sorted list) = TEMPPAGES/N + W * RSICARD
其中:
TEMPPAGES
是存储内表所需的临时页面数。N
是外表的元组数量。W
是CPU和IO之间的权重因子。RSICARD
是在合并过程中预计会读取的内表元组数量。
这个公式假设在合并过程中,内表的每个页面只被读取一次,这是基于内表已经被排序的事实。由于内表是排序的,合并连接可以有效地通过比较排序键来快速找到匹配的元组,而不必遍历整个内表。
总结
在实际的数据库查询优化中,优化器会考虑多种因素来选择最佳的连接策略,包括表的大小、索引的存在、连接列的排序状态以及内存的可用量。优化器还会使用统计信息来更精确地估计成本和选择率,从而生成一个总体成本最低的查询执行计划。
相关文章:

《Access Path Selectionin a Relational Database Management System》论文笔记
以下是根据论文归纳出的一些查询优化器公式和知识点,有没有用不知道,先码起来。 SQL执行优化过程 处理SQL语句是从解析用户输入的SQL语句开始,经过一系列优化过程,最终生成机器代码并执行的过程。这个过程涉及到多个复杂的步骤&…...

【AI_Design】Midjourney学习笔记
目录 后缀解析Promot合格使用prompt关键词描述 关键词化合作用关键词网站推荐 联合Chatgpt使用总结 后缀解析 –ar:宽高比设置–c:多样性设置(数值0-100,默认值0)–s:风格化设置(数值0-1000&am…...

面试宝典之深谈JVM
面试宝典之深谈JVM 1.为什么需要JVM,不要JVM可以吗? 1.JVM可以帮助我们屏蔽底层的操作系统 一次编译,到处运行 2.JVM可以运行Class文件 2.JDK,JRE以及JVM的关系 3.我们的编译器到底干了什么事? 仅仅是将我们的 .ja…...

idea配置tomcat
推荐链接:IntelliJ IDEA中配置Tomcat(超详细)_idea怎么配置tomcat服务器-CSDN博客 1,官员下载链接:Apache Tomcat - Welcome! 附本人下载的 tomcat9 的百度网盘链接 链接:https://pan.baidu.com/s/1DpyBGnG4mUGTm5Z…...

【MyBatis】操作数据库——入门
文章目录 为什么要学习MyBatis什么是MyBatisMyBatis 入门创建带有MyBatis框架的SpringBoot项目数据准备在配置文件中配置数据库相关信息实现持久层代码单元测试 为什么要学习MyBatis 前面我们肯定多多少少学过 sql 语言,sql 语言是一种操作数据库的一类语言&#x…...

免费分享一套SpringBoot+Vue药店(药房)管理系统,帅呆了~~
大家好,我是java1234_小锋老师,看到一个不错的SpringBootVue药店(药房)管理系统 ,分享下哈。 项目视频演示 【免费】SpringBootVue药店(药房)管理系统 Java毕业设计_哔哩哔哩_bilibili【免费】SpringBootVue药店(药房)管理系统 Java毕业设计…...

视频怎么加水印?分享两个简单的加水印的方法
在数字媒体时代,视频已经成为信息传播的重要方式。许多人在创作视频是会加上自己独特的水印,防止视频被盗用。水印作为数字版权保护技术的一种,可以有效地防止视频被非法复制、传播或篡改,从而保护创作者的权益和利益。下面我分享…...

Apache Commons Collection3.2.1反序列化分析(CC1)
Commons Collections简介 Commons Collections是Apache软件基金会的一个开源项目,它提供了一组可复用的数据结构和算法的实现,旨在扩展和增强Java集合框架,以便更好地满足不同类型应用的需求。该项目包含了多种不同类型的集合类、迭代器、队…...

MySQL入门篇(10)-聚合函数的应用
MySQL数据库聚合函数的应用 在MySQL数据库中,聚合函数用于计算一组数据的统计值并返回结果。这些函数可以应用于查询语句中,对数据进行汇总、计数、平均值计算等操作。本文将介绍一些常用的MySQL聚合函数及其应用。 1. COUNT函数 COUNT函数用于计算指…...

Vue3基本概念
script部分 export default对象的属性: name:组件的名称 components:存储中用到的所有组件 props:存储父组件传递给子组件的数据 watch():当某个数据发生变化时触发 computed:动态计算某个数据 setup(pro…...

每日OJ题_算法_模拟①_力扣1576. 替换所有的问号
目录 模拟算法原理 力扣1576. 替换所有的问号 解析代码 模拟算法原理 模拟算法是一种常用的计算机算法,它模拟了实际问题的运行过程,并通过数学模型来预测结果。模拟算法可以应用于各个领域,例如物理、化学、生物、计算机网络等等。 模拟算…...

杂题——试题 算法训练 区间最大和
分析: 如果使用两个for循环遍历所有情况,运行会超时解决运行超时的关键点在于:及时停止累加,丢弃当前的子序列 比如【1,-2,3,10】从第一个数字开始的子序列的和小于从第三个数字开始的子序列的和…...

(安卓)跳转应用市场APP详情页的方式
前言 最近在做一个需求,需要从自己APP进入到系统的应用市场 方便用户在应用市场给自己的APP打分 于是查阅了一些资料,下面说一下实现方法 实现方案 一般来说,最简单的方案就是这样: val uri Uri.parse("market://details…...

亚信安全助力宁夏首个人工智能数据中心建成 铺设绿色算力安全底座
近日,由宁夏西云算力科技有限公司倾力打造,亚信安全科技股份有限公司(股票代码:688225)全力支撑,总投资达数十亿元人民币的宁夏智算中心项目,其一期工程——宁夏首个采用全自然风冷技术的30KW机…...

ASP.NET Core WebAPI_解决跨域问题(前端后端)
说明 我的前端框架为Vue3 前后端跨域选其一即可 前端跨域 在项目的根目录找到vite.config.js文件,添加代码: server: {proxy: {/api: {target: https://localhost:xxxx,changeOrigin: true,secure: false},},} axios代码片段: …...

保姆级的指针详解(超详细)
目录 一.内存和地址 1.初识指针 2.如何理解编址 二. 指针变量 三.指针的解引用操作符 1.指针变量的大小 四.指针变量类型的意义 五.指针的运算 1.指针加减整数 2.指针减指针 3.野指针 3.1指针未初始化 3.2指针越界访问 3.3指针指向的空间被提前释放 3.4如何规…...

R-YOLO
Abstract 提出了一个框架,名为R-YOLO,不需要在恶劣天气下进行注释。考虑到正常天气图像和不利天气图像之间的分布差距,我们的框架由图像翻译网络(QTNet)和特征校准网络(FCNet)组成,…...

Qt无边框窗口拖拽和阴影
先看下效果: 说明 自定义窗口控件的无边框,窗口事件由于没有系统自带边框,无法实现拖拽拉伸等事件的处理,一种方法就是重新重写主窗口的鼠标事件,一种时通过nativeEvent事件处理。重写事件相对繁琐,我们这里推荐nativeEvent处理。注意后续我们在做win平…...

ES6 Proxy详解
文章目录 概述Proxy 实例的方法get(target, propKey, receiver)set(target, propKey, value, receiver)has(target, propKey)deleteProperty(target, propKey)defineProperty(target, propKey, propDesc)getOwnPropertyDescriptor(target, propKey)getPrototypeOf(target)setPr…...

Prompt Learning 的几个重点paper
Prefix Tuning: Prefix-Tuning: Optimizing Continuous Prompts for Generation 在输入token之前构造一段任务相关的virtual tokens作为Prefix,然后训练的时候只更新Prefix部分的参数,PLM中的其他参数固定。针对自回归架构模型:在句子前面添…...

中科大计网学习记录笔记(三):接入网和物理媒体
前言: 学习视频:中科大郑烇、杨坚全套《计算机网络(自顶向下方法 第7版,James F.Kurose,Keith W.Ross)》课程 该视频是B站非常著名的计网学习视频,但相信很多朋友和我一样在听完前面的部分发现信…...

设计模式:工厂方法模式
工厂模式属于创建型模式,也被称为多态工厂模式,它在创建对象时提供了一种封装机制,将实际创建对象的代码与使用代码分离,有子类决定要实例化的产品是哪一个,把产品的实例化推迟到子类。 使用场景 重复代码 : 创建对象…...

HTML 相关知识点记录
<div> </div> DIV标签详细介绍-CSDN博客 div 是 division 的简写,division 意为分割、区域、分组。比方说,当你将一系列的链接组合在一起,就形成了文档的一个 division。 <p>标签:定义段落...

系统架构设计师考试大纲2023
一、 考试方式(机考) 考试采取科目连考、 分批次考试的方式, 连考的第一个科目作答结束交卷完成后自动进 入第二个科目, 第一个科目节余的时长可为第二个科目使用。 高级资格: 综合知识科目考试时长 150 分钟ÿ…...

sqli.labs靶场(第18~22关)
18、第十八关 经过测试发现User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:122.0) Gecko/20100101 Firefox/122.0加引号报错 这里我们闭合一下试试 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:122.0) Gecko/20100101 Firefox/122.0,127.0.0.1,adm…...

【tensorflow 版本 keras版本】
#. 安装tensorflow and keras, 总是遇到版本无法匹配的问题。 安装之前先查表 https://master--floydhub-docs.netlify.app/guides/environments/ 1.先确定你的python version 2.再根据下面表,确定安装的tesorflow, keras...

嵌入式学习第十六天
制作俄罗斯方块小游戏(一) 分析: printf函数高级用法 \033[:表示转义序列的开始 m:表示转义序列的结束 0:重置所有属性 1:设置粗体或高亮 30-37:设置字体色 30: 黑 31: 红 32:…...

Java过滤器拦截器的区别和实现
一、什么是过滤器与拦截器? 1.2 拦截器(Interceptor) java过滤器指的是在java中起到过滤的作用的一个方法。可以在一个请求到达servlet之前,将其截取进行逻辑判断,然后决定是否放行到请求的servlet;也可以在…...

Android 12 系统开机动画
修改Android开机动画有两种方式 方式一、通过adb 命令来修改: 进入/system/media目录,将里面的 bootanimation.zip 文件pull出来,然后解压,替换part0和part1中的图片,并且根据图片大小修改文件 desc.txt 中的内容&…...

C++:异常体系
异常体系 异常1.C语言传统的处理错误的方式2.C异常概念3.异常的使用3.1异常的抛出和捕获3.2 异常的重新抛出3.3异常安全3.4 异常规范 4.C标准库的异常体系5.异常的优缺点 异常 1.C语言传统的处理错误的方式 终止程序,如assert,缺陷:用户难以…...