《Access Path Selectionin a Relational Database Management System》论文笔记
以下是根据论文归纳出的一些查询优化器公式和知识点,有没有用不知道,先码起来。
SQL执行优化过程
处理SQL语句是从解析用户输入的SQL语句开始,经过一系列优化过程,最终生成机器代码并执行的过程。这个过程涉及到多个复杂的步骤,每个步骤都是为了确保SQL语句能够高效、正确地执行。通常包括以下四个主要步骤:
解析器(Parser)
这个步骤负责对用户输入的SQL语句进行词法和语法分析,检查SQL语句是否遵循SQL语法规则。
解析器通常使用像yacc这样的工具来完成这个工作,语法解析的结果是一个“抽象语法树”(Abstract Syntax Tree, AST),这是一个表示SQL语句结构的内部数据结构。
优化器(逻辑优化):
- 语义检查:这一步骤确保SQL语句在逻辑上是有意义的,例如检查SQL中引用的表和字段是否真实存在于数据库中。
- 统计信息和元信息读取:优化器会读取数据库的“元数据表”来获取关系对象(表、视图等)的统计信息和结构信息。
- 确定查询块评估顺序:优化器决定执行查询中不同部分(称为查询块)的顺序。
- 关系和连接处理:对于FROM子句中的每个关系(表),如果一个查询块中有多个关系,优化器还需要计算这些关系的连接顺序和方法。
- 选择最小总成本的访问路径:优化器会选择一个成本最小的执行路径,这个选择过程涉及到从多个可能的访问路径中挑选。
- 生成执行计划:最终,这个步骤会产生一个执行计划(plan),这个计划用一种叫做ASL(Abstract Set Language)的语言来描述。
代码生成器(物理优化):
在确定了每个查询块的执行计划并在抽象语法树中表示这个计划之后,代码生成器被调用。代码生成器是一个将ASL树转换为机器语言代码的程序,这些代码用来执行优化器选择的计划。它使用一组有限的代码模板,每种连接方法(包括不需要连接的情况)都对应一个模板。嵌套查询的查询块被当作“子程序”处理,它们在执行时返回值给调用它们的查询块。
执行:
在代码生成器阶段,解析树被转换成可执行的机器代码和相关的数据结构。这些生成的机器代码可以直接执行,也可以保存在数据库中,以备将来执行。当代码执行时,它会通过存储系统接口(RSI)调用System R的内部存储系统(RSS)来执行物理存储关系的扫描。这些扫描操作会沿着优化器选择的访问路径进行。
单表代价计算公式
代价评估公式用于估算执行特定查询的资源消耗,主要包括I/O和CPU的消耗。
- COST:代表执行查询的总代价,包括I/O代价和CPU代价。
- PAGE FETCHES:表示为了获取所需数据,需要从磁盘读取的数据页和索引页的数量,这是I/O代价的一部分。
- W:是一个权重因子,用于平衡I/O和CPU之间的代价,因为它们的性能可能不同。
- RSI CALLS:表示存储系统接口调用的次数,即实际读取的元组(行)数量,这是CPU代价的一部分。
统计信息项
数据库优化器使用以下统计信息来估计查询的代价:
-
关系T:
- NCARD(T):关系T中元组(行)的数量。
- TCARD(T):关系T中数据页的数量。
- P(T):关系T的数据页占有的segment比例。
-
对于T的任意索引I:
- ICARD(I):索引I中去重后的键值数量。
- NINDX(I):索引I占用的页的数量。
用户可以通过执行UPDATE STATISTICS命令来更新这些统计信息。
选择率F
选择率是指满足某个条件的元组占总元组的比例,用于估计查询的选择性:
-
column = value:
- 如果有索引,F = 1 / ICARD(column index)。
- 如果没有索引,F = 1 / 10(默认值)。
-
column1 = column2:
- 如果两个列都有索引,F = 1 / MAX(ICARD(column1 index), ICARD(column2 index))。
- 如果只有一个列有索引,F = 1 / ICARD(column-i index)。
- 如果两个列都没有索引,F = 1 / 10。
-
column > value 或 (v1 < column < v2):
- 如果column的值是数值型且均匀分布,F = (high key value - value) / (high key value - low key value)。
- 如果value非数值型,F = 1/3。
-
column IN (list of values):
- F = (列表中的项数) * (column = value 的选择性因子),但最多不超过1/2。
-
逻辑表达式的选择率:
- OR:F = F(pred1) + F(pred2) - F(pred1) * F(pred2)。
- AND:F = F(pred1) * F(pred2),这假设列值是独立的。
- NOT:F = 1 - F(pred)。
选择最优访问路径
在所有可能的访问路径中,优化器会根据上述代价评估公式和选择率,选择一个总代价最小的路径。如果查询需要按照某种特定的顺序(比如由GROUP BY或ORDER BY子句指定的顺序)输出元组,而这个顺序可以通过索引直接获得,那么这个顺序被称为一个“有趣的顺序”,优化器在决定使用索引的时候会考虑这个因素。
连接操作优化
Nested-Loop Join(嵌套循环连接)
嵌套循环连接是最简单的连接方法,它涉及两个步骤:
- 遍历外表中的每个元组(行)。
- 对于外表中的每个元组,遍历内表的所有元组,并对每对元组执行连接谓词的判断。
嵌套循环连接的成本计算公式为:
C-nested-loop-join(path1, path2) = C-outer(path1) + N * C-inner(path2)
其中:
C-outer(path1)是遍历外表的成本。N是外表中满足连接谓词的元组数量。C-inner(path2)是遍历内表的成本。
这种方法在内表非常小或者外表中满足连接条件的元组非常少时可能是有效的,但是如果两个表都很大,这种方法将会非常低效。
Merge Join(合并连接)
合并连接是一种更高效的连接方法,尤其是当两个表的连接列都已经排序时。合并连接的步骤如下:
- 同时遍历两个已排序的表。
- 比较当前行的连接列,并根据排序顺序移动指针。
合并连接的成本计算公式为:
C-merge(path1, path2) = C-outer(path1) + N * C-inner(path2)
其中:
C-outer(path1)是读取并排序外表的成本。N是外表的元组数量。C-inner(path2)是读取内表的成本。
如果内表没有预先排序,你可能需要先对内表进行排序,这会增加额外的成本。
对于已排序的内表,我们可以使用以下公式来计算内部扫描的成本:
C-inner(sorted list) = TEMPPAGES/N + W * RSICARD
其中:
TEMPPAGES是存储内表所需的临时页面数。N是外表的元组数量。W是CPU和IO之间的权重因子。RSICARD是在合并过程中预计会读取的内表元组数量。
这个公式假设在合并过程中,内表的每个页面只被读取一次,这是基于内表已经被排序的事实。由于内表是排序的,合并连接可以有效地通过比较排序键来快速找到匹配的元组,而不必遍历整个内表。
总结
在实际的数据库查询优化中,优化器会考虑多种因素来选择最佳的连接策略,包括表的大小、索引的存在、连接列的排序状态以及内存的可用量。优化器还会使用统计信息来更精确地估计成本和选择率,从而生成一个总体成本最低的查询执行计划。
相关文章:
《Access Path Selectionin a Relational Database Management System》论文笔记
以下是根据论文归纳出的一些查询优化器公式和知识点,有没有用不知道,先码起来。 SQL执行优化过程 处理SQL语句是从解析用户输入的SQL语句开始,经过一系列优化过程,最终生成机器代码并执行的过程。这个过程涉及到多个复杂的步骤&…...
【AI_Design】Midjourney学习笔记
目录 后缀解析Promot合格使用prompt关键词描述 关键词化合作用关键词网站推荐 联合Chatgpt使用总结 后缀解析 –ar:宽高比设置–c:多样性设置(数值0-100,默认值0)–s:风格化设置(数值0-1000&am…...
面试宝典之深谈JVM
面试宝典之深谈JVM 1.为什么需要JVM,不要JVM可以吗? 1.JVM可以帮助我们屏蔽底层的操作系统 一次编译,到处运行 2.JVM可以运行Class文件 2.JDK,JRE以及JVM的关系 3.我们的编译器到底干了什么事? 仅仅是将我们的 .ja…...
idea配置tomcat
推荐链接:IntelliJ IDEA中配置Tomcat(超详细)_idea怎么配置tomcat服务器-CSDN博客 1,官员下载链接:Apache Tomcat - Welcome! 附本人下载的 tomcat9 的百度网盘链接 链接:https://pan.baidu.com/s/1DpyBGnG4mUGTm5Z…...
【MyBatis】操作数据库——入门
文章目录 为什么要学习MyBatis什么是MyBatisMyBatis 入门创建带有MyBatis框架的SpringBoot项目数据准备在配置文件中配置数据库相关信息实现持久层代码单元测试 为什么要学习MyBatis 前面我们肯定多多少少学过 sql 语言,sql 语言是一种操作数据库的一类语言&#x…...
免费分享一套SpringBoot+Vue药店(药房)管理系统,帅呆了~~
大家好,我是java1234_小锋老师,看到一个不错的SpringBootVue药店(药房)管理系统 ,分享下哈。 项目视频演示 【免费】SpringBootVue药店(药房)管理系统 Java毕业设计_哔哩哔哩_bilibili【免费】SpringBootVue药店(药房)管理系统 Java毕业设计…...
视频怎么加水印?分享两个简单的加水印的方法
在数字媒体时代,视频已经成为信息传播的重要方式。许多人在创作视频是会加上自己独特的水印,防止视频被盗用。水印作为数字版权保护技术的一种,可以有效地防止视频被非法复制、传播或篡改,从而保护创作者的权益和利益。下面我分享…...
Apache Commons Collection3.2.1反序列化分析(CC1)
Commons Collections简介 Commons Collections是Apache软件基金会的一个开源项目,它提供了一组可复用的数据结构和算法的实现,旨在扩展和增强Java集合框架,以便更好地满足不同类型应用的需求。该项目包含了多种不同类型的集合类、迭代器、队…...
MySQL入门篇(10)-聚合函数的应用
MySQL数据库聚合函数的应用 在MySQL数据库中,聚合函数用于计算一组数据的统计值并返回结果。这些函数可以应用于查询语句中,对数据进行汇总、计数、平均值计算等操作。本文将介绍一些常用的MySQL聚合函数及其应用。 1. COUNT函数 COUNT函数用于计算指…...
Vue3基本概念
script部分 export default对象的属性: name:组件的名称 components:存储中用到的所有组件 props:存储父组件传递给子组件的数据 watch():当某个数据发生变化时触发 computed:动态计算某个数据 setup(pro…...
每日OJ题_算法_模拟①_力扣1576. 替换所有的问号
目录 模拟算法原理 力扣1576. 替换所有的问号 解析代码 模拟算法原理 模拟算法是一种常用的计算机算法,它模拟了实际问题的运行过程,并通过数学模型来预测结果。模拟算法可以应用于各个领域,例如物理、化学、生物、计算机网络等等。 模拟算…...
杂题——试题 算法训练 区间最大和
分析: 如果使用两个for循环遍历所有情况,运行会超时解决运行超时的关键点在于:及时停止累加,丢弃当前的子序列 比如【1,-2,3,10】从第一个数字开始的子序列的和小于从第三个数字开始的子序列的和…...
(安卓)跳转应用市场APP详情页的方式
前言 最近在做一个需求,需要从自己APP进入到系统的应用市场 方便用户在应用市场给自己的APP打分 于是查阅了一些资料,下面说一下实现方法 实现方案 一般来说,最简单的方案就是这样: val uri Uri.parse("market://details…...
亚信安全助力宁夏首个人工智能数据中心建成 铺设绿色算力安全底座
近日,由宁夏西云算力科技有限公司倾力打造,亚信安全科技股份有限公司(股票代码:688225)全力支撑,总投资达数十亿元人民币的宁夏智算中心项目,其一期工程——宁夏首个采用全自然风冷技术的30KW机…...
ASP.NET Core WebAPI_解决跨域问题(前端后端)
说明 我的前端框架为Vue3 前后端跨域选其一即可 前端跨域 在项目的根目录找到vite.config.js文件,添加代码: server: {proxy: {/api: {target: https://localhost:xxxx,changeOrigin: true,secure: false},},} axios代码片段: …...
保姆级的指针详解(超详细)
目录 一.内存和地址 1.初识指针 2.如何理解编址 二. 指针变量 三.指针的解引用操作符 1.指针变量的大小 四.指针变量类型的意义 五.指针的运算 1.指针加减整数 2.指针减指针 3.野指针 3.1指针未初始化 3.2指针越界访问 3.3指针指向的空间被提前释放 3.4如何规…...
R-YOLO
Abstract 提出了一个框架,名为R-YOLO,不需要在恶劣天气下进行注释。考虑到正常天气图像和不利天气图像之间的分布差距,我们的框架由图像翻译网络(QTNet)和特征校准网络(FCNet)组成,…...
Qt无边框窗口拖拽和阴影
先看下效果: 说明 自定义窗口控件的无边框,窗口事件由于没有系统自带边框,无法实现拖拽拉伸等事件的处理,一种方法就是重新重写主窗口的鼠标事件,一种时通过nativeEvent事件处理。重写事件相对繁琐,我们这里推荐nativeEvent处理。注意后续我们在做win平…...
ES6 Proxy详解
文章目录 概述Proxy 实例的方法get(target, propKey, receiver)set(target, propKey, value, receiver)has(target, propKey)deleteProperty(target, propKey)defineProperty(target, propKey, propDesc)getOwnPropertyDescriptor(target, propKey)getPrototypeOf(target)setPr…...
Prompt Learning 的几个重点paper
Prefix Tuning: Prefix-Tuning: Optimizing Continuous Prompts for Generation 在输入token之前构造一段任务相关的virtual tokens作为Prefix,然后训练的时候只更新Prefix部分的参数,PLM中的其他参数固定。针对自回归架构模型:在句子前面添…...
测试微信模版消息推送
进入“开发接口管理”--“公众平台测试账号”,无需申请公众账号、可在测试账号中体验并测试微信公众平台所有高级接口。 获取access_token: 自定义模版消息: 关注测试号:扫二维码关注测试号。 发送模版消息: import requests da…...
【kafka】Golang实现分布式Masscan任务调度系统
要求: 输出两个程序,一个命令行程序(命令行参数用flag)和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽,然后将消息推送到kafka里面。 服务端程序: 从kafka消费者接收…...
基础测试工具使用经验
背景 vtune,perf, nsight system等基础测试工具,都是用过的,但是没有记录,都逐渐忘了。所以写这篇博客总结记录一下,只要以后发现新的用法,就记得来编辑补充一下 perf 比较基础的用法: 先改这…...
【2025年】解决Burpsuite抓不到https包的问题
环境:windows11 burpsuite:2025.5 在抓取https网站时,burpsuite抓取不到https数据包,只显示: 解决该问题只需如下三个步骤: 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...
汇编常见指令
汇编常见指令 一、数据传送指令 指令功能示例说明MOV数据传送MOV EAX, 10将立即数 10 送入 EAXMOV [EBX], EAX将 EAX 值存入 EBX 指向的内存LEA加载有效地址LEA EAX, [EBX4]将 EBX4 的地址存入 EAX(不访问内存)XCHG交换数据XCHG EAX, EBX交换 EAX 和 EB…...
全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比
目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...
图表类系列各种样式PPT模版分享
图标图表系列PPT模版,柱状图PPT模版,线状图PPT模版,折线图PPT模版,饼状图PPT模版,雷达图PPT模版,树状图PPT模版 图表类系列各种样式PPT模版分享:图表系列PPT模板https://pan.quark.cn/s/20d40aa…...
08. C#入门系列【类的基本概念】:开启编程世界的奇妙冒险
C#入门系列【类的基本概念】:开启编程世界的奇妙冒险 嘿,各位编程小白探险家!欢迎来到 C# 的奇幻大陆!今天咱们要深入探索这片大陆上至关重要的 “建筑”—— 类!别害怕,跟着我,保准让你轻松搞…...
LRU 缓存机制详解与实现(Java版) + 力扣解决
📌 LRU 缓存机制详解与实现(Java版) 一、📖 问题背景 在日常开发中,我们经常会使用 缓存(Cache) 来提升性能。但由于内存有限,缓存不可能无限增长,于是需要策略决定&am…...
TSN交换机正在重构工业网络,PROFINET和EtherCAT会被取代吗?
在工业自动化持续演进的今天,通信网络的角色正变得愈发关键。 2025年6月6日,为期三天的华南国际工业博览会在深圳国际会展中心(宝安)圆满落幕。作为国内工业通信领域的技术型企业,光路科技(Fiberroad&…...
