当前位置: 首页 > news >正文

《Access Path Selectionin a Relational Database Management System》论文笔记

以下是根据论文归纳出的一些查询优化器公式和知识点,有没有用不知道,先码起来。

SQL执行优化过程

处理SQL语句是从解析用户输入的SQL语句开始,经过一系列优化过程,最终生成机器代码并执行的过程。这个过程涉及到多个复杂的步骤,每个步骤都是为了确保SQL语句能够高效、正确地执行。通常包括以下四个主要步骤:

解析器(Parser)

这个步骤负责对用户输入的SQL语句进行词法和语法分析,检查SQL语句是否遵循SQL语法规则。

解析器通常使用像yacc这样的工具来完成这个工作,语法解析的结果是一个“抽象语法树”(Abstract Syntax Tree, AST),这是一个表示SQL语句结构的内部数据结构。

优化器(逻辑优化):

  • 语义检查:这一步骤确保SQL语句在逻辑上是有意义的,例如检查SQL中引用的表和字段是否真实存在于数据库中。
  • 统计信息和元信息读取:优化器会读取数据库的“元数据表”来获取关系对象(表、视图等)的统计信息和结构信息。
  • 确定查询块评估顺序:优化器决定执行查询中不同部分(称为查询块)的顺序。
  • 关系和连接处理:对于FROM子句中的每个关系(表),如果一个查询块中有多个关系,优化器还需要计算这些关系的连接顺序和方法。
  • 选择最小总成本的访问路径:优化器会选择一个成本最小的执行路径,这个选择过程涉及到从多个可能的访问路径中挑选。
  • 生成执行计划:最终,这个步骤会产生一个执行计划(plan),这个计划用一种叫做ASL(Abstract Set Language)的语言来描述。

代码生成器(物理优化):

在确定了每个查询块的执行计划并在抽象语法树中表示这个计划之后,代码生成器被调用。代码生成器是一个将ASL树转换为机器语言代码的程序,这些代码用来执行优化器选择的计划。它使用一组有限的代码模板,每种连接方法(包括不需要连接的情况)都对应一个模板。嵌套查询的查询块被当作“子程序”处理,它们在执行时返回值给调用它们的查询块。

执行:

在代码生成器阶段,解析树被转换成可执行的机器代码和相关的数据结构。这些生成的机器代码可以直接执行,也可以保存在数据库中,以备将来执行。当代码执行时,它会通过存储系统接口(RSI)调用System R的内部存储系统(RSS)来执行物理存储关系的扫描。这些扫描操作会沿着优化器选择的访问路径进行。

单表代价计算公式

代价评估公式用于估算执行特定查询的资源消耗,主要包括I/O和CPU的消耗。

  • COST:代表执行查询的总代价,包括I/O代价和CPU代价。
  • PAGE FETCHES:表示为了获取所需数据,需要从磁盘读取的数据页和索引页的数量,这是I/O代价的一部分。
  • W:是一个权重因子,用于平衡I/O和CPU之间的代价,因为它们的性能可能不同。
  • RSI CALLS:表示存储系统接口调用的次数,即实际读取的元组(行)数量,这是CPU代价的一部分。

统计信息项

数据库优化器使用以下统计信息来估计查询的代价:

  • 关系T

    • NCARD(T):关系T中元组(行)的数量。
    • TCARD(T):关系T中数据页的数量。
    • P(T):关系T的数据页占有的segment比例。
  • 对于T的任意索引I

    • ICARD(I):索引I中去重后的键值数量。
    • NINDX(I):索引I占用的页的数量。

用户可以通过执行UPDATE STATISTICS命令来更新这些统计信息。

选择率F

选择率是指满足某个条件的元组占总元组的比例,用于估计查询的选择性:

  • column = value

    • 如果有索引,F = 1 / ICARD(column index)。
    • 如果没有索引,F = 1 / 10(默认值)。
  • column1 = column2

    • 如果两个列都有索引,F = 1 / MAX(ICARD(column1 index), ICARD(column2 index))。
    • 如果只有一个列有索引,F = 1 / ICARD(column-i index)。
    • 如果两个列都没有索引,F = 1 / 10。
  • column > value 或 (v1 < column < v2)

    • 如果column的值是数值型且均匀分布,F = (high key value - value) / (high key value - low key value)。
    • 如果value非数值型,F = 1/3。
  • column IN (list of values)

    • F = (列表中的项数) * (column = value 的选择性因子),但最多不超过1/2。
  • 逻辑表达式的选择率

    • OR:F = F(pred1) + F(pred2) - F(pred1) * F(pred2)。
    • AND:F = F(pred1) * F(pred2),这假设列值是独立的。
    • NOT:F = 1 - F(pred)。

选择最优访问路径

在所有可能的访问路径中,优化器会根据上述代价评估公式和选择率,选择一个总代价最小的路径。如果查询需要按照某种特定的顺序(比如由GROUP BY或ORDER BY子句指定的顺序)输出元组,而这个顺序可以通过索引直接获得,那么这个顺序被称为一个“有趣的顺序”,优化器在决定使用索引的时候会考虑这个因素。

连接操作优化

Nested-Loop Join(嵌套循环连接)

嵌套循环连接是最简单的连接方法,它涉及两个步骤:

  1. 遍历外表中的每个元组(行)。
  2. 对于外表中的每个元组,遍历内表的所有元组,并对每对元组执行连接谓词的判断。

嵌套循环连接的成本计算公式为:

C-nested-loop-join(path1, path2) = C-outer(path1) + N * C-inner(path2)

其中:

  • C-outer(path1) 是遍历外表的成本。
  • N 是外表中满足连接谓词的元组数量。
  • C-inner(path2) 是遍历内表的成本。

这种方法在内表非常小或者外表中满足连接条件的元组非常少时可能是有效的,但是如果两个表都很大,这种方法将会非常低效。

Merge Join(合并连接)

合并连接是一种更高效的连接方法,尤其是当两个表的连接列都已经排序时。合并连接的步骤如下:

  1. 同时遍历两个已排序的表。
  2. 比较当前行的连接列,并根据排序顺序移动指针。

合并连接的成本计算公式为:

C-merge(path1, path2) = C-outer(path1) + N * C-inner(path2)

其中:

  • C-outer(path1) 是读取并排序外表的成本。
  • N 是外表的元组数量。
  • C-inner(path2) 是读取内表的成本。

如果内表没有预先排序,你可能需要先对内表进行排序,这会增加额外的成本。

对于已排序的内表,我们可以使用以下公式来计算内部扫描的成本:

C-inner(sorted list) = TEMPPAGES/N + W * RSICARD

其中:

  • TEMPPAGES 是存储内表所需的临时页面数。
  • N 是外表的元组数量。
  • W 是CPU和IO之间的权重因子。
  • RSICARD 是在合并过程中预计会读取的内表元组数量。

这个公式假设在合并过程中,内表的每个页面只被读取一次,这是基于内表已经被排序的事实。由于内表是排序的,合并连接可以有效地通过比较排序键来快速找到匹配的元组,而不必遍历整个内表。

总结

在实际的数据库查询优化中,优化器会考虑多种因素来选择最佳的连接策略,包括表的大小、索引的存在、连接列的排序状态以及内存的可用量。优化器还会使用统计信息来更精确地估计成本和选择率,从而生成一个总体成本最低的查询执行计划。

相关文章:

《Access Path Selectionin a Relational Database Management System》论文笔记

以下是根据论文归纳出的一些查询优化器公式和知识点&#xff0c;有没有用不知道&#xff0c;先码起来。 SQL执行优化过程 处理SQL语句是从解析用户输入的SQL语句开始&#xff0c;经过一系列优化过程&#xff0c;最终生成机器代码并执行的过程。这个过程涉及到多个复杂的步骤&…...

【AI_Design】Midjourney学习笔记

目录 后缀解析Promot合格使用prompt关键词描述 关键词化合作用关键词网站推荐 联合Chatgpt使用总结 后缀解析 –ar&#xff1a;宽高比设置–c&#xff1a;多样性设置&#xff08;数值0-100&#xff0c;默认值0&#xff09;–s&#xff1a;风格化设置&#xff08;数值0-1000&am…...

面试宝典之深谈JVM

面试宝典之深谈JVM 1.为什么需要JVM&#xff0c;不要JVM可以吗&#xff1f; 1.JVM可以帮助我们屏蔽底层的操作系统 一次编译&#xff0c;到处运行 2.JVM可以运行Class文件 2.JDK&#xff0c;JRE以及JVM的关系 3.我们的编译器到底干了什么事&#xff1f; 仅仅是将我们的 .ja…...

idea配置tomcat

推荐链接&#xff1a;IntelliJ IDEA中配置Tomcat&#xff08;超详细&#xff09;_idea怎么配置tomcat服务器-CSDN博客 1,官员下载链接&#xff1a;Apache Tomcat - Welcome! 附本人下载的 tomcat9 的百度网盘链接 链接&#xff1a;https://pan.baidu.com/s/1DpyBGnG4mUGTm5Z…...

【MyBatis】操作数据库——入门

文章目录 为什么要学习MyBatis什么是MyBatisMyBatis 入门创建带有MyBatis框架的SpringBoot项目数据准备在配置文件中配置数据库相关信息实现持久层代码单元测试 为什么要学习MyBatis 前面我们肯定多多少少学过 sql 语言&#xff0c;sql 语言是一种操作数据库的一类语言&#x…...

免费分享一套SpringBoot+Vue药店(药房)管理系统,帅呆了~~

大家好&#xff0c;我是java1234_小锋老师&#xff0c;看到一个不错的SpringBootVue药店(药房)管理系统 &#xff0c;分享下哈。 项目视频演示 【免费】SpringBootVue药店(药房)管理系统 Java毕业设计_哔哩哔哩_bilibili【免费】SpringBootVue药店(药房)管理系统 Java毕业设计…...

视频怎么加水印?分享两个简单的加水印的方法

在数字媒体时代&#xff0c;视频已经成为信息传播的重要方式。许多人在创作视频是会加上自己独特的水印&#xff0c;防止视频被盗用。水印作为数字版权保护技术的一种&#xff0c;可以有效地防止视频被非法复制、传播或篡改&#xff0c;从而保护创作者的权益和利益。下面我分享…...

Apache Commons Collection3.2.1反序列化分析(CC1)

Commons Collections简介 Commons Collections是Apache软件基金会的一个开源项目&#xff0c;它提供了一组可复用的数据结构和算法的实现&#xff0c;旨在扩展和增强Java集合框架&#xff0c;以便更好地满足不同类型应用的需求。该项目包含了多种不同类型的集合类、迭代器、队…...

MySQL入门篇(10)-聚合函数的应用

MySQL数据库聚合函数的应用 在MySQL数据库中&#xff0c;聚合函数用于计算一组数据的统计值并返回结果。这些函数可以应用于查询语句中&#xff0c;对数据进行汇总、计数、平均值计算等操作。本文将介绍一些常用的MySQL聚合函数及其应用。 1. COUNT函数 COUNT函数用于计算指…...

Vue3基本概念

script部分 export default对象的属性&#xff1a; name&#xff1a;组件的名称 components&#xff1a;存储中用到的所有组件 props&#xff1a;存储父组件传递给子组件的数据 watch()&#xff1a;当某个数据发生变化时触发 computed&#xff1a;动态计算某个数据 setup(pro…...

每日OJ题_算法_模拟①_力扣1576. 替换所有的问号

目录 模拟算法原理 力扣1576. 替换所有的问号 解析代码 模拟算法原理 模拟算法是一种常用的计算机算法&#xff0c;它模拟了实际问题的运行过程&#xff0c;并通过数学模型来预测结果。模拟算法可以应用于各个领域&#xff0c;例如物理、化学、生物、计算机网络等等。 模拟算…...

杂题——试题 算法训练 区间最大和

分析&#xff1a; 如果使用两个for循环遍历所有情况&#xff0c;运行会超时解决运行超时的关键点在于&#xff1a;及时停止累加&#xff0c;丢弃当前的子序列 比如【1&#xff0c;-2&#xff0c;3&#xff0c;10】从第一个数字开始的子序列的和小于从第三个数字开始的子序列的和…...

(安卓)跳转应用市场APP详情页的方式

前言 最近在做一个需求&#xff0c;需要从自己APP进入到系统的应用市场 方便用户在应用市场给自己的APP打分 于是查阅了一些资料&#xff0c;下面说一下实现方法 实现方案 一般来说&#xff0c;最简单的方案就是这样&#xff1a; val uri Uri.parse("market://details…...

亚信安全助力宁夏首个人工智能数据中心建成 铺设绿色算力安全底座

近日&#xff0c;由宁夏西云算力科技有限公司倾力打造&#xff0c;亚信安全科技股份有限公司&#xff08;股票代码&#xff1a;688225&#xff09;全力支撑&#xff0c;总投资达数十亿元人民币的宁夏智算中心项目&#xff0c;其一期工程——宁夏首个采用全自然风冷技术的30KW机…...

ASP.NET Core WebAPI_解决跨域问题(前端后端)

说明 我的前端框架为Vue&#xff13; 前后端跨域选其一即可 前端跨域 在项目的根目录找到vite.config.js文件&#xff0c;添加代码&#xff1a; server: {proxy: {/api: {target: https://localhost:xxxx,changeOrigin: true,secure: false},},} axios代码片段&#xff1a; …...

保姆级的指针详解(超详细)

目录 一.内存和地址  1.初识指针 2.如何理解编址 二. 指针变量 三.指针的解引用操作符 1.指针变量的大小 四.指针变量类型的意义 五.指针的运算 1.指针加减整数 2.指针减指针 3.野指针 3.1指针未初始化 3.2指针越界访问 3.3指针指向的空间被提前释放 3.4如何规…...

R-YOLO

Abstract 提出了一个框架&#xff0c;名为R-YOLO&#xff0c;不需要在恶劣天气下进行注释。考虑到正常天气图像和不利天气图像之间的分布差距&#xff0c;我们的框架由图像翻译网络&#xff08;QTNet&#xff09;和特征校准网络&#xff08;FCNet&#xff09;组成&#xff0c;…...

Qt无边框窗口拖拽和阴影

先看下效果&#xff1a; 说明 自定义窗口控件的无边框,窗口事件由于没有系统自带边框,无法实现拖拽拉伸等事件的处理,一种方法就是重新重写主窗口的鼠标事件&#xff0c;一种时通过nativeEvent事件处理。重写事件相对繁琐,我们这里推荐nativeEvent处理。注意后续我们在做win平…...

ES6 Proxy详解

文章目录 概述Proxy 实例的方法get(target, propKey, receiver)set(target, propKey, value, receiver)has(target, propKey)deleteProperty(target, propKey)defineProperty(target, propKey, propDesc)getOwnPropertyDescriptor(target, propKey)getPrototypeOf(target)setPr…...

Prompt Learning 的几个重点paper

Prefix Tuning: Prefix-Tuning: Optimizing Continuous Prompts for Generation 在输入token之前构造一段任务相关的virtual tokens作为Prefix&#xff0c;然后训练的时候只更新Prefix部分的参数&#xff0c;PLM中的其他参数固定。针对自回归架构模型&#xff1a;在句子前面添…...

生成xcframework

打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式&#xff0c;可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。 使用 Xcode 命令行工具打包 通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法

树莓派摄像头高级使用方法 配置通过调谐文件来调整相机行为 使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包 文章来源&#xff1a; http://raspberry.dns8844.cn/documentation 原文网址 配置 大多数用例自动工作&#xff0c;无需更改相机配置。但是&#xff0c;一…...

JavaScript 中的 ES|QL:利用 Apache Arrow 工具

作者&#xff1a;来自 Elastic Jeffrey Rengifo 学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。 想获得 Elastic 认证吗&#xff1f;了解下一期 Elasticsearch Engineer 培训的时间吧&#xff01; Elasticsearch 拥有众多新功能&#xff0c;助你为自己…...

Oracle查询表空间大小

1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...

ESP32 I2S音频总线学习笔记(四): INMP441采集音频并实时播放

简介 前面两期文章我们介绍了I2S的读取和写入&#xff0c;一个是通过INMP441麦克风模块采集音频&#xff0c;一个是通过PCM5102A模块播放音频&#xff0c;那如果我们将两者结合起来&#xff0c;将麦克风采集到的音频通过PCM5102A播放&#xff0c;是不是就可以做一个扩音器了呢…...

新能源汽车智慧充电桩管理方案:新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及&#xff0c;充电桩作为核心配套设施&#xff0c;其安全性与可靠性备受关注。然而&#xff0c;在高温、高负荷运行环境下&#xff0c;充电桩的散热问题与消防安全隐患日益凸显&#xff0c;成为制约行业发展的关键瓶颈。 如何通过智慧化管理手段优化散…...

Module Federation 和 Native Federation 的比较

前言 Module Federation 是 Webpack 5 引入的微前端架构方案&#xff0c;允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。 概念解析 Module Federation (模块联邦) Modul…...

【Web 进阶篇】优雅的接口设计:统一响应、全局异常处理与参数校验

系列回顾&#xff1a; 在上一篇中&#xff0c;我们成功地为应用集成了数据库&#xff0c;并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了&#xff01;但是&#xff0c;如果你仔细审视那些 API&#xff0c;会发现它们还很“粗糙”&#xff1a;有…...

c#开发AI模型对话

AI模型 前面已经介绍了一般AI模型本地部署&#xff0c;直接调用现成的模型数据。这里主要讲述讲接口集成到我们自己的程序中使用方式。 微软提供了ML.NET来开发和使用AI模型&#xff0c;但是目前国内可能使用不多&#xff0c;至少实践例子很少看见。开发训练模型就不介绍了&am…...

优选算法第十二讲:队列 + 宽搜 优先级队列

优选算法第十二讲&#xff1a;队列 宽搜 && 优先级队列 1.N叉树的层序遍历2.二叉树的锯齿型层序遍历3.二叉树最大宽度4.在每个树行中找最大值5.优先级队列 -- 最后一块石头的重量6.数据流中的第K大元素7.前K个高频单词8.数据流的中位数 1.N叉树的层序遍历 2.二叉树的锯…...