当前位置: 首页 > news >正文

《Access Path Selectionin a Relational Database Management System》论文笔记

以下是根据论文归纳出的一些查询优化器公式和知识点,有没有用不知道,先码起来。

SQL执行优化过程

处理SQL语句是从解析用户输入的SQL语句开始,经过一系列优化过程,最终生成机器代码并执行的过程。这个过程涉及到多个复杂的步骤,每个步骤都是为了确保SQL语句能够高效、正确地执行。通常包括以下四个主要步骤:

解析器(Parser)

这个步骤负责对用户输入的SQL语句进行词法和语法分析,检查SQL语句是否遵循SQL语法规则。

解析器通常使用像yacc这样的工具来完成这个工作,语法解析的结果是一个“抽象语法树”(Abstract Syntax Tree, AST),这是一个表示SQL语句结构的内部数据结构。

优化器(逻辑优化):

  • 语义检查:这一步骤确保SQL语句在逻辑上是有意义的,例如检查SQL中引用的表和字段是否真实存在于数据库中。
  • 统计信息和元信息读取:优化器会读取数据库的“元数据表”来获取关系对象(表、视图等)的统计信息和结构信息。
  • 确定查询块评估顺序:优化器决定执行查询中不同部分(称为查询块)的顺序。
  • 关系和连接处理:对于FROM子句中的每个关系(表),如果一个查询块中有多个关系,优化器还需要计算这些关系的连接顺序和方法。
  • 选择最小总成本的访问路径:优化器会选择一个成本最小的执行路径,这个选择过程涉及到从多个可能的访问路径中挑选。
  • 生成执行计划:最终,这个步骤会产生一个执行计划(plan),这个计划用一种叫做ASL(Abstract Set Language)的语言来描述。

代码生成器(物理优化):

在确定了每个查询块的执行计划并在抽象语法树中表示这个计划之后,代码生成器被调用。代码生成器是一个将ASL树转换为机器语言代码的程序,这些代码用来执行优化器选择的计划。它使用一组有限的代码模板,每种连接方法(包括不需要连接的情况)都对应一个模板。嵌套查询的查询块被当作“子程序”处理,它们在执行时返回值给调用它们的查询块。

执行:

在代码生成器阶段,解析树被转换成可执行的机器代码和相关的数据结构。这些生成的机器代码可以直接执行,也可以保存在数据库中,以备将来执行。当代码执行时,它会通过存储系统接口(RSI)调用System R的内部存储系统(RSS)来执行物理存储关系的扫描。这些扫描操作会沿着优化器选择的访问路径进行。

单表代价计算公式

代价评估公式用于估算执行特定查询的资源消耗,主要包括I/O和CPU的消耗。

  • COST:代表执行查询的总代价,包括I/O代价和CPU代价。
  • PAGE FETCHES:表示为了获取所需数据,需要从磁盘读取的数据页和索引页的数量,这是I/O代价的一部分。
  • W:是一个权重因子,用于平衡I/O和CPU之间的代价,因为它们的性能可能不同。
  • RSI CALLS:表示存储系统接口调用的次数,即实际读取的元组(行)数量,这是CPU代价的一部分。

统计信息项

数据库优化器使用以下统计信息来估计查询的代价:

  • 关系T

    • NCARD(T):关系T中元组(行)的数量。
    • TCARD(T):关系T中数据页的数量。
    • P(T):关系T的数据页占有的segment比例。
  • 对于T的任意索引I

    • ICARD(I):索引I中去重后的键值数量。
    • NINDX(I):索引I占用的页的数量。

用户可以通过执行UPDATE STATISTICS命令来更新这些统计信息。

选择率F

选择率是指满足某个条件的元组占总元组的比例,用于估计查询的选择性:

  • column = value

    • 如果有索引,F = 1 / ICARD(column index)。
    • 如果没有索引,F = 1 / 10(默认值)。
  • column1 = column2

    • 如果两个列都有索引,F = 1 / MAX(ICARD(column1 index), ICARD(column2 index))。
    • 如果只有一个列有索引,F = 1 / ICARD(column-i index)。
    • 如果两个列都没有索引,F = 1 / 10。
  • column > value 或 (v1 < column < v2)

    • 如果column的值是数值型且均匀分布,F = (high key value - value) / (high key value - low key value)。
    • 如果value非数值型,F = 1/3。
  • column IN (list of values)

    • F = (列表中的项数) * (column = value 的选择性因子),但最多不超过1/2。
  • 逻辑表达式的选择率

    • OR:F = F(pred1) + F(pred2) - F(pred1) * F(pred2)。
    • AND:F = F(pred1) * F(pred2),这假设列值是独立的。
    • NOT:F = 1 - F(pred)。

选择最优访问路径

在所有可能的访问路径中,优化器会根据上述代价评估公式和选择率,选择一个总代价最小的路径。如果查询需要按照某种特定的顺序(比如由GROUP BY或ORDER BY子句指定的顺序)输出元组,而这个顺序可以通过索引直接获得,那么这个顺序被称为一个“有趣的顺序”,优化器在决定使用索引的时候会考虑这个因素。

连接操作优化

Nested-Loop Join(嵌套循环连接)

嵌套循环连接是最简单的连接方法,它涉及两个步骤:

  1. 遍历外表中的每个元组(行)。
  2. 对于外表中的每个元组,遍历内表的所有元组,并对每对元组执行连接谓词的判断。

嵌套循环连接的成本计算公式为:

C-nested-loop-join(path1, path2) = C-outer(path1) + N * C-inner(path2)

其中:

  • C-outer(path1) 是遍历外表的成本。
  • N 是外表中满足连接谓词的元组数量。
  • C-inner(path2) 是遍历内表的成本。

这种方法在内表非常小或者外表中满足连接条件的元组非常少时可能是有效的,但是如果两个表都很大,这种方法将会非常低效。

Merge Join(合并连接)

合并连接是一种更高效的连接方法,尤其是当两个表的连接列都已经排序时。合并连接的步骤如下:

  1. 同时遍历两个已排序的表。
  2. 比较当前行的连接列,并根据排序顺序移动指针。

合并连接的成本计算公式为:

C-merge(path1, path2) = C-outer(path1) + N * C-inner(path2)

其中:

  • C-outer(path1) 是读取并排序外表的成本。
  • N 是外表的元组数量。
  • C-inner(path2) 是读取内表的成本。

如果内表没有预先排序,你可能需要先对内表进行排序,这会增加额外的成本。

对于已排序的内表,我们可以使用以下公式来计算内部扫描的成本:

C-inner(sorted list) = TEMPPAGES/N + W * RSICARD

其中:

  • TEMPPAGES 是存储内表所需的临时页面数。
  • N 是外表的元组数量。
  • W 是CPU和IO之间的权重因子。
  • RSICARD 是在合并过程中预计会读取的内表元组数量。

这个公式假设在合并过程中,内表的每个页面只被读取一次,这是基于内表已经被排序的事实。由于内表是排序的,合并连接可以有效地通过比较排序键来快速找到匹配的元组,而不必遍历整个内表。

总结

在实际的数据库查询优化中,优化器会考虑多种因素来选择最佳的连接策略,包括表的大小、索引的存在、连接列的排序状态以及内存的可用量。优化器还会使用统计信息来更精确地估计成本和选择率,从而生成一个总体成本最低的查询执行计划。

相关文章:

《Access Path Selectionin a Relational Database Management System》论文笔记

以下是根据论文归纳出的一些查询优化器公式和知识点&#xff0c;有没有用不知道&#xff0c;先码起来。 SQL执行优化过程 处理SQL语句是从解析用户输入的SQL语句开始&#xff0c;经过一系列优化过程&#xff0c;最终生成机器代码并执行的过程。这个过程涉及到多个复杂的步骤&…...

【AI_Design】Midjourney学习笔记

目录 后缀解析Promot合格使用prompt关键词描述 关键词化合作用关键词网站推荐 联合Chatgpt使用总结 后缀解析 –ar&#xff1a;宽高比设置–c&#xff1a;多样性设置&#xff08;数值0-100&#xff0c;默认值0&#xff09;–s&#xff1a;风格化设置&#xff08;数值0-1000&am…...

面试宝典之深谈JVM

面试宝典之深谈JVM 1.为什么需要JVM&#xff0c;不要JVM可以吗&#xff1f; 1.JVM可以帮助我们屏蔽底层的操作系统 一次编译&#xff0c;到处运行 2.JVM可以运行Class文件 2.JDK&#xff0c;JRE以及JVM的关系 3.我们的编译器到底干了什么事&#xff1f; 仅仅是将我们的 .ja…...

idea配置tomcat

推荐链接&#xff1a;IntelliJ IDEA中配置Tomcat&#xff08;超详细&#xff09;_idea怎么配置tomcat服务器-CSDN博客 1,官员下载链接&#xff1a;Apache Tomcat - Welcome! 附本人下载的 tomcat9 的百度网盘链接 链接&#xff1a;https://pan.baidu.com/s/1DpyBGnG4mUGTm5Z…...

【MyBatis】操作数据库——入门

文章目录 为什么要学习MyBatis什么是MyBatisMyBatis 入门创建带有MyBatis框架的SpringBoot项目数据准备在配置文件中配置数据库相关信息实现持久层代码单元测试 为什么要学习MyBatis 前面我们肯定多多少少学过 sql 语言&#xff0c;sql 语言是一种操作数据库的一类语言&#x…...

免费分享一套SpringBoot+Vue药店(药房)管理系统,帅呆了~~

大家好&#xff0c;我是java1234_小锋老师&#xff0c;看到一个不错的SpringBootVue药店(药房)管理系统 &#xff0c;分享下哈。 项目视频演示 【免费】SpringBootVue药店(药房)管理系统 Java毕业设计_哔哩哔哩_bilibili【免费】SpringBootVue药店(药房)管理系统 Java毕业设计…...

视频怎么加水印?分享两个简单的加水印的方法

在数字媒体时代&#xff0c;视频已经成为信息传播的重要方式。许多人在创作视频是会加上自己独特的水印&#xff0c;防止视频被盗用。水印作为数字版权保护技术的一种&#xff0c;可以有效地防止视频被非法复制、传播或篡改&#xff0c;从而保护创作者的权益和利益。下面我分享…...

Apache Commons Collection3.2.1反序列化分析(CC1)

Commons Collections简介 Commons Collections是Apache软件基金会的一个开源项目&#xff0c;它提供了一组可复用的数据结构和算法的实现&#xff0c;旨在扩展和增强Java集合框架&#xff0c;以便更好地满足不同类型应用的需求。该项目包含了多种不同类型的集合类、迭代器、队…...

MySQL入门篇(10)-聚合函数的应用

MySQL数据库聚合函数的应用 在MySQL数据库中&#xff0c;聚合函数用于计算一组数据的统计值并返回结果。这些函数可以应用于查询语句中&#xff0c;对数据进行汇总、计数、平均值计算等操作。本文将介绍一些常用的MySQL聚合函数及其应用。 1. COUNT函数 COUNT函数用于计算指…...

Vue3基本概念

script部分 export default对象的属性&#xff1a; name&#xff1a;组件的名称 components&#xff1a;存储中用到的所有组件 props&#xff1a;存储父组件传递给子组件的数据 watch()&#xff1a;当某个数据发生变化时触发 computed&#xff1a;动态计算某个数据 setup(pro…...

每日OJ题_算法_模拟①_力扣1576. 替换所有的问号

目录 模拟算法原理 力扣1576. 替换所有的问号 解析代码 模拟算法原理 模拟算法是一种常用的计算机算法&#xff0c;它模拟了实际问题的运行过程&#xff0c;并通过数学模型来预测结果。模拟算法可以应用于各个领域&#xff0c;例如物理、化学、生物、计算机网络等等。 模拟算…...

杂题——试题 算法训练 区间最大和

分析&#xff1a; 如果使用两个for循环遍历所有情况&#xff0c;运行会超时解决运行超时的关键点在于&#xff1a;及时停止累加&#xff0c;丢弃当前的子序列 比如【1&#xff0c;-2&#xff0c;3&#xff0c;10】从第一个数字开始的子序列的和小于从第三个数字开始的子序列的和…...

(安卓)跳转应用市场APP详情页的方式

前言 最近在做一个需求&#xff0c;需要从自己APP进入到系统的应用市场 方便用户在应用市场给自己的APP打分 于是查阅了一些资料&#xff0c;下面说一下实现方法 实现方案 一般来说&#xff0c;最简单的方案就是这样&#xff1a; val uri Uri.parse("market://details…...

亚信安全助力宁夏首个人工智能数据中心建成 铺设绿色算力安全底座

近日&#xff0c;由宁夏西云算力科技有限公司倾力打造&#xff0c;亚信安全科技股份有限公司&#xff08;股票代码&#xff1a;688225&#xff09;全力支撑&#xff0c;总投资达数十亿元人民币的宁夏智算中心项目&#xff0c;其一期工程——宁夏首个采用全自然风冷技术的30KW机…...

ASP.NET Core WebAPI_解决跨域问题(前端后端)

说明 我的前端框架为Vue&#xff13; 前后端跨域选其一即可 前端跨域 在项目的根目录找到vite.config.js文件&#xff0c;添加代码&#xff1a; server: {proxy: {/api: {target: https://localhost:xxxx,changeOrigin: true,secure: false},},} axios代码片段&#xff1a; …...

保姆级的指针详解(超详细)

目录 一.内存和地址  1.初识指针 2.如何理解编址 二. 指针变量 三.指针的解引用操作符 1.指针变量的大小 四.指针变量类型的意义 五.指针的运算 1.指针加减整数 2.指针减指针 3.野指针 3.1指针未初始化 3.2指针越界访问 3.3指针指向的空间被提前释放 3.4如何规…...

R-YOLO

Abstract 提出了一个框架&#xff0c;名为R-YOLO&#xff0c;不需要在恶劣天气下进行注释。考虑到正常天气图像和不利天气图像之间的分布差距&#xff0c;我们的框架由图像翻译网络&#xff08;QTNet&#xff09;和特征校准网络&#xff08;FCNet&#xff09;组成&#xff0c;…...

Qt无边框窗口拖拽和阴影

先看下效果&#xff1a; 说明 自定义窗口控件的无边框,窗口事件由于没有系统自带边框,无法实现拖拽拉伸等事件的处理,一种方法就是重新重写主窗口的鼠标事件&#xff0c;一种时通过nativeEvent事件处理。重写事件相对繁琐,我们这里推荐nativeEvent处理。注意后续我们在做win平…...

ES6 Proxy详解

文章目录 概述Proxy 实例的方法get(target, propKey, receiver)set(target, propKey, value, receiver)has(target, propKey)deleteProperty(target, propKey)defineProperty(target, propKey, propDesc)getOwnPropertyDescriptor(target, propKey)getPrototypeOf(target)setPr…...

Prompt Learning 的几个重点paper

Prefix Tuning: Prefix-Tuning: Optimizing Continuous Prompts for Generation 在输入token之前构造一段任务相关的virtual tokens作为Prefix&#xff0c;然后训练的时候只更新Prefix部分的参数&#xff0c;PLM中的其他参数固定。针对自回归架构模型&#xff1a;在句子前面添…...

Python爬虫实战:研究MechanicalSoup库相关技术

一、MechanicalSoup 库概述 1.1 库简介 MechanicalSoup 是一个 Python 库,专为自动化交互网站而设计。它结合了 requests 的 HTTP 请求能力和 BeautifulSoup 的 HTML 解析能力,提供了直观的 API,让我们可以像人类用户一样浏览网页、填写表单和提交请求。 1.2 主要功能特点…...

2024年赣州旅游投资集团社会招聘笔试真

2024年赣州旅游投资集团社会招聘笔试真 题 ( 满 分 1 0 0 分 时 间 1 2 0 分 钟 ) 一、单选题(每题只有一个正确答案,答错、不答或多答均不得分) 1.纪要的特点不包括()。 A.概括重点 B.指导传达 C. 客观纪实 D.有言必录 【答案】: D 2.1864年,()预言了电磁波的存在,并指出…...

屋顶变身“发电站” ,中天合创屋面分布式光伏发电项目顺利并网!

5月28日&#xff0c;中天合创屋面分布式光伏发电项目顺利并网发电&#xff0c;该项目位于内蒙古自治区鄂尔多斯市乌审旗&#xff0c;项目利用中天合创聚乙烯、聚丙烯仓库屋面作为场地建设光伏电站&#xff0c;总装机容量为9.96MWp。 项目投运后&#xff0c;每年可节约标煤3670…...

3403. 从盒子中找出字典序最大的字符串 I

3403. 从盒子中找出字典序最大的字符串 I 题目链接&#xff1a;3403. 从盒子中找出字典序最大的字符串 I 代码如下&#xff1a; class Solution { public:string answerString(string word, int numFriends) {if (numFriends 1) {return word;}string res;for (int i 0;i &…...

Springboot社区养老保险系统小程序

一、前言 随着我国经济迅速发展&#xff0c;人们对手机的需求越来越大&#xff0c;各种手机软件也都在被广泛应用&#xff0c;但是对于手机进行数据信息管理&#xff0c;对于手机的各种软件也是备受用户的喜爱&#xff0c;社区养老保险系统小程序被用户普遍使用&#xff0c;为方…...

rnn判断string中第一次出现a的下标

# coding:utf8 import torch import torch.nn as nn import numpy as np import random import json""" 基于pytorch的网络编写 实现一个RNN网络完成多分类任务 判断字符 a 第一次出现在字符串中的位置 """class TorchModel(nn.Module):def __in…...

Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档&#xff09;&#xff0c;如需数据代码文档可以直接到文章最后关注获取。 1.项目背景 在金融市场日益复杂和波动加剧的背景下&#xff0c;风险管理成为金融机构和个人投资者关注的核心议题之一。VaR&…...

人工智能(大型语言模型 LLMs)对不同学科的影响以及由此产生的新学习方式

今天是关于AI如何在教学中增强学生的学习体验&#xff0c;我把重要信息标红了。人文学科的价值被低估了 ⬇️ 转型与必要性 人工智能正在深刻地改变教育&#xff0c;这并非炒作&#xff0c;而是已经发生的巨大变革。教育机构和教育者不能忽视它&#xff0c;试图简单地禁止学生使…...

【笔记】WSL 中 Rust 安装与测试完整记录

#工作记录 WSL 中 Rust 安装与测试完整记录 1. 运行环境 系统&#xff1a;Ubuntu 24.04 LTS (WSL2)架构&#xff1a;x86_64 (GNU/Linux)Rust 版本&#xff1a;rustc 1.87.0 (2025-05-09)Cargo 版本&#xff1a;cargo 1.87.0 (2025-05-06) 2. 安装 Rust 2.1 使用 Rust 官方安…...

【C++特殊工具与技术】优化内存分配(一):C++中的内存分配

目录 一、C 内存的基本概念​ 1.1 内存的物理与逻辑结构​ 1.2 C 程序的内存区域划分​ 二、栈内存分配​ 2.1 栈内存的特点​ 2.2 栈内存分配示例​ 三、堆内存分配​ 3.1 new和delete操作符​ 4.2 内存泄漏与悬空指针问题​ 4.3 new和delete的重载​ 四、智能指针…...