小表驱动大表更快吗,不是
背景
head头表(5000),line行表(15万),导出数据包含头和行,一对多。
以行表为维度导出15万数据。
sql
如下两个sql查询,有如下差异
驱动方式:第一个大表驱动小表,第二个反之
第一个自己比较:根据ID排序,和不排序,explain分析
explainselecthead.code,head.company_code,head.company_name,head.expense_date,head.data_source_num,head.data_source,head.prepared_by,head.status,line.asset_number,line.tag_number,line.asset_name,line.asset_category_1,line.asset_category_2,line.retired_units,line.retired_date,line.retirement_type,line.retirement_cost,line.disposal_amount,line.commentfromasset_fa_disposal_line lineleft join asset_fa_disposal head on line.parent_code = head.codeorder by line.id desclimit 0,1000无排序 SIMPLE line ALL 141466 100.0
1 SIMPLE head eq_ref uniq_code uniq_code 194 fssc_backend_asset.line.parent_code 1 100.0 有排序
1 SIMPLE line index PRIMARY 8 141466 100.0 Backward index scan
1 SIMPLE head eq_ref uniq_code uniq_code 194 fssc_backend_asset.line.parent_code 1 100.0 -- asset_fa_disposal head
-- left join asset_fa_disposal_line line on head.code = line.parent_code-- order by line.id descexplainselecthead.code,head.company_code,head.company_name,head.expense_date,head.data_source_num,head.data_source,head.prepared_by,head.status,line.asset_number,line.tag_number,line.asset_name,line.asset_category_1,line.asset_category_2,line.retired_units,line.retired_date,line.retirement_type,line.retirement_cost,line.disposal_amount,line.commentfromasset_fa_disposal headleft join asset_fa_disposal_line line on head.code = line.parent_codeorder by line.id desclimit 0,1000无排序 SIMPLE head ALL 4832 100.0
1 SIMPLE line ref disposal_line_parent_code disposal_line_parent_code 194 fssc_backend_asset.head.code 31 100.0 有排序
1 SIMPLE head ALL 4832 100.0 Using temporary; Using filesort
1 SIMPLE line ref disposal_line_parent_code disposal_line_parent_code 194 fssc_backend_asset.head.code 31 100.0
问题
1,不是小表驱动大表吗,为什么这里大表驱动小表效率更高
2,针对第一个sql,line表驱动时,排序好像比不排序,效率更高,line表不排序type=all,排序反而是index为什么
3,数据库中总共有15万数据,需要导出,每次查询1000,分页查询,大表驱动小表和小表驱动大表,影响最终的分页结果吗,比如导出数量有影响吗
4,采用第一个sql,又想不遗漏head数据(head无line关联数据),需要保证正确导出分页,怎么使用union优化
回答
1
确实,在大多数JOIN优化场景中,我们通常推荐"小表驱动大表"的原则,但您这个案例却出现了相反的情况。让我详细解释为什么这里"大表驱动小表"反而更快:
为什么这个特例中大表驱动小表更快
-
LEFT JOIN的特殊性:
-
您使用的是LEFT JOIN,不是INNER JOIN
-
LEFT JOIN的逻辑是:必须返回左表的所有行,无论右表是否有匹配
-
第一个查询(大表驱动):
sql
复制
下载
FROM asset_fa_disposal_line(line) LEFT JOIN asset_fa_disposal(head)
优化器知道必须返回line表所有141,466行,所以选择全表扫描line,然后对每行快速查找head
-
-
索引效率差异:
-
head.code
有uniq_code索引(唯一索引),查找速度极快(O(1)复杂度) -
line.parent_code
有普通索引,查找速度稍慢 -
大表驱动时:141,466次唯一索引查找
-
小表驱动时:4,832次普通索引查找,每次返回约31行(总共约150,000行)
-
-
数据分布特点:
-
每个head.code平均对应约31个line记录(141466/4832≈29.3)
-
这种"一对多"关系使得从小表出发会导致更多中间结果
-
-
执行成本对比:
-
大表驱动:141,466次高效唯一索引查找
-
小表驱动:4,832次范围查找,每次返回约31行,需要处理更多数据页
-
何时"大表驱动小表"更优
-
LEFT JOIN且右表有极高效索引时
-
右表的查找条件比左表的选择性更好时
-
数据关系是一对多且"多"的一方数据量极大时
-
查询需要返回左表大多数行时(如无WHERE条件)
验证方法
您可以尝试以下实验验证:
sql
复制
下载
-- 强制小表驱动大表 SELECT /*+ JOIN_ORDER(head, line) */ ... FROM head LEFT JOIN line ...-- 强制大表驱动小表 SELECT /*+ JOIN_ORDER(line, head) */ ... FROM line LEFT JOIN head ...
总结
"小表驱动大表"是通用原则,但在LEFT JOIN、特殊索引结构和特定数据分布下,可能会出现大表驱动更优的情况。优化器根据成本估算选择了更适合当前表结构和数据分布的执行计划。
2
您观察到了一个非常有意思的现象,这涉及到MySQL优化器的工作机制。让我详细解释为什么在第一种查询中(line表驱动),加上ORDER BY line.id DESC
后执行效率反而更高:
核心原因:MySQL的"排序驱动优化"
当查询包含ORDER BY
且使用LIMIT时,MySQL优化器会尝试"优先排序后连接"的策略:
-
无排序时(性能较低):
-
type=ALL
表示全表扫描line表(141,466行) -
对每一行再通过索引查找head表
-
最后才应用LIMIT 1000
-
-
有排序时(性能更高):
-
type=index
且显示"Backward index scan"表示优化器选择:-
直接按id索引的逆序扫描(从最大id开始)
-
只需扫描1000行满足LIMIT的数据
-
然后对这1000行做关联查询
-
-
避免了全表扫描
-
关键技术点
-
Backward index scan(反向索引扫描):
-
InnoDB索引默认是升序排列的
-
当使用
ORDER BY id DESC
时,MySQL 8.0+可以智能地从索引尾部开始反向扫描 -
只需读取满足LIMIT的行数(1000行)即可停止
-
-
LIMIT的优化作用:
sql
复制
下载
ORDER BY line.id DESC LIMIT 1000
-
告诉优化器"我只需要1000条排好序的记录"
-
优化器会优先使用id索引直接定位到符合条件的记录
-
-
索引覆盖优势:
-
虽然您的查询选择了很多列,但排序只依赖line.id
-
id是主键,索引结构本身就包含全部排序信息
-
执行流程对比
无排序流程:
复制
下载
1. 全表扫描line表(141,466行) 2. 对每行查找head表 3. 组合所有结果 4. 应用LIMIT 1000
有排序流程:
复制
下载
1. 从line表的id索引尾部开始反向扫描 2. 扫描1000行后停止(不读全表) 3. 对这1000行查找head表 4. 返回结果
为什么第二种方式(head驱动)没有这种优化
当head表驱动时:
-
排序字段(line.id)不在驱动表
-
MySQL必须先完成全部连接操作
-
生成包含所有字段的临时结果集(约150,000行)
-
然后排序这个巨大临时表
-
最后应用LIMIT
最佳实践建议
-
排序字段应尽量来自驱动表
-
确保排序字段有索引(如您案例中的line.id)
-
结合LIMIT使用ORDER BY可以触发这种优化
-
对于分页查询,这种模式性能最好
这种优化特别适合:
-
大型事实表关联小型维度表
-
需要最新/最旧记录的查询
-
分页展示场景
您的案例完美展示了当表结构设计合理(line.id有主键索引)时,MySQL优化器能够发挥的强大优化能力。
3
分页查询驱动方式对导出结果的影响分析
在您的场景中(15万数据,每次查询1000条分页导出),驱动方式的选择确实会影响最终导出结果,但影响的性质取决于您的具体需求。
两种驱动方式对结果的影响
1. 大表驱动小表(line LEFT JOIN head)
-
结果特点:
-
保证line表的所有记录都会出现在结果中
-
如果某些line记录没有对应的head记录,head相关字段为NULL
-
结果数量 = line表的记录数(15万)
-
2. 小表驱动大表(head LEFT JOIN line)
-
结果特点:
-
保证head表的所有记录都会出现在结果中
-
如果某些head记录没有对应的line记录,line相关字段为NULL
-
结果数量 ≥ head表的记录数(因为有1对多关系)
-
关键差异点
-
结果集基数不同:
-
大表驱动:结果行数=line表行数(15万)
-
小表驱动:结果行数≈head表行数×平均关联数(4832×31≈15万)
-
-
NULL记录出现位置不同:
-
大表驱动:可能出现head字段为NULL的记录
-
小表驱动:可能出现line字段为NULL的记录
-
-
分页边界问题:
-
两种方式的分页切分点可能不同,因为记录排序不同
-
特别是当使用ORDER BY时,排序字段的位置会影响分页边界
-
导出数量是否受影响?
-
如果只是简单导出所有关联数据:两种方式导出的总记录数应该相同(15万),因为您描述的是1对多关系且数据完整
-
如果有NULL记录过滤:导出数量可能会有差异
-
如果使用ORDER BY:分页边界不同可能导致某些记录在不同页中出现
实际建议
-
业务需求决定驱动方式:
-
如果需要确保不遗漏任何line记录 → 使用line驱动
-
如果需要确保不遗漏任何head记录 → 使用head驱动
-
-
导出一致性保障:
sql
复制
下载
-- 推荐使用游标方式而非分页导出,确保数据一致性 DECLARE cur CURSOR FOR SELECT ... FROM line LEFT JOIN head ... ORDER BY line.id;-- 或者使用基于ID的范围查询 SELECT ... FROM line LEFT JOIN head WHERE line.id > last_id ORDER BY line.id LIMIT 1000;
-
性能考虑:
-
如您之前发现的,line驱动+ORDER BY line.id性能更好
-
对于大批量导出,建议使用这种高效方式
-
-
导出验证:
-
可以在导出完成后检查两种方式的记录数是否匹配预期
-
特别检查边界条件记录是否都被包含
-
总结:驱动方式主要影响的是结果集的组成和顺序,在1对多关系且数据完整的情况下,总导出量应该相同,但具体哪些记录出现在哪些分页中可能会有差异。
4
SELECT * FROM (-- 有关联的记录SELECT /* 字段列表 */,1 as record_type,line.id as sort_keyFROM asset_fa_disposal headJOIN asset_fa_disposal_line line ON head.code = line.parent_codeUNION ALL-- 无关联的记录SELECT /* 字段列表 */,2 as record_type,head.code as sort_keyFROM asset_fa_disposal headWHERE NOT EXISTS (SELECT 1 FROM asset_fa_disposal_line WHERE parent_code = head.code)
) combined
ORDER BY record_type, sort_key DESC
LIMIT 1000 OFFSET 0;
相关文章:
小表驱动大表更快吗,不是
背景 head头表(5000),line行表(15万),导出数据包含头和行,一对多。 以行表为维度导出15万数据。 sql 如下两个sql查询,有如下差异 驱动方式:第一个大表驱动小表&…...

20250529-C#知识:运算符重载
C#知识:运算符重载 运算符重载能够让我们像值类型数据那样使用运算符对类或结构体进行运算,并且能够自定义运算逻辑。 1、运算符重载及完整代码示例 作用是让自定义的类或者结构体能够使用运算符运算符重载一定是public static的可以把运算符看成一个函…...
【HW系列】—目录扫描、口令爆破、远程RCE流量特征
本文仅用于技术研究,禁止用于非法用途。 文章目录 目录扫描漏洞的流量特征及检测方法一、基础流量特征二、工具特征差异三、绕过行为特征四、关联行为特征五、检测与防御建议 口令爆破漏洞的流量特征及检测方法一、基础流量特征二、工具标识特征三、绕过行为特征四…...

如何在WordPress网站中添加相册/画廊
在 WordPress 网站上添加相册可以让您展示许多照片。无论您是在寻找标准的网格相册画廊还是独特的瀑布流相册画廊体验,学习如何在 WordPress 网站上添加相册总是一个好主意。在本教程中,我们将介绍两种为 WordPress 网站添加相册的方法:使用区…...
【NLP基础知识系列课程-Tokenizer的前世今生第一课】Tokenizer 是什么?为什么重要?
语言的“颗粒度”:我们到底在切什么? 我们都知道模型要处理文本,第一步是把一段段字符变成“token”。但这些 token 究竟应该是句子、单词,还是更小的片段,比如“un break able”? 这背后涉及的是一个非…...

Codeforces Round 1025 (Div. 2)
Problem - A - Codeforces 查有没有人说谎,有一个必错的情况: 两个人都说输了,必有人撒谎,还有就是所有人都赢了,也是撒谎 来看代码: #include <iostream> #include <vector> using namespa…...

Ubuntu20.04操作系统ssh开启oot账户登录
文章目录 1 前提2 设置root密码3 允许ssh登录root账户3.1 编辑配置文件3.2 重启ssh服务 4 安全注意事项 1 前提 ssh可以使用普通用户正常登录。 2 设置root密码 打开终端,设置密码 sudo passwd root # 设置root密码3 允许ssh登录root账户 3.1 编辑配置文件 su…...

类欧几里得算法(floor_sum)
文章目录 普通floor_sum洛谷P5170 【模板】类欧几里得算法 万能欧几里得算法求 ∑ i 1 n A i B ⌊ a i b c ⌋ \sum_{i1}^{n}A^iB^{\lfloor \frac{aib}{c} \rfloor} ∑i1nAiB⌊caib⌋求 ∑ i 0 n ⌊ a i b c ⌋ \sum_{i0}^n \lfloor\frac{aib}{c}\rfloor ∑i0n⌊caib…...

每日Prompt:卵石拼画
提示词 世界卵石拼画大师杰作,极简风格,贾斯汀.贝特曼的风格,彩色的鹅卵石,斑马头像,鹅卵石拼画,马卡龙浅紫色背景,自然与艺术的结合,新兴的艺术创作形式,石头拼贴画&am…...
湖北理元理律师事务所观察:债务优化如何成为民生安全网
据央行2023年报告,中国家庭债务收入比达137.8%。面对债务高压,湖北理元理律师事务所的实践揭示:专业债务规划的价值不仅是减负数字,更是构建社会稳定的微观防线。 一、从“催收恐惧”到“主动管理”的转变 该所服务数据显示&…...
AI时代新词-机器学习即服务(MLaaS)
一、什么是机器学习即服务(MLaaS)? 机器学习即服务(Machine Learning as a Service,简称MLaaS)是一种云计算服务模式,它将机器学习工具和平台作为服务提供给用户。用户可以通过云平台访问机器学…...
设计模式简述(二十)规格模式
规格模式 描述组件 使用 描述 规格模式并不在传统的23设计模式中,属于后面扩展的设计模式。 简单描述就是对一批数据进行多条件(包括逻辑组合、有点装饰器的感觉,可以不断套娃)匹配。 组件 实体 package dp.spec;/*** TODO** …...
符合Python风格的对象(覆盖类属性)
覆盖类属性 Python 有个很独特的特性:类属性可用于为实例属性提供默认 值。Vector2d 中有个 typecode 类属性,bytes 方法两次用到了 它,而且都故意使用 self.typecode 读取它的值。因为 Vector2d 实 例本身没有 typecode 属性,所…...
题目 3314: 蓝桥杯2025年第十六届省赛真题-魔法科考试
题目 3314: 蓝桥杯2025年第十六届省赛真题-魔法科考试 时间限制: 3s 内存限制: 512MB 提交: 245 解决: 49 题目描述 小明正在参加魔法科的期末考试,考生需要根据给定的口诀组合出有效的 魔法。其中,老师给定了 n 个上半部分口诀 a1, a2, . . . , an 和 m…...
Java八股-Java优缺点,跨平台,jdk、jre、jvm关系,解释和编译
java优势劣势? 优势:面向对象,平台无关,垃圾回收,强大的生态系统 劣势:运行速度慢(相比于c和rust这样的原生编译语言会比较慢),语法繁琐(相比于python&…...
linux 内核态和用户态定时器函数使用总结
1,场景总结 定时器类型精度范围适用场景注意事项用户态信号定时器秒级简单任务调度、心跳检测信号处理函数中不可调用非异步安全函数timerfdepoll纳秒级高精度事件循环、多媒体处理需要配合IO多路复用机制使用内核timer_list毫秒级设备驱动、硬件交互基于jiffies时…...
支持selenium的chrome driver更新到136.0.7103.113
最近chrome释放新版本:136.0.7103.113 如果运行selenium自动化测试出现以下问题,是需要升级chromedriver才可以解决的。 selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This version of ChromeDriver only s…...

硬件服务器基础
1、硬件服务器基础 2、服务器后面板 3、组件 3.1 CPU 3.2 内存 3.3 硬盘 3.4 风扇 4、服务器品牌 4.1 配置 4.2 CPU 架构 4.2.1 CPU 命名规则 4.2.2 服务器 CPU 和家用 CPU 的区别 4.2.3 CPU 在主板的位置 4.2.4 常见 CPU 安装方式 4.3 内存中组件 4.3.1 内存的分类 4.3.1.1 …...
LVS的DR模式部署
目录 一、引言:高并发场景下的流量调度方案 二、LVS-DR 集群核心原理与架构设计 (一)工作原理与数据流向 数据包流向步骤3: (二)模式特性与53网络要求 三、实战配置:从9环境搭建到参数调整…...

TRS收益互换平台开发实践:从需求分析到系统实现
一、TRS业务概述 TRS(Total Return Swap)收益互换是一种金融衍生工具,允许投资者通过支付固定或浮动利息,换取标的资产(如股票、指数)的收益权。典型应用场景包括: 跨境投资ÿ…...

测试Bug篇
本节概要: 软件测试的生命周期 bug的概念 buh要素 bug等级 bug生命周期 对于bug的定级与开发发生冲突如何解决 一、 软件测试的⽣命周期 软件测试贯穿于软件的整个生命周期,针对这句话我们⼀起来看⼀下软件测试是如何贯穿软件的整个生命周期。 软…...

【Linux系统移植】Cortex-A8 Linux系统移植(超详细)
目录 前言 一、ARM开发板ARM简介RISC和CISCARM产品分布核心板S5pv210 SOC嵌入式系统开发方式 二、嵌入式系统组成为什么要系统移植内核移植框图 三、嵌入式开发环境搭建搭建开发环境总流程设置ubuntu与windows共享目录修改用户为root用户安装NFS服务器安装tftp服务器安装交叉编…...

第十五届蓝桥杯大赛软件赛国赛Python 大学 C 组试做【本期题单: 设置密码、栈】
早上好啊大伙,这一期依旧是蓝桥杯备赛刷题的记录。 本期题单:设置密码、栈 前言 前段时间准备省赛,运气好进国赛了。所以就开始准备6月份的国赛。但是近期还有别的比赛要准备,所以刷题的速度比较慢,可能每一期就会有一…...

报错SvelteKitError: Not found: /.well-known/appspecific/com.chrome.devtools.json
报错信息 SvelteKitError: Not found: /.well-known/appspecific/com.chrome.devtools.json 解决方案一 更新所有依赖 npm update解决方案二(不一定成功) src\lib\hooks.server.ts,每次请求服务器时执行 import type { Handle } from &…...

word添加页眉
问题一: 为word文档添加页眉。 方法: 1、在要添加页眉的第一页页面顶端双击页眉区域,如果添加页眉页上面还有其他页或者与上一页添加页眉内容不同,记得取消“链接到前一节”(点击使其上面没有灰色即可)&…...
JavaScript 中的 BigInt:当普通数字不够“大“时的救星
前言 大家好!今天我们要聊一聊 JavaScript 中那个"大"到不行的数据类型 —— BigInt。如果你曾经因为 JavaScript 的数字精度问题而抓狂,或者好奇为什么 9007199254740992 9007199254740993 会返回 true,那么这篇文章就是为你准备…...
通过mailto:实现web/html邮件模板唤起新建邮件并填写内容
一、背景 在实现网站、html邮件模板过程中,难免会遇到需要通过邮箱向服务提供方发起技术支持等需求,因此,我们需要通过一个功能,能新建邮件并提供模板,提高沟通效率 二、mailto协议配置说明 参数描述mailto:nameema…...

2025推客系统小程序开发:独立部署源码交付,高性价比裂变增长引擎
在私域流量争夺白热化的今天,源码独立部署的推客系统小程序已成为企业构建自主分销体系、降低获客成本的核心利器。基于成熟案例与技术沉淀,我们提供安全可控、高性价比的一站式解决方案,助力企业快速搭建专属推客生态,实现长效增…...
【Python零基础入门系列】第6篇:Python 的数据结构世界(列表、字典、集合、元组)
欢迎来到 Python 零基础入门系列的第六篇! 前面我们学会了写 Hello World、掌握了变量与数据类型、学会了控制程序流程,还能写写函数、读读文件。现在,我们要走进 Python 的数据结构世界,这也是写程序时最核心的一环之一。 你可以把“数据结构”理解成放数据的容器,或者是…...
MVCC 原理与并发控制实现
MVCC 原理与并发控制实现 1. MVCC 基本概念 MVCC(Multi-Version Concurrency Control,多版本并发控制)是现代数据库系统中实现并发控制的核心技术之一。与传统的锁机制不同,MVCC通过维护数据的多个版本来实现非阻塞读取。 关键结论:MVCC的核…...