当前位置: 首页 > article >正文

DISTINCT 带 WHERE 仍全表扫描?两层优化刀法拆解

DISTINCT 带 WHERE 仍全表扫描两层优化刀法拆解引言一个看似多余的 DISTINCT藏着性能陷阱几乎每个写过 SQL 的人都用过DISTINCT。它的语义很简单——去掉重复行。但简单不等于快。在一个客户的生产环境中运维团队发现这样一条 SQLSELECTDISTINCTstatus,categoryFROMt_ordersWHEREstatusACTIVEANDcategoryELECTRONICS;过滤条件已经把结果锁定到了唯一的值组合(ACTIVE, ELECTRONICS)。但执行计划显示全表扫描、排序或哈希去重一个都没少。这条查询每次执行 30ms在高并发场景下成了明显的性能瓶颈。为什么因为传统数据库的优化器看到DISTINCT就会机械地走扫描 去重的固定流程即使 WHERE 条件已经确定了目标列的值。金仓数据库在 V9R4C19 版本中对 DISTINCT 语句进行了两层深度优化把这种机械流程变成了聪明决策。本文将带你理解这两层优化的原理和效果。原理剖析两层刀法层层递进第一层刀法DISTINCT 改写为 GROUP BYSELECT DISTINCT a, b FROM t在语义上等价于SELECT a, b FROM t GROUP BY a, b。这看起来只是换了一种写法但实际意义在于GROUP BY 有更成熟的优化路径。金仓数据库将 DISTINCT 改写为 GROUP BY 后可以复用 GROUP BY 已有的优化能力键值消除如果目标列上存在唯一索引或主键优化器可以直接利用索引信息进行键值裁剪无需扫描全部数据并行执行GROUP BY 天然支持并行计算改写后可以享受并行去重的性能红利优化器规则复用GROUP BY 的优化规则在数据库中积累多年比 DISTINCT 单独优化的成熟度更高-- 原始 SQLSELECTDISTINCTa,bFROMs1;-- 优化器内部改写对用户透明SELECTa,bFROMs1GROUPBYa,b;第二层刀法LIMIT 1 替代 DISTINCT / GROUP BY这是更激进也更高效的一层优化。当目标列被常值条件完全固定时DISTINCT 的去重操作本身就是多余的——结果要么有值一行要么没值零行。考虑以下场景SELECTDISTINCTa,bFROMs1WHEREa1ANDb1;WHERE 条件已经把a和b锁死为常量(1, 1)。即使扫描到 100 条匹配的记录DISTINCT 之后的结果也只有一行(1, 1)。所以-- 等价改写SELECTa,bFROMs1WHEREa1ANDb1LIMIT1;这个改写的威力在于一旦找到第一条匹配的记录就可以立刻停止扫描。如果数据分布均匀这几乎把扫描量从全表降到了找到第一个匹配项。改写策略适用条件核心收益DISTINCT → GROUP BY通用复用 GROUP BY 的键值消除和并行能力DISTINCT → LIMIT 1目标列被常值 WHERE 条件完全固定找到第一条即可停止极致加速代码示例场景一DISTINCT 转 GROUP BY-- 创建测试表CREATETABLEs1(idINTPRIMARYKEY,aINT,bVARCHAR(20),cDATE);-- 场景查询某时间范围内不重复的 (a, b) 组合SELECTDISTINCTa,bFROMs1WHEREc2026-01-01ANDc2026-04-01;优化器内部将上述 SQL 改写为SELECTa,bFROMs1WHEREc2026-01-01ANDc2026-04-01GROUPBYa,b;改写后优化器可以利用 GROUP BY 已有的键值消除规则如果a或b上有索引直接走索引扫描避免全表扫描和哈希去重。实测效果464ms → 249ms耗时减少近一半。场景二DISTINCT 转 LIMIT 1-- 场景查询特定用户的状态结果唯一SELECTDISTINCTuser_status,vip_levelFROMt_userWHEREuser_idU10086ANDuser_statusACTIVE;由于user_status在 WHERE 中已被固定为ACTIVEvip_level虽然未被固定但user_id是主键整个结果集最多只有一行。优化器将其改写为SELECTuser_status,vip_levelFROMt_userWHEREuser_idU10086ANDuser_statusACTIVELIMIT1;实测效果30ms → 0.03ms提速 1000 倍。场景三复杂场景组合优化-- 复杂场景多条件 子查询SELECTDISTINCTt1.statusFROMt_order t1WHEREt1.order_idIN(SELECTorder_idFROMt_paymentWHEREpay_statusPAID)ANDt1.statusSHIPPED;这里t1.status被 WHERE 条件固定为SHIPPEDDISTINCT 的去重操作等价于 LIMIT 1-- 优化器改写后SELECTt1.statusFROMt_order t1WHEREt1.order_idIN(SELECTorder_idFROMt_paymentWHEREpay_statusPAID)ANDt1.statusSHIPPEDLIMIT1;实测效果12ms → 0.08ms提速 150 倍。如何验证优化是否生效使用EXPLAIN查看执行计划对比优化前后的差异-- 查看原始执行计划EXPLAIN(ANALYZE,BUFFERS)SELECTDISTINCTa,bFROMs1WHEREa1ANDb1;-- 优化后应看到 LIMIT 节点且扫描行数显著减少如果执行计划中出现了Limit节点并且在Actual Rows中只返回了一行说明优化已生效。最佳实践写 SQL 时的心态转变旧思维新思维DISTINCT 就是去重写了就好DISTINCT 可能隐藏性能问题考虑是否有更高效的写法有 WHERE 过滤DISTINCT 会快WHERE 固定了列值时DISTINCT 本质是多余的依赖数据库自动优化了解优化边界复杂场景手动改写更可靠适用场景速查你的场景建议写法原因结果确定唯一如主键查询直接去掉 DISTINCT或加 LIMIT 1去重操作多余WHERE 条件固定了所有 SELECT 列加 LIMIT 1 替代 DISTINCT找到第一个就够需要去重但不确定结果唯一性保持 DISTINCT 或改为 GROUP BYGROUP BY 有更好并行能力大表 索引列的去重查询改为 GROUP BY 利用索引避免哈希去重的内存开销需要注意的限制LIMIT 1 替代策略只在以下条件下生效目标列被 WHERE 条件中的常值完全固定——比如WHERE a 1 AND b 2不涉及聚合函数或窗口函数——这些会改变结果的基数不包含 ORDER BY 与 LIMIT 语义冲突的子句实测效果汇总优化策略原始耗时优化后耗时性能提升DISTINCT → GROUP BY464ms249ms1.86xDISTINCT → LIMIT 130ms0.03ms1000x复杂场景组合12ms0.08ms150x与同类产品的对比特性KingbaseESDM v8DISTINCT 转 GROUP BY支持支持DISTINCT 转 LIMIT 1支持不支持总结金仓数据库 V9R4C19 对 DISTINCT 语句的两层优化本质上是把机械的去重操作变成了智能的结果判断第一层DISTINCT → GROUP BY利用 GROUP BY 已有的键值消除和并行能力通用场景下减少近一半的耗时第二层DISTINCT → LIMIT 1当 WHERE 条件已确定结果唯一时用 LIMIT 1 替代整个去重流程极端场景下提速 1000 倍对于开发者和 DBA 来说这意味着两件事第一写 DISTINCT 时不必再担心明明有 WHERE 为什么还要全表去重第二了解这些优化的边界在关键查询中主动采用更高效的写法。毕竟最好的优化是你写什么数据库都能理解你的意图。

相关文章:

DISTINCT 带 WHERE 仍全表扫描?两层优化刀法拆解

DISTINCT 带 WHERE 仍全表扫描?两层优化刀法拆解 引言:一个看似多余的 DISTINCT,藏着性能陷阱 几乎每个写过 SQL 的人都用过 DISTINCT。它的语义很简单——去掉重复行。但"简单"不等于"快"。在一个客户的生产环境中&…...

从混淆矩阵到mIOU:手把手解析语义分割核心评价指标

1. 从像素战场到成绩单:理解混淆矩阵 第一次接触语义分割任务时,我盯着那些五彩斑斓的分割图直发懵——怎么判断这个模型到底好不好?直到导师扔给我一张"混淆矩阵"的表格,才恍然大悟这就像学生时代的考试成绩单。想象你…...

PCI、PCIe与InfiniBand接口技术对比与应用解析

1. 计算机接口技术演进背景在服务器和PC硬件架构中,I/O接口技术始终是决定系统性能的关键因素之一。作为从业15年的系统架构师,我见证了从传统PCI总线到现代高速互连技术的完整演进历程。这种演进并非简单的替代关系,而是针对不同应用场景的技…...

离线式SMPS输入整流器设计与优化指南

1. 离线式SMPS输入整流器设计基础开关电源(SMPS)的输入整流环节如同电力系统的"第一道闸门",其设计质量直接影响后续DC-DC转换环节的稳定性。在离线式设计中,整流器需要将85-265VAC的宽范围交流输入转换为高压直流,这个看似简单的过…...

openwrt--by--myself

1. 完全清理配置make distclean // 清理所有配置make clean:最基础的清理,仅删除编译生成的固件、内核和软件包等产物(即 bin/ 和 build_dir/ 目录)。make dirclean:在 clean 的基础上,还会清除交叉编译工…...

《Java 100 天进阶之路》第1篇:编程语言类型有哪些?我心中的TOP1编程语言,什么是Java跨平台性?

第1篇:编程语言类型有哪些?我心中的TOP1编程语言,什么是Java跨平台性? 一、核心知识点 编程语言的三大类型:机器语言、汇编语言、高级语言Java为什么是“一次编写,到处运行”(跨平台原理&…...

Java基础——抽象类与接口

前言: 在Java面向对象编程中,抽象类,接口,内部类以及Object类是构建灵活,可拓展代码的核心工具。理解它们的区别与联系,掌握使用场景,是每一位Java开发者进阶的必经之路。 本文将结合通俗易懂的…...

目标检测算法——史上最全遥感数据集汇总附下载链接【速速收藏】

🚀🚀🚀 近期,小海带在空闲之余收集整理了一批遥感检测数据集供大家参考。 整理不易,小伙伴们记得一键三连喔!!!🎈 🖥️ 专注开源数据集分享与深度学习科研思路…...

链表专项(二):链表反转、环判断

大家好,欢迎来到《算法面试60讲(2026最新版全真题带解析)》的第10篇内容!上一篇我们掌握了单链表、双链表的增删改查基础操作,本节课将聚焦链表专项的核心难点——链表反转和环判断,这两个考点是大厂面试中链表部分的“高频必考题”,无论是校招还是社招,几乎都会出现,…...

SecureVault - 基于新范式的Windows文件加密工具

前言作为一个常年和各种文件打交道的普通人,我一直有个困扰:现有的加密工具要么太复杂,要么太贵,要么用的都是几十年的老算法。我想,能不能做一款简单、便宜、但加密方式完全不同的新工具?于是就有了 Secur…...

Claude代码自动模式:跳过权限的更安全方式 Claude Code auto mode: a safer way to skip permissions —— Anthropic

Claude Code auto mode: a safer way to skip permissions Claude代码自动模式:跳过权限的更安全方式 https://www.anthropic.com/engineering/claude-code-auto-mode Claude Code users approve 93% of permission prompts. We built classifiers to automate so…...

鸿蒙与 H5 通信使用的方法及原理

鸿蒙(HarmonyOS)与 H5 的通信主要通过 ‌Web 组件(WebView)‌ 实现,支持多种机制以满足不同场景需求。‌一、通信方法‌‌1. runJavaScript() 方法(原生 → H5)‌鸿蒙原生侧通过 WebviewControl…...

第三篇:变量

一.变量 1.变量的创建 (1)语法格式:data_type name; 补充:其中“data_type"是数据类型,”name"是变量名,变量名根据需求随意取即可,但尽量取得有意义 例如:int age 10;(创…...

Obsidian 坚果云同步最佳实践:Nutstore Sync 大仓库提速、冲突策略、.obsidian配置同步与恢复方案

适用人群:Obsidian 重度用户(上千/上万文件、图片/附件多、跨设备高频编辑、对稳定性与可恢复性要求高)。 强烈建议:操作前先把整个 Vault 复制一份做离线备份。 1. 你要解决的不是“能不能同步”,而是“同步体系” 重…...

Java数据结构6(队列和二叉树初步)

目录1,队列的性质2,循环队列3,队列链式存储4,树的性质5,二叉树的遍历6,代码实现一,队列的性质同样是线性表,队列有线性表的相关操作,不过不同的是队列的性质为先进先出&a…...

Pikachu 靶场 XSS 通关笔记:从反射型到盲打与过滤绕过

目录 一、基础 XSS 类型 1. 反射型 XSS (GET)2. 反射型 XSS (POST)3. 存储型 XSS4. DOM 型 XSS5. DOM 型 XSS-x 二、进阶 XSS 场景 6. XSS 之盲打 (Blind XSS)7. XSS 之过滤8. XSS 之 htmlspecialchars9. XSS 之 href 输出10. XSS 之 JS 输出 三、XSS 绕过速查表 四、Pikach…...

别再用Excel硬扛了!SPSS数据视图和变量视图保姆级上手指南

别再用Excel硬扛了!SPSS数据视图和变量视图保姆级上手指南 第一次打开SPSS时,很多从Excel转过来的用户会愣住——这个界面怎么既熟悉又陌生?左边明明也是表格,但为什么右键菜单里找不到"设置单元格格式"?右上…...

基于PSCAD的光伏-火电打捆直流送出系统建模与扰动特性仿真研究

基于PSCAD的光伏-火电打捆直流送出系统建模与扰动特性仿真研究 摘要 随着我国“双碳”目标的深入推进,以光伏为代表的新能源发电装机规模持续快速增长。然而,光伏发电具有间歇性和波动性特征,大规模并网对电力系统的安全稳定运行提出了严峻挑战。将光伏与火电打捆经高压直…...

C语言中的数据类型存储

1、二进制和进制转换我们经常能听到 2 进制、 8 进制、 10 进制、 16 进制 这样的讲法,那是什么意思呢?其实2进制、8进制、10进制、16进制是数值的不同表⽰形式⽽已。⽐如:数值15的各种进制的表⽰形式(十六进制的数值之前写:0x &a…...

DAY 4.链表中环的入口节点

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言一、链表中环的入口节点二、代码实现2.结论总结前言 一、链表中环的入口节点 思路:使用快慢指针,都从头节点出发,快指针一次…...

PX4 Firmware V1.14.4 开源支持

PX4 官方固件版本迭代迅猛,这往往导致开发者在硬件兼容性、环境搭建及软件依赖性上遭遇重重挑战。为彻底解决这一问题,Kerloud 推出固件与文档长期支持(LTS)计划。我们将对飞控固件代码、技术文档及参数调优指南实施持续性维护&am…...

渗透测试技巧(七)| 系统提权

系统提权基础 实战过程中,你通过漏洞(上传漏洞、弱口令、Web 漏洞)打进服务器,一般只能对应应用服务的账户权限。这个权限常常属于低权限账户,无法查看账号密码、配置系统文件、获取敏感数据等,这时就需要提权!提权就是把低权限账号升级为系统最高权限,从而完全控制服…...

SITS2026正式发布倒计时72小时:这4类AI研发团队已紧急升级知识治理体系,你还在用Wiki+钉钉硬扛?

更多请点击: https://intelliparadigm.com 第一章:AI研发知识管理:SITS2026专题 核心挑战与范式演进 AI研发正从单点模型训练转向全生命周期知识协同——SITS2026(Semantic Intelligence & Traceable Systems 2026&#xf…...

基于MCP协议的智能文档处理工具simdoc-mcp:从RAG原理到Claude集成实战

1. 项目概述:从“文档理解”到“智能交互”的范式跃迁最近在折腾一个挺有意思的开源项目,叫simdoc-mcp。乍一看这个名字,可能有点摸不着头脑,svd-ai-lab是背后的团队,simdoc是核心,mcp是关键协议。简单来说…...

Navicat Mac版无限重置试用期的终极指南:3种简单方法破解14天限制

Navicat Mac版无限重置试用期的终极指南:3种简单方法破解14天限制 【免费下载链接】navicat_reset_mac navicat mac版无限重置试用期脚本 Navicat Mac Version Unlimited Trial Reset Script 项目地址: https://gitcode.com/gh_mirrors/na/navicat_reset_mac …...

SharpKeys:免费Windows键盘重映射终极解决方案

SharpKeys:免费Windows键盘重映射终极解决方案 【免费下载链接】sharpkeys SharpKeys is a utility that manages a Registry key that allows Windows to remap one key to any other key. 项目地址: https://gitcode.com/gh_mirrors/sh/sharpkeys SharpKey…...

GodSVG:基于Godot引擎的结构化SVG编辑器,实现代码与图形双向实时同步

1. 项目概述:一个为开发者而生的结构化SVG编辑器 如果你和我一样,经常需要和SVG(可缩放矢量图形)打交道,无论是为网页设计图标、为游戏引擎制作矢量资源,还是进行数据可视化,那你一定体会过在传…...

AI编程新范式:基于.cursorrules的角色扮演开发环境实战指南

1. 项目概述:当AI助手有了“人设”,开发会变成一场情景喜剧吗?最近在折腾Cursor这个AI编程工具,发现了一个特别有意思的玩意儿:.cursorrules文件。简单来说,这玩意儿就像是你给Cursor这位“AI程序员”设定的…...

AI智能体如何通过区块链钱包实现自动化加密云存储

1. 项目概述:当AI智能体遇上加密云存储如果你正在使用OpenClaw这类AI智能体平台,并且头疼于如何让它们自动、安全地处理云端数据——比如备份对话记录、上传生成的文件,或者管理需要付费的API服务——那么你很可能需要一个既懂区块链支付、又…...

ACL 2026 | 未见伪造也能识别:「证链侦探」破解“泛化失灵”困局

AI 生成图像、AI 编造文本、图文协同伪造……今天的多模态虚假内容,已经越来越复杂。面对训练中没见过的新新闻域、新操纵方式、新组合套路,很多现有鉴伪模型往往就开始“掉链子”。问题的关键不只是伪造更多了,而是模型学到的东西太像“背答…...