分区表介绍
问题
单表数据量过大,查询的性能通常会变得很低
- 查询时磁盘的IO次数增加:MySQL的InnoDB引擎使用B+树维护索引,一个典型的索引节点大概可以存储60-120个数据记录,一个三层的索引大概可以存储百万条数据。如果订单表增加一个数量级,索引的层数也需要增加,查询订单时磁盘的IO次数也随着增加,影响性能。
- 索引占用存储空间:为了加快查询效率,订单表通常需要创建一些索引。但是,索引也需要占用一定的存储空间,并且会增加每次修改操作的时间成本。另外,当表中数据量过大时,更新操作可能会导致索引重新排序的问题,这些都将极大地降低索引效率和查询效率。
分区表
将一个逻辑表分解成多个分区表,以存储和管理物理数据的技术。每个分区实际上是一个独立的表,包含了与主表相同的列,并有一个特定的分区键,用于确定每行数据所属的分区。
好处:
- 提高查询效率:分区表将数据拆分为多个分区,减少表了的扫描范围,减少了磁盘IO次数,从而提高查询效率。
- 提高数据可用性:数据分布在多个节点,降低数据丢失的风险。如果系统上的一个节点失败,可以通过分区表快速将数据迁移到其他节点上。从而提升可用性。
- 减少维护成本:使用分区表可以提高维护的效率,在维护分区表时,只需要维护每个分区而不是整个表,可以减少人力成本和维护时间。
- 支持大型数据集:使用分区表可以在快速的响应时间内管理海量的数据,增加表的数量不会影响系统性能。
类型:Range分区、Hash分区、List分区和Key分区。
- RANGE分区:基于给定的有序区间将表中数据分成若干段,每一段称为一个分区。RANGE分区表可以使用任何能够进行比较大小的数据类型,如整数、日期等。适用于记录按区百分比分布更均匀的数据表regions这类数据。
- HASH分区:根据哈希函数将行数据分配到分区中。此方法适用于任何数据类型,并且具有随机性。此类型的分区通常用于随机分布的数据,如日志数据。
- LIST分区:List分区使用一个列表定义分区,每个分区包含了特定的值集合。如果记录的值包含在列表中,那么记录将存储在相应的分区中。
- KEY分区:类似于哈希分区,但不是基于哈希函数,而是根据列值上的一组键来执行分区。它只能用于 BLOB、TEXT、VARCHAR 或其他支持索引的数据类型。
工作原理
- 创建分区表:指定分区键,即表上哪一列的值作为分区依据。选择不同的分区类型将影响到后面的分区操作和存储方式。
-- 根据订单下单时间的年份,将数据分别划分到三个分区中,分别是p_2021、p_2022和p_2023
CREATE TABLE `orders` (`order_id` int unsigned NOT NULL,`user_id` int unsigned NOT NULL,`product_id` int unsigned NOT NULL,`order_time` datetime NOT NULL,PRIMARY KEY (`order_id`,`order_time`) //分区字段必须包含在主键字段
) ENGINE=InnoDB DEFAULT CHARSET=utf8
/*!50100 PARTITION BY RANGE (year(`order_time`))
(PARTITION p_2021 VALUES LESS THAN (2022) ENGINE = InnoDB,PARTITION p_2022 VALUES LESS THAN (2023) ENGINE = InnoDB,PARTITION p_2023 VALUES LESS THAN (2024) ENGINE = InnoDB) */;
-
插入数据:INSERT INTO orders (order_id, user_id, product_id, order_time) VALUES (1, 1001, 2001, ‘2023-06-01 10:00:00’);
-
查询数据:在查询分区表时,MySQL会根据查询条件中的分区键值范围定位到对应的分区,然后只扫描该分区中的数据,避免无关分区数据的扫描访问,大幅降低查询数据开销。
-
新建分区:ALTER TABLE orders ADD PARTITION (PARTITION p_2024 VALUES LESS THAN (2025));
-
普通表转分区表:
-
创建一个与原表结构完全相同的分区表,但不包含分区定义
CREATE TABLE my_partitioned_table (-- 复制原表的所有列和约束... ) PARTITION BY ...; -- 分区定义留空 -
将原表的数据插入到分区表中。可以使用
INSERT INTO ... SELECT语句将数据复制到分区表中。 -
停止对原表的写入操作,并记录最后一次写入的时间点(例如通过添加一个新列来记录)。
-
重命名原表,并将分区表重命名为原表的名称。
-
根据转换前的原表的写入时间点,更新分区表的分区定义。ALTER TABLE my_table REORGANIZE PARTITION …;
REORGANIZE PARTITION语句,重新定义分区范围,并将数据移动到相应的分区中。
-
可以根据需要重新建立索引、重新生成统计信息等操作。
-
-
各分区count合计:
SELECT SUM(PARTITION_ROWS) -- TABLE_ROWS FROM INFORMATION_SCHEMA.PARTITIONS WHERE TABLE_NAME = 'your_partitioned_table';AND PARTITION_NAME IS NULL; -
分区剪枝
-
是
MySQL的优化器在执行查询时自动进行的一种技术,用于排除不相关的分区,以减少扫描的数据量 -
SELECT SUM(amount) FROM sales WHERE date BETWEEN '2021-01-01' AND '2022-12-31'; -
在执行上述查询时,
MySQL的优化器会自动应用分区剪枝技术,只选择与查询条件相关的分区进行扫描。优化器会识别出只有p2021和p2022这两个分区包含所需的数据,其他分区则可以被排除在外。 -
通过分区剪枝,优化器会生成一个优化的执行计划,只对涉及的分区进行扫描,从而减少了查询的数据量和处理的开销,提高了查询的性能。
-
注意,在使用分区剪枝时,查询条件必须与分区键相关才能生效。如果查询条件不与分区键相关,优化器将无法剪枝分区,会扫描所有的分区。
-
分区剪枝是
MySQL的一种自动优化技术,通过排除不相关的分区来减少查询的数据量,从而提高查询性能。它在处理大型分区表和时间范围查询时特别有用。
-
-
维护数据:在维护分区表时,MySQL会自动锁定需要维护的分区,而不是整张表的数据,以保证维护的效率。同时,也可以单独清空或重建某个分区,批量操作数据时可以显著提升效率。
-
优化查询:特定查询场景下,分区表拆分可以显著提高查询效率,如特定的日期范围查询、根据某个分区键值排序、查找特定某个分区,均可借助MySQL分区表的方式优化查询效率。
设计分区表:
- 选择合适的分区键:分区键决定了分区表行如何分布到分区内,以及如何检索和更新数据。常见的分区键有日期、地理位置、ID等。具体选择应根据业务逻辑来确定,例如订单表可以在日期上进行分区,地理信息表可以在地理位置上进行分区。
- 考虑分区的大小和数量:每个分区的大小和数量应该根据数据大小和查询模式来考虑。如果数据量超过单个分区的容量,则无法放在同一分区里,需要更多的分区来存储。同时,分区的数量也会影响查询速度,过多的分区会降低查询效率。
- 确定分区键的最大值:分区键的最大值决定了数据的分区数量和数据的存储位置。如果数据量是无限的,则需要特别注意分区最大值的范围。如果最大值太小,则需要及时分区,否则跨越分区将不得不扫描整个表,会影响查询性能。
- 对不同的分区类型进行评估:MySQL支持多种分区类型,包括Range、List、Hash、Key等。不同的分区类型可以根据分区键的类型和数量来选择,以最大化查询性能和管理效率。
分区表维护:
- 检查分区表:当MySQL分区表发生异常时,需要检查分区表是否存在错误、分区的状态是否正常。MySQL提供了一些命令和函数供检查分区表,如SHOW CREATE TABLE显示表的创建语句,检查分区键是否合法,SHOW TABLE STATUS查看分区表的统计信息,若有异常则使用ALTER TABLE修复、检查或重建分区等。
- 修改分区表:修改分区表有添加、删除和合并分区等操作,可以使用ALTER TABLE语法实现。
- 添加分区:ADD PARTITION,删除分区:DROP PARTITION,合并分区:COALESCE PARTITION。
- 注意:修改分区表可能会影响分区表上的数据,因此在执行分区操作前一定要先进行备份和归档操作。
- 备份和恢复:对MySQL的分区表进行备份的方式与常规的备份方法不同,需要通过备份分区数据进行。备份可以使用如mysqldump, mk-parallel-restore等工具,或者手动复制每个分区的数据文件。当需要恢复分区表时,需要先还原分区表的数据,然后使用ALTER TABLE语法添加或恢复分区。维护MySQL分区表的关键是要及时备份并定期检查表、分区状态。定期备份可以使用MySQL的工具或第三方工具,检查分区状态可以手动或使用MySQL的工具来执行。通过备份分区数据来保证数据重要性,通过检查分区表来发现异常并及时修复和调整,在数据维护和管理上,能够更加有管理可控性。
- 分区表的局限性:分区表虽然能够大幅提高查询性能和方便维护数据,但在一些特定的情况下,分区表也存在一些限制和局限性:
- 对于一些不包括分区键的查询,扫描整张表数据会影响查询性能。
- 分区表无法有效应对数据分布不均的情况,容易造成些分区数据过大而导致性能下降。
- 分区表的建立需要仔细考虑分区键的选择和范围,如果分区键的范围选择不当,会导致数据跨分区查询或更新,影响性能和数据正确性。
https://mp.weixin.qq.com/s/IPcQNnbNi87xtP9HR0nHAQ
https://blog.csdn.net/shang_xs/article/details/131895007
相关文章:
分区表介绍
问题 单表数据量过大,查询的性能通常会变得很低 查询时磁盘的IO次数增加:MySQL的InnoDB引擎使用B树维护索引,一个典型的索引节点大概可以存储60-120个数据记录,一个三层的索引大概可以存储百万条数据。如果订单表增加一个数量级…...
emacs 源码分析(七)
文章目录 emacs源码分析(七)自己动手把emacs的DEFUN宏抠出来 <2024-01-07 周日> emacs源码分析(七) 这DEFUN宏就像胶水一样,它把c代码和emacs-lisp代码给联系起来。但是DEFUN宏看着怪恐怖的有没有!…...
Linux运维-Web服务器的配置与管理(Apache+tomcat)(没成功,最后有失败经验)
Web服务器的配置与管理(Apachetomcat) 项目场景 公司业务经过长期发展,有了很大突破,已经实现盈利,现公司要求加强技术架构应用功能和安全性以及开始向企业应用、移动APP等领域延伸,此时原来开发web服务的php语言已经不适应新的…...
探讨分布式数据库ID生成解决方案
在技术面试中,面试官通常通过挑战应聘者的分布式系统知识来评估其能力。今天,让我们模拟一场面试现场,深入了解关于分布式数据库ID生成的解决方案。 面试官:嘿,小伙子,分布式数据库ID生成解决方案了解吗&a…...
Clickhouse填坑记4:Too many parts问题分析
Clickhouse在进行大数据量同步时,感觉很爽,插入速度非常快,但是,在使用过程中却出现了几次“Too many parts”异常报错,搞得很痛苦,这里记录一下解决过程。 我这边采用的是Flink程序,实时将数据写入ClickHouse,在执行一段时间后,会提示“Too many parts”异常,如下异…...
CertiK CSO Dr. Kang Li 确认出席Hack .Summit() 香港区块链盛会
CertiK CSO Dr. Kang Li 确认将出席由 Hack VC 主办,并由 AltLayer 和 Berachain 联合主办,与 SNZ 和数码港合作,由 Techub News 承办的Hack.Summit() 2024区块链开发者盛会。 Dr. Kang Li 目前担任CertiK首席安全官。他是清华蓝莲花战队启蒙…...
C++ 游戏飞机大战, 字符型的
//#define _CRT_SECURE_NO_WARNINGS 1 用于禁止不安全函数的警告 #include<iostream> #include<stdlib.h> #include<string> #include<conio.h> #include<Windows.h> #include<time.h> #include <graphics.h> using namespace std;…...
用html编写的简易新闻页面
用html编写的简易新闻页面 相关代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document<…...
docker-mysql:5.7安装
1、下载mysql:5.7镜像 [rootlocalhost ~]# docker search mysql (某个XXX镜像名字) [rootlocalhost ~]# docker pull mysql:5.7 按装之前查看一下是否按装过mysql。如果安装过会占用3306端口。 [rootlocalhost ~]# ps -ef | grep mysql 2、简单的安装 [rootlocalhost ~]# d…...
SQLPro Studio:数据库管理的革命性工具 mac版
SQLPro Studio是一款强大的数据库管理和开发工具,它旨在提供高效、便捷和安全的数据库操作体验。无论是数据库管理员、开发人员还是数据分析师,SQLPro Studio都能满足他们在数据库管理、查询、设计和维护方面的需求。 SQLPro Studio mac版软件获取 首先…...
【小沐学QT】QT学习之OpenGL开发笔记
文章目录 1、简介2、Qt QOpenGLWidget gl函数3、Qt QOpenGLWidget qt函数4、Qt QOpenGLWindow5、Qt glut6、Qt glfw结语 1、简介 Qt提供了与OpenGL实现集成的支持,使开发人员有机会在更传统的用户界面的同时显示硬件加速的3D图形。 Qt有两种主要的UI开发方…...
kali安装ARL灯塔(docker)
1、root身份进入容器 ┌──(root㉿Kali)-[~/桌面] └─# su root ┌──(root㉿Kali)-[~/桌面] └─# docker 2、先更新再克隆 ┌──(root㉿Kali)-[~/桌面] └─# apt-get update …...
字节面试分享,请详细介绍为何Http Post发送两次请求
在浏览器中,内容是很开放的,任何资源都可以接入其中,如 JavaScript 文件、图片、音频、视频等资源,甚至可以下载其他站点的可执行文件。 但也不是说浏览器就是完全自由的,如果不加以控制,就会出现一些不可…...
Flink CDC 3.0 Starrocks建表失败会导致任务卡主!
Flink CDC 3.0 Starrocks建表失败会导致任务卡主! 现象 StarRocks建表失败,然后任务自动重启,重启完毕后数据回放,jobMaster打印下面日志后,整个任务会卡主 There are already processing requests. Wait for proce…...
基于 LVGL 使用 SquareLine Studio 快速设计 UI 界面
目录 简介注册与软件获取工程配置设计 UI导出源码板级验证更多内容 简介 SquareLine Studio 是一款专业的 UI 设计软件,它与 LVGL(Light and Versatile Graphics Library,轻量级通用图形库)紧密集成。LVGL 是一个轻量化的、开源的…...
Selenium IDE插件录制网页,解放双手
1、 国内下载地址 https://www.crx4chrome.com/crx/77585/ ,这个网络正常基本可以下载,目前最新版本是3.17.2。 点击Crx4Chrome下载。下载后的文件名称是:mooikfkahbdckldjjndioackbalphokd-3.17.2-Crx4Chrome.com.crx。 2、 安装 直接打开…...
【LeetCode】【滑动窗口长度不固定】978 最长湍流子数组
1794.【软件认证】最长的指定瑕疵度的元音子串 这个例题,是滑动窗口中长度不定求最大的题目,在看题之前可以先看一下【leetcode每日一题】【滑动窗口长度不固定】案例。 题目描述 定义:开头和结尾都是元音字母(aeiouAEIOU&…...
水库安全监测方案(福建地区水库安全监测案例分享)
我司星创易联最近在福建省受到了一个水库安全监测系统项目的委托。该水库位于福建中部山区,作为该地区的重要防洪与供水工程,对下游数十万人的生活产生重大影响。但是因为水库附近地质情况复杂,水库大坝在多次洪水冲击下出现一定病害,亟须全面加强对水库大坝安全状况的监测,以确…...
Oracle内存计算应用模式
前言 内存计算是利用内存来加速数据访问和应用的性能,并降低应用开发复杂度的技术。近十年来,随着软硬件技术的发展和用户需求的成熟,内存计算技术已经得到了广泛地应用。 Oracle在内存计算领域具有非常重要的地位,这主要得益于…...
ELK日志系统
一、规划 服务名所在服务器kafka1—2.13-2.4.1192.168.76.10kafka2—2.13-2.4.1192.168.76.11kafka3—2.13-2.4.1192.168.76.12zookeeper1—3.6.3192.168.76.10zookeeper2—3.6.3192.168.76.11zookeeper3—3.6.3192.168.76.12elasticsearch1—7.12.1192.168.76.10elasticsearc…...
设计模式和设计原则回顾
设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...
Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility
Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...
深入理解JavaScript设计模式之单例模式
目录 什么是单例模式为什么需要单例模式常见应用场景包括 单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量 惰性单例通用的惰性单例 结语 什么是单例模式 单例模式(Singleton Pattern&#…...
剑指offer20_链表中环的入口节点
链表中环的入口节点 给定一个链表,若其中包含环,则输出环的入口节点。 若其中不包含环,则输出null。 数据范围 节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。 节点 val 值各不相同。 链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...
Python如何给视频添加音频和字幕
在Python中,给视频添加音频和字幕可以使用电影文件处理库MoviePy和字幕处理库Subtitles。下面将详细介绍如何使用这些库来实现视频的音频和字幕添加,包括必要的代码示例和详细解释。 环境准备 在开始之前,需要安装以下Python库:…...
在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的?
uni-app 中 Web-view 与 Vue 页面的通讯机制详解 一、Web-view 简介 Web-view 是 uni-app 提供的一个重要组件,用于在原生应用中加载 HTML 页面: 支持加载本地 HTML 文件支持加载远程 HTML 页面实现 Web 与原生的双向通讯可用于嵌入第三方网页或 H5 应…...
关于uniapp展示PDF的解决方案
在 UniApp 的 H5 环境中使用 pdf-vue3 组件可以实现完整的 PDF 预览功能。以下是详细实现步骤和注意事项: 一、安装依赖 安装 pdf-vue3 和 PDF.js 核心库: npm install pdf-vue3 pdfjs-dist二、基本使用示例 <template><view class"con…...
MySQL 索引底层结构揭秘:B-Tree 与 B+Tree 的区别与应用
文章目录 一、背景知识:什么是 B-Tree 和 BTree? B-Tree(平衡多路查找树) BTree(B-Tree 的变种) 二、结构对比:一张图看懂 三、为什么 MySQL InnoDB 选择 BTree? 1. 范围查询更快 2…...
【学习笔记】erase 删除顺序迭代器后迭代器失效的解决方案
目录 使用 erase 返回值继续迭代使用索引进行遍历 我们知道类似 vector 的顺序迭代器被删除后,迭代器会失效,因为顺序迭代器在内存中是连续存储的,元素删除后,后续元素会前移。 但一些场景中,我们又需要在执行删除操作…...
Spring AOP代理对象生成原理
代理对象生成的关键类是【AnnotationAwareAspectJAutoProxyCreator】,这个类继承了【BeanPostProcessor】是一个后置处理器 在bean对象生命周期中初始化时执行【org.springframework.beans.factory.config.BeanPostProcessor#postProcessAfterInitialization】方法时…...
