MySQL数据落盘原理(redo、undo、binlog、2PC、double write等。)
文章目录
- 前言
- 一、架构图
- 1、MySQL架构图
- 2、InnoDB架构图
- 二、落盘分析
- 1.第一阶段
- 2.第二阶段
- 3.第三阶段
- 4.第四阶段
- 5.第五阶段
- 6.第六阶段
- 三、总结
前言
在上一章中我们聊到了事务有四大特性:原子性、一致性、隔离性、持久性。本篇文章就持久性重点聊一下,在高性能MySql一书中,对持久性的定义是:一旦事务提交,则起所做的修改就会永久保存到数据库中,此时即使数据库或系统崩溃,修改的数据也不会丢失。
持久性这个概念有点模糊,因为实际上持久性也是分很多种不同的级别的,有些持久性策略能够提供很强的安全保障,有些则未必,并且不可能有能做到100%安全保障的持久性策略,下面我们逐步展开MySQL种事务持久性的真正含义。
ps:基于innodb存储引擎
一、架构图
首先通过几张图片宏观上了解MySQL和innodb的架构
1、MySQL架构图
2、InnoDB架构图
通过以下两张innodb的架构图可以一目了然的看到innodb数据落盘过程
二、落盘分析
本节是将MySQL落盘过程由浅到深,由简单到复杂逐步分析,来达到理解落盘过程的目的。
1.第一阶段
假设此时MySQL修改数据后直接写入磁盘,就会有一个问题,数据写入磁盘时随机写的,性能极差,于是有了第二阶段。
2.第二阶段
此阶段增加了缓存这一步,即MySQL修改数据后保存在缓存中,然后由后台线程异步写入磁盘,这个过程也有一个明显的问题,当数据还在缓存中尚未写入磁盘时系统崩溃,会导致数据丢失,安全级别相当差,于是有了第三阶段。
3.第三阶段
此阶段增加了redo log,即更新缓存后,并且同步将redo log写入磁盘,由于redo log是顺序写词盘,所以效率也并不低。这时遇到数据还在缓存中尚未写入磁盘时系统崩溃的情况,MySQL重启是可以根据redo log的内容进行落盘。
但是此时会有脏读,不可重复读等问题,破坏了事务的隔离性。比如A事务更新了缓存但事务尚未提交,B事务去读就会读取到A事务的更新。
这个时候可能有人问了,那A事务更新的时候锁定数据不让B事务读可以吗?可以是可以,但是会导致读性能太差。于是有了第四阶段。
4.第四阶段
此阶段增加了undo log,即在更新缓存前先把对应的反向逻辑日志写到undo log buffer,这样B事务读取事务读取历史版本即可(MVCC机制)。
但是仔细一想还是有问题,那就是MySQL数据落盘是以页为单位的,其大小是16KB,而操作系统的页大小是4KB,如果在落盘的时候操作系统写了12KB时崩溃了,咋办?还有4KB数据呢(这种情况被称为部分写失效),这种情况下MySQL重启如何恢复??
可能有些同学会想通过redo log来恢复,这是不行的,因为redo log记录的是对页的物理操作,如偏移量800,写’aaa’记录,所以redo log生效的前提必须是MySQL数据页是完整的(姜承尧.MySQL技术内幕:InnoDB存储引擎)。
此时在MySQL崩溃重启恢复应用redo log前,需要一个页的副本,当发生部分写失效时,先通过该页的副本来还原该页后再应用redo log,这里所谓的页副本,这种策略就是double write。于是有了第五阶段。
PS:关于undo log落盘
用户定义的临时表的 undo log不刷盘,非临时表的undo log要刷盘的,undo log记录了事务修改前逻辑日志,本质上是数据,和正常表区别不大,它的内容除了记录到undo tablespaces,也会被记录到redo log。其中刷盘到undo tablespaces的机制和正常表数据一致(异步刷盘),刷盘到redo log的机制是和该undo log其对应的redo log一起刷盘的。
5.第五阶段
此阶段增加了double write buffer,先将缓存中的数据搬到该缓冲区,再刷到共享表空间和各个独立表空间,细节如下:
double write由两部分组成,一部分是内存中的double write buffer,大小为2MB,另一部分是物理磁盘上共享表空间中连续的128个页,即2个区(extent),大小同样为2MB。在对缓冲池的脏页进行刷新时,并不直接写磁盘,而是会通过memcpy函数将脏页先复制到内存中的double write buffer,之后通过double write buffer再分两次,每次1MB顺序地写入共享表空间的物理磁盘上,然后马上调用fsync函数,同步磁盘,避免缓冲写带来的问题。在这个过程中,因为double write页是连续的,因此这个过程是顺序写的,开销并不是很大。在完成double write页的写入后,再将double write buffer中的页写入各个表空间文件中,此时的写入则是随机的,开销大。
这样就完美解决了 部分写失效 问题,即使写共享表空间失败,因为还没有写独立表空间,此时直接通过redo log恢复即可,如果写共享表空间成功,写独立表空间部分失败,先通过共享表空间的副本页恢复,再通过redo log恢复。
6.第六阶段
我们知道,在实际项目中,MySQL很少单节点,一般至少主从,双主等,此时必须开启binlog用于主从同步,那么binlog与redo log落盘关系如何呢?
如图所示,此时引入了XA分布式协议,保证binlog和redo log提交顺序。
- prepare 阶段
redo log落盘,此时redo log是prepare标志 - commit 阶段
binlog落盘,此时把redo log标志又prepare变更为commit,表示redo log完整提交。
在MySQL崩溃恢复时,为了保证主从数据一致,检测到binlog完整(redo log至少prepare了),此时提交数据,如果binlog不完整或没有,则回滚数据,回滚用的redo log中的undo log的redo log(太绕了,好好梳理下)。
三、总结
综上所述可知,MySQL的落盘机制也不是100%安全保障的。
系统崩溃后的数据提交与回滚基于binlog和redo log,其各自落盘的参数如下:
binlog的重要参数就是sync_binlog:
- sync_binlog=0:表示每次提交事务只把log写到os cache,并不执行fsync刷盘,刷盘取决于操作系统;
- sync_binlog=1:表示每次提交事务会将binlog刷盘(默认);
- sync_binlog=N(N>=2): 表示每次提交事务只把log写到os cache,等累积到N个才执行fsync刷盘;
redo log的重要参数是innodb_flush_log_at_trx_commit:
- 0 – 每N秒将Redo Log Buffer的记录写入Redo Log文件,并且将文件刷入硬件存储1次。N由innodb_flush_log_at_timeout控制;
- 1 – 每个事务提交时,将记录从Redo Log Buffer写入Redo Log文件,并且将文件刷入硬件存储;
- 2 – 每个事务提交时,仅将记录从Redo Log Buffer写入Redo Log文件。Redo Log何时刷入硬件存储由操作系统和innodb_flush_log_at_timeout决定。这个选项可以保证在MySQL宕机,而操作系统正常工作时,数据的完整性。
根据参数含义可知,即使是最安全的双1配置,在fsync阶段系统崩溃的话也会导致日志不完整而回滚。
所以MySQL的事务持久性,应该是客户端收到事务成功的消息,数据一定会被持久化,失败一定没持久化,至于发生异常,要视情况而定,是网络异常还是系统崩溃。
相关文章:

MySQL数据落盘原理(redo、undo、binlog、2PC、double write等。)
文章目录 前言一、架构图1、MySQL架构图2、InnoDB架构图 二、落盘分析1.第一阶段2.第二阶段3.第三阶段4.第四阶段5.第五阶段6.第六阶段 三、总结 前言 在上一章中我们聊到了事务有四大特性:原子性、一致性、隔离性、持久性。本篇文章就持久性重点聊一下,…...

智加科技+舍弗勒,首发量产正向开发的智能重卡冗余转向
对于自动驾驶赛道来说,感知、规划和控制,除了计算平台、算法等核心上层软硬件支持,底盘控制系统同样是关键一环。事实上,从Demo到规模化量产,更好的车身控制能力以及冗余备份,也是自动驾驶公司迈入2.0阶段的…...

C++类的模拟实现
📟作者主页:慢热的陕西人 🌴专栏链接:C 📣欢迎各位大佬👍点赞🔥关注🚓收藏,🍉留言 本博客主要内容讲解了简单模拟实现string类 C类的模拟实现 文章目录 C类的…...

耐腐蚀高速电动针阀在半导体硅片清洗机化学药液流量控制中的应用
摘要:化学药液流量的精密控制是半导体湿法清洗工艺中的一项关键技术,流量控制要求所用调节针阀一是开度电动可调、二是具有不同的口径型号、三是高的响应速度,四是具有很好的耐腐蚀性,这些都是目前提升半导体清洗设备性能需要解决…...

助力工业物联网,工业大数据之ODS层及DWD层建表语法【七】
文章目录 ODS层及DWD层构建01:课程回顾02:课程目标03:数仓分层回顾04:Hive建表语法05:Avro建表语法 ODS层及DWD层构建 01:课程回顾 一站制造项目的数仓设计为几层以及每一层的功能是什么? ODS&…...

Windows环境下C++ 安装OpenSSL库 源码编译及使用(VS2019)
参考文章https://blog.csdn.net/xray2/article/details/120497146 之所以多次一举自己写多一篇文章,主要是因为原文内容还是不够详细。而且我安装的时候碰到额外的问题。 1.首先确认一下自己的代码是Win32的还是Win64的,我操作系统是64的,忘…...

TensorFlow高阶API和低阶API
TensorFlow提供了众多的API,简单地可以分类为高阶API和低阶API. API太多太乱也是TensorFlow被诟病的重点之一,可能因为Google的工程师太多了,社区太活跃了~当然后来Google也意识到这个问题,在TensorFlow 2.0中有了很大的改善。本文…...
强训之【参数解析和跳石板】
目录 1.参数解析1.1题目描述1.2思路1.3代码 2.跳石板2.1题目2.2思路2.3代码 3.选择题 1.参数解析 1.1题目描述 在命令行输入如下命令: xcopy /s c:\ d:\e, 各个参数如下: 参数1:命令字xcopy 参数2:字符串/s 参数…...

Redis队列Stream、Redis多线程详解(三)
Redis中的线程和IO模型 什么是Reactor模式 ? “反应”器名字中”反应“的由来: “反应”即“倒置”,“控制逆转”,具体事件处理程序不调用反应器,而向反应器注册一个事件处理器,表示自己对某些事件感兴趣࿰…...
MySQL统计函数count详解
count()概述 count() 是一个聚合函数,返回指定匹配条件的行数。开发中常用来统计表中数据,全部数据,不为null数据,或者去重数据 count(1)和count()和count(列名)的区别 1.函数说明 count(1):统计所有的记录࿰…...

实验04:图像压缩(DP算法)
1.实验目的: 掌握动态规划算法的基本思想以及用它解决问题的一般技巧。运用所熟悉的编程工具,运用动态规划的思想来求解图像压缩问题。 2.实验内容: 给定一幅图像,求解最佳压缩,使得压缩后的文件最小。 3.实验要求…...
4.19--面试系列之真题版本--redis出现大key怎么解决?Redis 大 Key 对持久化有什么影响?
对于redis出现大key的情况,可以通过以下几种方式来解决: 1.分布式存储:将大key拆分成多个小的key,分别存储在不同的节点上。 2.数据过期:对于大key中不经常使用的数据,可以使用redis自带的过期特性…...
新手在家做自媒体要如何起步?
不少人都想做自媒体来增加自己的收入或者创业,但没有人带领,自己像是无头苍蝇一样,不知道往哪里走。 今天这期内容大周就来给粉丝们分享一点干货,如果对你有所帮助,记得点赞支持一下大周。 1、注册账号 如果你连一个…...

易基因:禾本科植物群落的病毒组丰度/组成与人为管理/植物多样性变化的相关性 | 宏病毒组
大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 现代农业通过简化生态系统、引入新宿主物种和减少作物遗传多样性来影响植物病毒的出现。因此,更好理解农业生态中种植和未种植群落中的病毒分布,以及它们之间的病…...

华为OD机试——对称美学(通过率只有8.51%???)
用java写的这道题,两个样例都可以通过,但是提交之后最终的通过率只有8.51%???自己搞了半天一直都是这个通过率,然后用网上说的100%通过率的代码也是一样的结果,最后时间到了还是没有拿到满分&am…...

【三十天精通Vue 3】第十六天 Vue 3 的虚拟 DOM 原理详解
引言 Vue 3 的虚拟 DOM 是一种用于优化 Vue 应用程序性能的技术。它通过将组件实例转换为虚拟 DOM,并在组件更新时递归地更新虚拟 DOM,以达到高效的渲染性能。在 Vue 3 中,虚拟 DOM 树由 VNode 组成,VNode 是虚拟 DOM 的基本单元…...
Arduino ESP8266通过udp获取时间以及同步本地时间方法
Arduino ESP8266通过udp获取时间以及同步本地时间 ✨通过udp获取NTP服务器上的时间戳,然后经过转换,得到当前具体的时间。转换相对复杂,对于获取时间还是相对比较准确。📝通过udp获取时间实现代码 #include <ESP8266WiFi.h> #include <WiFiUdp.h>//填写 WiFi…...

c/c++:char*定义常量字符串,strcmp()函数,strcpy()函数,寻找指定字符,字符串去空格
c/c:char*定义常量字符串,strcmp()函数,strcpy()函数,寻找指定字符,字符串去空格 2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,此时学会c的话, 我所…...

2023年6月DAMA-CDGA/CDGP数据治理认证考试可报名地区公布
2023年4月23日,据DAMA中国官方信息,目前6月DAMA-CDGA/CDGP数据治理认证考试开放报名地区有:北京、上海、广州、深圳、长沙、呼和浩特。目前南京、济南、西安、杭州等地区还在接近开考人数中,打算6月考试的朋友们可以抓紧时间报名啦…...
UDS的0x19服务介绍
什么是 UDS? UEI (Unified Diagnostic Services,统一诊断服务) 是一种在车辆电子控制单元 (ECU) 之间交换诊断信息的标准通信协议,它是OBD-II的某些扩展。利用 UDS 协议,诊断工程师可以访问车辆的各种功能,如读取故障…...
Python|GIF 解析与构建(5):手搓截屏和帧率控制
目录 Python|GIF 解析与构建(5):手搓截屏和帧率控制 一、引言 二、技术实现:手搓截屏模块 2.1 核心原理 2.2 代码解析:ScreenshotData类 2.2.1 截图函数:capture_screen 三、技术实现&…...

深入理解JavaScript设计模式之单例模式
目录 什么是单例模式为什么需要单例模式常见应用场景包括 单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量 惰性单例通用的惰性单例 结语 什么是单例模式 单例模式(Singleton Pattern&#…...

LLMs 系列实操科普(1)
写在前面: 本期内容我们继续 Andrej Karpathy 的《How I use LLMs》讲座内容,原视频时长 ~130 分钟,以实操演示主流的一些 LLMs 的使用,由于涉及到实操,实际上并不适合以文字整理,但还是决定尽量整理一份笔…...

免费数学几何作图web平台
光锐软件免费数学工具,maths,数学制图,数学作图,几何作图,几何,AR开发,AR教育,增强现实,软件公司,XR,MR,VR,虚拟仿真,虚拟现实,混合现实,教育科技产品,职业模拟培训,高保真VR场景,结构互动课件,元宇宙http://xaglare.c…...

计算机基础知识解析:从应用到架构的全面拆解
目录 前言 1、 计算机的应用领域:无处不在的数字助手 2、 计算机的进化史:从算盘到量子计算 3、计算机的分类:不止 “台式机和笔记本” 4、计算机的组件:硬件与软件的协同 4.1 硬件:五大核心部件 4.2 软件&#…...

逻辑回归暴力训练预测金融欺诈
简述 「使用逻辑回归暴力预测金融欺诈,并不断增加特征维度持续测试」的做法,体现了一种逐步建模与迭代验证的实验思路,在金融欺诈检测中非常有价值,本文作为一篇回顾性记录了早年间公司给某行做反欺诈预测用到的技术和思路。百度…...

Xcode 16 集成 cocoapods 报错
基于 Xcode 16 新建工程项目,集成 cocoapods 执行 pod init 报错 ### Error RuntimeError - PBXGroup attempted to initialize an object with unknown ISA PBXFileSystemSynchronizedRootGroup from attributes: {"isa">"PBXFileSystemSynchro…...

Linux入门课的思维导图
耗时两周,终于把慕课网上的Linux的基础入门课实操、总结完了! 第一次以Blog的形式做学习记录,过程很有意思,但也很耗时。 课程时长5h,涉及到很多专有名词,要去逐个查找,以前接触过的概念因为时…...
[QMT量化交易小白入门]-六十二、ETF轮动中简单的评分算法如何获取历史年化收益32.7%
本专栏主要是介绍QMT的基础用法,常见函数,写策略的方法,也会分享一些量化交易的思路,大概会写100篇左右。 QMT的相关资料较少,在使用过程中不断的摸索,遇到了一些问题,记录下来和大家一起沟通,共同进步。 文章目录 相关阅读1. 策略概述2. 趋势评分模块3 代码解析4 木头…...
day51 python CBAM注意力
目录 一、CBAM 模块简介 二、CBAM 模块的实现 (一)通道注意力模块 (二)空间注意力模块 (三)CBAM 模块的组合 三、CBAM 模块的特性 四、CBAM 模块在 CNN 中的应用 一、CBAM 模块简介 在之前的探索中…...