当前位置: 首页 > news >正文

Postgresql中VACUUM操作原理和应用

VACUUM操作在PostgreSQL中的底层原理涉及几个关键概念,包括MVCC(多版本并发控制)、事务ID包裹、以及垃圾回收机制。我们逐一解析这些概念,以及它们是如何与VACUUM操作相互作用的。

关键概念

1. MVCC(多版本并发控制)

PostgreSQL使用MVCC来支持高并发,允许数据读取操作在不加锁的情况下进行,从而不会被写入操作阻塞。在MVCC模型中,每一次数据的更新或删除操作都会生成数据的一个新版本(即新的行版本或称为"行快照"),而不是直接在原始数据上进行修改。这意味着表中的数据在某一时刻可能存在多个版本。

2. 事务ID和事务ID包裹

在PostgreSQL中,每个事务都会被分配一个唯一的事务ID(XID),用于标识数据行版本的创建和失效时间。因为事务ID是有限的(一个32位的计数器,约有40亿个可能的值),所以存在所谓的事务ID包裹的风险。当事务ID达到上限后,它会回绕到最小值,可能导致数据版本的可见性判断出错。为了防止这种情况,PostgreSQL引入了VACUUM操作来冻结旧的行版本的事务ID,避免事务ID包裹问题。

3. 垃圾回收

由于MVCC机制,当数据行被更新或删除时,旧的数据版本不会立即被移除,而是留在表中作为历史版本,直到不再被任何事务所需要。这些不再需要的行版本称为"垃圾"。随着时间的推移,这些垃圾会累积,占用磁盘空间,降低查询性能。

VACUUM操作的工作原理

在PostgreSQL中,VACUUM操作的主要目的是清理这些不再需要的行版本,回收被占用的空间,并且更新表的统计信息以优化查询性能。当你删除或更新表中的数据时,这些旧数据不会立即从磁盘上删除,而是被标记为废弃数据,等待后续的回收。VACUUM操作就是负责这一回收过程的。具体来说:

回收空间

VACUUM遍历表中的所有行,查找那些被标记为已删除的行版本。如果这些行版本不再被任何事务所需要(即,没有任何活跃的事务会看到这些行版本),VACUUM就会将这些空间标记为可重用,以供未来的INSERT操作使用。

防止事务ID包裹

VACUUM会"冻结"旧的行版本的事务ID,即将它们标记为在任何情况下都可见,从而防止事务ID包裹问题。

更新统计信息

VACUUM还会收集表和索引的统计信息,帮助PostgreSQL的查询优化器制定更有效的查询计划。

具体操作

基本VACUUM

VACUUM [表名];

不指定表名将对整个数据库的所有表进行VACUUM操作。这个操作不需要锁定表,因此不会对正常的数据库操作产生太大影响。

带参数的VACUUM

VACUUM (VERBOSE, ANALYZE) [表名];

VERBOSE:提供详细的VACUUM操作日志。
ANALYZE:在VACUUM操作后,收集表和索引的统计信息,帮助优化查询。

VACUUM FULL

VACUUM FULL [表名];

VACUUM FULL会重写表到一个新的磁盘文件,以此彻底回收空间,但它会对表加上排他锁,影响表的并发访问。

与普通的VACUUM操作不同,VACUUM FULL会对表进行重写,删除表中所有未使用的空间,并可能改变表中行的物理顺序。这种操作会对表加上排他锁,影响并发性能,但可以回收更多的空间。
总的来说,VACUUM操作是PostgreSQL中维持数据库性能和防止事务ID包裹的关键工具。通过定期的VACUUM操作,可以确保数据库的健康运行和高效性能。

自动VACUUM

什么时候会触发自动 VACUUM

1.基于阈值:当表中的更新、删除操作导致的"死"元组(即不再对任何事务可见的行版本)数量达到一定阈值时,自动 VACUUM 会被触发。这个阈值由几个配置参数决定,主要是 autovacuum_vacuum_threshold 和 autovacuum_vacuum_scale_factor。例如,如果一个表有 10000 行,autovacuum_vacuum_threshold 设置为 50,autovacuum_vacuum_scale_factor 设置为 0.2,那么当表中至少有 50 + 10000 * 0.2 = 2050 个死元组时,自动 VACUUM 会被触发。

2.基于事务ID的包裹防护:为了防止事务ID包裹(wraparound)问题,PostgreSQL 会自动执行 VACUUM 操作以"冻结"旧版本的行,即将它们的事务ID标记为永久可见,以避免事务ID耗尽。
 

自动 VACUUM 会执行哪些操作

1.垃圾回收:自动 VACUUM 会清理表中不再需要的行版本(即"死"元组),释放被这些行版本占用的空间以供将来的插入操作使用。

2.防止事务ID包裹:通过"冻结"旧的行版本,自动 VACUUM 帮助避免事务ID包裹问题,确保数据库能长期稳定运行。

3.更新统计信息:自动 VACUUM 还会更新表和索引的统计信息,这对于查询优化器(planner/optimizer)制定有效的查询计划非常重要。

4.索引维护:自动 VACUUM 会清理和维护索引,移除指向已删除行的索引项,保持索引的效率和准确性。

配置自动 VACUUM

PostgreSQL 提供了多个配置选项来控制自动 VACUUM 的行为,包括但不限于:

1.autovacuum:启用或禁用自动 VACUUM 功能。

2.autovacuum_vacuum_scale_factor 和 autovacuum_vacuum_threshold:这两个参数合作决定了触发自动 VACUUM 的死元组数量阈值。

3.autovacuum_vacuum_cost_delay 和 autovacuum_vacuum_cost_limit:这些参数用于控制自动 VACUUM 对系统资源的使用,以减少它对数据库其他活动的影响。
自动 VACUUM 旨在减少数据库管理员的维护工作,确保数据库性能和稳定性,但在某些高负载或特殊需求的场景下,可能还需要手动调整 VACUUM 的配置或执行手动 VACUUM。

注意事项


性能影响

虽然普通的VACUUM操作对数据库操作的影响较小,但VACUUM FULL操作可能会显著影响数据库性能,因为它需要对表加锁。

自动VACUUM

PostgreSQL有自动VACUUM的机制,可以自动回收废弃空间和更新统计信息。但在某些情况下,手动执行VACUUM可能更为必要,例如在大量删除操作后手动执行VACUUM以快速回收空间。

安全性

在执行VACUUM FULL时,必须确保有足够的磁盘空间,因为它会临时需要额外空间来重写表文件。


综上所述,VACUUM操作是PostgreSQL数据库管理中的一个重要环节,合理的使用VACUUM能够帮助维护数据库的健康状态和优化性能。


 

相关文章:

Postgresql中VACUUM操作原理和应用

VACUUM操作在PostgreSQL中的底层原理涉及几个关键概念,包括MVCC(多版本并发控制)、事务ID包裹、以及垃圾回收机制。我们逐一解析这些概念,以及它们是如何与VACUUM操作相互作用的。 关键概念 1. MVCC(多版本并发控制&…...

5.1 Ajax数据爬取之初介绍

目录 1. Ajax 数据介绍 2. Ajax 分析 2.1 Ajax 例子 2.2 Ajax 分析方法 (1)在网页页面右键,检查 (2)找到network,ctrl R刷新 (3)找 Ajax 数据包 (4)…...

react-组件进阶

1.目标 能够实用props接收数据 能够实现父子组件之间的通讯 能够实现兄弟组件之间的通讯 能够给组件添加props校验 能够说出生命周期常用的钩子函数 能够知道高阶组件的作用 2.目录 组件通讯介绍 组件的props 组件通讯的三种方式 Context props深入 组件的生命周期 Render-p…...

企业有了ERP,为什么还要上BI?

在我们以往和企业的沟通过程中,我们发现还是有相当多的一部分企业对于商业智能 BI 了解不多,或者对商业智能 BI 的理解仅停留在花花绿绿的可视化页面上,要么就是提出以下类似问题: 财务部门:BI 的财务分析指标也就是三…...

P1331 海战

难度:普及- 题目背景 在峰会期间,武装部队得处于高度戒备。警察将监视每一条大街,军队将保卫建筑物,领空将布满了 F-2003 飞机。 此外,巡洋船只和舰队将被派去保护海岸线。不幸的是,因为种种原因&#x…...

Orange3数据预处理(索引选择器组件)

组件描述 数据行即使在某些或全部原始变量被来自原始变量的计算变量替换时,也保持其身份。 此小部件获取两个数据表(“数据”和“数据子集”),它们可以追溯到同一来源。基于行身份而非实际数据,它会从“数据”中选择所…...

Python实现时间序列分析进行平稳性检验(ADF和KPSS)和差分去趋势(adfuller和kpss算法)项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 时间序列分析中的平稳性检验是评估一个时间序列是否具有稳定的均值和方差。在经济学、金融学以及其他诸…...

代码随想录 Leetcode494. 目标和

题目: 代码(首刷看解析 2024年2月26日) 思路:根据题意,设两个背包,packageA存放前面是""的数字之和,packageB存放前面是“-”的数字之和 则sum packageA packageB; target packageA - packag…...

【5G NR】【一文读懂系列】移动通讯中使用的信道编解码技术-NR编解码LDPC和Polar概述(一)

目录 NR LDPC和Polar编码技术概述 LDPC(低密度奇偶校验码) LDPC 工作原理 LDPC 应用场景: LDPC 与其他编码技术相比的优势: Polar 极化码 Polar 工作原理 Polar 应用场景: Polar 与其他编码技术相比的优势&am…...

代码库管理工具Git介绍

阅读本文同时请参阅-----免费的Git图形界面工具sourceTree介绍 Git是一个分布式版本控制系统,它可以帮助开发者跟踪和管理代码历史。Git的命令行工具是使用Git的核心方式,虽然它可能看起来有些复杂,但是一旦掌握了基本命令,你…...

【长期更新】游戏开发中可能会用到的数学小工具

从一个向量生成一组正交基 https://graphics.pixar.com/library/OrthonormalB/paper.pdf...

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的活体人脸检测系统(Python+PySide6界面+训练代码)

摘要:本篇博客详细讲述了如何利用深度学习构建一个活体人脸检测系统,并且提供了完整的实现代码。该系统基于强大的YOLOv8算法,并进行了与前代算法YOLOv7、YOLOv6、YOLOv5的细致对比,展示了其在图像、视频、实时视频流和批量文件处…...

亚信安慧AntDB助力全链路实时化

实时数据平台,快速实现企业全链路实时化 引入数据仓库、数据挖掘、HTAP等先进理念,通过实时数据应用平台来装载庞大的信息量,进行实时分析处理,克服数据处理过程中的困难,是当下各企事业单位、互联网、金融&#xff0c…...

C#进阶——反射、特性

反射 特性...

UE5 C++ 发射子弹发射(Projectile)

一.相关蓝图的练习,在我之前的文章中射击子弹案例-CSDN博客 本篇使用C实现 1.创建C类 MyBullet,在MyBullet.h中包含相关头文件 #include "CoreMinimal.h" #include "GameFramework/Actor.h" #include "Components/StaticMeshComponent.…...

【蓝牙协议栈】【蓝牙分析工具】Ellisys 分析HCI Log和btsnoop Log

1.Ellisys 介绍 Ellisys 的 air log sniffer设备要二三十万,一般不是专业开发蓝牙的估计不会选择使用这个工具,但是即使我们不买这个设备,安装了 Ellisys 的工具也可以看 btsnoop 的,下面我就一步一步教你通过 Ellisys 来打开 btsnoop。 1.1 首先打开 APP(Ellisys 不能直…...

亚信安慧AntDB数据库与流式处理的有机融合

流式处理的概念 2001年9月11日,美国世贸大楼被袭击,美国国防部第一次将“主动预警”纳入国防的宏观战略规划。而IBM作为当时全球最大的IT公司,承担了大量基础支撑软件研发的任务。其中2009年正式发布的IBM InfoSphere Streams,就是…...

神经网络系列---权重初始化方法

文章目录 权重初始化方法Xavier初始化(Xavier initialization)Kaiming初始化,也称为He初始化LeCun 初始化正态分布与均匀分布Orthogonal InitializationSparse Initializationn_in和n_out代码实现 权重初始化方法 Xavier初始化(X…...

【重要公告】BSV区块链协会宣布将启动多项动态安全增强措施

​​发表时间:2024年2月16日 2024年2月16日,瑞士楚格 - BSV区块链协议的管理机构BSV区块链协会(以下简称“BSV协会”)宣布对其运营模式实施全新的安全架构,其中包括引入网络访问规则和数字资产找回协议,以及…...

软件设计模式之访问者模式(Visitor Pattern)

访问者模式是一种行为型设计模式,它允许你定义一系列操作,这些操作可以应用于对象结构中的元素,而不改变这些元素的类。通过这种方式,可以在不改变各个元素的类的情况下,增加新的操作。 1. 何时使用访问者模式&#x…...

谷歌浏览器插件

项目中有时候会用到插件 sync-cookie-extension1.0.0:开发环境同步测试 cookie 至 localhost,便于本地请求服务携带 cookie 参考地址:https://juejin.cn/post/7139354571712757767 里面有源码下载下来,加在到扩展即可使用FeHelp…...

19c补丁后oracle属主变化,导致不能识别磁盘组

补丁后服务器重启,数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后,存在与用户组权限相关的问题。具体表现为,Oracle 实例的运行用户(oracle)和集…...

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法

树莓派摄像头高级使用方法 配置通过调谐文件来调整相机行为 使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 配置 大多数用例自动工作,无需更改相机配置。但是,一…...

ip子接口配置及删除

配置永久生效的子接口,2个IP 都可以登录你这一台服务器。重启不失效。 永久的 [应用] vi /etc/sysconfig/network-scripts/ifcfg-eth0修改文件内内容 TYPE"Ethernet" BOOTPROTO"none" NAME"eth0" DEVICE"eth0" ONBOOT&q…...

OPENCV形态学基础之二腐蚀

一.腐蚀的原理 (图1) 数学表达式:dst(x,y) erode(src(x,y)) min(x,y)src(xx,yy) 腐蚀也是图像形态学的基本功能之一,腐蚀跟膨胀属于反向操作,膨胀是把图像图像变大,而腐蚀就是把图像变小。腐蚀后的图像变小变暗淡。 腐蚀…...

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案

这个问题我看其他博主也写了,要么要会员、要么写的乱七八糟。这里我整理一下,把问题说清楚并且给出代码,拿去用就行,照着葫芦画瓢。 问题 在继承QWebEngineView后,重写mousePressEvent或event函数无法捕获鼠标按下事…...

怎么让Comfyui导出的图像不包含工作流信息,

为了数据安全,让Comfyui导出的图像不包含工作流信息,导出的图像就不会拖到comfyui中加载出来工作流。 ComfyUI的目录下node.py 直接移除 pnginfo(推荐)​​ 在 save_images 方法中,​​删除或注释掉所有与 metadata …...

PostgreSQL——环境搭建

一、Linux # 安装 PostgreSQL 15 仓库 sudo dnf install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-$(rpm -E %{rhel})-x86_64/pgdg-redhat-repo-latest.noarch.rpm# 安装之前先确认是否已经存在PostgreSQL rpm -qa | grep postgres# 如果存在&#xff0…...

【LeetCode】3309. 连接二进制表示可形成的最大数值(递归|回溯|位运算)

LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 题目描述解题思路Java代码 题目描述 题目链接:LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 给你一个长度为 3 的整数数组 nums。 现以某种顺序 连接…...

TSN交换机正在重构工业网络,PROFINET和EtherCAT会被取代吗?

在工业自动化持续演进的今天,通信网络的角色正变得愈发关键。 2025年6月6日,为期三天的华南国际工业博览会在深圳国际会展中心(宝安)圆满落幕。作为国内工业通信领域的技术型企业,光路科技(Fiberroad&…...