当前位置：首页 > news >正文

postgresql 内核源码分析 btree索引的增删查代码基本原理流程分析，索引膨胀的原因在这里

news 2026/5/11 13:33:08

B-Tree索引代码流程分析

专栏内容：

postgresql内核源码分析
手写数据库toadb
并发编程

开源贡献：

toadb开源库

个人主页：我的主页
管理社区：开源数据库
座右铭：天行健，君子以自强不息；地势坤，君子以厚德载物.

概述

在postgresql最常用的索引就是btree，它支持范围和等值查询。

本文主要介绍btree的代码的入口，接口定义，主要涉及索引的查询，插入，删除，和数据的清理操作。

前言

索引是为了更快的找到实际数据表中的数据，那么索引键值就非常小，可以一次性从磁盘读取大量的索引数据。
但是有些索引值中存储了实际数据，与数据是一一对应的，就是密集型索引，而有一些索引并不存储实际数据，而是存储范围内的最大最小值，此类型索引叫做稀疏索引；

对于密集型索引，如主键，直接可以得到对应的数据位置或对应列的数据，btree算法就可以支持此类型的索引；
而稀疏索引，查到索引后，需要再遍历数据表，或者二级索引才能命中目标数据。

代码入口

postgresql中为了代码的解耦，定义了索引操作的结构体，基成员是一组统一的操作和标识选项；
对于btree的定义如下，可以在这里找到btree索引的操作接口名称，在实际实用的只是调用结构体的成员，也就是函数指针。

/** Btree handler function: return IndexAmRoutine with access method parameters* and callbacks.*/
Datum
bthandler(PG_FUNCTION_ARGS)
{IndexAmRoutine *amroutine = makeNode(IndexAmRoutine);amroutine->amstrategies = BTMaxStrategyNumber;amroutine->amsupport = BTNProcs;amroutine->amoptsprocnum = BTOPTIONS_PROC;amroutine->amcanorder = true;amroutine->amcanorderbyop = false;amroutine->amcanbackward = true;amroutine->amcanunique = true;amroutine->amcanmulticol = true;amroutine->amoptionalkey = true;amroutine->amsearcharray = true;amroutine->amsearchnulls = true;amroutine->amstorage = false;amroutine->amclusterable = true;amroutine->ampredlocks = true;amroutine->amcanparallel = true;amroutine->amcaninclude = true;amroutine->amusemaintenanceworkmem = false;amroutine->amsummarizing = false;amroutine->amparallelvacuumoptions =VACUUM_OPTION_PARALLEL_BULKDEL | VACUUM_OPTION_PARALLEL_COND_CLEANUP;amroutine->amkeytype = InvalidOid;amroutine->ambuild = btbuild;amroutine->ambuildempty = btbuildempty;amroutine->aminsert = btinsert;amroutine->ambulkdelete = btbulkdelete;amroutine->amvacuumcleanup = btvacuumcleanup;amroutine->amcanreturn = btcanreturn;amroutine->amcostestimate = btcostestimate;amroutine->amoptions = btoptions;amroutine->amproperty = btproperty;amroutine->ambuildphasename = btbuildphasename;amroutine->amvalidate = btvalidate;amroutine->amadjustmembers = btadjustmembers;amroutine->ambeginscan = btbeginscan;amroutine->amrescan = btrescan;amroutine->amgettuple = btgettuple;amroutine->amgetbitmap = btgetbitmap;amroutine->amendscan = btendscan;amroutine->ammarkpos = btmarkpos;amroutine->amrestrpos = btrestrpos;amroutine->amestimateparallelscan = btestimateparallelscan;amroutine->aminitparallelscan = btinitparallelscan;amroutine->amparallelrescan = btparallelrescan;PG_RETURN_POINTER(amroutine);
}

我们首先来看索引的基本操作，查询btgettuple，插入btinsert和删除。

索引查询

索引查询的调用栈

ExecIndexScan

在执行计划中会有索引查询的节点，如ExecIndexScan，发起索引查询，通过索引查找到数据表的tuple;

-> IndexNext

返回数据表的tuple，如果是稀疏索引，此处会进行二次查找;

-> index_getnext_slot

返回数据表的tuple，此处会使用索引找到的tid，在数据表中查找，并检查可见性，如果不可见，那继续查找下一条;

-> index_getnext_tid

返回索引键中的记录的tid;

->btgettuple

在索引中查找, 通过遍历比较，命中查找键对应的索引项

查找索引数据的基本流程

索引的查找大致分为两个步骤：

找到起始点，也就是查找键值
从起始点开始扫描，返回符合条件的索引项

代码分析

索引的查询入口函数是 btgettuple，下面是它的实现；

bool
btgettuple(IndexScanDesc scan, ScanDirection dir)
{BTScanOpaque so = (BTScanOpaque) scan->opaque;bool		res;/* btree indexes are never lossy */scan->xs_recheck = false;/** If we have any array keys, initialize them during first call for a* scan.  We can't do this in btrescan because we don't know the scan* direction at that time.*/if (so->numArrayKeys && !BTScanPosIsValid(so->currPos)){/* punt if we have any unsatisfiable array keys */if (so->numArrayKeys < 0)return false;_bt_start_array_keys(scan, dir);}/* This loop handles advancing to the next array elements, if any */do{/** If we've already initialized this scan, we can just advance it in* the appropriate direction.  If we haven't done so yet, we call* _bt_first() to get the first item in the scan.*/if (!BTScanPosIsValid(so->currPos))res = _bt_first(scan, dir);		else{/** Check to see if we should kill the previously-fetched tuple.*/if (scan->kill_prior_tuple){/** Yes, remember it for later. (We'll deal with all such* tuples at once right before leaving the index page.)  The* test for numKilled overrun is not just paranoia: if the* caller reverses direction in the indexscan then the same* item might get entered multiple times. It's not worth* trying to optimize that, so we don't detect it, but instead* just forget any excess entries.*/if (so->killedItems == NULL)so->killedItems = (int *)palloc(MaxTIDsPerBTreePage * sizeof(int));if (so->numKilled < MaxTIDsPerBTreePage)so->killedItems[so->numKilled++] = so->currPos.itemIndex;}/** Now continue the scan.*/res = _bt_next(scan, dir);}/* If we have a tuple, return it ... */if (res)break;/* ... otherwise see if we have more array keys to deal with */} while (so->numArrayKeys && _bt_advance_array_keys(scan, dir));return res;
}

初始化查找点；从代码来看，进入循环后，先 BTScanPosIsValid(so->currPos) 判断currPos是否有效，也就是查找点是否已经初始化；如果没有初始化，则调用 _bt_first 进行初始化；
扫描索引项；初始化查找点后，调用 _bt_next 获取一条索引项数据，找到有效索引后就会返回；

索引插入

索引插入调用栈

从insert来看，调用路径如下

ExecInsert

SQL insert语句的执行入口函数

-> ExecInsertIndexTuples

如果当前表中建有索引，在表数据tuple插入后，调用此函数插入索引，有可能存在多个索引，循环对每个索引调用下级函数进行插入；

index_insert

索引插入的公共调用接口，实际调用对应索引的插入定义接口；

btinsert

btree索引插入的操作的入口函数；在此函数中，首先拼装一个索引tuple，然后调用下级函数进行插入；

_bt_doinsert

执行索引项的插入，会经过查找位置，检查唯一性，插入等一系列流程环节；

索引插入的基本流程

索引插入的大体流程主要有以下环节：

查找索引项插入的位置，因为btree是一个有序的树，所以先要找到插入的位置，保持顺序；此时会与索引查询类似，先初始化查找键，并找到查询点；
唯一性约束的检查，如果索引中属性列都为NULL，是不进行唯一性检查的；
索引的插入环节，调用_bt_insertonpg来完成，其中会有查找空闲空间，可能会索引分裂等；

代码分析

索引插入的入函数是 btinsert，实际执行是 _bt_doinsert，下面来看一下执行的代码流程；

bool
_bt_doinsert(Relation rel, IndexTuple itup,IndexUniqueCheck checkUnique, bool indexUnchanged,Relation heapRel)
{bool		is_unique = false;BTInsertStateData insertstate;BTScanInsert itup_key;BTStack		stack;bool		checkingunique = (checkUnique != UNIQUE_CHECK_NO);/* we need an insertion scan key to do our search, so build one */itup_key = _bt_mkscankey(rel, itup);if (checkingunique){if (!itup_key->anynullkeys){/* No (heapkeyspace) scantid until uniqueness established */itup_key->scantid = NULL;}else{checkingunique = false;/* Tuple is unique in the sense that core code cares about */Assert(checkUnique != UNIQUE_CHECK_EXISTING);is_unique = true;}}insertstate.itup = itup;insertstate.itemsz = MAXALIGN(IndexTupleSize(itup));insertstate.itup_key = itup_key;insertstate.bounds_valid = false;insertstate.buf = InvalidBuffer;insertstate.postingoff = 0;search:stack = _bt_search_insert(rel, heapRel, &insertstate);if (checkingunique){TransactionId xwait;uint32		speculativeToken;xwait = _bt_check_unique(rel, &insertstate, heapRel, checkUnique,&is_unique, &speculativeToken);if (unlikely(TransactionIdIsValid(xwait))){/* Have to wait for the other guy ... */_bt_relbuf(rel, insertstate.buf);insertstate.buf = InvalidBuffer;if (speculativeToken)SpeculativeInsertionWait(xwait, speculativeToken);elseXactLockTableWait(xwait, rel, &itup->t_tid, XLTW_InsertIndex);/* start over... */if (stack)_bt_freestack(stack);goto search;}/* Uniqueness is established -- restore heap tid as scantid */if (itup_key->heapkeyspace)itup_key->scantid = &itup->t_tid;}if (checkUnique != UNIQUE_CHECK_EXISTING){OffsetNumber newitemoff;CheckForSerializableConflictIn(rel, NULL, BufferGetBlockNumber(insertstate.buf));newitemoff = _bt_findinsertloc(rel, &insertstate, checkingunique,indexUnchanged, stack, heapRel);_bt_insertonpg(rel, heapRel, itup_key, insertstate.buf, InvalidBuffer,stack, itup, insertstate.itemsz, newitemoff,insertstate.postingoff, false);}else{/* just release the buffer */_bt_relbuf(rel, insertstate.buf);}/* be tidy */if (stack)_bt_freestack(stack);pfree(itup_key);return is_unique;
}

代码流程如下:

初始化工作；初始化查找键；
查找插入位置；调用 _bt_search_insert 进行查询到一个有足够空闲空间的叶子节点page；
检查唯一性约束；检查唯一性约束，如果有冲突事务，则等待冲突事务执行完成后，再重新查询位置，再检查唯一性约束；然后对结果的判断checkUnique != UNIQUE_CHECK_EXISTING，如果违返那么插入结束；否则执行插入动作；
索引插入；先确定插入位置，再调用_bt_insertonpg；

索引删除

索引的更新，就是删除和插入操作，这里我们来看一下索引删除的概要流程。
对于数据表的tuple的删除，数据并没有真实删除，所以对应的索引项也不会删除，那么什么时候删除索引项呢？

删除索引基本流程

在进行vacuum 或进行 prune paga时，对于HOT链都会在每个page上留下最后一个数据元组，因为同一个page内的HOT链只对应一个索引项，留下这最后一个也是为了删除索引项。
当进行vacuum 索引时，就会通过这个dead tuple找到对应的索引项，先删除索引项，再删除dead tuple。
常常说索引的性能下降了，其实就是索引膨胀导致，也就是deadtuple变多，导致待删除索引项变多，查询效率大降低，同时也会带来索引IO的增加。

代码分析

vac_bulkdel_one_index

调用通用索引处理接口；

->index_bulk_delete

这里通用索引处理接口，其中调用对应索引的处理接口，这里是调用btree索引处理；

->btbulkdelete

btree对应的批量删除接口；避免退出的影响，在开始时会注册退出的回调函数，在解除共享内存前处理善后；然后调用 btvacuumscan 对所有page进行索引删除清理。

结尾

非常感谢大家的支持，在浏览的同时别忘了留下您宝贵的评论，如果觉得值得鼓励，请点赞，收藏，我会更加努力！

作者邮箱：study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出，互相学习。

注：未经同意，不得转载！

postgresql 内核源码分析 btree索引的增删查代码基本原理流程分析，索引膨胀的原因在这里

B-Tree索引代码流程分析专栏内容： postgresql内核源码分析手写数据库toadb并发编程开源贡献： toadb开源库个人主页：我的主页管理社区：开源数据库座右铭：天行健，君子以自强不息；地势坤&…...

编程日记 2023/8/28 11:14:49

详细了解G1、了解G1、G1垃圾收集器详解、G1垃圾回收器简单调优

4.详细了解G1： 4.1.一：什么是垃圾回收 4.2.了解G1 4.3.G1 Yong GC 4.4.G1 Mix GC 4.5.三色标记算法 4.6.调优实践 5.G1垃圾收集器详解 5.1.G1垃圾收集器 5.2.G1的堆内存划分 5.3.G1的运行过程 5.4.三色标记 5.4.1.漏标问题 5.5.记忆集与卡表 5.6.安全点与…...

编程日记 2023/8/28 11:13:47

vue项目中 package.json 详解

在 Vue 项目中，package.json 是一个重要的配置文件，它包含了项目的名称、版本、作者、依赖等信息。下面是一份详细的 Vue 项目 package.json 配置说明： 1.name：项目的名称，用于标识项目，例如：&q…...

编程日记 2023/8/28 11:12:45

为什么要进行管网水位监测，管网水位监测的作用是什么

管网水位监测是城市排水系统管理的重要手段，对于保障城市排水设施安全运行和提升城市管理水平具有重要意义。通过对排水管网的水位进行实时监测和分析，能够及时发现问题并采取措施，提高排水系统的运行效率和管理水平。本文将详细介绍为什么要…...

编程日记 2023/8/28 11:11:44

webpack学习笔记

1. webpack基本概念 webpack： JavaScript 应用程序的静态模块打包器，是目前最为流行的JavaScript打包工具之一。webpack会以一个或多个js文件为入口，递归检查每个js模块的依赖，从而构建一个依赖关系图，然后依据该关系…...

编程日记 2023/8/28 11:10:43

解析代理IP在跨境电商和社媒营销中的关键作用

跨境电商和社媒营销领域的从业者深知，代理IP的价值愈发凸显。在推广营销的过程中，频繁遇到因IP关联而封禁账号的情况，或因使用不安全IP而导致异常问题。这些问题促使人们开始高度重视代理IP的作用。但实际上，代理IP究竟是何物&a…...

编程日记 2023/8/28 11:09:41

Unity 之 Start 与Update 方法的区别

文章目录当谈论Unity中的 Start和 Update方法时，我们实际上是在讨论MonoBehaviour类中的两个常用方法，用于编写游戏逻辑。这两个方法在不同的时机被调用，因此您可以根据需要选择在哪个方法中编写特定的代码。 Start 方法： Start…...

编程日记 2023/8/28 11:08:40

Spring Boot中如何编写优雅的单元测试

单元测试是指对软件中的最小可测试单元进行检查和验证。在Java中，单元测试的最小单元是类。通过编写针对类或方法的小段代码，来检验被测代码是否符合预期结果或行为。执行单元测试可以帮助开发者验证代码是否正确实现了功能需求，以及是否能够…...

编程日记 2023/8/28 11:07:37

三星Galaxy S23与iPhone 15的对比分析：谁会胜出？

三星Galaxy S23与iPhone 15的对决将于下个月进入高潮，这将是今年智能手机中最大的一场较量。毕竟，这是两家领先的移动设备制造商的旗舰手机。他们的手机的比较将在很大程度上决定谁能获得最佳手机的称号。我们已经知道有利于三星Galaxy S23的情况，该产品自春季以来一直在推…...

编程日记 2023/8/28 11:06:34

MySQL索引事物存储引擎

一索引索引的概念索引就是一种帮助系统能够更快速的查找信息的结构索引的作用索引的副作用创建索引的规则 MySQL的优化哪些字段/场景适合创建索引哪些不适合小字段唯一性强的字段更新不频繁，但查询率比较高的字段表记录超过 300行主键，外键…...

编程日记 2023/8/28 11:05:32

【谷粒学院】报错记录

无法从Nacos获取动态配置原先gulimall-common中SpringCloud Alibaba的版本是2.1.0.RELEASE，无法从Nacos中获取配置文件信息 <dependencyManagement><dependencies><dependency><groupId>com.alibaba.cloud</groupId><artifactId&…...

编程日记 2023/8/28 11:04:30

微积分基本概念

微分函数的微分是指对函数的局部变化的一种线性描述。微分可以近似地描述当函数自变量的取值作足够小的改变时，函数的值是怎样改变的。。对于函数 y f ( x ) y f(x) yf(x) 的微分记作： d y f ′ ( x ) d x d_y f^{}(x)d_x dyf′(x)dx 微分和…...

编程日记 2023/8/28 11:03:28

【业务功能篇78】微服务-前端后端校验- 统一异常处理-JSR-303-validation注解

5. 前端校验我们在前端提交的表单数据，我们也是需要对提交的数据做相关的校验的 Form 组件提供了表单验证的功能，只需要通过 rules 属性传入约定的验证规则，并将 Form-Item 的 prop 属性设置为需校验的字段名即可校验的页面效果前端数据…...

编程日记 2023/8/28 11:02:27

Qt 设置窗口背景

窗口背景无非两种：背景色、背景图片。Qt中窗口背景如何设置？ 一、QPalette设置背景二、实现paintEvent，使用QPainter来绘制背景三、使用QSS来设置背景关于QSS的使用不想多说，一般我不用QSS设置窗口背景，也不建议…...

编程日记 2023/8/28 11:00:24

大模型是什么？泰迪大模型能够解决企业哪些痛点？

什么是大模型？ 大模型是指模型具有庞大的参数规模和复杂程度的机器学习模型。在深度学习领域，大模型通常是指具有数百万到数十亿参数的神经网络模型。这些模型需要大量的计算资源和存储空间来训练和存储，并且往往需要进行分布式计算和特殊…...

编程日记 2023/8/28 10:59:22

YOLOv7-tracker 目标追踪输入视频帧

目录 1 项目安装1.1 环境搭建1.2 项目下载1.3 权重下载1.4 环境安装1.5 上传待检测的视频帧 2 视频帧检测与追踪2.1 检测与追踪2.3 结果参考项目：https://github.com/JackWoo0831/Yolov7-tracker/tree/master github链接：https://github.com/Whiffe/Yo…...

编程日记 2023/8/28 10:58:20

C语言二——C语言编写一段代码，求一元二次方程的根

这段代码实现了解一元二次方程的根的计算。用户需要输入方程的系数a、b、c，然后根据判别式的值确定方程的根的情况，并进行相应的输出。如果判别式大于0，说明方程有两个实根，分别计算并输出。如果判别式等于0，说明方程…...

编程日记 2023/8/28 10:57:19

用Idea把SpringBoot项目打包镜像上传至docker

1、设置docker把2375端口开起来命令查看docker装在哪里 vim docker.service 新增 -H tcp://0.0.0.0:2375 -H unix://var/run/docker.sock 2、配置Dockerfile 我在跟pom同一层 3、配置docker-maven-plugin <plugin><groupId>com.spotify</groupId><arti…...

编程日记 2023/8/28 10:56:17

基于 SVG 的图形交互方案实践

不知道从什么时候起，人们开始喜欢上数字大屏这种“花里胡哨”的东西，仿佛只要用上“科技蓝”这样神奇的色调，就可以让一家公司焕然一新，瞬间变得科技感满满。不管数字大屏的实际意义，是用来帮助企业监控和决策&#xf…...

编程日记 2023/8/28 10:55:17

ClawTick CLI：为AI Agent构建可靠任务调度与监控的实践指南

1. 项目概述：为AI Agent构建可靠的任务调度基础设施如果你正在开发或使用AI Agent，无论是基于LangChain、CrewAI还是OpenClaw，迟早会遇到一个核心问题：如何让这些智能体定时、可靠地执行任务？自己写个定时脚本&#…...

编程新知 2026/5/11 12:33:22

PyVideoTrans视频翻译AI配音全攻略：从零开始掌握多语言视频创作

PyVideoTrans视频翻译AI配音全攻略：从零开始掌握多语言视频创作【免费下载链接】pyvideotrans Translate the video from one language to another and embed dubbing & subtitles. 项目地址: https://gitcode.com/gh_mirrors/py/pyvideotrans PyVideoT…...

编程新知 2026/5/11 10:54:24

3个步骤掌握微信聊天记录导出：让珍贵对话永不丢失的实用方法 [特殊字符]

3个步骤掌握微信聊天记录导出：让珍贵对话永不丢失的实用方法 📱 【免费下载链接】WeChatMsg 提取微信聊天记录，将其导出成HTML、Word、CSV文档永久保存，对聊天记录进行分析生成年度聊天报告项目地址: https://gitcode.com/GitH…...

编程新知 2026/5/11 10:31:02

SAP S/4HANA 利润中心（PCA）完整配置步骤

SAP S/4HANA 利润中心（PCA）完整配置步骤按项目上线标准顺序一步步来，从零到可用，含前台后台、必配可选，通俗易懂不绕弯路一、前期基础前提（必须先做好）公司代码、控制范围已创建控制范围与公…...

编程新知 2026/5/11 10:19:25

Go语言Envoy实战：高性能代理与负载均衡

Go语言Envoy实战：高性能代理与负载均衡 1. Envoy概述 Envoy是Lyft开源的高性能代理，常作为服务网格的数据平面，提供负载均衡、熔断、重试等功能。 2. Go控制平面实现 package envoyimport ("api/envoy/api/v2/core""api/envoy…...

编程新知 2026/5/11 9:44:37

OBS多平台直播终极指南：obs-multi-rtmp插件让你一键同步推流到各大平台

OBS多平台直播终极指南：obs-multi-rtmp插件让你一键同步推流到各大平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 还在为多平台直播的繁琐配置而烦恼吗？obs…...

编程新知 2026/5/11 9:31:23

微信网页版终极解决方案：三步实现浏览器端微信完整使用指南

微信网页版终极解决方案：三步实现浏览器端微信完整使用指南【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为繁琐的微信安装流程而烦…...

编程新知 2026/5/11 9:19:26

Go语言代理池框架clawproxy：构建高可用免费代理池的实践指南

1. 项目概述：一个面向开发者的轻量级代理抓取与验证框架最近在折腾一些需要处理大量公开代理IP的应用场景，比如数据采集、API轮询测试或者简单的负载均衡模拟，你是不是也经常遇到这样的问题：网上找的免费代理列表，十个…...

编程新知 2026/5/11 8:39:05

44《实车CAN总线报文ID含义与数据初步解读》

001、CAN总线基础与实车网络拓扑概述从一次凌晨三点的“丢帧”说起去年冬天，某主机厂的新能源车型在做冬季标定。凌晨三点，测试工程师打来电话，语气里带着疲惫和焦躁：“VCU发的车速信号，BMS偶尔收不到，但用CANoe监控又一切正常。”我赶到现场，第一件事不是看代码，而…...

编程新知 2026/5/11 8:14:05

Kohya Trainer 图像生成实战：利用训练好的模型进行高质量创作

Kohya Trainer 图像生成实战：利用训练好的模型进行高质量创作【免费下载链接】kohya-trainer Adapted from https://note.com/kohya_ss/n/nbf7ce8d80f29 for easier cloning 项目地址: https://gitcode.com/gh_mirrors/ko/kohya-trainer Kohya Trainer 是一…...

编程新知 2026/5/11 8:00:27

B-Tree索引代码流程分析

概述

前言

代码入口

索引查询

索引查询的调用栈

查找索引数据的基本流程

代码分析

索引插入

索引插入调用栈

索引插入的基本流程

代码分析

索引删除

删除索引基本流程

代码分析

结尾

相关文章：