当前位置：首页 > news >正文

[SQL系列] 从头开始学PostgreSQL 分库分表

news 2026/5/18 2:50:13

什么是分库分表

分库分表是一种数据库架构设计的方法，用于应对大规模数据的存储和查询。当单个数据库的存储容量或查询性能无法满足需求时，可以通过将数据分散存储在多个数据库服务器上，以提高系统的可扩展性和性能。
分库分表通常包括两个步骤：分库和分表。

分库

分库是指将单个数据库按照一定规则划分为多个数据库，每个数据库可以存储一部分数据。这样可以减少单个数据库的数据量，提高查询效率。常见的分库方式包括垂直分库和水平分库。

垂直分库是指按照功能模块或业务领域将数据分成多个数据库。例如，可以将订单数据、用户数据、商品数据分别存储在不同的数据库中。
水平分库是指按照数据特征将数据分成多个数据库，例如按照时间、地理位置等。例如，可以将订单数据按照月份分别存储在不同的数据库中。

分表

        分表是指将单个表按照一定规则划分为多个表，每个表可以存储一部分数据。这样可以减少单个表的数据量，提高查询效率。常见的分表方式包括垂直分表和水平分表。
        垂直分表是指按照功能模块或业务领域将表分成多个部分。例如，可以将订单表按照订单状态分成多个部分。
        水平分表是指按照数据特征将表分成多个部分，例如按照时间、地理位置等。例如，可以将订单表按照月份分别存储在不同的表中。

从PostgreSQL 11开始，就有三种表分区：

1. 范围分区（Range Partition）

范围分区是将表按照某个列的值划分成一段或多段。每个分区的端点值存储在 pg_partition_range 系统表中。范围分区支持基于时间戳的自动分区，例如根据日期列自动创建每天、每月、每年等分区。

2. 列表分区（List Partition）

        列表分区是将表按照某个列的值存储在数组中，每个分区的值存储在 pg_partition_list 系统表中。列表分区的支持比较灵活，可以自定义分区值，也可以使用预先定义好的列表进行分区。
        3. 哈希分区（Hash Partition）
        哈希分区是将表按照某个列的值进行哈希运算，将结果映射到不同的分区。哈希分区可以使用任何哈希函数，例如 MD5、SHA1 等。哈希分区的优点是可以平均分布数据，避免某个分区存储过多数据，提高查询效率。

示例

1. 创建主表

首先，我们需要创建一个主表，用于存储所有分表的公共字段和索引。在示例中，我们创建一个名为 customers 的表，其中包含 id、name、age 和 address 列。

testdb=# CREATE TABLE customers (  id SERIAL PRIMARY KEY,  name VARCHAR(50) NOT NULL,  age INT NOT NULL,  address VARCHAR(100) NOT NULL  
);

2. 创建分表

接下来，我们需要创建多个分表，每个分表都包含主表的所有字段和额外的特定字段。在示例中，我们创建年龄分区表

user=# create table customers_10 () inherits (customers);
CREATE TABLE
user=# create table customers_20 () inherits (customers);
CREATE TABLE
user=# create table customers_30 () inherits (customers);
CREATE TABLE
user=#user=# \dList of relationsSchema |         Name          |   Type   | Owner
--------+-----------------------+----------+-------public | customers             | table    | userpublic | customers_10          | table    | userpublic | customers_20          | table    | userpublic | customers_30          | table    | user

3. 定义分表规则

使用 PostgreSQL 提供的分表规则（partitioning）功能，定义如何将数据分配到不同的分表中。在示例中，我们使用 AGE 列作为分表规则，将数据分配到 customers_age 分表中。

首先创建一个function，年龄为（0，10）， [10，20）, [20, ...)分别插入三张不同的表里。

然后创建一个trigger，在插入到customers之前开始执行这个function。

这样子当我们向这个customers表插入数据的时候

user=# create or replace function customers_partition_trigger()
returns trigger as $$
begin
if NEW.age < 10 then
insert into customers_10 values (NEW.*);
elseif NEW.age < 20 then
insert into customers_20 values (NEW.*);
else insert into customers_30 values (NEW.*);
end if;
return null;
end;
$$
language plpgsql;
CREATE FUNCTIONuser=# create trigger insert_customers_partition_trigger
user-# before insert on customers
user-# for each row execute procedure customers_partition_trigger();
CREATE TRIGGER

4. 向表中插入数据,这里数据仍会显示在父表中，但是实际上父表仅仅作为整个分区表结构的展示，实际插入的记录是保存在子表中。

user=# INSERT INTO customers VALUES (1, 'Alice', 25, 'New York');
INSERT 0 0
user=# INSERT INTO customers VALUES (2, 'Bob', 35, 'San Francisco');
INSERT 0 0
user=# INSERT INTO customers VALUES (3, 'Charlie', 18, 'Chicago');
INSERT 0 0
user=# INSERT INTO customers VALUES (3, 'Charlie', 18, 'Chicago');
INSERT 0 0
user=# select * from customers;id |  name   | age |    address
----+---------+-----+---------------3 | Charlie |  18 | Chicago3 | Charlie |  18 | Chicago1 | Alice   |  25 | New York2 | Bob     |  35 | San Francisco
(4 rows)user=# select * from customers_10;id | name | age | address
----+------+-----+---------
(0 rows)user=# select * from customers_20;id |  name   | age | address
----+---------+-----+---------3 | Charlie |  18 | Chicago3 | Charlie |  18 | Chicago
(2 rows)user=# select * from customers_30;id | name  | age |    address
----+-------+-----+---------------1 | Alice |  25 | New York2 | Bob   |  35 | San Francisco
(2 rows)

5. 设置分表约束，加快查询效率。因为如果查询主表的话，会直接扫描所有的子表来查询，但是如果加上constraint的话，会允许规划器根据条件查询对应的子分区，在数据很多的情况下可以加快查询速度。

user=# alter table customers_10
user-# add constraint customers_10_check_age_key
user-# check (age < 10);
ALTER TABLEuser=# alter table customers_20
user-# add constraint customers_20_check_age_key
user-# check (age < 20);
ALTER TABLEuser=# alter table customers_30
user-# add constraint customers_30_check_age_key
user-# check (age < 30);
ALTER TABLE

优缺点

分库分表都有一定的优缺点，下面来盘点下。

优点

提高系统可扩展性：通过将数据分散存储在多个数据库服务器上，可以提高系统的可扩展性，方便扩展存储容量和处理能力。
提高系统性能：通过将数据分散存储在多个数据库服务器上，可以提高系统的性能，减少单个数据库的压力。
降低数据冗余：通过将数据分散存储在多个数据库服务器上，可以降低数据冗余，减少数据丢失的风险。

缺点

复杂性：分库分表需要对数据进行划分和维护，增加了系统的复杂性和维护成本。
数据一致性：分库分表可能导致数据不一致，需要额外的机制来保证数据的一致性。
事务处理：分库分表可能会影响事务的处理，需要额外的机制来支持跨库的事务处理。

[SQL系列] 从头开始学PostgreSQL 分库分表

什么是分库分表

分库

分表

示例

优缺点

优点

缺点

相关文章：

[SQL系列] 从头开始学PostgreSQL 分库分表

【VScode】Remote-SSH XHR failed无法访问远程服务器

pycharm打开terminal报错

C#与C/C++交互（1）——需要了解的基础知识

LeetCode笔记：Weekly Contest 356

2 Python的基础语法

抖音seo矩阵系统源代码开发搭建技术分享

python#django数据库一对一/一对多/多对多

记RT-Thread rt_timer_start函数的问题

C++初阶——拷贝构造和运算符重载（const成员）

go练习 day01

C# Blazor 学习笔记(0.1):如何开始Blazor和vs基本设置

原码的乘法运算补码乘法运算

找不到d3dx9_43.dll丢失怎么解决（分享几种解决方法）

篇四：建造者模式：逐步构造复杂对象

vs导出和导入动态库和静态库

30 使用easyExcel依赖生成Excel

排序进行曲-v2.0

反弹shell的N种姿势

创意视频剪辑教程：快速合并视频并标题，让你的作品更吸睛！

独立开发者如何借助Taotoken多模型能力打造全能AI助手应用

OpenCore Legacy Patcher终极指南：5步让老旧Mac完美运行最新macOS系统

高效浏览器视频嗅探工具：猫抓扩展完整使用指南

Linuxbonding链路异常定位实战

Nestia：基于TypeScript编译时分析的NestJS端到端类型安全实践

Pandrator：基于Python的自动化内容生成与数据转换工具实践

【最新v2.7.1 版本安装包】OpenClaw 小白入门必看，零基础无需命令零代码保姆级教学

构建团队技能仓库：从知识管理到可执行技能包的系统化实践

多语种出海必备，ElevenLabs菲律宾文语音质量实测对比：Wavenet vs. Instant Voice vs. Custom Model（附MOS评分表）

Otter多模态大模型实战：从架构解析到部署应用的完整指南