当前位置: 首页 > article >正文

【PostgreSQL从零到精通】第48篇:PL/Proxy数据分片——PostgreSQL的水平扩展利器

上一篇【第47篇】Bucardo多主复制——实现真正的双向数据同步下一篇【第49篇】pgpool-II完全指南——连接池复制负载均衡的三合一方案单台 PostgreSQL 服务器的读写能力总有一个上限。当数据量达到 TB 级别、并发请求达到数万 QPS 时再怎么优化硬件也无济于事——你需要水平扩展把数据分散到多台服务器上。PL/Proxy就是 PostgreSQL 官方提供的数据分片方案通过函数级别的路由实现透明分片。一、PL/Proxy 概述1.1 什么是 PL/ProxyPL/Proxy 的核心理念 传统方式单机 ┌──────────────────────┐ │ PostgreSQL 单机 │ │ 所有数据在一个库中 │ → 瓶颈 └──────────────────────┘ PL/Proxy 方式分片 ┌─────────────┐ │ PL/Proxy │ ← 接收客户端请求根据分片规则路由 │ (路由节点) │ └──────┬──────┘ ┌────┼────────┐ ↓ ↓ ↓ ┌────┐┌────┐ ┌────┐ │ 分片0││ 分片1│ │ 分片2│ ← 数据分散存储 │ DB 0 ││ DB 1 │ │ DB 2 │ └─────┘└─────┘ └─────┘ 客户端完全无感知像使用一个数据库一样1.2 PL/Proxy 特性PL/Proxy 的关键特性 ┌──────────────────────────────────────────────────────────────┐ │ ✅ 函数级透明路由调用远程函数就像调用本地函数 │ │ ✅ 支持多种分片策略哈希、范围、自定义 │ │ ✅ 轻量级本身很轻只做路由不做存储 │ │ ✅ 支持并行查询SPLIT 参数可并行查询所有分片 │ │ ✅ 数据对客户端完全透明 │ │ ⚠️ 只能分片函数调用不能分片裸 SQL │ │ ⚠️ 不支持分布式事务跨分片事务需要应用层处理 │ │ ⚠️ 需要预先设计分片规则 │ └──────────────────────────────────────────────────────────────┘二、安装与配置2.1 安装# 从源码编译安装gitclone https://github.com/postgres/plproxy.gitcdplproxy# 确保已安装 PostgreSQL 开发包makeUSE_PGXS1sudomakeUSE_PGXS1install# 验证安装psql-cCREATE EXTENSION plproxy;2.2 基础配置-- 在路由节点上创建扩展CREATEEXTENSION plproxy;-- PL/Proxy 使用 libpq 连接后端数据库-- 连接字符串格式-- hostxxx portxxx dbnamexxx userxxx passwordxxx三、PL/Proxy 函数语言3.1 核心语法-- PL/Proxy 是一种过程语言-- 所有函数都需要用 PL/Proxy 语言编写-- 基本结构CREATEORREPLACEFUNCTIONremote_insert(p_user_idinteger,p_nametext,p_emailtext)RETURNSvoidAS$$CONNECThostshard0 dbnamemydb userproxy_user passwordxxx;TARGET remote_insert;-- 调用远程库的同名函数$$LANGUAGEplproxy;3.2 关键参数详解PL/Proxy 函数中的关键声明 ┌─────────────────────────────────────────────────────────────────┐ │ CONNECT 连接字符串 │ │ 指定连接到哪个后端数据库 │ │ 可以是固定连接字符串也可以使用集群名 │ │ │ │ CLUSTER 集群名 │ │ 使用预定义的集群连接推荐 │ │ │ │ TARGET 函数名 │ │ 指定在后端执行的函数名通常与当前函数同名 │ │ │ │ RUN ON 分片编号 │ │ 指定运行在哪个分片上0, 1, 2 ... │ │ 可以是固定值也可以是动态表达式 │ │ │ │ SPLIT │ │ 并行在所有分片上执行合并结果 │ │ │ │ SET parameter │ │ 设置后端连接参数 │ └─────────────────────────────────────────────────────────────────┘四、数据分片实战4.1 定义集群-- 方式1直接 CONNECT简单但不够灵活CREATEORREPLACEFUNCTIONget_user(p_idint)RETURNSSETOF usersAS$$CONNECThostshard0 dbnamemydb;TARGET get_user;$$LANGUAGEplproxy;-- 方式2使用 CLUSTER推荐集中管理连接-- 创建集群配置CREATEORREPLACEFUNCTIONplproxy_get_cluster_config(p_clustertext,p_outtext)RETURNSSETOFtextAS$$BEGINIFp_clustermy_shardsTHEN-- 返回集群中所有分片的连接信息RETURNNEXThostshard0 dbnamemydb userproxy_user;RETURNNEXThostshard1 dbnamemydb userproxy_user;RETURNNEXThostshard2 dbnamemydb userproxy_user;RETURN;ENDIF;RAISE EXCEPTIONUnknown cluster: %,p_cluster;END;$$LANGUAGEplpgsql SECURITYDEFINER;4.2 哈希分片-- 基于用户 ID 的哈希分片-- 将请求路由到对应的分片-- 1. 先创建一个获取分片数量的函数CREATEORREPLACEFUNCTIONget_shard_count()RETURNSintegerAS$$SELECT3;-- 3个分片$$LANGUAGEsql;-- 2. 创建哈希分片路由函数CREATEORREPLACEFUNCTIONget_user(p_user_idinteger)RETURNSSETOF usersAS$$ CLUSTERmy_shards;RUNONhashtext(p_user_id::text)%(SELECTget_shard_count());TARGET get_user;$$LANGUAGEplproxy;-- 使用示例-- SELECT * FROM get_user(42);-- PL/Proxy 会计算 hashtext(42) % 3自动路由到对应分片4.3 SPLIT 并行查询-- 并行查询所有分片并合并结果-- 适用于聚合查询、报表查询等-- 获取所有分片的用户总数CREATEORREPLACEFUNCTIONget_total_user_count()RETURNSbigintAS$$ CLUSTERmy_shards;SPLIT;TARGET get_total_user_count;$$LANGUAGEplproxy;-- PL/Proxy 会并行在 shard0、shard1、shard2 上执行-- 然后将所有分片的结果合并返回4.4 完整分片示例-- 后端分片数据库shard0/shard1/shard2-- 创建实际存储表CREATETABLEusers(user_idSERIALPRIMARYKEY,nametextNOTNULL,emailtextUNIQUE,created_at timestamptzDEFAULTnow());-- 创建后端处理函数CREATEORREPLACEFUNCTIONinsert_user(p_nametext,p_emailtext)RETURNSintegerAS$$INSERTINTOusers(name,email)VALUES(p_name,p_email)RETURNINGuser_id;$$LANGUAGEsql;CREATEORREPLACEFUNCTIONget_user(p_user_idinteger)RETURNSSETOF usersAS$$SELECT*FROMusersWHEREuser_idp_user_id;$$LANGUAGEsql;-- 路由节点PL/Proxy-- 写入路由根据 name 的哈希分片CREATEORREPLACEFUNCTIONinsert_user(p_nametext,p_emailtext)RETURNSintegerAS$$ CLUSTERmy_shards;RUNONhashtext(p_name)%(SELECTget_shard_count());TARGET insert_user;$$LANGUAGEplproxy;-- 读取路由需要知道数据在哪个分片CREATEORREPLACEFUNCTIONget_user(p_user_idinteger)RETURNSSETOF usersAS$$ CLUSTERmy_shards;RUNONhashtext(p_user_id::text)%(SELECTget_shard_count());TARGET get_user;$$LANGUAGEplproxy;-- 并行查询CREATEORREPLACEFUNCTIONsearch_users(p_name_patterntext)RETURNSSETOF usersAS$$ CLUSTERmy_shards;SPLIT;TARGET search_users;$$LANGUAGEplproxy;五、分片策略选择5.1 常见分片方式分片策略对比 ┌──────────┬──────────────────────┬──────────────────────┐ │ 分片方式 │ 适用场景 │ 优缺点 │ ├──────────┼──────────────────────┼──────────────────────┤ │ 哈希分片 │ 用户ID、订单ID等 │ 分布均匀扩容需重哈希│ │ 范围分片 │ 时间范围、地区 │ 范围查询方便热点风险│ │ 列表分片 │ 按业务线/客户类型 │ 灵活需要提前规划 │ │ 一致性哈希│ 动态扩缩容 │ 扩容平滑实现复杂 │ └──────────┴──────────────────────┴──────────────────────┘5.2 分片键选择原则选择分片键的原则 1. ✅ 数据分布均匀避免热点 2. ✅ 查询条件经常使用减少跨分片查询 3. ✅ 不可变或极少变化避免数据迁移 4. ❌ 不要选择自增 ID所有新数据都会到同一个分片 5. ❌ 不要选择低基数列如性别、状态等只有几个值六、高可用设计6.1 分片 主从复制PL/Proxy 流复制 高可用架构 ┌──────────────┐ │ PL/Proxy │ │ (路由节点) │ │ ×2 (HA) │ └──────┬───────┘ ┌───────────┼───────────┐ ↓ ↓ ↓ ┌──────┐ ┌──────┐ ┌──────┐ │ 分片0 │ │ 分片1 │ │ 分片2 │ │ Master│ │ Master│ │ Master│ └───┬───┘ └───┬───┘ └───┬───┘ ↓ ↓ ↓ ┌──────┐ ┌──────┐ ┌──────┐ │ 分片0 │ │ 分片1 │ │ 分片2 │ │ Slave │ │ Slave │ │ Slave │ └──────┘ └──────┘ └──────┘ 每个分片自身做流复制主从 PL/Proxy 节点也可以做 HA如 PgBouncer 负载均衡6.2 PL/Proxy 节点高可用-- CLUSTER 配置支持多个地址-- PL/Proxy 会自动尝试连接可用的节点CREATEORREPLACEFUNCTIONplproxy_get_cluster_config(p_clustertext,p_outtext)RETURNSSETOFtextAS$$BEGINIFp_clustermy_shardsTHEN-- 每个分片提供主备两个地址RETURNNEXThostshard0_master dbnamemydb userproxy_user;RETURNNEXThostshard1_master dbnamemydb userproxy_user;RETURNNEXThostshard2_master dbnamemydb userproxy_user;RETURN;ENDIF;RAISE EXCEPTIONUnknown cluster;END;$$LANGUAGEplpgsql SECURITYDEFINER;七、PL/Proxy 的限制PL/Proxy 的主要限制 ┌──────────────────────────────────────────────────────────────┐ │ 1. 只能通过函数访问数据不支持直接 SQL 查询分片 │ │ 2. 不支持分布式事务跨分片 ACID │ │ 3. 跨分片 JOIN 需要在应用层实现 │ │ 4. 不支持 DDL 自动下发到分片 │ │ 5. 扩容需要数据迁移重新分片 │ │ 6. SPLIT 结果合并有限制返回类型必须一致 │ │ 7. 社区活跃度不高更新较慢 │ └──────────────────────────────────────────────────────────────┘ 与现代方案对比 - PostgreSQL 原生分区表声明式分区适合单机大表 - PL/Proxy 适合需要多机水平扩展的场景 - Citus扩展更适合现代分布式 PostgreSQL 需求八、总结PL/Proxy是 PostgreSQL 官方的函数级分片路由方案核心机制CLUSTER 定义连接池 → RUN ON 路由到指定分片 → SPLIT 并行查询分片键选择高基数、均匀分布、不可变、常用查询条件高可用分片本身做流复制主从PL/Proxy 节点做 HA局限不支持分布式事务、跨分片 JOIN复杂场景建议考虑 Citus下一篇我们学习pgpool-II完全指南——连接池复制负载均衡的三合一方案。标签PostgreSQL、PL/Proxy、数据分片、水平扩展、分布式数据库上一篇【第47篇】Bucardo多主复制——实现真正的双向数据同步下一篇【第49篇】pgpool-II完全指南——连接池复制负载均衡的三合一方案

相关文章:

【PostgreSQL从零到精通】第48篇:PL/Proxy数据分片——PostgreSQL的水平扩展利器

上一篇【第47篇】Bucardo多主复制——实现真正的双向数据同步 下一篇【第49篇】pgpool-II完全指南——连接池复制负载均衡的三合一方案 单台 PostgreSQL 服务器的读写能力总有一个上限。当数据量达到 TB 级别、并发请求达到数万 QPS 时,再怎么优化硬件也无济于事——…...

看完100个失败私域直播案例,90%的人死在预热前

前年刚开始搞私域直播的时候,我特别自信,觉得产品也好、主播也专业,开播肯定有人看。结果呢?第一场播下来,场观不到两百,卖了不到一千块。我当时完全懵了,不知道问题出在哪。后来我一个做私域的…...

D3.js:数据可视化的终极利器

什么是 D3.js D3.js(Data-Driven Documents)是一个基于 JavaScript 的数据可视化库,用于创建动态、交互式的数据可视化图表。它通过绑定数据到 DOM(文档对象模型),并利用 HTML、SVG 和 CSS 实现数据驱动的…...

从零搭建一个拼多多CPS返利小程序:我的踩坑记录与避坑指南

从零搭建一个拼多多CPS返利小程序:我的踩坑记录与避坑指南 去年夏天,我决定尝试开发一个拼多多CPS返利小程序。作为一个独立开发者,我本以为凭借多年的编程经验,两周就能搞定这个"小项目"。没想到从API对接、用户绑定到…...

从D435i的深度图反推:如何让OpenCV SGBM的输出更接近工业级传感器效果?

从D435i深度图反推:OpenCV SGBM算法优化实战指南 当你在机器人导航或三维重建项目中对比OpenCV SGBM算法生成的深度图与Intel RealSense D435i输出的结果时,是否发现前者总是显得"平面化"且噪声明显?这背后隐藏着工业级深度传感器在…...

RAG进阶:下一代RAG怎么玩?

基础RAG能解决80%的问题,但剩下20%的难题,需要更进阶的技术。一、基础RAG碰到了什么天花板 基础RAG的套路很简单:文档切块 → Embedding → 向量检索 → 拼接Prompt → 大模型生成答案。 简单场景够用,但往深了用,三个…...

用GD32F470的ADC+DMA实现高精度电流采样,附梁山派开发板实测波形

GD32F470高精度电流采样实战:ADC过采样与DMA传输的工程化实现 在电机控制和电源监测领域,电流采样的精度和实时性直接决定了系统性能的上限。传统12位ADC往往难以兼顾噪声抑制和动态响应,而外置高精度ADC又会增加BOM成本和布线复杂度。本文将…...

【Docker 工程实践】AI 服务容器化部署全流程

文章目录Docker 工程实践:AI 服务容器化部署全流程一、引言二、核心挑战:Mac arm64 → Linux amd64 的跨平台陷阱2.1 为什么会出现 exec format error2.2 一个镜像跑两端:统一构建 amd64三、Dockerfile 工程规范3.1 标准生产模板3.2 多阶段构…...

VMware Workstation 虚拟机创建客户端系统,出现此主机不支持64位客户机操作系统问题解决

安装VMware Workstation 虚拟机(版本15.5),选择windows 11 64位是出现此主机不支持64位客户机操作系统.硬件以及系统支持64位。网上找了几个情况1、hyper-v 功能选项是否开启状态,关闭它2、看CPU技术是否支持虚拟技术,打开任务管…...

如何配置Data Guard环境中的应用连接_客户端TAF与服务漂移Service Trigger

TAF配置不生效主因是TNSNAMES.ORA中未正确定义FAILOVER_MODE参数,需显式设置TYPE(SESSION/SELECT)、METHOD(BASIC)、RETRIES、DELAY及ADDRESS_LIST顺序;srvctl服务需配合DB_ROLE_CHANGE触发器或Broker手动启…...

从Claude Code源码泄露事件看AI CLI工具的五层架构与安全设计

1. 项目概述:一次对Claude Code CLI的深度技术考古最近,AI编程助手领域发生了一件颇有意思的技术事件:Anthropic官方推出的命令行工具Claude Code,其完整的TypeScript源代码意外地在npm包中被公开了。这并非一次主动的开源&#x…...

告别Hackbar解析错误!用Burp Suite搞定复杂GET/POST请求的保姆级教程

告别Hackbar解析错误!用Burp Suite搞定复杂GET/POST请求的保姆级教程 在Web安全测试和CTF比赛中,处理HTTP请求是基本功。许多初学者习惯使用浏览器插件Hackbar快速构造请求,但当遇到复杂参数时,Hackbar的解析能力就显得力不从心。…...

Scratch编程实战:手把手教你实现坦克大战的“穿墙”与“子弹反弹”效果(附完整源码)

Scratch编程实战:从零构建坦克大战的穿墙与子弹反弹机制 引言:为什么选择坦克大战作为Scratch进阶项目? 坦克大战作为经典游戏,其核心机制对编程初学者极具教学价值。不同于简单动画项目,它需要处理角色移动边界检测、…...

不止于Hello World:在IDEA里用Lua写一个自动化运维小工具(环境搭建+实战)

不止于Hello World:在IDEA里用Lua写一个自动化运维小工具(环境搭建实战) 当开发者第一次接触Lua时,往往止步于打印"Hello World"的成就感。但Lua真正的魅力在于其轻量级特性与嵌入式优势,特别适合作为自动化…...

从MII到RGMII:你的嵌入式网卡PCB面积是怎么省下来的?一个硬件老鸟的笔记

从MII到RGMII:硬件工程师的PCB布局优化实战指南 当我在设计第一块千兆以太网卡时,面对密密麻麻的GMII接口走线几乎崩溃——8位数据线、控制信号和时钟线让本已紧张的PCB空间雪上加霜。直到发现RGMII这个"布线救星",才真正体会到接口…...

OpenClaw 工具接入 Taotoken 的配置要点与注意事项

OpenClaw 工具接入 Taotoken 的配置要点与注意事项 对于使用 OpenClaw 构建智能体工作流的开发者而言,统一接入多个大模型并管理其调用是一个常见的需求。Taotoken 作为一个提供 OpenAI 兼容 API 的平台,可以很好地与 OpenClaw 集成。本文将详细说明如何…...

Lab Streaming Layer终极指南:如何实现科研数据实时同步与可视化

Lab Streaming Layer终极指南:如何实现科研数据实时同步与可视化 【免费下载链接】labstreaminglayer LabStreamingLayer super repository comprising submodules for LSL and associated apps. 项目地址: https://gitcode.com/gh_mirrors/la/labstreaminglayer …...

Anno 1800模组加载器:无需RDA打包的终极游戏定制方案

Anno 1800模组加载器:无需RDA打包的终极游戏定制方案 【免费下载链接】anno1800-mod-loader The one and only mod loader for Anno 1800, supports loading of unpacked RDA files, XML merging and Python mods. 项目地址: https://gitcode.com/gh_mirrors/an/a…...

08-MLOps与工程落地——CI/CD for ML

CI/CD for ML(GitHub Actions流水线、自动化训练测试部署) 一、CI/CD for ML概述 1.1 什么是ML CI/CD? import matplotlib.pyplot as plt from matplotlib.patches import Rectangle, FancyBboxPatch import warnings warnings.filterwarning…...

对比不同模型在 Taotoken 上的响应速度与 token 消耗直观差异

对比不同模型在 Taotoken 上的响应速度与 token 消耗直观差异 为应用选择合适的模型时,开发者通常会关注两个直接影响体验和成本的核心指标:响应速度和 token 消耗。响应速度关系到用户体验的流畅度,而 token 消耗则直接关联到 API 调用成本…...

别让‘隐形杀手’毁了你的板子:PCBA残留物检测与清洗实战指南(附IPC标准解读)

PCBA隐形杀手防治手册:从离子污染检测到三防漆优化的全流程实战 当一块价值数万元的通信主板在客户现场运行半年后突然失效,拆解发现焊点周围布满白色结晶物——这种场景对硬件工程师而言绝不陌生。免清洗工艺的普及让许多生产者误以为焊后处理可以一劳永…...

BitSys架构:动态精度神经网络加速器的FPGA实现

1. BitSys架构设计背景与核心价值在边缘计算和物联网设备快速发展的当下,神经网络加速器的能效比成为关键指标。传统FPGA加速器面临一个根本性矛盾:支持多精度运算的硬件模块往往需要复杂的控制逻辑和资源复用机制,这会显著增加关键路径延迟&…...

告别时序烦恼:用状态机优雅封装S25FL系列SPI Flash的FPGA驱动

告别时序烦恼:用状态机优雅封装S25FL系列SPI Flash的FPGA驱动 在复杂的SoC系统设计中,SPI Flash控制器往往是连接处理器与存储介质的关键桥梁。面对S25FL系列Flash芯片多达20余种的操作指令,传统直连式驱动开发往往陷入时序控制的泥潭。本文将…...

IMX6ULL点灯实战:从寄存器手册到代码,手把手配置GPIO1_IO03(附电气属性详解)

IMX6ULL点灯实战:从寄存器手册到代码,手把手配置GPIO1_IO03(附电气属性详解) 第一次拿到IMX6ULL开发板时,看着密密麻麻的引脚和厚厚的参考手册,我完全不知道从何下手。直到导师告诉我:"点…...

Grasshopper数据导出到Excel的C#脚本保姆级教程(含COM对象释放避坑指南)

Grasshopper数据导出到Excel的C#脚本开发全流程与资源管理实战 在参数化设计领域,Grasshopper与Excel的协同工作已经成为建筑师、工程师和设计师的日常需求。当我们需要将复杂的几何数据、分析结果或参数化逻辑导出到Excel进行进一步处理、可视化或生成报告时&#…...

终极解决方案:用MonitorControl免费掌控Mac外接显示器亮度和音量

终极解决方案:用MonitorControl免费掌控Mac外接显示器亮度和音量 【免费下载链接】MonitorControl 🖥 Control your displays brightness & volume on your Mac as if it was a native Apple Display. Use Apple Keyboard keys or custom shortcuts.…...

DuckDB的递归CTE性能改进

来源:https://github.com/duckdb/duckdb/pull/22211 优化递归 CTE 性能 #22211 作者: kryonix 我终于能够分享这个 PR(拉取请求)了,我感到非常兴奋。说实话,我想实现这个功能已经好几年了,但一直没时间真正…...

OpenModScan:完全免费的Modbus主站测试工具终极指南

OpenModScan:完全免费的Modbus主站测试工具终极指南 【免费下载链接】OpenModScan Open ModScan is a Free Modbus Master (Client) Utility 项目地址: https://gitcode.com/gh_mirrors/op/OpenModScan 还在为昂贵的工业通讯测试工具而烦恼吗?面对…...

从DLSS-G到FSR3:打破N卡独占,让AMD显卡也能享受帧生成技术

从DLSS-G到FSR3:打破N卡独占,让AMD显卡也能享受帧生成技术 【免费下载链接】dlssg-to-fsr3 Adds AMD FSR 3 Frame Generation to games by replacing Nvidia DLSS Frame Generation (nvngx_dlssg). 项目地址: https://gitcode.com/gh_mirrors/dl/dlssg…...

物联网卡充值/续费总失败?可能是你的ICCID号输错了!保姆级避坑指南

物联网卡充值总失败?ICCID输入避坑全攻略 每次给物联网卡充值都像在玩扫雷游戏?输完20位ICCID号码后,系统却无情地弹出一行红色警告:"充值失败"。这种场景对于管理大量物联网设备的企业IT人员来说,简直是日常…...