当前位置: 首页 > news >正文

大规模数据处理:分库分表与数据迁移最佳实践

什么是分库分表

分库分表是一种数据库架构优化策略,它将数据分散存储在多个数据库或表中,以此来提高系统的可扩展性和性能。

虽然分库分表能够提升系统的整体性能,但是也不要一上来就分库分表,如果系统在单表的情况下,能够正常运行,就使用单表即可;

当业务出现性能瓶颈时,我们可以考虑先使用分区的方式去优化,如果分区之后仍然不能满足性能要求,再考虑分库分表;

在单库单表下,如果表的数据量累积到一定的数量时(5000W 行或 100G 以上),数据库的性能会出现明显下降,即使我们使用索引优化或读写库分离,性能依然存在瓶颈。此时,如果每日数据增长量非常大,就应该考虑分表,避免单表数据量过大,造成数据库操作性能下降。

面对海量数据,在单库单表下,数据库连接数、磁盘 I/O 、网络吞吐、并发能力等都是有限的。所以,在一些大数据量且高并发的业务场景中,我们就需要考虑分库分表来提升数据库的并发处理能力,从而提升应用的整体性能。

如何分库分表

通常,分库分表分为垂直切分和水平切分两种。

垂直分库

垂直分库通常是根据业务模块将数据库中的表进行分类,每个业务模块的表存储在独立的数据库中。这种方式可以减少数据库的宽度,提高查询效率,并且有利于数据库的维护和扩展。

水平分库

水平分库是将同一个库的数据按照某种规则拆分到多个数据库中,每个数据库存储数据的一部分。这种方式可以有效地分散单个数据库的负载,提高系统的并发处理能力。

垂直分表

垂直分表是将一个表的列拆分到多个表中,通常将不常用的列或大字段拆分出来。这种方式可以减少表的宽度,提高查询性能。

水平分表

水平分表是将一个大表的数据按照某种规则(如哈希分片、范围分片)拆分到多个表中。这种方式可以有效地分散单个表的数据量,提高查询效率。

举例说明一下,如何确定分表数量
提成系统有个课消明细表,用来记录学生上课课时消耗详情,每月大概有 400 万条数据,一年就是 4800 万,假如我们保留 10 年,是48000 万。
假如计划单表存储 200 万数据,则分表数量等于 240。
因为我们要用学生维度去查询数据,所以shard 键选择用学生 ID。

分库分表后的问题

分布式事务问题

比如在电商业务中,当我们提交订单时,除了会创建订单,还会扣除相应的库存。而订单表和库存表由于垂直分库位于不同的库中,此时我们需要分布式事务来保证事务的完整性。

跨节点JOIN查询问题

用户在查询订单时,往往通过表连接获取到商品信息,而商品信息表可能存在其他的库中,这就涉及到了跨库的 JOIN 查询。

通常可以采用冗余表冗余字段来优化跨库 JOIN 查询。

  • 对于一些基础表,如商品信息表,可以在每一个订单分库中复制一张基础表,避免跨库 JOIN 查询;
  • 对于一两个字段的查询,可以将少量字段冗余在表中,从而避免 JOIN 查询,也就避免了跨库 JOIN 查询。

跨节点分页查询问题

以订单表为例,通常都是使用 UserId 字段做 Hash 取模,对订单表进行水平分表;若考虑高并发时的订单处理能力,还可以考虑基于UserId 字段 Hash 取模实现分库分表。

当用户在订单列表中查询所有订单时,可以通过用户 ID 的 Hash 值来快速查询到订单信息,而运营人员在后台对订单表进行查询时,则是通过订单付款时间来进行查询的,这些数据都分布在不同的库表中,此时就存在一个跨节点分页查询的问题了。

此时可以采用两套数据来解决跨节点分页查询问题。

  1. 基于分库分表的用户单条或多条查询数据;
  2. 基于 Elasticsearch 存储的订单数据,主要用于运营人员根据其它字段进行分页查询;

为了不影响提交订单的业务性能,一般使用异步消息来实现 Elasticsearch订单数据的新增和修改。

全局主键ID问题

在分库分表后,需要单独设计全局主键,避免不同的库和表中的主键重复问题。

有以下几种策略

UUID

UUID 是实现全局 ID 是最方便快捷的方式,即随机生成一个 32 位 16 进制数字,可以保证唯一性,水平扩展能力以及性能都比较高。但 UUID 最大的缺陷就是,它是一个比较长的字符串,连续性差,如果作为主键使用,性能相对来说会比较差,不建议使用。

redis分布式锁

基于 Redis 分布式锁实现一个递增的主键 ID,这种方式可以保证主键是一个整数且有一定的连续性,但分布式锁存在一定的性能消耗。

雪花算法

基于 Twitter 开源的分布式 ID 生产算法——snowflake 解决全局主键 ID 问题,snowflake 是通过分别截取时间、机器标识、顺序计数的位数组成一个 long 类型的主键 ID。这种算法可以满足每秒上万个全局 ID 生成,不仅性能好,而且低延时。

扩容问题

随着用户的订单量增加,以 UserId Hash 取模的分表中的数据量也在增加,此时需要考虑动态增加表,就涉及到了数据迁移问题。

在最开始设计表数据量时,尽量使用 2 的倍数来设置表数量。在扩容时,也同样按照 2 的倍数来扩容,这种方式可以减少数据的迁移量。

有 4 张表,分别为 t0,t1,t2,t3,UserID的哈希值4、8、12、16,则这几个的UserID % 4 = 0,都会存到 t0 表中
假如现在扩容到 8 张表,则 UserID为 4 和 12 的,被迁移到 t5,其他两个不动;
假如现在扩容到 6 张表,则 UserID为 4 和 8 和 16 的,都需要迁移,只有UserID为12 的不需要迁移。

双写数据迁移方案介绍

数据迁移前,上游业务应用是通过旧的服务访问旧的数据的。
在这里插入图片描述

步骤1:服务升级双写

首先,需要对旧服务升级,对旧库的增删改,在新库上也同样执行。
在这里插入图片描述

步骤2:数据迁移

开发一个数据迁移工具,负责将旧库中的数据迁移到新库中
在这里插入图片描述
到目前为止,还是旧库在提供服务,所以丝毫不影响我们的业务。

步骤3:数据校验

在数据迁移完成之后,需要使用数据校验的小工具,将旧库和新库中的数据进行比对,完全一致则符合预期,如果出现不一致的情况,则以旧库中的数据为准。
在这里插入图片描述

步骤4:流量切换

数据完全一致之后,将流量切到新库,完成平滑数据迁移。
在这里插入图片描述

订单分库分表流程图

假如现在有一个订单表,没有做分库分表,现在呢,我们要把订单进行分库分表,怎么在不停机的前提下,平滑迁移数据到新表呢?

按照上面的双写迁移方案,流程图如下:
在这里插入图片描述
当数据比对完全一致后,修改服务配置,只写入分库分表中间件就可以了。

相关文章:

大规模数据处理:分库分表与数据迁移最佳实践

什么是分库分表 分库分表是一种数据库架构优化策略,它将数据分散存储在多个数据库或表中,以此来提高系统的可扩展性和性能。 虽然分库分表能够提升系统的整体性能,但是也不要一上来就分库分表,如果系统在单表的情况下&#xff0…...

TCP网络编程概述、相关函数、及实现超详解

文章目录 TCP网络编程概述1. TCP协议的特点2. TCP与UDP的差异3. TCP编程流程 TCP网络编程相关函数详解1. socket():创建套接字参数说明:返回值:示例: 2. connect():客户端连接服务器参数说明:返回值&#x…...

Cluade 3.5 Sonnet 提示词泄露

prompt 翻译: The notebook currently demonstrates support for a two agent setup. Support for GroupChat is currently in development....

git clone代码报错Permission denied (publickey)

git clone gerrit SSH的Clone with commit-msg hook代码连接,报错Permission denied (publickey). 一般在C:\Users\用户名.ssh文件夹下有一个id_rsa.pub文件 把文件里的内容复制 到gerrit网站上User Settings的SSH keys里 在New SSH key里粘贴刚刚复制的内容&…...

QT设计中文输入法软键盘DLL给到C#开发步骤

开发目的:本文提供解决触摸屏C#程序中无法输入中文问题,中文拼音采用开源的谷歌输入法程序、使用QT编译中文输入法界面和中文输入法接口给到C#使用。 开发步骤: 1、QT中设计字母和字符输入界面 2、QT中设计数字输入界面 3、QT中封装调用谷歌…...

使用 Rust 和 wasm-pack 开发 WebAssembly 应用

一、什么是 WebAssembly? WebAssembly 是一种运行在现代 Web 浏览器中的新型二进制指令格式。它是一种低级别的字节码,可以被多种语言编译,并在浏览器中高效运行。 1.1 WebAssembly 的背景与概念 高性能计算:WebAssembly 旨在提…...

1. IP地址介绍

IP地址 一、网络概述1、网络类型2、网络组成、传输介质2.1 组成2.2 传输介质 二、IP地址1、IP地址的表示方法2、IP地址的组成3、IP地址的类型3.1 根据IP地址第一个字节大小来分3.1.1 单播地址 Unicast 3.2 根据IP地址的使用 三、子网掩码 netmask1、默认的子网掩码2、判断多个I…...

喜报来袭~又有一波优秀企业选择Smartbi

近期,大金(中国)武汉&广州分公司、中广核智能、新疆银行、四川省人民医院等多家知名企业/机构签约Smartbi,数智化建设再上新高度! Smartbi数10年专注于商业智能BI与大数据分析软件与服务,为各行各业提…...

Web端云剪辑解决方案,BS架构私有化部署,安全可控

传统视频制作流程繁琐、耗时,且对专业设备和软件的高度依赖,常常让企业望而却步,美摄科技凭借其强大的技术实力和创新能力,推出了面向企业用户的Web端云剪辑解决方案,为企业提供一站式、高效、便捷的视频生产平台。 B…...

AI 代码助手插件推荐

AI正在重塑我们的工作方式,软件开发也不例外。AI编码助手使开发人员能够比以往更快、更有效地编写代码。 在本文中,我们将比较几个个最好的AI编码助手,突出它们的独特功能和价格,以帮助读者找到完美的编码伙伴: 1、腾讯云 AI 代…...

word中的表格全部设置宽度100%

1、背景 我们用工具将数据库或其他的数据导出成word时,表格有的会大于100%,超过了边界。word没有提供全局修改的方法。如果我们想改成100%。 一种方式是通过宏,全局改。一种是手动改。 2、宏修改 如果表格多,可以通过这种方式。…...

JFinal整合Websocket

学习笔记&#xff0c;供大家参考 总结的不错的话&#xff0c;记得点赞收藏关注哦&#xff01;导入JAR包 javax.websocket-api <dependency><groupId>javax.websocket</groupId><artifactId>javax.websocket-api</artifactId><version>1.1&…...

(done) 声音信号处理基础知识(7) (Understanding Time Domain Audio Features)

参考&#xff1a;https://www.youtube.com/watch?vSRrQ_v-OOSg&t1s 时域特征包括&#xff1a; 1.幅度包络 2.均方根能量 3.过零率 振幅包络的定义&#xff1a;一个 frame 里&#xff0c;所有采样点中最大的振幅值 一个形象的关于振幅包络的可视化解释如下&#xff1a;…...

拓数派荣获上海数据交易所“数据治理服务商”认证

近期&#xff0c;杭州拓数派科技发展有限公司&#xff08;以下简称“拓数派”&#xff09;荣获上海数据交易所“数据治理服务商”认证&#xff0c;标志着拓数派正式加入上海数据交易所数商生态&#xff0c;成为上海数据交易所官方认证的数据治理服务商。拓数派企业发展部总监吴…...

【Redis】分布式锁之 Redission

一、基于setnx实现的分布式锁问题 重入问题&#xff1a;获得锁的线程应能再次进入相同锁的代码块&#xff0c;可重入锁能防止死锁。例如在HashTable中&#xff0c;方法用synchronized修饰&#xff0c;若在一个方法内调用另一个方法&#xff0c;不可重入会导致死锁。而synchroni…...

对象序列化

Data AllArgsConstructor NoArgsConstructor public class Product implements Serializable {public Long productId;public String productName;public Double productPrice;public String productImg;public Integer productStatus;public String productCategory; }为什么要…...

什么是专利开放许可?

专利作为技术创新的重要载体&#xff0c;其有效转化与应用成为推动社会进步和经济发展的关键力量。那么&#xff0c;专利开放许可究竟是何方神圣&#xff1f;它如何打破传统专利许可的壁垒&#xff0c;促进创新资源的广泛共享&#xff1f; 专利开放许可的定义 专利开放许可&am…...

地表最强开源大模型!Llama 3.2,如何让你的手机变身私人智能助理

你有没有想过&#xff0c;为什么现在的手机越来越像小型电脑&#xff1f;无论是拍照、看视频&#xff0c;还是用各种APP&#xff0c;甚至是AI助手&#xff0c;手机的功能几乎无所不能。其实&#xff0c;这一切的背后有一个技术正在悄悄改变我们的生活&#xff0c;那就是Llama 3…...

Pandas中DataFrame表格型数据结构

目录 1、DataFrame是什么2、创建一个dataframe3、获取dataframe的行、列索引4、获取dataframe的值 1、DataFrame是什么 series是有一组数据与一组索引&#xff08;行索引&#xff09;组成的数据结构&#xff0c;而dataframe是由一组数据与一对索引&#xff08;行索引和列索引&…...

C++的智能指针

很久之前&#xff0c;我们说到了new和delete关键字。 new在堆上分配内存&#xff0c;需要delete来删除内存、释放内存&#xff0c;因为它不会自动释放内存。 智能指针是实现过程自动化的一种方式&#xff0c;即当我们调用new时&#xff0c;我们不需要调用delete关键字。 在很…...

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…...

React hook之useRef

React useRef 详解 useRef 是 React 提供的一个 Hook&#xff0c;用于在函数组件中创建可变的引用对象。它在 React 开发中有多种重要用途&#xff0c;下面我将全面详细地介绍它的特性和用法。 基本概念 1. 创建 ref const refContainer useRef(initialValue);initialValu…...

JVM垃圾回收机制全解析

Java虚拟机&#xff08;JVM&#xff09;中的垃圾收集器&#xff08;Garbage Collector&#xff0c;简称GC&#xff09;是用于自动管理内存的机制。它负责识别和清除不再被程序使用的对象&#xff0c;从而释放内存空间&#xff0c;避免内存泄漏和内存溢出等问题。垃圾收集器在Ja…...

抖音增长新引擎:品融电商,一站式全案代运营领跑者

抖音增长新引擎&#xff1a;品融电商&#xff0c;一站式全案代运营领跑者 在抖音这个日活超7亿的流量汪洋中&#xff0c;品牌如何破浪前行&#xff1f;自建团队成本高、效果难控&#xff1b;碎片化运营又难成合力——这正是许多企业面临的增长困局。品融电商以「抖音全案代运营…...

macOS多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用

文章目录 问题现象问题原因解决办法 问题现象 macOS启动台&#xff08;Launchpad&#xff09;多出来了&#xff1a;Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用。 问题原因 很明显&#xff0c;都是Google家的办公全家桶。这些应用并不是通过独立安装的…...

unix/linux,sudo,其发展历程详细时间线、由来、历史背景

sudo 的诞生和演化,本身就是一部 Unix/Linux 系统管理哲学变迁的微缩史。来,让我们拨开时间的迷雾,一同探寻 sudo 那波澜壮阔(也颇为实用主义)的发展历程。 历史背景:su的时代与困境 ( 20 世纪 70 年代 - 80 年代初) 在 sudo 出现之前,Unix 系统管理员和需要特权操作的…...

Android15默认授权浮窗权限

我们经常有那种需求&#xff0c;客户需要定制的apk集成在ROM中&#xff0c;并且默认授予其【显示在其他应用的上层】权限&#xff0c;也就是我们常说的浮窗权限&#xff0c;那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…...

k8s业务程序联调工具-KtConnect

概述 原理 工具作用是建立了一个从本地到集群的单向VPN&#xff0c;根据VPN原理&#xff0c;打通两个内网必然需要借助一个公共中继节点&#xff0c;ktconnect工具巧妙的利用k8s原生的portforward能力&#xff0c;简化了建立连接的过程&#xff0c;apiserver间接起到了中继节…...

深入解析C++中的extern关键字:跨文件共享变量与函数的终极指南

&#x1f680; C extern 关键字深度解析&#xff1a;跨文件编程的终极指南 &#x1f4c5; 更新时间&#xff1a;2025年6月5日 &#x1f3f7;️ 标签&#xff1a;C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录 前言&#x1f525;一、extern 是什么&#xff1f;&…...

大学生职业发展与就业创业指导教学评价

这里是引用 作为软工2203/2204班的学生&#xff0c;我们非常感谢您在《大学生职业发展与就业创业指导》课程中的悉心教导。这门课程对我们即将面临实习和就业的工科学生来说至关重要&#xff0c;而您认真负责的教学态度&#xff0c;让课程的每一部分都充满了实用价值。 尤其让我…...