当前位置：首页 > news >正文

精读预告Bigtable

news 2026/5/26 7:13:09

文章目录

- 1. 引言：
- 2. 背景

1. 引言：

在本期的精读会中，我们将深入解读另一篇具有里程碑意义的论文——《Bigtable: A Distributed Storage System for Structured Data》。这篇论文详细介绍了 Bigtable 作为谷歌用于管理结构化数据的分布式存储系统，其独特的设计使得 Bigtable 能够在数千台服务器上高效地处理 PB 级数据量。作为谷歌多个核心产品的基础架构，Bigtable 在大规模数据处理、分布式存储系统设计中具有重要的参考意义。

通过本文，我们将带领读者：

探讨 Bigtable 在 Google诞生的背景，其出现究竟是为了解决什么样的问题；
深入剖析 Bigtable 的数据模型 和其设计如何实现灵活的存储和访问控制；
解析 Bigtable 在分布式环境中的实现过程底层数据结构；
展望 Bigtable 对 大数据存储系统 的影响及其未来可能的发展方向。

欢迎在评论区分享您的观点与见解，期待与您交流讨论！

2. 背景

在 GFS 和 MapReduce出现后，仍然很长一段时间内没有在大型的分布式系统上可以高并发、保障一致性，并且支持随机读写数据的系统。

当然在本篇论文出现之前，大多数的分布式数据都是通过MySQL来实现对大规模数据的管理的。如果只是维护一个几十乃至几百台服务器的 MySQL 集群其实也并不为过，但是，如果要像 GFS 维护成千上万的服务器，还有能做到吗？我们可以简单的看一下。

例如，我们建立一个MySQL集群来管理全国的人口信息，可以采用垂直拆分和水平拆分两种策略来进行分布式数据管理。

首先，我们可以按照数据库中的表按照业务逻辑进行拆分，每个拆分出来的数据库（或实例）包含一部分表。这种拆分方式适用于业务模块之间耦合度较低的情况。对于全国人口信息管理，可以按照不同的业务模块（如户籍管理）进行垂直拆分。例如：中国目前有34个省级行政区，那么就可以按照每个省级行政性拆一张表进行数据存储，这样可以减少单个数据库的并发压力，提高查询效率。

但是我们又会发现不同省级行政区的人口数量还不一致，中西部人口普遍少一些一张表可能够用，而沿海多一些可能就不够用，所以我们要进行水平拆分，所以我们可以进行水平拆分，将单张表的数据按照一定的规则分布到多个数据库或表中，每个表仅包含数据的一部分。对于全国人口信息管理，可以按照地域、时间或其他业务规则（如Hash、Range等）将人口信息数据分布到不同的数据库或表中。例如我们可以按照身份证信息对4取模，然后每个省级行政区可以均匀的分配到不同的四张表里面。

后期维护怎么样呢，如果遇到如上世纪六七十年代的生育潮，我们继续对数据进行扩容。如果我们只增加 2 台服务器，把各个服务器的分片，从模上 4 变成模上 6，我们就需要在增加服务器之后，搬运大量的数据，而数据迁移时，可能会遇到带宽和存储压力、服务中断、读写复杂性增加、资源浪费和成本问题。同时缩容的情况也是，其集群的“伸缩性”太差，以及后面的维护性工作也不少。

所以，Bigtable的设计目标就有了：

灵活的资源管理：能够根据实时需求，随时增加或减少服务器数量，以适应业务高峰期和低谷期的变化，实现高效资源利用。
智能的数据分片：系统能够自动根据数据负载进行分片，当某个分片负载过高时，自动拆分以平衡负载；同时，在添加新服务器后，能够迅速重新分配数据，确保所有节点均衡承担压力。
高可用性：即使部分节点发生故障，集群仍能继续运行，确保整个系统的稳定性和可靠性。

现在就引入本文主角：Bigtable 是一个分布式存储系统，用于管理结构化数据，设计可以扩展到极大的规模，涵盖PB级数据并分布在数千台通用服务器上。

众多 Google 产品，包括网页索引、Google Earth 和 Google Finance，都使用 Bigtable 进行数据存储。尽管这些应用对 Bigtable 的需求差异很大——无论是从数据大小（从 URL 到网页，再到卫星图像）还是延迟要求（从后台批量处理到实时数据服务）来看，Bigtable 依然为这些产品提供了一个灵活且高性能的解决方案。

实际上，Bigtable 并不是传统意义上的“表（table）”。在其底层，数据的物理存储形式是一个排序的 Map。该 Map 的 key 由行关键字、列关键字和时间戳组成的复合结构，而 value 则是一个简单的字符串：(row:string, column:string, time:int64) → string。

Bigtable 提供了一个简单的数据模型，允许客户端动态控制数据的布局和格式，从而满足各种应用场景的需求。

精读预告Bigtable

文章目录

1. 引言：

2. 背景

相关文章：

精读预告Bigtable

软件架构演变：从单体架构到LLM链式调用

Redis-“自动分片、一定程度的高可用性”(sharding水平拆分、failover故障转移)特性(Sentinel、Cluster)

操作系统(9) (并发-----原子性/互斥临界区/生产者消费者问题/临界区问题三条件/互斥性/进展性/公平性)

Django响应

算法：图的相关算法

django的models使用介绍。

【分布式技术】分布式事务深入理解

力扣hot100--＞hash表/map

基于redis实现延迟队列

PHP微信小程序共享充电桩系统设计与实现计算机毕业设计源代码作品和开题报告

【网络面试篇】TCP与UDP类

Windows转Mac过渡指南

LeetCode100之盛最多水的容器(11)--Java

【VMware】使用笔记

＜项目代码＞YOLOv8 猫狗识别＜目标检测＞

存储数据库的传输效率提升-ETLCloud结合HBASE

HO-XGBoost河马算法优化极限梯度提升树多变量回归预测（Matlab）

【Hive sql面试题】找出连续活跃3天及以上的用户

Linux curl命令下载显示时间/速度/大小

多自由度冗余空间机械臂位姿一体化规划与控制【附代码】

Python基础语法：访问器@property和修改器@xxx.setter

Tftpd32/Tftpd64不止是TFTP！手把手教你玩转它的DHCP和Syslog服务器功能

软阴影：那个让虚拟世界“温柔起来“的光影小秘密

番茄小说下载器终极指南：三步构建你的离线阅读自由王国

贵阳婚礼西服定制攻略：面料、工艺、版型避坑指南

基于可解释机器学习的城市人口流动空间降尺度分析实践

Allegro PCB设计小技巧：如何让Route Keepout区域既能走线又能打过孔（附详细步骤图）

机器学习在射电天文数据分类中的应用：以MIGHTEE巡天SFG/AGN分类为例

XZ6128A工作电压5-100V 输出电流5A 升压型大功率LED灯恒流驱动控制芯片