当前位置：首页 > news >正文

CHAPTER 2: 《BACK-OF-THE-ENVELOPE ESTIMATION》第2章《初略的估计》

news 2026/2/8 23:06:00

CHAPTER 2: BACK-OF-THE-ENVELOPE ESTIMATION

在系统设计面试中，有时您会被要求估计系统容量或使用粗略估计的性能需求。根据杰夫·迪恩的说法，谷歌高级研究员，“粗略的计算是你使用结合思想实验和常见的性能数字，以获得良好的感觉,哪些设计能满足你的要求?[1]
您需要对可伸缩性基础知识有很好的了解，才能有效地执行系统的后端估计。以下概念应该很好地理解:两个two[2]的幂;每个程序员都应该知道延迟数和可用性数。

2的幂 Power of two

尽管在处理分布式系统时数据量会变得非常大，所有的计算都归结为基础。为了得到正确的计算，关键是要知道数据体积单位采用2的幂。一个字节是由8位组成的序列。ASCII字符
使用一个字节的内存(8位)。下表解释了数据量单位.

幂	近似值	全名	短名称
10	1000年	前字节	1KB
20	百万年	兆字节	1MB
30	10万亿年	GB字节	1GB
40	1万亿年	TB字节	1TB
50	1000万亿年	PB字节	1PB

每个程序员都应该知道延迟数据 Latency numbers every programmer should know

谷歌的Dean博士揭示了2010年典型计算机操作的时长[1]。一些随着计算机变得更快、更强大，数字已经过时了。然而,这些数字应该还是能给我们一个快慢不同的概念电脑操作。

操作名称	时间
1级缓存引用	0.5ns
分支 mispredict	5ns
2级缓存引用	7ns
互斥锁/解锁	100ns
主存引用	100ns
用zippy压缩1k字节	10,000ns=10μs
通过1GB网络传输2KB字节	20,000ns = 20μs
内存按照顺序读取1MB	250,000ns=250μs
同一个数据中心内的往返	500,000ns = 500μs
磁盘寻找	10,000.000ns=10ms
从网络中读取1MB	10,000.000ns=10ms
从硬盘中读取1MB	30,000.000ns=30ms
发送数据包CA(加利福尼亚)->荷兰->CA	150,000.000ns=150ms

笔记
Ns =纳秒，
µs =微秒，
ms =毫秒
1秒= 10^-9秒 1µs= 10^-6秒= 1,000 ns 1毫秒= 10^-3秒=1,000µs = 1,000,000毫秒
谷歌的一位软件工程师开发了一个工具，将迪恩博士的数据可视化。这个工具还需要考虑到时间因素。截止年的可视化时延数字如figure2-1所示 2020年(数据来源:参考资料[3])。

在这里插入图片描述
通过分析图2-1中的数字，我们可以得出以下结论:

内存快，磁盘慢。
尽可能避免磁盘查找。
简单的压缩算法速度快。
如果可能的话，在通过互联网发送数据之前压缩数据。
数据中心通常位于不同的区域，数据在数据中心之间传输需要一定的时间。

可用性数据 Availability numbers

高可用性是系统在理想的长时间内持续运行的能力一段时间。高可用性是以百分比来衡量的，100%意味着服务可以零停机时间。大多数服务都在99%到100%之间。服务水平协议(SLA)是服务提供者常用的术语。这是一个您(服务提供商)与您的客户之间的协议，以及本协议正式定义服务将交付的正常运行时间级别。云提供商亚马逊[4]，谷歌[5]和Microsoft[6]将它们的sla设置为99.9%或更高。正常运行时间通常是用九来衡量。9越多越好。如表2-3所示9与预期的系统停机时间相关。

可用性	每天停机时间	每年停机时间
99%	14.40分钟	3.65日
99.9%	1.44分钟	8.77小时
99.99%	8.64秒	52.60分钟
99.999%	864毫秒	5.62分钟
99.9999%	86.4毫秒	31.56秒

示例:估计Twitter QPS和存储需求请注意，以下数字仅用于此练习，
因为它们不是实数从Twitter。
假设:
• 3亿月活跃用户。
• 50%的用户每天使用Twitter。
• 用户平均每天发布2条tweet。
• 10%的推文包含媒体内容。
• 数据存储5年。
估计:
每秒查询(QPS)估计:
• 日活跃用户(DAU) = 3亿* 50% = 1.5亿
• 推文QPS = 1.5亿* 2条推文/ 24小时/ 3600秒= ~3500
• Peek QPS = 2 * QPS = ~7000
这里我们只估算媒体存储空间。
• 平均tweet大小:
• tweet_id 64字节
• 文本140字节
• 媒体1mb
• 媒体存储:1.5亿* 2 * 10% * 1mb = 30tb /天
• 5年介质存储:30tb * 365 * 5 = ~ 55pb

提示 Tips

粗略估计是关于过程的。解决问题更重要比取得成果更重要。面试官可能会测试你解决问题的能力。
这里有以下是一些建议:

舍入和近似。做复杂的数学运算很困难在面试中。例如，“99987 / 9.1”的结果是什么?没有必要花宝贵的时间解决复杂的数学问题。精度不被期望。使用对你有利的四舍五入和近似值。除法问题可以是简化为:“100,000 / 10”。
写下你的假设。把你的假设写下来是个好主意后引用。
标注你的单位。当你写下“5”时，它的意思是5 KB还是5 MB?你可能会把自己弄糊涂。写下单元，因为“5mb”有助于删除歧义。
常用的粗略估计:QPS、峰值QPS、存储、缓存、服务器数量等。你可以在准备考试时练习这些计算方法面试。熟能生巧。
恭喜你走了这么远!现在给自己点鼓励吧。好工作!

参考资料
[1] J. Dean.Google Pro Tip: Use Back-Of-The-Envelope-Calculations To Choose The Best
Design:
http://highscalability.com/blog/2011/1/26/google-pro-tip-use-back-of-the-envelope-calculations-to-choo.html
[2] System design primer: https://github.com/donnemartin/system-design-primer
[3] Latency Numbers Every Programmer Should Know:
https://colin-scott.github.io/personal_website/research/interactive_latency.html
[4] Amazon Compute Service Level Agreement:
https://aws.amazon.com/compute/sla/
[5] Compute Engine Service Level Agreement (SLA):
https://cloud.google.com/compute/sla
[6] SLA summary for Azure services: https://azure.microsoft.com/en-us/support/legal/sla/summary

CHAPTER 2: 《BACK-OF-THE-ENVELOPE ESTIMATION》第2章《初略的估计》

CHAPTER 2: BACK-OF-THE-ENVELOPE ESTIMATION 在系统设计面试中，有时您会被要求估计系统容量或使用粗略估计的性能需求。根据杰夫迪恩的说法，谷歌高级研究员，“粗略的计算是你使用结合思想实验和常见的性能数字，以获得良好的感觉…...

编程日记 2023/4/25 7:39:49

RocketMQ高级概念

一 RocketMQ核心概念 1.消息模型（Message Model） RocketMQ主要由 Producer、Broker、Consumer 三部分组成，其中Producer 负责⽣产消息，Consumer 负责消费消息，Broker 负责存储消息。Broker 在实际部署过程中对应⼀台…...

编程日记 2023/4/25 7:34:48

eureka注册中心和RestTemplate

eureka注册中心和restTemplate的使用说明 eureka的作用消费者该如何获取服务提供者的具体信息 1.服务者启动时向eureka注册自己的信息 2.eureka保存这些信息 3.消费者根据服务名称向eureka拉去提供者的信息如果有多个服务提供者，消费者该如何选择？ 服…...

编程日记 2023/5/31 3:51:35

redis复制的设计与实现

一、复制 1.1旧版功能的实现旧版Redis的复制功能分为同步（sync）和命令传播。同步用于将从服务器更新至主服务器的当前状态。命令传播用于主服务器状态变化时，让主从服务器状态回归一致。 1.1.1同步当客户端向服务端发送slaveof命令…...

编程日记 2023/4/25 7:24:46

Docker更换国内镜像源

什么是Docker Docker 是一个开源的应用容器引擎，基于 Go 语言并遵从 Apache2.0 协议开源。 Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。容器是完全…...

编程日记 2023/4/25 7:19:43

【网络编程】网络套接字，UDP，TCP套接字编程

前言小亭子正在努力的学习编程，接下来将开启javaEE的学习~~ 分享的文章都是学习的笔记和感悟，如有不妥之处希望大佬们批评指正~~ 同时如果本文对你有帮助的话，烦请点赞关注支持一波, 感激不尽~~ 特别说明：本文分享的代码运行结果…...

编程日记 2023/4/25 7:14:42

海斯坦普Gestamp EDI 需求分析

海斯坦普Gestamp（以下简称：Gestamp）是一家总部位于西班牙的全球性汽车零部件制造商，目前在全球23个国家拥有超过100家工厂。Gestamp的业务涵盖了车身、底盘和机电系统等多个领域，其产品范围包括钣金、车身结构件、车轮…...

编程日记 2023/4/25 7:09:40

gpt写文章批量写文章-gpt3中文生成教程

怎么用gpt写文章批量写文章批量写作文章是很多网站、营销人员、编辑等需要的重要任务，GPT可以帮助您快速生成大量自然、通顺的文章。下面是一个简单的步骤介绍，告诉您如何使用GPT批量写作文章。步骤1：选择好训练模型首先，选…...

编程日记 2023/4/25 7:04:38

HashMap实现原理

HashMap是基于散列表的Map接口的实现。插入和查询的性能消耗是固定的。可以通过构造器设置容量和负载因子，一调整容易得性能。散列表：给定表M，存在函数f(key)，对任意给定的关键字值key，代入函数后若能得到包含该关键字…...

编程日记 2023/4/25 6:59:37

【Java 数据结构】PriorityQueue(堆)的使用及源码分析

🎉🎉🎉点进来你就是我的人了博主主页：🙈🙈🙈戳一戳,欢迎大佬指点!人生格言：当你的才华撑不起你的野心的时候,你就应该静下心来学习! 欢迎志同道合的朋友一起加油喔🦾&am…...

编程日记 2023/4/25 6:54:35

使用 Kubernetes 运行 non-root .NET 容器

翻译自 Richard Lander 的博客 Rootless 或 non-root Linux 容器一直是 .NET 容器团队最需要的功能。我们最近宣布了所有 .NET 8 容器镜像都可以通过一行代码配置为 non-root 用户。今天的文章将介绍如何使用 Kubernetes 处理 non-root 托管。您可以尝试使用我们的 non-root…...

编程日记 2023/4/25 6:49:34

为什么大量失业集中爆发在2023年？被裁？别怕！失业是跨越职场瓶颈的关键一步！对于牛逼的人，这是白捡N+1！...

被裁究竟是因为自身能力不行，还是因为大环境不行？ 一位网友说： 被裁后找不到工作，本质上还是因为原来的能力就配不上薪资。如果确实有技术在身，根本不怕被裁，相当于白送n1！ 有人赞同楼主的观点&…...

编程日记 2023/4/25 6:44:33

Word控件Spire.Doc 【脚注】字体(3)：将Doc转换为PDF时如何使用卸载的字体

Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库。在于帮助开发人员无需安装 Microsoft Word情况下，轻松快捷高效地创建、编辑、转换和打印 Microsoft Word 文档。拥有近10年专业开发经验Spire系列办公文档开发工具，专注于创建、编辑、转…...

编程日记 2023/4/25 6:39:32

keil5使用c++编写stm32控制程序

keil5使用c编写stm32控制程序一、前言二、配置图解三、std::cout串口重定向四、串口中断服务函数五、结尾废话一、前言想着搞个新奇的玩意玩一玩来着，想用c编写代码来控制stm32，结果在keil5中，把踩给我踩闷了，这里简单记录一下…...

编程日记 2023/4/25 6:34:31

中国社科院与美国杜兰大学金融管理硕士项目——在职读研的日子里藏着我们未来无限可能

人生充满期待，梦想连接着未来。每一天都可以看作新的一页，要努力去成为最好的自己。在职读研的光阴里藏着无限的可能，只有不断的努力，不断的强大自己，未来会因为你的不懈坚持而发生改变，纵使眼前看不到希望…...

编程日记 2023/4/25 6:29:30

hardhat 本地连接matemask钱包

Hardhat 安装 https://hardhat.org/hardhat-runner/docs/getting-started#quick-start Running a Local Hardhat Network Hardhat greatly simplifies the process of setting up a local network by having an in-built local blockchain which can be easily run through a…...

编程日记 2023/4/25 6:24:29

CHAPTER 2: 《BACK-OF-THE-ENVELOPE ESTIMATION》第2章《初略的估计》

CHAPTER 2: BACK-OF-THE-ENVELOPE ESTIMATION

2的幂 Power of two

每个程序员都应该知道延迟数据 Latency numbers every programmer should know

可用性数据 Availability numbers

提示 Tips

相关文章：

CHAPTER 2: 《BACK-OF-THE-ENVELOPE ESTIMATION》第2章《初略的估计》

RocketMQ高级概念

eureka注册中心和RestTemplate

redis复制的设计与实现

Docker更换国内镜像源

【网络编程】网络套接字，UDP，TCP套接字编程

海斯坦普Gestamp EDI 需求分析

gpt写文章批量写文章-gpt3中文生成教程

HashMap实现原理

【Java 数据结构】PriorityQueue(堆)的使用及源码分析

使用 Kubernetes 运行 non-root .NET 容器

为什么大量失业集中爆发在2023年？被裁？别怕！失业是跨越职场瓶颈的关键一步！对于牛逼的人，这是白捡N+1！...

Word控件Spire.Doc 【脚注】字体(3)：将Doc转换为PDF时如何使用卸载的字体

keil5使用c++编写stm32控制程序

中国社科院与美国杜兰大学金融管理硕士项目——在职读研的日子里藏着我们未来无限可能

hardhat 本地连接matemask钱包

【华为OD机试真题】1001 - 在字符串中找出连续最长的数字串含-号（Java C++ Python JS）| 机试题+算法思路+考点+代码解析

CrackMapExec 域渗透工具使用

Modbus协议学习

camunda如何处理流程待办任务

TDengine 快速体验（Docker 镜像方式）

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一）

【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现（服务端执行命令请求的过程 - 初始化服务器）

Unity | AmplifyShaderEditor插件基础（第七集：平面波动shader）

重启Eureka集群中的节点，对已经注册的服务有什么影响

算法：模拟

Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战

vulnyx Blogger writeup

如何更改默认 Crontab 编辑器？

MFE(微前端) Module Federation：Webpack.config.js文件中每个属性的含义解释