系统设计案例:设计 Spotify
https://levelup.gitconnected.com/system-design-interview-question-design-spotify-4a8a79697dda
这是一道系统设计面试题,即设计 Spotify。在真正的面试中,你通常会关注应用程序的一两个主要功能,但在本文中,我想从高层次概述如何设计这样的系统,然后你可以根据需要深入研究每个单独的部分。

初始阶段:基础版本
要求:最初的要求是处理**50 万用户和 30M 首歌曲。我们将有播放歌曲的用户和上传歌曲的艺术家。

估算:数据数学
让我们先估算一下所需的存储空间。首先,我们需要将歌曲存储在某种存储空间中。
- 歌曲存储: Spotify 和类似的服务通常使用 Ogg Vorbis 或 AAC 等格式进行流媒体播放,假设平均歌曲大小为 3MB,则我们需要3MB * 3000 万 = 90TB的歌曲存储空间。
- 歌曲元数据: 我们还需要存储歌曲元数据和用户个人资料信息。每首歌曲的平均元数据大小约为 100 字节 — 100 字节 * 3000 万 = 3GB
- 用户元数据: 平均而言,我们将为每个用户存储 1KB 的数据 - 1KB * 500,000 = 0.5GB

高层设计
移动应用程序: 我们将拥有一个移动应用程序,它是用户与服务交互的前端。用户可以搜索歌曲、播放音乐、创建播放列表等。当用户执行操作(例如播放歌曲)时,应用程序会向后端服务器发送请求。
负载均衡器: 但在到达服务器之前,我们有一个负载均衡器,用于在多个 Web 服务器之间分配传入流量。这提高了我们的应用程序的可用性和容错能力。

Web 服务器 (API): Web 服务器是处理来自移动应用的传入请求的 API。例如,如果用户想要播放一首歌曲,请求就会发送到这些 Web 服务器。然后,服务器会确定歌曲的位置(在数据库或存储服务中)以及如何检索它。
数据存储
数据存储将分为两个独立的服务 - 歌曲的 Blob 存储(我们将在其中存储实际的歌曲文件)和SQL 数据库(我们将在其中存储歌曲和用户元数据)。

歌曲——Blob 存储(例如 AWS S3、GCP、Azure Blob 存储): 实际的歌曲文件存储在 Blob(二进制大对象)存储服务中。这些服务旨在存储大量非结构化数据。
用户、艺术家和歌曲元数据——SQL 数据库: 此 SQL 数据库存储结构化数据,例如用户信息(如用户名、密码和电子邮件地址)和有关歌曲的元数据(如歌曲名称、艺术家姓名、专辑详情等)。
为什么选择 SQL?SQL 数据库非常适合这种结构化数据,因为它们允许不同类型的数据之间进行复杂的查询和关系。
每个歌曲文件都存储为一个“blob”,SQL 数据库通常会存储对此文件的引用(如 URL)
SQL 数据库结构
以下是 SQL 数据库中表及其关系的基本概述:
我们需要一个包含用户元数据(如用户 ID、用户名、电子邮件、密码哈希、CreatedAt、LastLogin 等)的用户表。

歌曲表将保存歌曲元数据信息,例如 SongID、Title、ArtistID、Duration、ReleaseDate 和 FileURL,后者是歌曲文件存储位置的 URL(例如,在 Blob 存储中)。
艺术家表 将包含艺术家信息——艺术家 ID、姓名、简历、国家等。
关系: 我们将在ArtistsSongs 表 中连接 Artists 和 Songs 表,其中我们将拥有ArtistID(指向 Artists 表的外键)和SongID(指向 Songs 表的外键)。从那里,我们可以获取歌曲元数据,其中还将包含FileURL指向歌曲所在的Blob 存储的属性。
综合起来

因此,Web 服务器将从 SQL 数据库获取歌曲元数据,并从歌曲元数据中获取,fileURL然后将其从服务器逐块传输到移动应用程序。或者我们可以直接从对象存储传输到客户端,绕过 Web 服务器以减少负载。
规模化阶段:5000 万用户,2 亿首歌曲
现在,如果我们扩展到 5000 万用户和 2 亿首歌曲会怎么样?我们首先需要重新计算数据。这意味着 SQL 数据存储需要存储 200/30 = ~6.66 倍的歌曲元数据:
每首歌曲 100 字节 * 2 亿首歌曲 = 20GB
用户元数据也是如此:
每位用户 1KB * 5000 万用户 = 50GB

引入 CDN
由于流量增加了,我们需要引入缓存和 CDN(如 Cloudfront / Cloudflare)来提供歌曲,并且每个 CDN 在地理位置上都靠近一个区域;因此,它可以比 Web 服务器更快地提供歌曲。

我们可以使用 LRU(最近最少使用)驱逐策略来缓存热门歌曲,而不受欢迎的歌曲仍将从 Blob 存储中获取,然后缓存到 CDN。
歌曲文件还可以直接从云存储传输到客户端,这将减轻网络服务器的负载。
扩展数据库:领导者-追随者技术
数据库也需要扩展。因为我们知道我们的应用程序的读取次数比写入次数多得多,这意味着有很多用户在听歌,但上传歌曲的艺术家数量相对较少——我们可以使用Leader → Follower 技术,并拥有一个可以同时接受读取/写入的 Leader 数据库和多个Follower 或 Slave 数据库,这些数据库将是只读的,用于检索歌曲和用户元数据。

如果有必要的话,我们也可以实现数据库分片,拆分成多个SQL数据库,或者实现Leader↔Leader的技术,但这些是比较复杂的场景,你不会遇到面试时问得太深这个方面的问题。
相关文章:
系统设计案例:设计 Spotify
https://levelup.gitconnected.com/system-design-interview-question-design-spotify-4a8a79697dda 这是一道系统设计面试题,即设计 Spotify。在真正的面试中,你通常会关注应用程序的一两个主要功能,但在本文中,我想从高层次概述…...
太速科技-633-4通道2Gsps 14bit AD采集PCie卡
4通道2Gsps 14bit AD采集PCie卡 一、板卡概述 二、性能指标 板卡功能 参数 内容 ADC 芯片型号 AD9689 路数 4路ADC, 采样率 2Gsps 数据位 14bit 数字接口 JESD204B 模拟接口 交流耦合 模拟输入 1V 连接器 6路 SMA 输入阻抗 50Ω 模拟指…...
图片叠加拖拽对比展示效果实现——Vue版
图片叠加拖拽对比展示效果实现——Vue版 项目中遇见一个需求:2张图片按竖线分割,左右两侧分别展示对应图片,通过滚动条拖动对应展示图片区域;; 网上搜索了下,没有找到直接可用的组件,这里自己封装了一个次功…...
结合长短期记忆网络(LSTM)和无迹卡尔曼滤波器(UKF)的技术在机器人导航和状态估计中的应用前景
结合长短期记忆网络(LSTM)和无迹卡尔曼滤波器(UKF)的技术在机器人导航和状态估计中具有广泛的应用前景。如有滤波、导航方面的代码定制需求,可通过文末卡片联系作者获得帮助 文章目录 结合LSTM和UKF的背景结合LSTM和UKF的优势应用实例研究现状MATLAB代码示例结论结合LSTM和…...
【MATLAB APP Designer】小波阈值去噪(第一期)
代码原理及流程 小波阈值去噪是一种信号处理方法,用于从信号中去除噪声。这种方法基于小波变换,它通过将信号分解到不同的尺度和频率上来实现。其基本原理可以分为以下几个步骤: (1)小波变换:首先对含噪信…...
ClickHouse副本搭建
一. 副本概述 副本的目的主要是保障数据的高可用性,ClickHouse中的副本没有主从之分。所有的副本都是平等的。 副本写入流程: 二. 副本搭建 1. 实验环境 hadoop1(192.168.47.128) hadoop2(192.168.47.129)2. 修改配置文件 修改两台主机/etc/click…...
K3知识点
提示:文章 文章目录 前言一、顺序队列和链式队列题目 顺序队列和链式队列的定义和特性实际应用场景顺序表题目 链式队列 二、AVL树三、红黑树四、二叉排序树五、树的概念题目1左子树右子树前序遍历、中序遍历,后序遍历先根遍历、中根遍历左孩子右孩子题目…...
cocos creator 3.x版本如何添加打开游戏时首屏加载进度条
前言 项目有一个打开游戏时添加载入进度条的需求。这个功能2.X版本是自带的,不知为何在3.X版本中移除了。 实现 先说一下解决思路,就是在引擎源码加载场景的位置插入一个方法,然后在游戏入口HTML处监听即可。 1.找到对应源码脚本 在coco…...
Fama MacBeth两步法与多因子模型的回归检验
Fama MacBeth两步法与多因子模型的回归检验 – 潘登同学的因子投资笔记 本文观点来自最近学习的石川老师《因子投资:方法与实践》一书 文章目录 Fama MacBeth两步法与多因子模型的回归检验 -- 潘登同学的因子投资笔记 多因子回归检验时序回归检验截面回归检验Fama–…...
IDEA 搭建 SpringBoot 项目之配置 Maven
目录 1?配置 Maven 1.1?打开 settings.xml 文件1.2?配置本地仓库路径1.3?配置中央仓库路径1.4?配置 JDK 版本1.5?重新下载项目依赖 2?配置 idea 2.1?在启动页打开设置2.2?配置 Java Compiler2.3?配置 File Encodings2.4?配置 Maven2.5?配置 Auto Import2.6?配置 C…...
node.js之---事件循环机制
事件循环机制 Node.js 事件循环机制(Event Loop)是其核心特性之一,它使得 Node.js 能够高效地处理大量并发的 I/O 操作。Node.js 基于 非阻塞 I/O,使用事件驱动的模型来实现异步编程。事件循环是 Node.js 实现异步编程的基础&…...
Python OpenAI 库开发指南:从入门到实战精通
在人工智能(AI)领域,OpenAI无疑是全球最受瞩目的机构之一。它推出的GPT系列模型、DALLE等创新技术,正在深刻改变各行各业。作为Python开发者,我们该如何快速上手并高效利用OpenAI的API,成为了提升个人竞争力…...
flash-attention保姆级安装教程
FlashAttention安装教程 FlashAttention 是一种高效且内存优化的注意力机制实现,旨在提升大规模深度学习模型的训练和推理效率。 高效计算:通过优化 IO 操作,减少内存访问开销,提升计算效率。 内存优化:降低内存占用…...
送给一年编程道路的自己
回望过去一年在编程道路上的成长与收获,是一个很有意义的过程。总结自己这一年的编程经历,不仅可以帮助你更清晰地了解自己的进步和不足,还能为未来的发展指引方向。以下是一些可能的收获,供你参考: 1. 技能提升 语言…...
LeRobot(1)
Train python lerobot/scripts/train.py \ policyact \ envaloha \ env.taskAlohaInsertion-v0 \ dataset_repo_idlerobot/aloha_sim_insertion_human \ load_data一直报错,忘记截图了,反正是ssh报错,下不下来,网…...
C++ 设计模式:组合模式(Composite Pattern)
链接:C 设计模式 链接:C 设计模式 - 迭代器模式 链接:C 设计模式 - 职责链模式 组合模式(Composite Pattern)是一种结构型设计模式,它允许你将对象组合成树形结构来表示“部分-整体”的层次结构。组合模式…...
OpenHarmony源码编译后烧录镜像教程,RK3566鸿蒙开发板演示
本文介绍瑞芯微主板/开发板编译OpenHarmony源码后烧录镜像的教程,触觉智能Purple Pi OH鸿蒙开发板演示。搭载了瑞芯微RK3566四核处理器,树莓派卡片电脑设计,支持开源鸿蒙OpenHarmony3.2-5.0系统,适合鸿蒙开发入门学习。 编译源码…...
强化学习(1)
Reinforcement Learning Goal-directed learing from ineraction with the environment. 1. Basic Element 基本元素 1.1 Agent 玩家 1.2 Environment 1.3 Goal 2. Main Element 主要元素 2.1 State 2.2 Action 状态与行为往复 2.3 Reward 目标:最大化总…...
【漏洞复现】金和OA C6 FileDownLoad.aspx 任意文件读取漏洞复现
免责声明 请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任。工具来自网络,安全性自测,如有侵权请联系删除。本次测试仅供学习使用,如若非法他用,与平台和本文作…...
开源模型应用落地-qwen2-7b-instruct-LoRA微调-Axolotl-单机多卡-RTX 4090双卡(七)
一、前言 本篇文章将使用Axolotl去高效微调QWen2系列模型,通过阅读本文,您将能够更好地掌握这些关键技术,理解其中的关键技术要点,并应用于自己的项目中。 二、术语介绍 2.1. LoRA微调 LoRA (Low-Rank Adaptation) 用于微调大型语言模型 (LLM)。 是一种有效的自适应策略,…...
3分钟快速上手Inter字体:免费开源字体如何提升你的数字产品体验
3分钟快速上手Inter字体:免费开源字体如何提升你的数字产品体验 【免费下载链接】inter The Inter font family 项目地址: https://gitcode.com/gh_mirrors/in/inter Inter字体是一款专为屏幕显示设计的开源无衬线字体,凭借其出色的可读性和多语言…...
安卓用户专属福利:免费开源工具一键搞定.m3u8.sqlite视频提取与合并(附TS转MP4方法)
安卓用户专属:零门槛实现.m3u8.sqlite视频提取与格式转换全攻略 每次在手机上缓存了课程视频,却发现文件格式无法直接播放?作为安卓用户,你可能经常遇到.m3u8.sqlite这种特殊缓存格式的困扰。本文将为你揭秘这类文件的本质&#x…...
AES128加密实战:用C语言写一个加密函数,并集成到你的STM32项目里
AES128加密实战:用C语言写一个加密函数,并集成到你的STM32项目里 在物联网设备开发中,数据安全传输是至关重要的环节。想象一下,你的STM32设备需要通过无线网络发送传感器数据到云端,如果这些数据以明文传输࿰…...
别再自己写弹窗了!UniApp内置的showLoading、showToast、showModal,5分钟搞定App常用交互
UniApp内置交互API实战:5分钟打造专业级弹窗体验 第一次接触UniApp开发时,我花了整整两天时间调试一个自定义加载动画——结果在iOS上卡顿,在Android上闪退。直到发现showLoading这个内置API,三行代码就解决了所有问题。这段经历让…...
在龙芯3A6000/7A2000上玩转GPIO和I2C:手把手教你解读和修改固件ACPI表
龙芯平台ACPI表深度解析:从GPIO配置到I2C设备驱动的实战指南 当你在龙芯3A6000或7A2000开发板上连接一个温湿度传感器,却发现系统毫无反应时,问题很可能出在ACPI表的配置上。作为嵌入式开发者,理解并掌握ACPI表的修改技巧&#x…...
“零关税”为中非合作装上“加速器”
科特迪瓦和加纳的醇香可可、肯尼亚的精品咖啡与鲜润牛油果、南非的清甜柑橘与醇厚红酒……5月1日起,这些“非洲好物”搭乘零关税“直通车”进入中国市场。这一天,中国面向20个不属于最不发达国家的非洲建交国实施零关税、为期2年,从而实现对5…...
开源AI视频背景处理神器:obs-backgroundremoval终极指南
开源AI视频背景处理神器:obs-backgroundremoval终极指南 【免费下载链接】obs-backgroundremoval An OBS plugin for removing background in portrait images (video), making it easy to replace the background when recording or streaming. 项目地址: https:…...
从协议到实战:深度剖析WiFi Deauth攻击的底层原理与Kali工具链应用
1. WiFi Deauth攻击的本质:从协议层理解管理帧 当你用手机连接咖啡厅的WiFi时,背后其实在进行一场精密的无线协议对话。802.11标准中定义了三种关键帧类型:数据帧负责传输网页内容,控制帧协调信道占用,而管理帧则是连…...
MaterialSkin终极指南:10分钟让WinForms应用焕然一新
MaterialSkin终极指南:10分钟让WinForms应用焕然一新 【免费下载链接】MaterialSkin Theming .NET WinForms, C# or VB.Net, to Googles Material Design Principles. 项目地址: https://gitcode.com/gh_mirrors/mat/MaterialSkin 你是否厌倦了传统WinForms应…...
Perplexity物理检索突然失灵?2024Q3模型更新引发的3类知识断层(附中科院物理所认证的降级兼容方案)
更多请点击: https://intelliparadigm.com 第一章:Perplexity物理知识查询 Perplexity 是一款基于大语言模型的实时知识检索工具,其核心能力在于融合权威学术资源(如 arXiv、APS、IOP、NASA ADS 等)与动态网页索引&am…...
