DeepSeek开源周Day6:DeepSeek V3、R1 推理系统深度解析,技术突破与行业启示
DeepSeek 在开源周第六天再次发文,中文原文、官方号在知乎
- DeepSeek - 知乎
- DeepSeek-V3 / R1 推理系统概览 - 知乎
- deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation
引言
2025年2月,深度求索(DeepSeek)发布了V3/R1推理系统,凭借545%的成本利润率(按行业标准折算为85%)和单节点8,575 tokens/s的吞吐量,刷新了大模型推理性能的认知。本文将深度解析其技术实现,并探讨对行业的影响。
一、核心技术突破
1.1 专家并行(Expert Parallelism, EP)革命
什么是专家并行?
在MoE(Mixture-of-Experts)模型中,每个输入仅激活部分专家(如DeepSeek V3每层激活8/256个专家)。EP技术通过将专家分布到多GPU,实现:
- 吞吐量提升:单批次处理量扩大32-144倍
- 内存优化:单卡仅需存储部分专家参数
- 延迟降低:减少单卡计算负载
实现细节
阶段 | 并行策略 | 节点数 | 单卡负载 |
---|---|---|---|
预填充阶段 | EP32 + DP32 | 4节点 | 9路由专家+1共享专家 |
解码阶段 | EP144 + DP144 | 18节点 | 2路由专家+1共享专家 |
关键技术价值:相比传统单卡推理,EP实现数量级成本下降,H800集群效率超越英伟达H200 1.5倍
1.2 通信-计算重叠优化
双批次流水线
将请求拆分为Micro-Batch,通过交替执行隐藏通信延迟:
预填充阶段:
[计算MB1] -> [通信MB1][计算MB2] -> [通信MB2]
解码阶段:
五级流水线:Attention拆分+多阶段重叠
性能收益
- 通信延迟降低40%
- GPU空闲时间减少至<5%
1.3 三级负载均衡体系
负载类型 | 优化目标 | 实现方法 |
---|---|---|
预填充负载 | 注意力计算均衡 | 动态分配输入token数 |
解码负载 | KVCache内存均衡 | 请求数平均分配 |
专家负载 | 热点专家分散 | 专家使用频率监控+动态迁移 |
技术亮点:通过实时监控实现<2%的负载偏差,避免木桶效应
二、系统架构全景
核心组件:
- 路由层:智能请求分发
- 缓存系统:56.3%的磁盘KV缓存命中率
- 弹性调度:白天全节点推理,夜间部分节点转训练
- 精度控制:FP8通信 + BF16计算
三、性能数据解读
3.1 核心指标
指标 | 数值 | 行业对比 |
---|---|---|
日均吞吐量 | 776B tokens | 10倍于传统方案 |
单H800节点解码吞吐 | 14.8k tokens/s | H200的1.5倍 |
平均响应延迟 | 45-50ms | 竞品平均120ms+ |
单位token成本 | $0.00002 | 行业平均$0.0001 |
3.2 成本结构
pie title 日成本构成($87,072) "GPU租赁" : 72000 "机房运维" : 12000 "网络带宽" : 3072
3.3 动态扩缩容
- 日间峰值:278节点
- 夜间低谷:180节点
- 智能预测:基于LSTM的负载预测模型
四、行业影响分析
4.1 技术启示
- MaaS规模效应:用户量达千万级时,边际成本骤降
- 超节点趋势:320卡紧耦合系统成为新标杆
- 精度创新:FP8+BF16混合精度实践
4.2 市场冲击
- 价格战加速:行业成本认知从2/M
- 硬件需求变化:NVLink带宽重要性凸显
- 商业模式创新:免费服务引流+API变现的组合策略
4.3 未来挑战
- 万卡级EP系统的稳定性
- 多模态场景的扩展
- 动态稀疏性的极致优化
五、开源生态建设
DeepSeek同步开源五大核心模块:
- FlashMLA:高效注意力计算库
- DeepGEMM:矩阵运算优化
- DualPipe:双流水线调度器
- EPLB:专家负载均衡器
- profile-data:性能分析数据集
第 1 天 - FlashMLA
适用于 Hopper GPU 的高效 MLA 解码内核
针对可变长度序列进行了优化,在生产中经过实战测试
🔗 FlashMLA GitHub 存储库
✅ BF16 支持
✅ 分页 KV 缓存(块大小 64)
⚡ 性能:3000 GB/s 内存受限 |H800 上的 BF16 580 TFLOPS 计算绑定
第 2 天 - DeepEP
很高兴推出 DeepEP - 第一个用于 MoE 模型训练和推理的开源 EP 通信库。
🔗 DeepEP GitHub 存储库
✅ 高效和优化的 all-to-all 通信
✅ NVLink 和 RDMA 的节点内和节点间支持
✅ 用于训练和推理预填充的高吞吐量内核
✅ 用于推理解码的低延迟内核
✅ 原生 FP8 调度支持
✅ 灵活的 GPU 资源控制,用于计算通信重叠
第 3 天 - DeepGEMM
DeepGEMM 简介 - 一个 FP8 GEMM 库,支持密集 GEMM 和 MoE GEMM,为 V3/R1 训练和推理提供支持。
🔗 DeepGEMM GitHub 存储库
⚡ 在 Hopper GPU 上高达 1350+ FP8 TFLOPS
✅ 没有繁重的依赖,像教程一样干净
✅ 完全 Just-In-Time 编译
✅ ~300 行的核心逻辑 - 但在大多数矩阵大小中都优于专家调优的内核
✅ 支持密集布局和两种 MoE 布局
第 4 天 - 优化的并行策略
✅ DualPipe - 一种双向管道并行算法,用于 V3/R1 训练中的计算通信重叠。
🔗 GitHub 存储库
✅ EPLB - 适用于 V3/R1 的专家并行负载均衡器。
🔗 GitHub 存储库
📊 分析 V3/R1 中的计算通信重叠。
🔗 GitHub 存储库
第 5 天 - 3FS,所有 DeepSeek 数据访问的推进器
Fire-Flyer 文件系统 (3FS) - 一种并行文件系统,可利用现代 SSD 和 RDMA 网络的全部带宽。
⚡ 180 节点集群中的 6.6 TiB/s 聚合读取吞吐量
⚡ 在 25 节点集群中,GraySort 基准测试的吞吐量为 3.66 TiB/min
⚡ 每个客户端节点 40+ GiB/s 峰值吞吐量,用于 KVCache 查找
🧬 具有强一致性语义的分解架构
✅ 训练数据预处理,数据集加载,检查点保存/重新加载,嵌入向量搜索和KVCache查找以进行V3/R1中的推理
📥 3FS → GitHub - deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.
⛲ Smallpond - 3FS → https://github.com/deepseek-ai/smallpond 上的数据处理框架
第 6 天 - 还有一件事:DeepSeek-V3/R1 推理系统概述
通过以下方式优化吞吐量和延迟:
-🔧 跨节点 EP 支持的批量扩展
🔄 计算-通信重叠
⚖️ 负载均衡
V3/R1 在线服务生产数据:
⚡ 每个 H800 节点每秒 73.7k/14.8k 输入/输出令牌
🚀 成本利润率 545%
参考引用
- DeepSeek-V3 / R1 推理系统概览 - 知乎
- deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation
专业术语:
- 成本利润率
反映系统经济效益的指标,按行业标准折算后,DeepSeek的V3/R1推理系统达到85%,原数值为545% ,体现了该系统在成本控制与收益获取方面的出色表现。类似于做生意时,利润与成本的比例关系,比例越高说明盈利情况越好。 - 吞吐量
衡量系统数据处理能力的指标,如DeepSeek V3/R1推理系统单节点可达8,575 tokens/s,意味着该系统每秒能处理8,575个token的数据量。好比工厂每秒钟能生产的产品数量。 - 专家并行(Expert Parallelism, EP)
在MoE模型中,将专家分布到多个GPU的技术。通过这种方式,能提升吞吐量、优化内存使用并降低延迟,实现数量级成本下降。类似于把不同的专业工作分配给多个小组同时进行,提高整体工作效率。 - 混合专家模型(Mixture-of-Experts, MoE)
一种模型架构,每个输入仅激活部分专家,如DeepSeek V3每层激活8/256个专家。就像一个大型项目,不同部分由最合适的专业团队负责,而不是每个团队都处理所有任务。 - Micro - Batch
将请求拆分后的小批次数据单元,通过双批次流水线交替执行来隐藏通信延迟。类似于把一大份工作分成小份,轮流进行处理,提高效率。 - 通信 - 计算重叠优化
通过双批次流水线等方式,将通信延迟隐藏在计算过程中,降低通信延迟40%,减少GPU空闲时间至<5%。好比在做饭的同时准备餐具,充分利用时间。 - 三级负载均衡体系
包括预填充负载、解码负载和专家负载的均衡优化,通过动态分配输入token数、平均分配请求数、监控专家使用频率并动态迁移等方法,实现<2%的负载偏差,避免木桶效应。类似于合理分配工作任务给不同员工,让大家的工作量相对均衡,提高整体工作效率。 - 路由层
DeepSeek推理系统中负责智能请求分发的组件。好比一个快递分拣中心,将不同的请求准确地送到对应的处理单元。 - 缓存系统
用于存储数据的系统,DeepSeek推理系统的磁盘KV缓存命中率达56.3%,意味着有56.3%的请求可以直接从缓存中获取数据,提高了数据获取速度。类似于一个常用物品存放处,大部分时候能快速找到需要的东西。 - 弹性调度
根据不同时间段的需求,动态调整节点用途,如白天全节点推理,夜间部分节点转训练。就像一家工厂,白天全力生产产品,晚上部分设备用于设备维护或其他生产准备工作。 - 精度控制
采用FP8通信 + BF16计算的方式,在保证计算精度的同时,优化计算资源的使用。类似于根据不同需求选择不同精度的工具进行工作,既保证质量又提高效率。 - 动态扩缩容
根据系统负载动态调整所需节点数量,如DeepSeek V3/R1推理系统日间峰值278节点,夜间低谷180节点,并通过基于LSTM的负载预测模型进行智能预测。好比根据不同季节的客流量,调整商场的营业时间和工作人员数量。 - MaaS(模型即服务,Model - as - a - Service)
一种商业模式,当用户量达千万级时,边际成本骤降。类似于共享经济模式,使用的人越多,平均成本越低。 - 超节点趋势
指320卡紧耦合系统成为新标杆,体现了在大模型推理领域对硬件规模和耦合程度的新要求。好比建造大型建筑时,对建筑材料和结构紧密程度有了更高标准。 - 动态稀疏性
在模型计算过程中,动态调整计算资源分配,仅对重要数据进行计算,以优化计算效率。类似于在学习过程中,只重点学习最重要的知识点,提高学习效率。
DeepSeek V3/R1的突破不仅是技术胜利,更揭示了AI基础设施的演进方向:通过系统级创新将摩尔定律延伸至软件维度。随着EP技术的普及,大模型服务正在进入"水电化"的新纪元,而这场变革才刚刚开始。
相关文章:

DeepSeek开源周Day6:DeepSeek V3、R1 推理系统深度解析,技术突破与行业启示
DeepSeek 在开源周第六天再次发文,中文原文、官方号在知乎 DeepSeek - 知乎DeepSeek-V3 / R1 推理系统概览 - 知乎deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation 引言 …...

intra-mart实现logicDesigner与forma联动
一、前言 有一个需求,想实现从页面上传一个excel文件,点击提交,就转发给forma模块,然后用户在forma模块里,确认下自动填写的信息是否正确,正确的话就点击保存,存入数据库;不正确的话…...
《大语言模型的原理发展与应用》:此文为AI自动生成
《大语言模型的原理发展与应用》:此文为AI自动生成 一、引言:大语言模型,AI 时代的 “新引擎” 在当今数字化浪潮中,大语言模型宛如一颗璀璨的明星,照亮了人工智能发展的道路,成为推动各领域变革的核心驱…...
生态安全相关
概念:生态安全指一个国家具有支撑国家生存发展的较为完整、不受威胁的生态系统,以及应对内外重大生态问题的能力。 (1)国外生态安全的研究进展 国际上对生态安全的研究是从“环境”与“安全”之间的关系展开的。开始的阶段&#x…...

DeepSeek-R1国产化系统gpu驱动+cuda+ollama+webui可视化离线私有化部署
1.概述 网上大部分教程都是在线部署,完全离线私有化部署的文章不多,本文介绍从GPU驱动、cuda、ollama、deepseek模型和open webui等完全离线安装几个方面,让小白0基础也可以私有化部署大模型deepseek-R1。 我使用的设备是银河麒麟V10操作系统…...

数据集/API 笔记:新加坡风速 API
data.gov.sg 数据范围:2016年12月 - 2025年3月 API 查询方式 curl --request GET \--url https://api-open.data.gov.sg/v2/real-time/api/wind-speedcurl --request GET \--url "https://api-open.data.gov.sg/v2/real-time/api/wind-speed?date2024-07-16…...

transformer架构解析{掩码,(自)注意力机制,多头(自)注意力机制}(含代码)-3
目录 前言 掩码张量 什么是掩码张量 掩码张量的作用 生成掩码张量实现 注意力机制 学习目标 注意力计算规则 注意力和自注意力 注意力机制 注意力机制计算规则的代码实现 多头注意力机制 学习目标 什么是多头注意力机制 多头注意力计算机制的作用 多头注意力机…...
【C++】switch 语句编译报错:error: jump to case label
/home/share/mcrockit_3588/prj_linux/../source/rkvpss.cpp: In member function ‘virtual u32 CRkVpss::Control(u32, void*, u32)’: /home/share/mcrockit_3588/prj_linux/../source/rkvpss.cpp:242:8: error: jump to case label242 | case emRkComCmd_DBG_SaveInput:|…...
linux中使用firewall命令操作端口
一、开放端口 1. 开放一个端口 sudo firewall-cmd --zonepublic --add-port8443/tcp --permanent sudo firewall-cmd --reload 2. 开放一组连续端口 sudo firewall-cmd --zonepublic --add-port100-500/tcp --permanent sudo firewall-cmd --reload 3. 一次开放多个不连续…...

C++第六节:stack和queue
本节目标: stack的介绍与使用queue的介绍与使用priority_queue的介绍与使用容器适配器模拟实现与结语 1 stack(堆)的介绍 stack是一种容器适配器,专门用在具有后进先出操作的上下文环境中,只能从容器的一端进行元素的插…...

算法 并查集
目录 前言 一 并查集的思路 二 并查集的代码分析 三 实操我们的代码 四 并查集的代码优化 总结 前言 并查集主要是用来求解集合问题的,用来查找集合还有就是合并集合,可以把这个运用到最小生成树里面 一 并查集的思路 1 并查集的相关的操作…...
yarn application命令中各参数的详细解释
yarn application 命令用于管理和监控 YARN 上运行的应用程序,下面为你详细解释该命令中各参数的含义和用途: 通用参数 -help [command] 作用:显示 yarn application 命令的帮助信息。如果指定了 command,则显示该子命令的详细使…...
算法之数据结构
目录 数据结构 数据结构与算法面试题 数据结构 《倚天村 • 图解数据结构》 | 小傅哥 bugstack 虫洞栈 ♥数据结构基础知识体系详解♥ | Java 全栈知识体系 线性数据结构 | JavaGuide 数据结构与算法面试题 数据结构与算法面试题 | 小林coding...

Android 图片压缩详解
在 Android 开发中,图片压缩是一个重要的优化手段,旨在提升用户体验、减少网络传输量以及降低存储空间占用。以下是几种主流的图片压缩方法,结合原理、使用场景和优缺点进行详细解析。 效果演示 直接先给大家对比几种图片压缩的效果 质量压缩 质量压缩:根据传递进去的质…...
迷你世界脚本计时器接口:MiniTimer
计时器接口:MiniTimer 彼得兔 更新时间: 2023-04-26 20:24:50 具体函数名及描述如下: 序号 函数名 函数描述 1 isExist(...) 判断计时器是否存在 2 createTimer(...) 添加计时器 3 deleteTimer(...) 删除计时器 4 startBackwardTimer(.…...

JavaScript的变量以及数据类型
JS变量 变量的声明 四种声明方式 1. <script>var abc;abc"变量声明1";alert(abc);</script>2. <script>var abc"变量声明2";alert(abc);</script><script>var abc1,abc2;abc1"变量声明3.1";abc2"变量声明3…...

私有云基础架构
基础配置 使用 VMWare Workstation 创建三台 2 CPU、8G内存、100 GB硬盘 的虚拟机 主机 IP 安装服务 web01 192.168.184.110 Apache、PHP database 192.168.184.111 MariaDB web02 192.168.184.112 Apache、PHP 由于 openEuler 22.09 系统已经停止维护了ÿ…...
在 Windows 和 Linux 系统上安装和部署 Ollama
引言 Ollama 是一个强大的本地大语言模型(LLM)运行工具,允许用户轻松下载和运行不同的 AI 模型,如 LLaMA、Mistral 和 Gemma。无论是开发者还是研究人员,Ollama 都提供了一种简单而高效的方式来在本地环境中部署 AI 模…...

从零开始学习Slam--数学概念
正交矩阵 矩阵的转置等于它的逆矩阵,这样的矩阵称之为正交矩阵 即: Q T Q I Q^T Q I QTQI, 这样的矩阵列向量都是单位向量且两两正交。 旋转矩阵属于特殊的正交群,即SO(n),这里n通常是3,所以SO(3)就是…...
【零基础到精通Java合集】第十五集:Map集合框架与泛型
课程标题:Map集合框架与泛型(15分钟) 目标:掌握泛型在Map中的键值类型约束,理解类型安全的键值操作,熟练使用泛型Map解决实际问题 0-1分钟:泛型Map的意义引入 以“字典翻译”类比泛型Map:明确键和值的类型(如英文→中文)。说明泛型Map的作用——确保键值对的类型一…...
浅谈 React Hooks
React Hooks 是 React 16.8 引入的一组 API,用于在函数组件中使用 state 和其他 React 特性(例如生命周期方法、context 等)。Hooks 通过简洁的函数接口,解决了状态与 UI 的高度解耦,通过函数式编程范式实现更灵活 Rea…...

CTF show Web 红包题第六弹
提示 1.不是SQL注入 2.需要找关键源码 思路 进入页面发现是一个登录框,很难让人不联想到SQL注入,但提示都说了不是SQL注入,所以就不往这方面想了 先查看一下网页源码,发现一段JavaScript代码,有一个关键类ctfs…...
反向工程与模型迁移:打造未来商品详情API的可持续创新体系
在电商行业蓬勃发展的当下,商品详情API作为连接电商平台与开发者、商家及用户的关键纽带,其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息(如名称、价格、库存等)的获取与展示,已难以满足市场对个性化、智能…...

【HarmonyOS 5.0】DevEco Testing:鸿蒙应用质量保障的终极武器
——全方位测试解决方案与代码实战 一、工具定位与核心能力 DevEco Testing是HarmonyOS官方推出的一体化测试平台,覆盖应用全生命周期测试需求,主要提供五大核心能力: 测试类型检测目标关键指标功能体验基…...

python/java环境配置
环境变量放一起 python: 1.首先下载Python Python下载地址:Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个,然后自定义,全选 可以把前4个选上 3.环境配置 1)搜高级系统设置 2…...

(二)原型模式
原型的功能是将一个已经存在的对象作为源目标,其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。 一、源型模式的定义 原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现,忽略对象创建过程中的其它细节。 📌 核心特点: 避免重复初…...

微信小程序云开发平台MySQL的连接方式
注:微信小程序云开发平台指的是腾讯云开发 先给结论:微信小程序云开发平台的MySQL,无法通过获取数据库连接信息的方式进行连接,连接只能通过云开发的SDK连接,具体要参考官方文档: 为什么? 因为…...

vue3+vite项目中使用.env文件环境变量方法
vue3vite项目中使用.env文件环境变量方法 .env文件作用命名规则常用的配置项示例使用方法注意事项在vite.config.js文件中读取环境变量方法 .env文件作用 .env 文件用于定义环境变量,这些变量可以在项目中通过 import.meta.env 进行访问。Vite 会自动加载这些环境变…...

网络编程(UDP编程)
思维导图 UDP基础编程(单播) 1.流程图 服务器:短信的接收方 创建套接字 (socket)-----------------------------------------》有手机指定网络信息-----------------------------------------------》有号码绑定套接字 (bind)--------------…...

OPenCV CUDA模块图像处理-----对图像执行 均值漂移滤波(Mean Shift Filtering)函数meanShiftFiltering()
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 在 GPU 上对图像执行 均值漂移滤波(Mean Shift Filtering),用于图像分割或平滑处理。 该函数将输入图像中的…...