当前位置：首页 > news >正文

DeepSeek开源周Day6：DeepSeek V3、R1 推理系统深度解析，技术突破与行业启示

news 2026/5/20 3:54:13

DeepSeek 在开源周第六天再次发文，中文原文、官方号在知乎

DeepSeek - 知乎
DeepSeek-V3 / R1 推理系统概览 - 知乎
deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation

引言

2025年2月，深度求索（DeepSeek）发布了V3/R1推理系统，凭借545%的成本利润率（按行业标准折算为85%）和单节点8,575 tokens/s的吞吐量，刷新了大模型推理性能的认知。本文将深度解析其技术实现，并探讨对行业的影响。

一、核心技术突破

1.1 专家并行（Expert Parallelism, EP）革命

什么是专家并行？

在MoE（Mixture-of-Experts）模型中，每个输入仅激活部分专家（如DeepSeek V3每层激活8/256个专家）。EP技术通过将专家分布到多GPU，实现：

吞吐量提升：单批次处理量扩大32-144倍
内存优化：单卡仅需存储部分专家参数
延迟降低：减少单卡计算负载

实现细节

阶段	并行策略	节点数	单卡负载
预填充阶段	EP32 + DP32	4节点	9路由专家+1共享专家
解码阶段	EP144 + DP144	18节点	2路由专家+1共享专家

关键技术价值：相比传统单卡推理，EP实现数量级成本下降，H800集群效率超越英伟达H200 1.5倍

1.2 通信-计算重叠优化

双批次流水线

将请求拆分为Micro-Batch，通过交替执行隐藏通信延迟：

预填充阶段：
[计算MB1] -> [通信MB1][计算MB2] -> [通信MB2]
解码阶段：
五级流水线：Attention拆分+多阶段重叠

预填充阶段通信重叠

性能收益

通信延迟降低40%
GPU空闲时间减少至<5%

1.3 三级负载均衡体系

负载类型	优化目标	实现方法
预填充负载	注意力计算均衡	动态分配输入token数
解码负载	KVCache内存均衡	请求数平均分配
专家负载	热点专家分散	专家使用频率监控+动态迁移

技术亮点：通过实时监控实现<2%的负载偏差，避免木桶效应

二、系统架构全景

DeepSeek推理系统架构

核心组件：

路由层：智能请求分发
缓存系统：56.3%的磁盘KV缓存命中率
弹性调度：白天全节点推理，夜间部分节点转训练
精度控制：FP8通信 + BF16计算

三、性能数据解读

3.1 核心指标

指标	数值	行业对比
日均吞吐量	776B tokens	10倍于传统方案
单H800节点解码吞吐	14.8k tokens/s	H200的1.5倍
平均响应延迟	45-50ms	竞品平均120ms+
单位token成本	$0.00002	行业平均$0.0001

3.2 成本结构

pie title 日成本构成（$87,072） "GPU租赁" : 72000 "机房运维" : 12000 "网络带宽" : 3072

3.3 动态扩缩容

日间峰值：278节点
夜间低谷：180节点
智能预测：基于LSTM的负载预测模型

四、行业影响分析

4.1 技术启示

MaaS规模效应：用户量达千万级时，边际成本骤降
超节点趋势：320卡紧耦合系统成为新标杆
精度创新：FP8+BF16混合精度实践

4.2 市场冲击

价格战加速：行业成本认知从2/M
硬件需求变化：NVLink带宽重要性凸显
商业模式创新：免费服务引流+API变现的组合策略

4.3 未来挑战

万卡级EP系统的稳定性
多模态场景的扩展
动态稀疏性的极致优化

五、开源生态建设

DeepSeek同步开源五大核心模块：

FlashMLA：高效注意力计算库
DeepGEMM：矩阵运算优化
DualPipe：双流水线调度器
EPLB：专家负载均衡器
profile-data：性能分析数据集

第 1 天 - FlashMLA

适用于 Hopper GPU 的高效 MLA 解码内核
针对可变长度序列进行了优化，在生产中经过实战测试

🔗 FlashMLA GitHub 存储库
✅ BF16 支持
✅ 分页 KV 缓存（块大小 64）
⚡ 性能：3000 GB/s 内存受限 |H800 上的 BF16 580 TFLOPS 计算绑定

第 2 天 - DeepEP

很高兴推出 DeepEP - 第一个用于 MoE 模型训练和推理的开源 EP 通信库。

🔗 DeepEP GitHub 存储库
✅ 高效和优化的 all-to-all 通信
✅ NVLink 和 RDMA 的节点内和节点间支持
✅ 用于训练和推理预填充的高吞吐量内核
✅ 用于推理解码的低延迟内核
✅ 原生 FP8 调度支持
✅ 灵活的 GPU 资源控制，用于计算通信重叠

第 3 天 - DeepGEMM

DeepGEMM 简介 - 一个 FP8 GEMM 库，支持密集 GEMM 和 MoE GEMM，为 V3/R1 训练和推理提供支持。

🔗 DeepGEMM GitHub 存储库
⚡ 在 Hopper GPU 上高达 1350+ FP8 TFLOPS
✅ 没有繁重的依赖，像教程一样干净
✅ 完全 Just-In-Time 编译
✅ ~300 行的核心逻辑 - 但在大多数矩阵大小中都优于专家调优的内核
✅ 支持密集布局和两种 MoE 布局

第 4 天 - 优化的并行策略

✅ DualPipe - 一种双向管道并行算法，用于 V3/R1 训练中的计算通信重叠。
🔗 GitHub 存储库

✅ EPLB - 适用于 V3/R1 的专家并行负载均衡器。
🔗 GitHub 存储库

📊 分析 V3/R1 中的计算通信重叠。
🔗 GitHub 存储库

第 5 天 - 3FS，所有 DeepSeek 数据访问的推进器

Fire-Flyer 文件系统（3FS） - 一种并行文件系统，可利用现代 SSD 和 RDMA 网络的全部带宽。

⚡ 180 节点集群中的 6.6 TiB/s 聚合读取吞吐量
⚡ 在 25 节点集群中，GraySort 基准测试的吞吐量为 3.66 TiB/min
⚡ 每个客户端节点 40+ GiB/s 峰值吞吐量，用于 KVCache 查找
🧬 具有强一致性语义的分解架构
✅ 训练数据预处理，数据集加载，检查点保存/重新加载，嵌入向量搜索和KVCache查找以进行V3/R1中的推理

📥 3FS → GitHub - deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.
⛲ Smallpond - 3FS → https://github.com/deepseek-ai/smallpond 上的数据处理框架

第 6 天 - 还有一件事：DeepSeek-V3/R1 推理系统概述

通过以下方式优化吞吐量和延迟：
-🔧 跨节点 EP 支持的批量扩展
🔄 计算-通信重叠
⚖️ 负载均衡

V3/R1 在线服务生产数据：
⚡ 每个 H800 节点每秒 73.7k/14.8k 输入/输出令牌
🚀 成本利润率 545%

参考引用

DeepSeek-V3 / R1 推理系统概览 - 知乎
deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation

专业术语：

成本利润率
反映系统经济效益的指标，按行业标准折算后，DeepSeek的V3/R1推理系统达到85%，原数值为545% ，体现了该系统在成本控制与收益获取方面的出色表现。类似于做生意时，利润与成本的比例关系，比例越高说明盈利情况越好。
吞吐量
衡量系统数据处理能力的指标，如DeepSeek V3/R1推理系统单节点可达8,575 tokens/s，意味着该系统每秒能处理8,575个token的数据量。好比工厂每秒钟能生产的产品数量。
专家并行（Expert Parallelism, EP）
在MoE模型中，将专家分布到多个GPU的技术。通过这种方式，能提升吞吐量、优化内存使用并降低延迟，实现数量级成本下降。类似于把不同的专业工作分配给多个小组同时进行，提高整体工作效率。
混合专家模型（Mixture-of-Experts, MoE）
一种模型架构，每个输入仅激活部分专家，如DeepSeek V3每层激活8/256个专家。就像一个大型项目，不同部分由最合适的专业团队负责，而不是每个团队都处理所有任务。
Micro - Batch
将请求拆分后的小批次数据单元，通过双批次流水线交替执行来隐藏通信延迟。类似于把一大份工作分成小份，轮流进行处理，提高效率。
通信 - 计算重叠优化
通过双批次流水线等方式，将通信延迟隐藏在计算过程中，降低通信延迟40%，减少GPU空闲时间至<5%。好比在做饭的同时准备餐具，充分利用时间。
三级负载均衡体系
包括预填充负载、解码负载和专家负载的均衡优化，通过动态分配输入token数、平均分配请求数、监控专家使用频率并动态迁移等方法，实现<2%的负载偏差，避免木桶效应。类似于合理分配工作任务给不同员工，让大家的工作量相对均衡，提高整体工作效率。
路由层
DeepSeek推理系统中负责智能请求分发的组件。好比一个快递分拣中心，将不同的请求准确地送到对应的处理单元。
缓存系统
用于存储数据的系统，DeepSeek推理系统的磁盘KV缓存命中率达56.3%，意味着有56.3%的请求可以直接从缓存中获取数据，提高了数据获取速度。类似于一个常用物品存放处，大部分时候能快速找到需要的东西。
弹性调度
根据不同时间段的需求，动态调整节点用途，如白天全节点推理，夜间部分节点转训练。就像一家工厂，白天全力生产产品，晚上部分设备用于设备维护或其他生产准备工作。
精度控制
采用FP8通信 + BF16计算的方式，在保证计算精度的同时，优化计算资源的使用。类似于根据不同需求选择不同精度的工具进行工作，既保证质量又提高效率。
动态扩缩容
根据系统负载动态调整所需节点数量，如DeepSeek V3/R1推理系统日间峰值278节点，夜间低谷180节点，并通过基于LSTM的负载预测模型进行智能预测。好比根据不同季节的客流量，调整商场的营业时间和工作人员数量。
MaaS（模型即服务，Model - as - a - Service）
一种商业模式，当用户量达千万级时，边际成本骤降。类似于共享经济模式，使用的人越多，平均成本越低。
超节点趋势
指320卡紧耦合系统成为新标杆，体现了在大模型推理领域对硬件规模和耦合程度的新要求。好比建造大型建筑时，对建筑材料和结构紧密程度有了更高标准。
动态稀疏性
在模型计算过程中，动态调整计算资源分配，仅对重要数据进行计算，以优化计算效率。类似于在学习过程中，只重点学习最重要的知识点，提高学习效率。

DeepSeek V3/R1的突破不仅是技术胜利，更揭示了AI基础设施的演进方向：通过系统级创新将摩尔定律延伸至软件维度。随着EP技术的普及，大模型服务正在进入"水电化"的新纪元，而这场变革才刚刚开始。

DeepSeek开源周Day6：DeepSeek V3、R1 推理系统深度解析，技术突破与行业启示

DeepSeek 在开源周第六天再次发文，中文原文、官方号在知乎 DeepSeek - 知乎DeepSeek-V3 / R1 推理系统概览 - 知乎deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation 引言 …...

编程日记 2025/3/5 23:24:49

intra-mart实现logicDesigner与forma联动

一、前言有一个需求，想实现从页面上传一个excel文件，点击提交，就转发给forma模块，然后用户在forma模块里，确认下自动填写的信息是否正确，正确的话就点击保存，存入数据库；不正确的话…...

编程日记 2025/3/5 23:23:48

《大语言模型的原理发展与应用》：此文为AI自动生成

《大语言模型的原理发展与应用》：此文为AI自动生成一、引言：大语言模型，AI 时代的 “新引擎” 在当今数字化浪潮中，大语言模型宛如一颗璀璨的明星，照亮了人工智能发展的道路，成为推动各领域变革的核心驱…...

编程日记 2025/3/5 23:22:46

生态安全相关

概念：生态安全指一个国家具有支撑国家生存发展的较为完整、不受威胁的生态系统，以及应对内外重大生态问题的能力。 （1）国外生态安全的研究进展国际上对生态安全的研究是从“环境”与“安全”之间的关系展开的。开始的阶段&#x…...

编程日记 2025/3/5 23:20:42

DeepSeek-R1国产化系统gpu驱动+cuda+ollama+webui可视化离线私有化部署

1.概述网上大部分教程都是在线部署，完全离线私有化部署的文章不多，本文介绍从GPU驱动、cuda、ollama、deepseek模型和open webui等完全离线安装几个方面，让小白0基础也可以私有化部署大模型deepseek-R1。我使用的设备是银河麒麟V10操作系统…...

编程日记 2025/3/5 23:18:39

数据集/API 笔记：新加坡风速 API

data.gov.sg 数据范围：2016年12月 - 2025年3月 API 查询方式 curl --request GET \--url https://api-open.data.gov.sg/v2/real-time/api/wind-speedcurl --request GET \--url "https://api-open.data.gov.sg/v2/real-time/api/wind-speed?date2024-07-16…...

编程日记 2025/3/5 23:17:38

transformer架构解析{掩码，（自）注意力机制，多头（自）注意力机制}(含代码)-3

目录前言掩码张量什么是掩码张量掩码张量的作用生成掩码张量实现注意力机制学习目标注意力计算规则注意力和自注意力注意力机制注意力机制计算规则的代码实现多头注意力机制学习目标什么是多头注意力机制多头注意力计算机制的作用多头注意力机…...

编程日记 2025/3/5 23:16:37

【C++】switch 语句编译报错：error: jump to case label

/home/share/mcrockit_3588/prj_linux/../source/rkvpss.cpp: In member function ‘virtual u32 CRkVpss::Control(u32, void*, u32)’: /home/share/mcrockit_3588/prj_linux/../source/rkvpss.cpp:242:8: error: jump to case label242 | case emRkComCmd_DBG_SaveInput:|…...

编程日记 2025/3/5 23:15:36

linux中使用firewall命令操作端口

一、开放端口 1. 开放一个端口 sudo firewall-cmd --zonepublic --add-port8443/tcp --permanent sudo firewall-cmd --reload 2. 开放一组连续端口 sudo firewall-cmd --zonepublic --add-port100-500/tcp --permanent sudo firewall-cmd --reload 3. 一次开放多个不连续…...

编程日记 2025/3/5 23:14:35

C++第六节：stack和queue

本节目标： stack的介绍与使用queue的介绍与使用priority_queue的介绍与使用容器适配器模拟实现与结语 1 stack（堆）的介绍 stack是一种容器适配器，专门用在具有后进先出操作的上下文环境中，只能从容器的一端进行元素的插…...

编程日记 2025/3/5 23:13:33

算法并查集

目录前言一并查集的思路二并查集的代码分析三实操我们的代码四并查集的代码优化总结前言并查集主要是用来求解集合问题的，用来查找集合还有就是合并集合，可以把这个运用到最小生成树里面一并查集的思路 1 并查集的相关的操作…...

编程日记 2025/3/5 23:08:26

yarn application命令中各参数的详细解释

yarn application 命令用于管理和监控 YARN 上运行的应用程序，下面为你详细解释该命令中各参数的含义和用途： 通用参数 -help [command] 作用：显示 yarn application 命令的帮助信息。如果指定了 command，则显示该子命令的详细使…...

编程日记 2025/3/5 23:07:25

算法之数据结构

目录数据结构数据结构与算法面试题数据结构《倚天村 • 图解数据结构》 | 小傅哥 bugstack 虫洞栈 ♥数据结构基础知识体系详解♥ | Java 全栈知识体系线性数据结构 | JavaGuide 数据结构与算法面试题数据结构与算法面试题 | 小林coding...

编程日记 2025/3/5 23:00:15

Android 图片压缩详解

在 Android 开发中，图片压缩是一个重要的优化手段，旨在提升用户体验、减少网络传输量以及降低存储空间占用。以下是几种主流的图片压缩方法，结合原理、使用场景和优缺点进行详细解析。效果演示直接先给大家对比几种图片压缩的效果质量压缩质量压缩：根据传递进去的质…...

编程日记 2025/3/5 22:58:12

迷你世界脚本计时器接口：MiniTimer

计时器接口：MiniTimer 彼得兔更新时间: 2023-04-26 20:24:50 具体函数名及描述如下: 序号函数名函数描述 1 isExist(...) 判断计时器是否存在 2 createTimer(...) 添加计时器 3 deleteTimer(...) 删除计时器 4 startBackwardTimer(.…...

编程日记 2025/3/5 22:53:07

JavaScript的变量以及数据类型

JS变量变量的声明四种声明方式 1. <script>var abc;abc"变量声明1";alert(abc);</script>2. <script>var abc"变量声明2";alert(abc);</script><script>var abc1,abc2;abc1"变量声明3.1";abc2"变量声明3…...

编程日记 2025/3/5 22:49:03

私有云基础架构

基础配置使用 VMWare Workstation 创建三台 2 CPU、8G内存、100 GB硬盘的虚拟机主机 IP 安装服务 web01 192.168.184.110 Apache、PHP database 192.168.184.111 MariaDB web02 192.168.184.112 Apache、PHP 由于 openEuler 22.09 系统已经停止维护了&#xff…...

编程日记 2025/3/5 22:47:00

在 Windows 和 Linux 系统上安装和部署 Ollama

引言 Ollama 是一个强大的本地大语言模型（LLM）运行工具，允许用户轻松下载和运行不同的 AI 模型，如 LLaMA、Mistral 和 Gemma。无论是开发者还是研究人员，Ollama 都提供了一种简单而高效的方式来在本地环境中部署 AI 模…...

编程日记 2025/3/5 22:43:57

从零开始学习Slam--数学概念

正交矩阵矩阵的转置等于它的逆矩阵，这样的矩阵称之为正交矩阵即： Q T Q I Q^T Q I QTQI， 这样的矩阵列向量都是单位向量且两两正交。旋转矩阵属于特殊的正交群，即SO(n)，这里n通常是3，所以SO(3)就是…...

编程日记 2025/3/5 22:42:55

【零基础到精通Java合集】第十五集：Map集合框架与泛型

课程标题：Map集合框架与泛型（15分钟）目标：掌握泛型在Map中的键值类型约束，理解类型安全的键值操作，熟练使用泛型Map解决实际问题 0-1分钟：泛型Map的意义引入以“字典翻译”类比泛型Map：明确键和值的类型（如英文→中文）。说明泛型Map的作用——确保键值对的类型一…...

编程日记 2025/3/5 22:41:52

用Logisim从零搭建一个8位求补器：手把手教你理解补码的硬件实现

用Logisim从零搭建一个8位求补器：手把手教你理解补码的硬件实现数字电路设计中最精妙的概念之一，莫过于补码表示法。它不仅解决了计算机中正负数的统一表示问题，还让加减法运算可以用同一套电路完成。但你是否好奇过，这个看似简单…...

编程新知 2026/5/20 2:20:58

实时商业情报不再滞后，Perplexity新闻搜索配置全拆解，从入门到日均处理200+信源

更多请点击： https://codechina.net 第一章：实时商业情报不再滞后，Perplexity新闻搜索配置全拆解，从入门到日均处理200信源为什么传统RSS与Google Alerts已失效现代商业情报对时效性、语义准确性与信源可信度提出更高要求。Pe…...

编程新知 2026/5/20 2:18:57

企业级AI Agent实战：如何解决异常考勤处理滞后与薪资核算难题？

摘要： 在2026年企业数字化转型步入深水区的今天，考勤管理与薪资核算的脱节已成为制约组织效能的隐形枷锁。作为一名在企业架构领域摸爬滚打15年的架构师，我观察到无数企业陷入“异常考勤处理滞后、员工满意度低、薪资核算频错”的恶性循环。传…...

编程新知 2026/5/20 2:12:27

2026年唯一通过广电AIGC内容安全认证的3款视频生成工具（附检测报告编号+审核链路图解）

更多请点击： https://kaifayun.com 第一章：2026年AI视频生成工具排行榜 2026年，AI视频生成技术已迈入“语义帧精控”与“跨模态时序对齐”新阶段。主流工具普遍支持毫秒级动作锚点标注、物理引擎协同渲染及多镜头逻辑自动剪辑&#xff0c…...

编程新知 2026/5/20 1:53:21

Perplexity本地化查询实战：手把手教你用Ollama+Llama3构建离线知识库（含性能压测数据）

更多请点击： https://intelliparadigm.com 第一章：Perplexity本地服务查询 Perplexity 本地服务查询是指在不依赖云端 API 的前提下，通过本地部署的模型与推理服务（如 Ollama、LM Studio 或 Text Generation WebUI）完…...

编程新知 2026/5/19 23:04:01