DeepSeek开源周Day4:三连发!突破 AI 训练瓶颈的立体解决方案,并行计算三剑客DualPipe、EPLB与Profile-data
项目地址:
- https://github.com/deepseek-ai/DualPipe
- https://github.com/deepseek-ai/eplb
- https://github.com/deepseek-ai/profile-data
开源日历:2025-02-24起 每日9AM(北京时间)更新,持续五天 (4/5)!

一、背景概述
在训练千亿级参数的AI模型时,传统的计算架构如同早高峰的单行道——计算任务(数据)只能单向流动,GPU设备(车道)经常空闲等待,导致资源浪费和效率低下。DeepSeek此次开源的DualPipe、EPLB与Profile-data,如同为AI训练打造了立体交通系统,彻底解决三大核心难题:
- DualPipe:打破单行道的双向高速路,让计算任务“双向并行”
- EPLB:智能调度系统,让每个GPU都“雨露均沾”
- Profile-data:训练过程的“行车记录仪”,精准定位优化点
二、核心技术解析
1. 让计算任务“双向飙车”的高速引擎 - DualPipe
项目地址:GitHub链接
通俗理解:传统训练如同单行道,DualPipe则像开通了双向12车道的高速公路
技术原理(高速公路版)
-
传统痛点:
- 单向前进:前向传播(理解数据)完成后才能开始反向传播(调整模型),如同所有车辆必须按固定顺序通过收费站
- 堵车严重:设备等待时间(流水线气泡)占比高达30%-50%
-
创新设计:

图片来源公众号:赛博禅心
- 双车道并行:前向传播与反向传播同时进行,如同设置往返双车道
- 不停车收费:计算与数据传输100%重叠,GPU永远在"踩油门"
- 动态编队:将数据拆分为20个微批次(Micro-batches),像车队分批通过收费站
性能对比(实测数据)
| 场景 | 传统1F1B | DualPipe | 提升效果 |
|---|---|---|---|
| 8设备训练500B模型 | 35%等待 | <5%等待 | 效率提升40% |
| 内存占用 | 80GB | 65GB | 节省19%显存 |
2. AI模型的“智能调度大师” - EPLB
项目地址:GitHub链接
通俗理解:就像给12个工人分配任务,确保没人摸鱼也没人累瘫
专家并行的现实挑战
在混合专家模型(MoE)中:
- “明星专家”现象:某些专家(如处理数学问题的模块)负载是平均值的5倍
- “跨城通勤”问题:专家分布在不同服务器节点,数据传输如同每天跨城上班
解决方案(餐厅后厨版)

图片来源公众号:赛博禅心
-
动态扩编:给忙碌的"主厨"(热点专家)配3个助手(冗余副本)
-
就近分配:将同一菜系的厨师(关联专家)安排在相邻工位(同一服务器)
-
智能排班:
- 午餐高峰:给煎炸区多派2个厨师(分层负载均衡)
- 下午茶时段:全局调配甜品师(全局负载均衡)
实测效果
| 指标 | 优化前 | EPLB优化后 | 提升幅度 |
|---|---|---|---|
| GPU利用率波动 | ±42% | ±8% | 81% |
| 跨节点通信量 | 100GB | 35GB | 65% |
3. 训练过程的“X光透视仪” - Profile-data
项目地址:GitHub链接
通俗理解:如同给训练过程安装行车记录仪+AI教练
核心价值
-
透明化分析:开源PyTorch性能数据,任何人都能查看DeepSeek-V3的"训练体检报告"
-
关键发现:
- 计算热点:72%时间花在MoE层计算
- 通信瓶颈:All-to-All通信占18%时间
- 优化空间:10%时间消耗在等待同步
可视化案例

- 绿色区域:有效计算时间
- 红色条纹:通信等待时间
- 优化策略:通过双微批次流水线,将通信隐藏在计算间隙
三、技术演进
1. 流水线技术发展史
| 世代 | 代表技术 | 类比 | 核心突破 |
|---|---|---|---|
| 第一代 | GPipe | 单车道县道 | 首次实现分层计算 |
| 第二代 | PipeDream | 带服务区高速 | 引入权重缓存机制 |
| 第三代 | DualPipe | 立体交通枢纽 | 双向计算+全重叠通信 |
2. 负载均衡技术对比
| 类型 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| 静态分配 | 实现简单 | 资源浪费严重 | 小规模模型 |
| 动态路由 | 适应性较强 | 通信开销大 | 中等规模模型 |
| EPLB策略 | 资源利用率最大化 | 需要冗余计算资源 | 超大规模MoE模型 |
四、行业影响
- 成本革命:千亿模型训练成本降低30%+
- 生态共建:首次公开工业级训练性能数据
- 技术民主化:中小企业也能训练超大模型
DeepSeek此次开源不仅提供了工具,更展示了AI工程化的方法论——通过系统级创新突破算力瓶颈,为行业树立了新的技术标杆。
参考引用
- 本文”高速路“通俗解释思路来源:开源周第四天 - DualPipe 技术分析
- DeepSeek技术解读 - 图解
- 通俗技术解析
- 一口气放出并行计算优化三剑客「训练速度,GPU利用,优化经验」
- https://github.com/deepseek-ai/DualPipe
- https://github.com/deepseek-ai/eplb
- https://github.com/deepseek-ai/profile-data
专业术语解释
- DualPipe
一种打破传统计算任务单向流动模式,实现前向传播与反向传播双向并行的技术,就像开通了双向 12 车道的高速公路,让计算任务可以 “双向飙车”,减少设备等待时间,提高计算效率。 - EPLB
智能调度系统,通过动态扩编、就近分配、智能排班等策略,解决混合专家模型中专家负载不均衡以及跨节点数据传输问题,类似给工人合理分配任务,确保每个 GPU 都能得到合理利用。 - Profile-data
训练过程的 “X 光透视仪”,开源 PyTorch 性能数据,可透明化分析训练过程,精准定位如计算热点、通信瓶颈、优化空间等问题,如同给训练过程安装行车记录仪和 AI 教练。 - 流水线气泡(Pipeline Bubble)
GPU 因等待数据传输产生的空闲时间,类似于堵车时车辆静止不前的时段。 - 微批次(Micro-batch)
将大批次数据切割成的便于流水线调度的 “数据集装箱”,就像把大量货物分成一个个小包裹便于运输。 - 专家并行(Expert Parallelism)
将 AI 模型的不同功能模块(专家)分布式部署的策略,类似于将一个大项目的不同专业部分分给不同团队同时进行。 - All-to-All 通信
所有计算节点间同时进行数据交换的网络通信模式,好比所有人同时互相传递信息。 - 前向传播
理解数据的过程,如同先阅读学习资料。 - 反向传播
调整模型的过程,类似根据学习情况对学习方法进行调整。 - 分层计算
将计算任务按层次进行划分处理,如同将一个大工程按不同楼层分别施工。 - 权重缓存机制
在计算过程中引入对权重数据的缓存策略,方便后续计算使用,类似提前准备好常用工具。 - 双微批次流水线
采用两个微批次数据进行流水线处理,将通信隐藏在计算间隙,提高整体效率,就像用两个小批次货物运输,利用运输间隙做其他准备工作。
相关文章:
DeepSeek开源周Day4:三连发!突破 AI 训练瓶颈的立体解决方案,并行计算三剑客DualPipe、EPLB与Profile-data
项目地址: https://github.com/deepseek-ai/DualPipehttps://github.com/deepseek-ai/eplbhttps://github.com/deepseek-ai/profile-data 开源日历:2025-02-24起 每日9AM(北京时间)更新,持续五天 (4/5)! 一、背景概述 …...
树莓百度百科更新!宜宾园区业务再添新篇
树莓集团宜宾园区业务不断拓展,主要体现在以下几个方面: 产业布局 -聚焦数字经济核心领域:涵盖软件开发、人工智能、大数据等,吸引众多上下游企业入驻,形成从芯片研发、软件开发到系统集成的完整产业链条。 -推进“双…...
RabbitMQ操作实战
1.RabbitMQ安装 RabbitMQ Windows 安装、配置、使用 - 小白教程-腾讯云开发者社区-腾讯云下载erlang:http://www.erlang.org/downloads/https://cloud.tencent.com/developer/article/2192340 Windows 10安装RabbitMQ及延时消息插件rabbitmq_delayed_message_exch…...
IO 和 NIO 有什么区别?
文章目录 阻塞模式与非阻塞模式数据处理方式通信模型应用场景 阻塞模式与非阻塞模式 IO:是阻塞式的 IO 操作。在传统的 IO 中,当一个线程执行读操作或者写操作时,该线程会被阻塞,直到操作完成。例如,在从文件读取数据…...
OpenWebUI配置异常的外部模型导致页面无法打开
一、使用Ollama关闭OpenAI OpenWebUI自带OpenAI的API设置,且默认是打开的,默认情况下,启动后,会不断的去连https://api.openai.com/v1,但是无法连上,会报错,但是不会影响页面,能正常…...
2025年度福建省职业院校技能大赛高职组“信息安全管理与评估”赛项规程样题模块二
模块二 网络安全事件响应、数字取证调查、应用程序安全 竞赛项目赛题 本文件为信息安全管理与评估项目竞赛-第二阶段样题,内容包括:网络安全事件响应、数字取证调查。 本次比赛时间为90分钟。 介绍 竞赛有固定的开始和结束时间,参赛队伍必须…...
鸿蒙兼容Mapbox地图应用测试
鸿蒙Next已经发布一段时间了,很多之前的移动端地图应用,纷纷都要求适配鸿蒙Next。作为开发者都清楚,所谓的适配其实都是重新开发,鸿蒙的开发语言和纯前端的Javascript不同,也可以Android原始开发的语言不同。鸿蒙自带的…...
java练习(45)
ps:题目来自力扣 两数相除 给你两个整数,被除数 dividend 和除数 divisor。将两数相除,要求 不使用 乘法、除法和取余运算。 整数除法应该向零截断,也就是截去(truncate)其小数部分。例如,8.345 将被截断…...
面试之《前端开发者如何优化页面的加载时间?》
前端开发者可以从多个方面入手优化页面的加载时间,以下是一些常见且有效的方法: 优化资源加载 压缩资源文件:对 HTML、CSS、JavaScript 文件进行压缩,去除不必要的空格、注释等,减小文件体积,加快下载速度…...
部署Flink1.20.1
1、设置环境变量 export JAVA_HOME/cluster/jdk export CLASSPATH.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jarp #export HIVE_HOME/cluster/hive export MYSQL_HOME/cluster/mysql export HADOOP_HOME/cluster/hadoop3 export HADOOP_CONF_DIR$HADOOP_HOME/etc/hadoop …...
iOS自归因详细介绍
iOS自归因详细介绍 自归因(Self-Attribution)是指应用或广告平台通过分析用户行为数据,确定用户安装应用的来源渠道。在iOS生态中,由于隐私政策的限制(如App Tracking Transparency,ATT)&#…...
影视后期工具学习之PR
pr剪辑之旅 第一节课 入门基础知识 1.了解影视基础术语 2.PR面板&首选项设置 首选项需要设置的选项: 自动保存: 修剪: 媒体: 媒体缓存: 经典面板设置,可以根据个人喜好做出改变: 3.展示与准备工作 新建序列:1.横板序列 2.竖版序列:</...
浏览器JS打不上断点,一点就跳到其他文件里。浏览器控制台 js打断点,指定的位置打不上断点,一打就跳到其他地方了。
关闭JavaScript 源代码映射,F12开发者模式 设置->偏好设置->源代码/来源->JavaScript 源代码映射。 肯定不是这个原因导致的,但这个办法可以暂时解决问题,点完这个东西就隐藏了webpack,有懂的来讲讲。 又浪费一个小时…...
XXE漏洞:原理、危害与修复方法详解
目录 一、XXE漏洞概述二、XXE漏洞原理三、XXE漏洞危害1. 任意文件读取2. 命令执行3. 拒绝服务攻击(DoS)4. SSRF攻击四、XXE漏洞修复方法1. 禁用外部实体JavaPythonPHP2. 输入验证和过滤3. 安全配置服务器4. 升级解析器版本五、总结一、XXE漏洞概述 XXE(XML External Entity…...
C#与AI的交互(以DeepSeek为例)
C#与ai的交互 与AI的交互使用的Http请求的方式,通过发送请求,服务器响应ai生成的文本 下面是完整的代码,我这里使用的是Ollama本地部署的deepseek,在联网调用api时,则url会有不同 public class OllamaRequester {[Se…...
Qt——使用QtConcurrent::run开启的线程,程序退出后仍在后台运行的解决方法(QFutureWatcher监视线程)
【系列专栏】:博主结合工作实践输出的,解决实际问题的专栏,朋友们看过来! 《项目案例分享》 《极客DIY开源分享》 《嵌入式通用开发实战》 《C++语言开发基础总结》 《从0到1学习嵌入式Linux开发》 《QT开发实战》 《Android开发实...
DeepSeek-R1:通过强化学习激发大语言模型的推理能力
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】 文章目录 DeepSeek大模型技术系列三DeepSeek大模型技术系列三》DeepSeek-…...
Xcode如何高效的一键重命名某个关键字
1.选中某个需要修改的关键字; 2.右击,选择Refactor->Rename… 然后就会出现如下界面: 此时就可以一键重命名了。 还可以设置快捷键。 1.打开Settings 2.找到Key Bindings 3.搜索rename 4.出现三个,点击一个地方设置后其…...
smolagents学习笔记系列(八)Examples - Master you knowledge base with agentic RAG
这篇文章锁定官网教程中 Examples 章节中的 Master you knowledge base with agentic RAG 文章,主要介绍了如何将 agent 和 RAG 结合使用。 官网链接:https://huggingface.co/docs/smolagents/v1.9.2/en/examples/rag; Agentic RAG 在之前的…...
数据挖掘工程师的技术图谱和学习路径
数据挖掘工程师的技术图谱和学习路径: 1.基础知识 数据挖掘工程师是负责从大量数据中发现潜在模式、趋势和规律的专业人士。以下是数据挖掘工程师需要掌握的基础知识: 数据库知识:熟悉关系数据库和非关系数据库的基本概念和操作,掌握SQL语言。 统计学基础:了解统计学的基…...
机器学习数学基础:37.偏相关分析
偏相关分析教程 一、偏相关分析是什么 在很多复杂的系统中,比如地理系统,会有多个要素相互影响。偏相关分析就是在这样多要素构成的系统里,不考虑其他要素的干扰,专门去研究两个要素之间关系紧密程度的一种方法。用来衡量这种紧…...
DevSecOps普及:安全与开发运维的深度融合
一、引言 随着软件开发模式的演进,DevOps已成为现代软件工程的主流实践。然而,在传统的DevOps流程中,安全往往被视为开发和运维之外的额外环节,导致安全漏洞在产品交付后才被发现,增加了修复成本和风险。为了解决这一…...
MySQL 8.4 SQL 全攻略:所有知识点与实战场景
一、引言 MySQL 作为一款广泛使用的开源关系型数据库管理系统,在数据存储和管理领域占据着重要地位。MySQL 8.4 版本在性能、功能和安全性等方面都有了显著的提升。本文将全面介绍 MySQL 8.4 中 SQL 的各种知识点,并结合实战场景进行详细讲解࿰…...
AVA面试_进阶部分_kafka面试题
1.Kafka 的设计时什么样的呢? Kafka 将消息以 topic 为单位进行归纳 将向 Kafka topic 发布消息的程序成为 producers. 将预订 topics 并消费消息的程序成为 consumer. Kafka 以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个…...
Redis源码剖析之GEO——Redis是如何高效检索地理位置的?
Redis GEO 用做存储地理位置信息,并对存储的信息进行操作。通过geo相关的命令,可以很容易在redis中存储和使用经纬度坐标信息。Redis中提供的Geo命令有如下几个: geoadd:添加经纬度坐标和对应地理位置名称。geopos:获取…...
【Java 优选算法】模拟
欢迎关注个人主页:逸狼 创造不易,可以点点赞吗~ 如有错误,欢迎指出~ 模拟算法的思路比较简单,根据题目描述列出流程,找出规律,将流程转化为代码 替换所有的问号 题目链接 解法 直接根据题目给出条件模拟 示例,找出规律 1.先找出字符?,再…...
@RequiredArgsConstructor 和 @Autowired区别
1、注入方式 RequiredArgsContructor:通过构造函数的方式实现依赖注入。该注解会被final修饰,并将依赖对象通过构造参数进行注入。 Autowired:通过属性注入的方式实现依赖注入,将依赖对象自动注入到被该注解的字段上 2、使用场景…...
【Linux网络】数据链路层 其他常见的协议
目录 1. 认识以太网 2. 以太网帧格式 3. MTU 4. ARP协议 4.1 ARP数据报的格式 4.2 ARP攻击 5. 其他重要的协议或技术 5.1 DNS协议 5.2 ICMP协议 5.3 NAT技术 5.4 代理服务器 5.5 内网穿透 总结 针对数据在网络传输中所遇到的问题,网络协议栈都对相应的…...
C语言综合案例:学生成绩管理系统
C语言综合案例:学生成绩管理系统 需求 1.存储最多50名学生的信息(不使用结构体) 2.每个学生包含: 学号(字符数组)姓名(字符数组)3门课程成绩(一维数组) …...
Ubuntu 安装 Nginx并配置反向代理
Ubuntu版本:Ubuntu 24.04.2 LTS 一、安装Nginx 更新系统软件包 安装前需确保系统处于最新状态,避免依赖冲突 sudo apt update && sudo apt upgrade -y 安装Nginx主程序 Ubuntu官方仓库已包含稳定版Nginx,直接安装即可 sudo…...
