【AGI】DeepSeek开源周:The whale is making waves!
DeepSeek开源周:The whale is making waves!
- 思维火花
- 引言
- 一、DeepSeek模型体系的技术演进
- 1. 通用语言模型:DeepSeek-V3系列
- 2. 推理优化模型:DeepSeek-R1系列
- 3. 多模态模型:Janus系列
- 二、开源周三大工具库的技术解析
- 1. FlashMLA:解码效率的极限突破(2025.02.24)
- 2. DeepEP:MoE通信范式的重构(2025.02.25)
- 3. DeepGEMM:矩阵计算的极致效率(2025.02.26)
- 4.DualPipe:双向流水线并行算法(2025.02.27)
- 5.EPLB:专家并行负载均衡器(2025.02.27)
- 6.Fire-Flyer文件系统(简称3FS):全带宽并行文件系统(2025.02.28)
- 7.Smallpond:轻量级数据处理框架(2025.02.28)
- 三、技术生态的协同效应与行业影响
- 四、未来展望:开源生态与AGI的协同演进
- 结语
- 参考博客
思维火花
- 当技术革命撕开营销泡沫,伪强者终将现形。
- 商业世界的残酷在于:当性价比悬殊到一定程度,情怀和营销都会沦为笑话
- 用户觉醒:从“营销幻觉”到“用脚投票”,市场理性的回归,市场的沉默,实则是用户对劣质产品的集体唾弃。
- 真正的竞争力来自底层创新,而非资本堆砌或营销炒作。
- 中国AI的未来,属于那些敢于撕破泡沫、用技术直面竞争的真实力量。至于沉默者,历史早已写下判词:要么进化,要么消亡。
引言
2025年2月24日至28日,DeepSeek通过“开源周”连续发布多个核心工具库FlashMLA、DeepEP和DeepGEMM以及DualPipe、EPLB、3FS、Smallpond,标志着其在人工智能领域从模型架构到计算底层的全栈技术开放。这一系列开源项目不仅展现了DeepSeek在模型性能优化与算力压榨上的极致追求,更通过技术民主化推动行业生态重构。本文将从专业视角解析DeepSeek的模型技术体系,并重点剖析开源周三大工具的技术价值与行业影响。
一、DeepSeek模型体系的技术演进
DeepSeek模型家族以通用语言模型、推理优化模型和多模态模型为核心,通过架构创新与工程优化实现性能突破:
1. 通用语言模型:DeepSeek-V3系列
- 架构创新:基于混合专家(MoE)架构,总参数量达671B,激活参数仅37B,显存消耗降低30%。
- 性能对标:在数学推理(MATH评测61.6 EM)与代码生成(HumanEval 65.2 Pass@1)任务中超越GPT-4o和Claude-3.5-Sonnet,生成速度达60 TPS。
- 工程突破:支持128K长上下文处理,并通过FP8混合精度训练优化显存效率。
2. 推理优化模型:DeepSeek-R1系列
- 强化学习驱动:通过纯强化学习(RL)实现复杂推理能力,无需监督微调,在编程任务(LiveCodeBench)中超越OpenAI o1。
- 思维链透明化:输出包含长达32K Token的推理过程,支持企业级透明化决策,R1-Distill系列通过知识蒸馏降低部署门槛。
3. 多模态模型:Janus系列
- 文生图SOTA:Janus-Pro-7B在GenEval评测中准确率达80%,超越DALL-E 3的61%,支持跨模态检索与动态视频生成。
二、开源周三大工具库的技术解析
1. FlashMLA:解码效率的极限突破(2025.02.24)
- 技术定位:专为Hopper架构GPU优化的多头潜在注意力(MLA)解码内核,针对变长序列与分页KV缓存设计。
- 性能优势:在H800 GPU上实现峰值580 TFLOPS计算吞吐量,内存带宽达3000GB/s,显著提升批量推理场景下的实时响应能力。
- 应用场景:适用于聊天机器人、翻译服务等低延迟需求场景,支持动态内存管理与多序列并行处理。
2. DeepEP:MoE通信范式的重构(2025.02.25)
- 核心功能:首个面向混合专家(MoE)模型的开源专家并行(EP)通信库,优化跨节点数据分发与合并操作。
- 创新设计:
- 低延迟算子:基于纯RDMA实现跨NVLink域与RDMA域的数据转发,最小化通信延迟。
- 计算-通信重叠:通过钩子(hook-based)方法实现通信与计算的异步执行,无需占用流式多处理器(SM)资源。
- 行业价值:使千亿参数MoE模型的训练成本降低50%,支持FP8调度以适配低精度计算需求。
3. DeepGEMM:矩阵计算的极致效率(2025.02.26)
- 技术突破:专注于FP8通用矩阵乘法(GEMM),代码仅300行,支持密集布局与MoE分组计算,在Hopper GPU上实现1350+ TFLOPS。
- 精度优化:采用CUDA核心两级累加方法,通过FP8批量乘法与高精度汇总结合,减少量化误差,性能超越英伟达CUTLASS 3.6达2.7倍。
- 部署优势:无需预编译,通过即时编译(JIT)动态生成最优内核,适配异构硬件环境。
4.DualPipe:双向流水线并行算法(2025.02.27)
-
核心目标:优化计算与通信的重叠效率,减少流水线气泡(Pipeline Bubble)。
-
双向重叠机制:与传统单向流水线(如1F1B或ZB1P)不同,DualPipe通过同时调度正向传播(Forward)和反向传播(Backward)的计算与通信阶段,实现两者的完全重叠。这种设计显著减少了因流水线阶段等待导致的空闲时间。
-
内存优化:尽管激活内存峰值增加1倍,但通过智能调度避免了显存溢出问题,适用于大规模分布式训练场景。
5.EPLB:专家并行负载均衡器(2025.02.27)
-
核心目标:解决混合专家(MoE)模型中专家负载不均导致的资源浪费和通信开销问题。
-
冗余专家策略:通过复制高负载专家,动态分配至不同GPU,平衡计算资源使用。例如,利用历史统计数据的移动平均值预测专家负载,生成专家复制与放置计划。
-
分组路由优化:将同一组专家尽量分配到同一计算节点,减少跨节点通信流量,进一步降低延迟。
-
开源工具支持:公开了eplb.py中的负载均衡算法实现,但具体的负载预测方法需用户结合场景自定义
6.Fire-Flyer文件系统(简称3FS):全带宽并行文件系统(2025.02.28)
3FS可以把固态硬盘的带宽性能利用到极致,表现出了惊人的速度:
- 180节点集群中的聚合读取吞吐量为6.6TiB/s;
- 25节点集群中GraySort基准测试的吞吐量为3.66TiB/分钟;
- 每个客户端节点的KVCache查找峰值吞吐量超过40GiB/s。
主要特点:
- 分布式架构:结合了数千个SSD的吞吐量和数百个存储节点的网络带宽,使应用程序能够以不受位置影响的方式访问存储资源。
- 强一致性实现带:分配查询的链式复制 (CRAQ) 以实现强一致性,使应用程序代码简单易懂。
- 文件接口:文件接口众所周知且随处可用,无需学习新的存储 API。
并且,3FS能够适用于大模型训练推理和过程中不同类型的应用负载:
- 数据准备:将数据分析pipeline的输出重组成分层目录结构,并有效管理大量中间输出。
- 数据加载器:通过跨计算节点随机访问训练样本,消除了预取或混洗数据集的需要。
- Checkpoints:支持大规模训练的高吞吐量并行Checkpoints。
- 用于推理的KV缓存:为基于DRAM的缓存提供了一种经济高效的替代方案,可提供高吞吐量和更大的容量。
7.Smallpond:轻量级数据处理框架(2025.02.28)
基于3FS和DuckDB构建的轻量级数据处理框架。
三、技术生态的协同效应与行业影响
DeepSeek开源周的技术布局形成了从底层计算到上层模型的完整闭环:
- 算力成本革命:通过FP8计算、MoE架构与通信优化,将千亿模型训练成本压缩至行业平均水平的1/10。
- 开发者生态激活:三大工具库遵循MIT协议开源,支持Hugging Face与主流云平台一键部署,衍生模型下载量突破1.8亿次。
- 产学研协同创新:与百度、阿里、华为云合作,推动模型在金融、交通等领域的快速落地,同时通过开源社区孵化细分领域专业模型。
四、未来展望:开源生态与AGI的协同演进
DeepSeek的开源战略不仅是技术共享,更是对通用人工智能(AGI)发展路径的探索:
- 技术透明化:通过开源通信库与计算内核,推动行业对MoE、FP8等前沿技术的共识与协作。
- 硬件-算法协同:针对Hopper架构的深度优化,预示未来AI计算将更紧密耦合专用硬件设计与算法创新。
- AGI基础构建:FlashMLA与DeepEP为长序列处理与分布式训练提供底层支持,加速复杂推理与多模态融合的AGI技术突破。
结语
DeepSeek开源周以技术硬实力回应了行业对其训练成本与性能的质疑,更通过工具链的全面开放重塑了AI开发范式。从FlashMLA的高效解码到DeepGEMM到DualPipe、EPLB的算力压榨,以及利用现代SSD和RDMA网络的全部带宽的并行文件系统3FS,这一系列开源项目不仅为开发者提供了高效工具,更为全球AI社区贡献了可复用的技术范式。在AGI的竞逐中,DeepSeek正以开源为刃,切割出一条技术民主化与生态协同的创新之路。
参考博客
-
(2025.02.24)刚刚,DeepSeek开源FlashMLA,瞬间破1000颗星
-
(2025.02.25)刚刚,DeepSeek开源DeepEP,公开大模型训练效率暴涨秘诀!
-
(2025.02.26)GPU效率暴涨!DeepSeek开源DeepGEMM,仅300行代码
-
(2025.02.27)DeepSeek开源优化并行策略,提升训练和通信效率-DualPipe、EPLB
-
(2025.02.28)DeepSeek第五弹炸裂收官!开源并行文件系统,榨干SSD全部带宽
相关文章:
【AGI】DeepSeek开源周:The whale is making waves!
DeepSeek开源周:The whale is making waves! 思维火花引言一、DeepSeek模型体系的技术演进1. 通用语言模型:DeepSeek-V3系列2. 推理优化模型:DeepSeek-R1系列3. 多模态模型:Janus系列 二、开源周三大工具库的技术解析1…...

Unity中动态切换光照贴图的方法
关键代码:LightmapSettings.lightmaps lightmapDatas; LightmapData中操作三张图:lightmapColor,lightmapDir,以及一张ShadowMap 这里只操作前两张: using UnityEngine; using UnityEngine.EventSystems; using UnityEngine.UI;public cl…...

第三十四:6.4.【v-model】
6.4.【v-model】:双向绑定 概述:实现 父↔子 之间相互通信。 前序知识 —— v-model的本质 <!-- 使用v-model指令 --> <input type"text" v-model"userName"> <!-- v-model的本质是下面这行代码 --> <inpu…...
React底层常见的设计模式
在React中,常见的设计模式为开发者提供了结构化和可重用的解决方案,有助于提高代码的可维护性和可扩展性。以下是对React中几种常见设计模式的详细解析,并附上示例代码和注释: 1. 容器组件与展示组件模式(Container/P…...

从零基础到通过考试
1. 学习资源与实践平台 使用Proving Grounds进行靶机练习 OSCP的备考过程中,实战练习占据了非常重要的地位。Proving Grounds(PG)是一个由Offensive Security提供的练习平台,拥有152个靶机,涵盖了从基础到进阶的多种…...
UniApp 按钮组件 open-type 属性详解:功能、场景与平台差异
文章目录 引言一、open-type 基础概念1.1 核心作用1.2 通用使用模板 二、主流 open-type 值详解2.1 contact - 客服会话功能说明平台支持代码示例 2.2 share - 内容转发功能说明平台支持注意事项 2.3 getUserInfo - 获取用户信息功能说明平台支持代码示例 2.4 getPhoneNumber -…...

【无标题】ABP更换MySql数据库
原因:ABP默认使用的数据库是sqlServer,本地没有安装sqlServer,安装的是mysql,需要更换数据库 ABP版本:9.0 此处以官网TodoApp项目为例 打开EntityFrameworkCore程序集,可以看到默认使用的是sqlServer&…...
大模型微调入门(Transformers + Pytorch)
目标 输入:你是谁? 输出:我们预训练的名字。 训练 为了性能好下载小参数模型,普通机器都能运行。 下载模型 # 方式1:使用魔搭社区SDK 下载 # down_deepseek.py from modelscope import snapshot_download model_…...

【开源免费】基于SpringBoot+Vue.JS网络海鲜市场系统(JAVA毕业设计)
本文项目编号 T 222 ,文末自助获取源码 \color{red}{T222,文末自助获取源码} T222,文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…...

在线会议时, 笔记本电脑的麦克风收音效果差是为什么
背景 最近在线面试. 使用腾讯会议或者飞书, 戴耳机参加在线面试, 遇到好几个面试官说我的音质不好. 一直没在意, 后来反思, 应该是电脑哪里出了问题. 排查 先买了一副品牌有线耳机, 测试后本地录制的声音仍然品质很差去掉耳机延长线后, 麦克风品质仍然很差最终找到答案, 原…...

理解文件系统
目录 文件系统 内存文件与磁盘文件的区别 初识inode 磁盘的概念 磁盘分区与格式化介绍 EXT2文件系统的存储方案 软硬链接 软连接 编辑 硬链接 软硬链接的区别 文件的三个时间 文件系统 内存文件与磁盘文件的区别 我们知道文件可以分为磁盘文件和内存文件&#…...

第二十四:5.2【搭建 pinia 环境】axios 异步调用数据
第一步安装:npm install pinia 第二步:操作src/main.ts 改变里面的值的信息: <div class"count"><h2>当前求和为:{{ sum }}</h2><select v-model.number"n"> // .number 这里是…...

Vue2+Element实现Excel文件上传下载预览【超详细图解】
目录 一、需求背景 二、落地实现 1.文件上传 图片示例 HTML代码 业务代码 2.文件下载 图片示例 方式一:代码 方式二:代码 3.文件预览 图片示例 方式一:代码 方式二:代码 一、需求背景 在一个愉快的年后ÿ…...
C# 装箱(Boxing)与拆箱(Unboxing)
C# 装箱(Boxing)与拆箱(Unboxing) 在 C# 中,装箱和拆箱是与值类型(如结构体)和引用类型(如类)之间的转换相关的操作。它们是类型系统的一部分,但如果不正确使…...

【AD】3-10 原理图PDF导出
文件—智能PDF 多页原理图导出 导出设置时选择工程,可自行选择导出一页或多页原理图,一般PCB不用导出...

SQL命令详解之增删改数据
目录 简介 1 添加数据 1.1 基础语法 1.2 SQL 练习 2 修改数据 2.1 基础语法 2.2 SQL 练习 3 删除数据 3.1 基础语法 3.2 SQL 练习 总结 简介 在数据库操作中,增、删、改是最基础的操作,它们通常对应着SQL中的INSERT、DELETE和UPDATE命令。…...

Docker 部署 MinIO 对象存储服务
Docker 部署 MinIO 对象存储服务 前言一、准备工作1. 安装 Docker2. 确认服务器架构 二、设置 MinIO 容器的目录结构三、启动一个临时的 MinIO 容器来获取配置文件四、复制 MinIO 配置文件到本地目录五、删除临时 MinIO 容器六、创建并运行 MinIO 容器,挂载本地目录…...

IP段转CIDR:原理Java实现
🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…...

翻译: 深入分析LLMs like ChatGPT 一
大家好,我想做这个视频已经有一段时间了。这是一个全面但面向普通观众的介绍,介绍像ChatGPT这样的大型语言模型。我希望通过这个视频让大家对这种工具的工作原理有一些概念性的理解。 首先,我们来谈谈你在这个文本框里输入内容并点击回车后背…...
springboot之HTML与图片生成
背景 后台需要根据字段动态生成HTML,并生成图片,发送邮件到给定邮箱 依赖 <!-- freemarker模板引擎--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-freemarker</artifa…...

wordpress后台更新后 前端没变化的解决方法
使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…...
设计模式和设计原则回顾
设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...
STM32+rt-thread判断是否联网
一、根据NETDEV_FLAG_INTERNET_UP位判断 static bool is_conncected(void) {struct netdev *dev RT_NULL;dev netdev_get_first_by_flags(NETDEV_FLAG_INTERNET_UP);if (dev RT_NULL){printf("wait netdev internet up...");return false;}else{printf("loc…...
css的定位(position)详解:相对定位 绝对定位 固定定位
在 CSS 中,元素的定位通过 position 属性控制,共有 5 种定位模式:static(静态定位)、relative(相对定位)、absolute(绝对定位)、fixed(固定定位)和…...

【Oracle】分区表
个人主页:Guiat 归属专栏:Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...

均衡后的SNRSINR
本文主要摘自参考文献中的前两篇,相关文献中经常会出现MIMO检测后的SINR不过一直没有找到相关数学推到过程,其中文献[1]中给出了相关原理在此仅做记录。 1. 系统模型 复信道模型 n t n_t nt 根发送天线, n r n_r nr 根接收天线的 MIMO 系…...
大语言模型(LLM)中的KV缓存压缩与动态稀疏注意力机制设计
随着大语言模型(LLM)参数规模的增长,推理阶段的内存占用和计算复杂度成为核心挑战。传统注意力机制的计算复杂度随序列长度呈二次方增长,而KV缓存的内存消耗可能高达数十GB(例如Llama2-7B处理100K token时需50GB内存&a…...

HDFS分布式存储 zookeeper
hadoop介绍 狭义上hadoop是指apache的一款开源软件 用java语言实现开源框架,允许使用简单的变成模型跨计算机对大型集群进行分布式处理(1.海量的数据存储 2.海量数据的计算)Hadoop核心组件 hdfs(分布式文件存储系统)&a…...

JVM 内存结构 详解
内存结构 运行时数据区: Java虚拟机在运行Java程序过程中管理的内存区域。 程序计数器: 线程私有,程序控制流的指示器,分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。 每个线程都有一个程序计数…...

推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材)
推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理 简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...