当前位置: 首页 > article >正文

【AGI】DeepSeek开源周:The whale is making waves!

DeepSeek开源周:The whale is making waves!

    • 思维火花
    • 引言
    • 一、DeepSeek模型体系的技术演进
      • 1. 通用语言模型:DeepSeek-V3系列
      • 2. 推理优化模型:DeepSeek-R1系列
      • 3. 多模态模型:Janus系列
    • 二、开源周三大工具库的技术解析
      • 1. FlashMLA:解码效率的极限突破(2025.02.24)
      • 2. DeepEP:MoE通信范式的重构(2025.02.25)
      • 3. DeepGEMM:矩阵计算的极致效率(2025.02.26)
      • 4.DualPipe:双向流水线并行算法(2025.02.27)
      • 5.EPLB:专家并行负载均衡器(2025.02.27)
      • 6.Fire-Flyer文件系统(简称3FS):全带宽并行文件系统(2025.02.28)
      • 7.Smallpond:轻量级数据处理框架(2025.02.28)
    • 三、技术生态的协同效应与行业影响
    • 四、未来展望:开源生态与AGI的协同演进
    • 结语
    • 参考博客

思维火花

  • 当技术革命撕开营销泡沫,伪强者终将现形。
  • 商业世界的残酷在于:当性价比悬殊到一定程度,情怀和营销都会沦为笑话
  • 用户觉醒:从“营销幻觉”到“用脚投票”,市场理性的回归,市场的沉默,实则是用户对劣质产品的集体唾弃。
  • 真正的竞争力来自底层创新,而非资本堆砌或营销炒作。
  • 中国AI的未来,属于那些敢于撕破泡沫、用技术直面竞争的真实力量。至于沉默者,历史早已写下判词:要么进化,要么消亡。

引言

2025年2月24日至28日,DeepSeek通过“开源周”连续发布多个核心工具库FlashMLADeepEPDeepGEMM以及DualPipeEPLB3FSSmallpond,标志着其在人工智能领域从模型架构到计算底层的全栈技术开放。这一系列开源项目不仅展现了DeepSeek在模型性能优化与算力压榨上的极致追求,更通过技术民主化推动行业生态重构。本文将从专业视角解析DeepSeek的模型技术体系,并重点剖析开源周三大工具的技术价值与行业影响。


一、DeepSeek模型体系的技术演进

DeepSeek模型家族以通用语言模型推理优化模型多模态模型为核心,通过架构创新与工程优化实现性能突破:

1. 通用语言模型:DeepSeek-V3系列

  • 架构创新:基于混合专家(MoE)架构,总参数量达671B,激活参数仅37B,显存消耗降低30%。
  • 性能对标:在数学推理(MATH评测61.6 EM)与代码生成(HumanEval 65.2 Pass@1)任务中超越GPT-4o和Claude-3.5-Sonnet,生成速度达60 TPS。
  • 工程突破:支持128K长上下文处理,并通过FP8混合精度训练优化显存效率。

2. 推理优化模型:DeepSeek-R1系列

  • 强化学习驱动:通过纯强化学习(RL)实现复杂推理能力,无需监督微调,在编程任务(LiveCodeBench)中超越OpenAI o1。
  • 思维链透明化:输出包含长达32K Token的推理过程,支持企业级透明化决策,R1-Distill系列通过知识蒸馏降低部署门槛。

3. 多模态模型:Janus系列

  • 文生图SOTA:Janus-Pro-7B在GenEval评测中准确率达80%,超越DALL-E 3的61%,支持跨模态检索与动态视频生成。

二、开源周三大工具库的技术解析

1. FlashMLA:解码效率的极限突破(2025.02.24)

  • 技术定位:专为Hopper架构GPU优化的多头潜在注意力(MLA)解码内核,针对变长序列与分页KV缓存设计。
  • 性能优势:在H800 GPU上实现峰值580 TFLOPS计算吞吐量,内存带宽达3000GB/s,显著提升批量推理场景下的实时响应能力。
  • 应用场景:适用于聊天机器人、翻译服务等低延迟需求场景,支持动态内存管理与多序列并行处理。

2. DeepEP:MoE通信范式的重构(2025.02.25)

  • 核心功能:首个面向混合专家(MoE)模型的开源专家并行(EP)通信库,优化跨节点数据分发与合并操作。
  • 创新设计
    • 低延迟算子:基于纯RDMA实现跨NVLink域与RDMA域的数据转发,最小化通信延迟。
    • 计算-通信重叠:通过钩子(hook-based)方法实现通信与计算的异步执行,无需占用流式多处理器(SM)资源。
  • 行业价值:使千亿参数MoE模型的训练成本降低50%,支持FP8调度以适配低精度计算需求。

3. DeepGEMM:矩阵计算的极致效率(2025.02.26)

  • 技术突破:专注于FP8通用矩阵乘法(GEMM),代码仅300行,支持密集布局与MoE分组计算,在Hopper GPU上实现1350+ TFLOPS。
  • 精度优化:采用CUDA核心两级累加方法,通过FP8批量乘法与高精度汇总结合,减少量化误差,性能超越英伟达CUTLASS 3.6达2.7倍。
  • 部署优势:无需预编译,通过即时编译(JIT)动态生成最优内核,适配异构硬件环境。

4.DualPipe:双向流水线并行算法(2025.02.27)

  • 核心目标:优化计算与通信的重叠效率,减少流水线气泡(Pipeline Bubble)。

  • 双向重叠机制:与传统单向流水线(如1F1B或ZB1P)不同,DualPipe通过同时调度正向传播(Forward)和反向传播(Backward)的计算与通信阶段,实现两者的完全重叠。这种设计显著减少了因流水线阶段等待导致的空闲时间。

  • 内存优化:尽管激活内存峰值增加1倍,但通过智能调度避免了显存溢出问题,适用于大规模分布式训练场景。

5.EPLB:专家并行负载均衡器(2025.02.27)

  • 核心目标:解决混合专家(MoE)模型中专家负载不均导致的资源浪费和通信开销问题。

  • 冗余专家策略:通过复制高负载专家,动态分配至不同GPU,平衡计算资源使用。例如,利用历史统计数据的移动平均值预测专家负载,生成专家复制与放置计划。

  • 分组路由优化:将同一组专家尽量分配到同一计算节点,减少跨节点通信流量,进一步降低延迟。

  • 开源工具支持:公开了eplb.py中的负载均衡算法实现,但具体的负载预测方法需用户结合场景自定义

6.Fire-Flyer文件系统(简称3FS):全带宽并行文件系统(2025.02.28)

3FS可以把固态硬盘的带宽性能利用到极致,表现出了惊人的速度:

  • 180节点集群中的聚合读取吞吐量为6.6TiB/s;
  • 25节点集群中GraySort基准测试的吞吐量为3.66TiB/分钟;
  • 每个客户端节点的KVCache查找峰值吞吐量超过40GiB/s。

主要特点

  • 分布式架构:结合了数千个SSD的吞吐量和数百个存储节点的网络带宽,使应用程序能够以不受位置影响的方式访问存储资源。
  • 强一致性实现带:分配查询的链式复制 (CRAQ) 以实现强一致性,使应用程序代码简单易懂。
  • 文件接口:文件接口众所周知且随处可用,无需学习新的存储 API。

并且,3FS能够适用于大模型训练推理和过程中不同类型的应用负载:

  • 数据准备:将数据分析pipeline的输出重组成分层目录结构,并有效管理大量中间输出。
  • 数据加载器:通过跨计算节点随机访问训练样本,消除了预取或混洗数据集的需要。
  • Checkpoints:支持大规模训练的高吞吐量并行Checkpoints。
  • 用于推理的KV缓存:为基于DRAM的缓存提供了一种经济高效的替代方案,可提供高吞吐量和更大的容量。

7.Smallpond:轻量级数据处理框架(2025.02.28)

基于3FS和DuckDB构建的轻量级数据处理框架。


三、技术生态的协同效应与行业影响

DeepSeek开源周的技术布局形成了从底层计算到上层模型的完整闭环:

  1. 算力成本革命:通过FP8计算、MoE架构与通信优化,将千亿模型训练成本压缩至行业平均水平的1/10。
  2. 开发者生态激活:三大工具库遵循MIT协议开源,支持Hugging Face与主流云平台一键部署,衍生模型下载量突破1.8亿次。
  3. 产学研协同创新:与百度、阿里、华为云合作,推动模型在金融、交通等领域的快速落地,同时通过开源社区孵化细分领域专业模型。

四、未来展望:开源生态与AGI的协同演进

DeepSeek的开源战略不仅是技术共享,更是对通用人工智能(AGI)发展路径的探索:

  1. 技术透明化:通过开源通信库与计算内核,推动行业对MoE、FP8等前沿技术的共识与协作。
  2. 硬件-算法协同:针对Hopper架构的深度优化,预示未来AI计算将更紧密耦合专用硬件设计与算法创新。
  3. AGI基础构建:FlashMLA与DeepEP为长序列处理与分布式训练提供底层支持,加速复杂推理与多模态融合的AGI技术突破。

结语

DeepSeek开源周以技术硬实力回应了行业对其训练成本与性能的质疑,更通过工具链的全面开放重塑了AI开发范式。从FlashMLA的高效解码到DeepGEMM到DualPipe、EPLB的算力压榨,以及利用现代SSD和RDMA网络的全部带宽的并行文件系统3FS,这一系列开源项目不仅为开发者提供了高效工具,更为全球AI社区贡献了可复用的技术范式。在AGI的竞逐中,DeepSeek正以开源为刃,切割出一条技术民主化与生态协同的创新之路。

参考博客

  • (2025.02.24)刚刚,DeepSeek开源FlashMLA,瞬间破1000颗星

  • (2025.02.25)刚刚,DeepSeek开源DeepEP,公开大模型训练效率暴涨秘诀!

  • (2025.02.26)GPU效率暴涨!DeepSeek开源DeepGEMM,仅300行代码

  • (2025.02.27)DeepSeek开源优化并行策略,提升训练和通信效率-DualPipe、EPLB

  • (2025.02.28)DeepSeek第五弹炸裂收官!开源并行文件系统,榨干SSD全部带宽

相关文章:

【AGI】DeepSeek开源周:The whale is making waves!

DeepSeek开源周:The whale is making waves! 思维火花引言一、DeepSeek模型体系的技术演进1. 通用语言模型:DeepSeek-V3系列2. 推理优化模型:DeepSeek-R1系列3. 多模态模型:Janus系列 二、开源周三大工具库的技术解析1…...

CSS Selectors

当然,理解纯CSS选择器(CSS Selectors)对于进行UI自动化测试非常重要。CSS选择器允许您通过元素的属性、层级关系、类名、ID等来精准定位页面上的元素。下面我将详细讲解CSS选择器的常见用法,并结合您的需求提供具体的示例。 1. 基…...

Java Junit框架

JUnit 是一个广泛使用的 Java 单元测试框架,用于编写和运行可重复的测试。它是 xUnit 家族的一部分,专门为 Java 语言设计。JUnit 的主要目标是帮助开发者编写可维护的测试代码,确保代码的正确性和稳定性。 JUnit 的主要特点 注解驱动&…...

3-3 WPS JS宏 遍历文件名获取函数(遍历指定文件夹下的所有工作)学习笔记

************************************************************************************************************** 点击进入 -我要自学网-国内领先的专业视频教程学习网站 *******************************************************************************************…...

STM32CubeMx DRV8833驱动

一、DRV8833驱动原理 ​ STBY口接单片机的IO口,STBY置0电机全部停止,置1才能工作。STBY置1后通过AIN1、AIN2、BIN1、BIN2 来控制正反转。 AIN1AIN2电机状态00停止1speed反转speed1正转11停止 其中A端(AIN1与AIN2)只能控制AO1与…...

用Python之requests库调用大型语言模型(LLM)API的流式输出与非流式输出比较

文章目录 1. 非流式输出与流式输出概述2. 非流式输出2.1 代码实例12.2 代码实例2 3. 流式输出3.1 流式输出的定义和作用3.2 流式输出适用的场景3.3 流式输出的实现方式与实现技术3.4 代码实例33.5 代码实例4 4. 小结 1. 非流式输出与流式输出概述 大模型收到输入后并不是一次性…...

【Qt】ffmpeg照片提取、视频播放▲

目录 一、图像的成像原理: RGB成像原理: YUV成像原理: 二、多线程 三、ffmpeg解码(照片提取) 1.准备工作 (1)在工程文件夹里面新建三个文件夹 (2)在main函数中加…...

Vue+Elementui 全局配置el-table表格列宽可拖拽

1、需求分析 如何让表格列宽可以拖动 elementui的el-table如果想要列宽可以拖动的话 有一个属性叫 border 在模板里添加这个属性即可实现 但是系统里面的表格我不可能一个一个去添加border太麻烦 如果能够全局配置岂不是非常省时间吗 我们在main.js里面通过全局混入的方式来…...

SQL命令详解之增删改数据

目录 简介 1 添加数据 1.1 基础语法 1.2 SQL 练习 2 修改数据 2.1 基础语法 2.2 SQL 练习 ​3 删除数据 3.1 基础语法 3.2 SQL 练习 总结 简介 在数据库操作中,增、删、改是最基础的操作,它们通常对应着SQL中的INSERT、DELETE和UPDATE命令。…...

鸿蒙开发第4篇__关于在鸿蒙应用中使用Java语言进行设计

本博文对于鸿蒙APP程序员来说,很重要 HarmonyOS从 API8 开始不再支持使用Java作为开发语言,未来的新功能将在ArkTS中实现. API 8对应的是HarmonyOS 3.0.0版本, 2022年7月27日, 华为发布了HarmonyOS 3.0。 请看下图: 因此&#…...

Linux三种网络方式

前言 发现运维啥都得会,这周就遇到了网络问题自己无法解决,因此痛定思痛学一下。 参考文献 你管这破玩意叫网络? 桥接模式、NAT模式、仅主机模式,原来是这样工作的 交换机 构成局域网,实现所有设备之间的通信。 …...

计算机网络之传输层(传输层提供的服务)

一、可靠的数据传输 传输层提供可靠的数据传输服务,确保数据在传输过程中不丢失、不重复、不乱序,并且能够被正确接收。这通常通过面向连接的协议(如TCP)来实现,TCP通过确认、重传、序号等机制来保证数据传输的可靠性…...

Ubuntu 防火墙iptables和 ufw

文章目录 iptables 和 ufw 的区别Ubuntu 上使用 ufw 配置 iptables 和 ufw 的区别 iptables 和 ufw 是 Linux 系统中用于管理防火墙的工具,但它们的设计目标和使用方式有所不同。 iptables:功能强大,适合高级用户和复杂场景,但配…...

11天 -- Redis 中跳表的实现原理是什么?Redis 的 hash 是什么?Redis Zset 的实现原理是什么?

Redis 中跳表的实现原理是什么? Redis 中的跳表(Skip List)是一种基于有序链表的高效数据结构,通过在链表上增加多级索引来提高数据的查找效率。以下是 Redis 中跳表的实现原理: 1. 基本概念 节点结构:跳…...

JavaWeb——HTML

一、什么是HTML HTML(HyperText Markup Language):超文本标记语言 超文本:超越了文本的限制,比普通文本更强大。除了文字信息还可以定义图片,音频,视频等。标记语言:由标签构成的语言 HTML语言都是预定义好…...

Spring DIIoC

一.IoC 1.简介 什么是IoC?IoC,全称 Inversion of Control,控制反转。IoC是Spring的核心思想,Spring是⼀个“控制反转”的容器。 如果我们需要一个对象,正常来说我们是通过new一个对象,这个时候我们依赖的…...

【前端基础】Day 2 CSS层叠样式表

目录 1.CSS简历 2.CSS 基础选择器 2.1标签选择器 2.2类选择器 2.3 id选择器 2.4通配符选择器 2.5总结 3.CSS字体属性 字体属性总结 4.CSS文本属性 4.1颜色 4.2对齐文本 4.3装饰文本 4.4文本缩进 4.5行间距 4.6文本属性总结 5.CSS的引入方式 5.1内部样式表 …...

建易WordPress

建易WordPress是一家专业的WordPress建站服务提供商,专注于为企业和个人提供一站式的WordPress网站建设、维护、托管、运营推广以及搜索引擎优化(SEO)服务。 服务内容 1. 网站建设 提供模板建站和定制开发两种服务,满足不同客户的需求。模板建站价格为…...

计算机毕业设计SpringBoot+Vue.js汽车资讯网站(源码+文档+PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...

nuxt常用组件库html-validator、@nuxtjs/i18n、@nuxt/image、@unocss/nuxt使用解析

html-validator 主要用于自动验证nuxt服务器呈现的HTML(SSR和SSG),以检测可能导致水合错误的HTML常见问题,有助于减少水合错误,检测常见的可访问性错误。 安装 npx nuxilatest module add html-validator配置 若自动更新nuxt.config.ts配置文…...

Leetcode-最大矩形(单调栈)

一、题目描述 给定一个仅包含 0 和 1 、大小为 rows x cols 的二维二进制矩阵,找出只包含 1 的最大矩形,并返回其面积。 输入:matrix [["1","0","1","0","0"],["1","0&…...

Vue核心知识:动态路由实现完整方案

在Vue中实现动态路由,并结合后端接口和数据库表设计,是一个复杂的项目,需要多个技术栈和步骤的配合。以下将详细描述整个实现过程,包括数据库设计、后端接口设计、前端路由配置以及如何实现动态路由的功能。 目录 一、需求分析二…...

【Docker】使用Docker搭建-MySQL数据库服务

零、更换Docker镜像源 因为国内现在封锁了Docker默认拉取镜像的站点(DockerHub),而且国内大部分Docker镜像站已全部下线,导致现在很多朋友在拉取镜像的时候会出现无法拉取的现象,这时候就需要进行更换Docker镜像源。 可…...

DHCP配置和地址

DHCP:动态主机配置协议 DHCP系统组成 DHCP报文结构 DHCP报文类型 DHCP工作流程 DHCP租期更新 DHCP重绑定 自动保留IP 租期设置建议 IP地址释放 DHCP地址池 DHCP配置 DHCP接口地址池配置 DHCP全局地址池配置...

基于trl复现DeepSeek-R1的GRPO训练过程

1. 引入 huggingface开发了强化学习训练Transformer的库trl(参考3),借助这个trl,可以用来做GRPO的强化学习训练。魔搭ModelScope社区的文章(参考2)给出了基于Qwen基座模型Qwen2.5-0.5B-Instruct&#xff0…...

常用的 pip 命令

pip 是 Python 的包管理工具,可用于安装、卸载、更新和管理 Python 包。以下是一些常用的 pip 命令: 1. 安装包 安装最新版本的包 pip install package_namepackage_name 是你要安装的 Python 包的名称,例如 pip install requests 可以安装…...

基于C#的CANoe CLR Adapter开发指南

一、引言 CANoe 是一款广泛应用于汽车电子开发和测试的工具,它支持多种编程接口,方便开发者进行自定义扩展。CANoe CLR Adapter 允许我们使用 C# 语言与 CANoe 进行交互,充分利用 C# 的强大功能和丰富的类库。本文将详细介绍如何基于 C# 进行…...

eMMC安全简介

1. 引言 术语“信息安全”涵盖多种不同的设计特性。一般而言, 信息安全是指通过实践防止信息遭受未经授权的访问、使用、披露、中断、篡改、检查、记录或销毁。 信息安全的三大核心目标为 机密性(Confidentiality)、完整性(Integr…...

从零开始用react + tailwindcss + express + mongodb实现一个聊天程序(六) 导航栏 和 个人信息设置

1.导航栏(navbar) 在components下面 创建NavBar.jsx import { MessageSquare,Settings,User,LogOut} from "lucide-react" import {Link} from "react-router-dom" import { useAuthStore } from "../store/useAuthStore&qu…...

c#实现modbus rtu定时采集数据

以下是使用C#实现Modbus RTU定时采集数据的完整代码示例,包含定时任务、数据采集和异常处理: csharp 复制 using System; using System.IO.Ports; using System.Timers;public class ModbusRtuCollector : IDisposable {private readonly SerialPort _serialPort;private …...