【AGI】DeepSeek开源周:The whale is making waves!
DeepSeek开源周:The whale is making waves!
- 思维火花
- 引言
- 一、DeepSeek模型体系的技术演进
- 1. 通用语言模型:DeepSeek-V3系列
- 2. 推理优化模型:DeepSeek-R1系列
- 3. 多模态模型:Janus系列
- 二、开源周三大工具库的技术解析
- 1. FlashMLA:解码效率的极限突破(2025.02.24)
- 2. DeepEP:MoE通信范式的重构(2025.02.25)
- 3. DeepGEMM:矩阵计算的极致效率(2025.02.26)
- 4.DualPipe:双向流水线并行算法(2025.02.27)
- 5.EPLB:专家并行负载均衡器(2025.02.27)
- 6.Fire-Flyer文件系统(简称3FS):全带宽并行文件系统(2025.02.28)
- 7.Smallpond:轻量级数据处理框架(2025.02.28)
- 三、技术生态的协同效应与行业影响
- 四、未来展望:开源生态与AGI的协同演进
- 结语
- 参考博客
思维火花
- 当技术革命撕开营销泡沫,伪强者终将现形。
- 商业世界的残酷在于:当性价比悬殊到一定程度,情怀和营销都会沦为笑话
- 用户觉醒:从“营销幻觉”到“用脚投票”,市场理性的回归,市场的沉默,实则是用户对劣质产品的集体唾弃。
- 真正的竞争力来自底层创新,而非资本堆砌或营销炒作。
- 中国AI的未来,属于那些敢于撕破泡沫、用技术直面竞争的真实力量。至于沉默者,历史早已写下判词:要么进化,要么消亡。
引言
2025年2月24日至28日,DeepSeek通过“开源周”连续发布多个核心工具库FlashMLA、DeepEP和DeepGEMM以及DualPipe、EPLB、3FS、Smallpond,标志着其在人工智能领域从模型架构到计算底层的全栈技术开放。这一系列开源项目不仅展现了DeepSeek在模型性能优化与算力压榨上的极致追求,更通过技术民主化推动行业生态重构。本文将从专业视角解析DeepSeek的模型技术体系,并重点剖析开源周三大工具的技术价值与行业影响。
一、DeepSeek模型体系的技术演进
DeepSeek模型家族以通用语言模型、推理优化模型和多模态模型为核心,通过架构创新与工程优化实现性能突破:
1. 通用语言模型:DeepSeek-V3系列
- 架构创新:基于混合专家(MoE)架构,总参数量达671B,激活参数仅37B,显存消耗降低30%。
- 性能对标:在数学推理(MATH评测61.6 EM)与代码生成(HumanEval 65.2 Pass@1)任务中超越GPT-4o和Claude-3.5-Sonnet,生成速度达60 TPS。
- 工程突破:支持128K长上下文处理,并通过FP8混合精度训练优化显存效率。
2. 推理优化模型:DeepSeek-R1系列
- 强化学习驱动:通过纯强化学习(RL)实现复杂推理能力,无需监督微调,在编程任务(LiveCodeBench)中超越OpenAI o1。
- 思维链透明化:输出包含长达32K Token的推理过程,支持企业级透明化决策,R1-Distill系列通过知识蒸馏降低部署门槛。
3. 多模态模型:Janus系列
- 文生图SOTA:Janus-Pro-7B在GenEval评测中准确率达80%,超越DALL-E 3的61%,支持跨模态检索与动态视频生成。
二、开源周三大工具库的技术解析
1. FlashMLA:解码效率的极限突破(2025.02.24)
- 技术定位:专为Hopper架构GPU优化的多头潜在注意力(MLA)解码内核,针对变长序列与分页KV缓存设计。
- 性能优势:在H800 GPU上实现峰值580 TFLOPS计算吞吐量,内存带宽达3000GB/s,显著提升批量推理场景下的实时响应能力。
- 应用场景:适用于聊天机器人、翻译服务等低延迟需求场景,支持动态内存管理与多序列并行处理。
2. DeepEP:MoE通信范式的重构(2025.02.25)
- 核心功能:首个面向混合专家(MoE)模型的开源专家并行(EP)通信库,优化跨节点数据分发与合并操作。
- 创新设计:
- 低延迟算子:基于纯RDMA实现跨NVLink域与RDMA域的数据转发,最小化通信延迟。
- 计算-通信重叠:通过钩子(hook-based)方法实现通信与计算的异步执行,无需占用流式多处理器(SM)资源。
- 行业价值:使千亿参数MoE模型的训练成本降低50%,支持FP8调度以适配低精度计算需求。
3. DeepGEMM:矩阵计算的极致效率(2025.02.26)
- 技术突破:专注于FP8通用矩阵乘法(GEMM),代码仅300行,支持密集布局与MoE分组计算,在Hopper GPU上实现1350+ TFLOPS。
- 精度优化:采用CUDA核心两级累加方法,通过FP8批量乘法与高精度汇总结合,减少量化误差,性能超越英伟达CUTLASS 3.6达2.7倍。
- 部署优势:无需预编译,通过即时编译(JIT)动态生成最优内核,适配异构硬件环境。
4.DualPipe:双向流水线并行算法(2025.02.27)
-
核心目标:优化计算与通信的重叠效率,减少流水线气泡(Pipeline Bubble)。
-
双向重叠机制:与传统单向流水线(如1F1B或ZB1P)不同,DualPipe通过同时调度正向传播(Forward)和反向传播(Backward)的计算与通信阶段,实现两者的完全重叠。这种设计显著减少了因流水线阶段等待导致的空闲时间。
-
内存优化:尽管激活内存峰值增加1倍,但通过智能调度避免了显存溢出问题,适用于大规模分布式训练场景。
5.EPLB:专家并行负载均衡器(2025.02.27)
-
核心目标:解决混合专家(MoE)模型中专家负载不均导致的资源浪费和通信开销问题。
-
冗余专家策略:通过复制高负载专家,动态分配至不同GPU,平衡计算资源使用。例如,利用历史统计数据的移动平均值预测专家负载,生成专家复制与放置计划。
-
分组路由优化:将同一组专家尽量分配到同一计算节点,减少跨节点通信流量,进一步降低延迟。
-
开源工具支持:公开了eplb.py中的负载均衡算法实现,但具体的负载预测方法需用户结合场景自定义
6.Fire-Flyer文件系统(简称3FS):全带宽并行文件系统(2025.02.28)
3FS可以把固态硬盘的带宽性能利用到极致,表现出了惊人的速度:
- 180节点集群中的聚合读取吞吐量为6.6TiB/s;
- 25节点集群中GraySort基准测试的吞吐量为3.66TiB/分钟;
- 每个客户端节点的KVCache查找峰值吞吐量超过40GiB/s。
主要特点:
- 分布式架构:结合了数千个SSD的吞吐量和数百个存储节点的网络带宽,使应用程序能够以不受位置影响的方式访问存储资源。
- 强一致性实现带:分配查询的链式复制 (CRAQ) 以实现强一致性,使应用程序代码简单易懂。
- 文件接口:文件接口众所周知且随处可用,无需学习新的存储 API。
并且,3FS能够适用于大模型训练推理和过程中不同类型的应用负载:
- 数据准备:将数据分析pipeline的输出重组成分层目录结构,并有效管理大量中间输出。
- 数据加载器:通过跨计算节点随机访问训练样本,消除了预取或混洗数据集的需要。
- Checkpoints:支持大规模训练的高吞吐量并行Checkpoints。
- 用于推理的KV缓存:为基于DRAM的缓存提供了一种经济高效的替代方案,可提供高吞吐量和更大的容量。
7.Smallpond:轻量级数据处理框架(2025.02.28)
基于3FS和DuckDB构建的轻量级数据处理框架。
三、技术生态的协同效应与行业影响
DeepSeek开源周的技术布局形成了从底层计算到上层模型的完整闭环:
- 算力成本革命:通过FP8计算、MoE架构与通信优化,将千亿模型训练成本压缩至行业平均水平的1/10。
- 开发者生态激活:三大工具库遵循MIT协议开源,支持Hugging Face与主流云平台一键部署,衍生模型下载量突破1.8亿次。
- 产学研协同创新:与百度、阿里、华为云合作,推动模型在金融、交通等领域的快速落地,同时通过开源社区孵化细分领域专业模型。
四、未来展望:开源生态与AGI的协同演进
DeepSeek的开源战略不仅是技术共享,更是对通用人工智能(AGI)发展路径的探索:
- 技术透明化:通过开源通信库与计算内核,推动行业对MoE、FP8等前沿技术的共识与协作。
- 硬件-算法协同:针对Hopper架构的深度优化,预示未来AI计算将更紧密耦合专用硬件设计与算法创新。
- AGI基础构建:FlashMLA与DeepEP为长序列处理与分布式训练提供底层支持,加速复杂推理与多模态融合的AGI技术突破。
结语
DeepSeek开源周以技术硬实力回应了行业对其训练成本与性能的质疑,更通过工具链的全面开放重塑了AI开发范式。从FlashMLA的高效解码到DeepGEMM到DualPipe、EPLB的算力压榨,以及利用现代SSD和RDMA网络的全部带宽的并行文件系统3FS,这一系列开源项目不仅为开发者提供了高效工具,更为全球AI社区贡献了可复用的技术范式。在AGI的竞逐中,DeepSeek正以开源为刃,切割出一条技术民主化与生态协同的创新之路。
参考博客
-
(2025.02.24)刚刚,DeepSeek开源FlashMLA,瞬间破1000颗星
-
(2025.02.25)刚刚,DeepSeek开源DeepEP,公开大模型训练效率暴涨秘诀!
-
(2025.02.26)GPU效率暴涨!DeepSeek开源DeepGEMM,仅300行代码
-
(2025.02.27)DeepSeek开源优化并行策略,提升训练和通信效率-DualPipe、EPLB
-
(2025.02.28)DeepSeek第五弹炸裂收官!开源并行文件系统,榨干SSD全部带宽
相关文章:
【AGI】DeepSeek开源周:The whale is making waves!
DeepSeek开源周:The whale is making waves! 思维火花引言一、DeepSeek模型体系的技术演进1. 通用语言模型:DeepSeek-V3系列2. 推理优化模型:DeepSeek-R1系列3. 多模态模型:Janus系列 二、开源周三大工具库的技术解析1…...
Unity中动态切换光照贴图的方法
关键代码:LightmapSettings.lightmaps lightmapDatas; LightmapData中操作三张图:lightmapColor,lightmapDir,以及一张ShadowMap 这里只操作前两张: using UnityEngine; using UnityEngine.EventSystems; using UnityEngine.UI;public cl…...
第三十四:6.4.【v-model】
6.4.【v-model】:双向绑定 概述:实现 父↔子 之间相互通信。 前序知识 —— v-model的本质 <!-- 使用v-model指令 --> <input type"text" v-model"userName"> <!-- v-model的本质是下面这行代码 --> <inpu…...
React底层常见的设计模式
在React中,常见的设计模式为开发者提供了结构化和可重用的解决方案,有助于提高代码的可维护性和可扩展性。以下是对React中几种常见设计模式的详细解析,并附上示例代码和注释: 1. 容器组件与展示组件模式(Container/P…...
从零基础到通过考试
1. 学习资源与实践平台 使用Proving Grounds进行靶机练习 OSCP的备考过程中,实战练习占据了非常重要的地位。Proving Grounds(PG)是一个由Offensive Security提供的练习平台,拥有152个靶机,涵盖了从基础到进阶的多种…...
UniApp 按钮组件 open-type 属性详解:功能、场景与平台差异
文章目录 引言一、open-type 基础概念1.1 核心作用1.2 通用使用模板 二、主流 open-type 值详解2.1 contact - 客服会话功能说明平台支持代码示例 2.2 share - 内容转发功能说明平台支持注意事项 2.3 getUserInfo - 获取用户信息功能说明平台支持代码示例 2.4 getPhoneNumber -…...
【无标题】ABP更换MySql数据库
原因:ABP默认使用的数据库是sqlServer,本地没有安装sqlServer,安装的是mysql,需要更换数据库 ABP版本:9.0 此处以官网TodoApp项目为例 打开EntityFrameworkCore程序集,可以看到默认使用的是sqlServer&…...
大模型微调入门(Transformers + Pytorch)
目标 输入:你是谁? 输出:我们预训练的名字。 训练 为了性能好下载小参数模型,普通机器都能运行。 下载模型 # 方式1:使用魔搭社区SDK 下载 # down_deepseek.py from modelscope import snapshot_download model_…...
【开源免费】基于SpringBoot+Vue.JS网络海鲜市场系统(JAVA毕业设计)
本文项目编号 T 222 ,文末自助获取源码 \color{red}{T222,文末自助获取源码} T222,文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…...
在线会议时, 笔记本电脑的麦克风收音效果差是为什么
背景 最近在线面试. 使用腾讯会议或者飞书, 戴耳机参加在线面试, 遇到好几个面试官说我的音质不好. 一直没在意, 后来反思, 应该是电脑哪里出了问题. 排查 先买了一副品牌有线耳机, 测试后本地录制的声音仍然品质很差去掉耳机延长线后, 麦克风品质仍然很差最终找到答案, 原…...
理解文件系统
目录 文件系统 内存文件与磁盘文件的区别 初识inode 磁盘的概念 磁盘分区与格式化介绍 EXT2文件系统的存储方案 软硬链接 软连接 编辑 硬链接 软硬链接的区别 文件的三个时间 文件系统 内存文件与磁盘文件的区别 我们知道文件可以分为磁盘文件和内存文件&#…...
第二十四:5.2【搭建 pinia 环境】axios 异步调用数据
第一步安装:npm install pinia 第二步:操作src/main.ts 改变里面的值的信息: <div class"count"><h2>当前求和为:{{ sum }}</h2><select v-model.number"n"> // .number 这里是…...
Vue2+Element实现Excel文件上传下载预览【超详细图解】
目录 一、需求背景 二、落地实现 1.文件上传 图片示例 HTML代码 业务代码 2.文件下载 图片示例 方式一:代码 方式二:代码 3.文件预览 图片示例 方式一:代码 方式二:代码 一、需求背景 在一个愉快的年后ÿ…...
C# 装箱(Boxing)与拆箱(Unboxing)
C# 装箱(Boxing)与拆箱(Unboxing) 在 C# 中,装箱和拆箱是与值类型(如结构体)和引用类型(如类)之间的转换相关的操作。它们是类型系统的一部分,但如果不正确使…...
【AD】3-10 原理图PDF导出
文件—智能PDF 多页原理图导出 导出设置时选择工程,可自行选择导出一页或多页原理图,一般PCB不用导出...
SQL命令详解之增删改数据
目录 简介 1 添加数据 1.1 基础语法 1.2 SQL 练习 2 修改数据 2.1 基础语法 2.2 SQL 练习 3 删除数据 3.1 基础语法 3.2 SQL 练习 总结 简介 在数据库操作中,增、删、改是最基础的操作,它们通常对应着SQL中的INSERT、DELETE和UPDATE命令。…...
Docker 部署 MinIO 对象存储服务
Docker 部署 MinIO 对象存储服务 前言一、准备工作1. 安装 Docker2. 确认服务器架构 二、设置 MinIO 容器的目录结构三、启动一个临时的 MinIO 容器来获取配置文件四、复制 MinIO 配置文件到本地目录五、删除临时 MinIO 容器六、创建并运行 MinIO 容器,挂载本地目录…...
IP段转CIDR:原理Java实现
🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…...
翻译: 深入分析LLMs like ChatGPT 一
大家好,我想做这个视频已经有一段时间了。这是一个全面但面向普通观众的介绍,介绍像ChatGPT这样的大型语言模型。我希望通过这个视频让大家对这种工具的工作原理有一些概念性的理解。 首先,我们来谈谈你在这个文本框里输入内容并点击回车后背…...
springboot之HTML与图片生成
背景 后台需要根据字段动态生成HTML,并生成图片,发送邮件到给定邮箱 依赖 <!-- freemarker模板引擎--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-freemarker</artifa…...
【OSG学习笔记】Day 18: 碰撞检测与物理交互
物理引擎(Physics Engine) 物理引擎 是一种通过计算机模拟物理规律(如力学、碰撞、重力、流体动力学等)的软件工具或库。 它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互,广泛应用于 游戏开发、动画制作、虚…...
【位运算】消失的两个数字(hard)
消失的两个数字(hard) 题⽬描述:解法(位运算):Java 算法代码:更简便代码 题⽬链接:⾯试题 17.19. 消失的两个数字 题⽬描述: 给定⼀个数组,包含从 1 到 N 所有…...
2025盘古石杯决赛【手机取证】
前言 第三届盘古石杯国际电子数据取证大赛决赛 最后一题没有解出来,实在找不到,希望有大佬教一下我。 还有就会议时间,我感觉不是图片时间,因为在电脑看到是其他时间用老会议系统开的会。 手机取证 1、分析鸿蒙手机检材&#x…...
如何在最短时间内提升打ctf(web)的水平?
刚刚刷完2遍 bugku 的 web 题,前来答题。 每个人对刷题理解是不同,有的人是看了writeup就等于刷了,有的人是收藏了writeup就等于刷了,有的人是跟着writeup做了一遍就等于刷了,还有的人是独立思考做了一遍就等于刷了。…...
云原生玩法三问:构建自定义开发环境
云原生玩法三问:构建自定义开发环境 引言 临时运维一个古董项目,无文档,无环境,无交接人,俗称三无。 运行设备的环境老,本地环境版本高,ssh不过去。正好最近对 腾讯出品的云原生 cnb 感兴趣&…...
NXP S32K146 T-Box 携手 SD NAND(贴片式TF卡):驱动汽车智能革新的黄金组合
在汽车智能化的汹涌浪潮中,车辆不再仅仅是传统的交通工具,而是逐步演变为高度智能的移动终端。这一转变的核心支撑,来自于车内关键技术的深度融合与协同创新。车载远程信息处理盒(T-Box)方案:NXP S32K146 与…...
基于 TAPD 进行项目管理
起因 自己写了个小工具,仓库用的Github。之前在用markdown进行需求管理,现在随着功能的增加,感觉有点难以管理了,所以用TAPD这个工具进行需求、Bug管理。 操作流程 注册 TAPD,需要提供一个企业名新建一个项目&#…...
MacOS下Homebrew国内镜像加速指南(2025最新国内镜像加速)
macos brew国内镜像加速方法 brew install 加速formula.jws.json下载慢加速 🍺 最新版brew安装慢到怀疑人生?别怕,教你轻松起飞! 最近Homebrew更新至最新版,每次执行 brew 命令时都会自动从官方地址 https://formulae.…...
在 Spring Boot 项目里,MYSQL中json类型字段使用
前言: 因为程序特殊需求导致,需要mysql数据库存储json类型数据,因此记录一下使用流程 1.java实体中新增字段 private List<User> users 2.增加mybatis-plus注解 TableField(typeHandler FastjsonTypeHandler.class) private Lis…...
实战三:开发网页端界面完成黑白视频转为彩色视频
一、需求描述 设计一个简单的视频上色应用,用户可以通过网页界面上传黑白视频,系统会自动将其转换为彩色视频。整个过程对用户来说非常简单直观,不需要了解技术细节。 效果图 二、实现思路 总体思路: 用户通过Gradio界面上…...
