DeepSeek 202502 开源周合集
DeepSeek 本周的开源项目体现了其在 AI 技术栈中的深厚积累,从硬件协同优化(FlashMLA)、通信库(DeepEP)、核心计算(DeepGEMM)到推理模型(DeepSeek-R1),覆盖了模型开发和部署的多个关键环节。这些项目不仅展示了技术实力,也通过开源推动了 AI 社区的协作与创新。
DeepSeek 202502 开源周合集
- Day 1: FlashMLA
- Day 2: DeepEP
- Day 3: DeepGEMM
- Day 4: 优化并行策略
- 4.1 DualPipe
- 4.2 EPLB
- 4.3 Profile-Data
- Day 5: 3FS、用于所有 DeepSeek 数据访问的 Thruster
- 5.1 3FS(Fire-Flyer File System)
- 5.2 Smallpond
开源索引地址:https://github.com/deepseek-ai/open-infra-index
Day 1: FlashMLA
- 发布日期: 2025年2月24日
- GitHub 地址: deepseek-ai/FlashMLA
- 简介: FlashMLA 是 DeepSeek 开源周的首个项目,针对 NVIDIA Hopper GPU(如 H800)优化的高性能多头潜在注意力(Multi-head Latent Attention, MLA)解码内核。它通过利用 Hopper GPU 的高内存带宽(高达 3000 GB/s)和强大计算能力(580 TFLOPS),显著提升了 AI 模型在推理阶段的性能和可扩展性。FlashMLA 的设计特别适用于需要实时处理大量数据的场景,如医疗诊断、金融交易和自动驾驶系统。DeepSeek 通过开源这一项目,展示了其在硬件协同优化上的技术实力,并为开发者提供了一个高效的推理加速工具。
- 特点:
- 针对 Hopper GPU 的深度优化。
- 支持高吞吐量推理,提升模型部署效率。
- 开源以鼓励社区在此基础上进一步开发。
Day 2: DeepEP
- 发布日期: 2025年2月25日
- GitHub 地址: deepseek-ai/DeepEP
- 简介: DeepEP 是 DeepSeek 开源周第二天发布的项目,是首个针对 Mixture-of-Experts(MoE,专家混合模型)训练和推理优化的开源专家并行(Expert Parallelism, EP)通信库。随着 MoE 模型在 AI 中的广泛应用,高效的通信机制成为提升训练和推理性能的关键。DeepEP 支持节点内和节点间的 all-to-all 通信,利用 NVLink 和 RDMA 技术,提供高吞吐量的训练和预填充内核,以及低延迟的推理解码内核。它还原生支持 FP8 精度计算,进一步降低了计算成本。DeepEP 的开源填补了社区在 MoE 优化通信工具上的空白,为大规模分布式训练提供了强有力的支持。
- 特点:
- 专为 MoE 模型设计的高效通信库。
- 支持 FP8 精度,降低硬件需求。
- 通过通信-计算重叠技术提升系统性能。
Day 3: DeepGEMM
- 发布日期: 2025年2月26日
- GitHub 地址: deepseek-ai/DeepGEMM
- 简介: DeepGEMM 是 DeepSeek 开源周第三天发布的项目,旨在通过约 300 行精简代码实现高效的矩阵乘法(General Matrix Multiply, GEMM),展示如何突破 AI 计算能力的瓶颈。GEMM 是深度学习中的核心操作,广泛用于神经网络的训练和推理。DeepGEMM 的实现不仅高效,还极具可读性和可移植性,为开发者提供了一个轻量级的优化模板。这一项目体现了 DeepSeek 在算法和计算优化上的深厚功底,同时通过开源降低了技术门槛,让更多人能够参与到高性能计算的实践中。
- 特点:
- 仅 300 行代码实现高性能 GEMM。
- 简洁高效,易于理解和修改。
- 适用于多种 AI 计算场景,提升计算效率。
这些内容直接引用并适配了您提供的 Day 4 数据,并参考了 FlashMLA 的格式。
Day 4: 优化并行策略
4.1 DualPipe
- 发布日期: 2025年2月27日
- GitHub 地址: deepseek-ai/DualPipe
- 简介: DualPipe 是 DeepSeek 开源周第四天发布的核心项目之一,是一种为 V3/R1 训练设计的双向流水线并行算法。它通过创新的双向数据流设计,实现了前向和后向计算与通信的高效重叠,显著减少了流水线中的“气泡”(bubble)并提升了计算吞吐量。DualPipe 特别适用于超大规模模型训练(参数量从数百亿到万亿级别),通过优化计算-通信重叠解决了跨节点通信的瓶颈问题。DeepSeek 通过开源 DualPipe,展示了其在并行策略上的技术突破,为开发者提供了一个高效的训练加速工具。
- 特点:
- 针对 V3/R1 架构的深度优化,双向流水线提升效率。
- 支持计算与通信完全重叠,减少训练时间。
- 开源以推动社区在超大规模模型训练中的创新。
4.2 EPLB
- 发布日期: 2025年2月27日
- GitHub 地址: deepseek-ai/eplb
- 简介: EPLB(Expert Parallel Load Balancer)是 DeepSeek 开源周第四天发布的第二个项目,是为 V3/R1 模型设计的专家并行负载均衡器。它针对 Mixture-of-Experts(MoE)模型训练中常见的“热点专家”问题,通过实时监控和动态任务分配实现了高效的负载均衡。EPLB 在万卡集群(如 10,000 GPU)中将整体利用率提升至 92% 以上,有效避免了资源空闲。这一技术的开源为 MoE 模型的高效分布式训练提供了关键支持,展示了 DeepSeek 在大规模并行计算优化上的领先能力。
- 特点:
- 针对 MoE 模型的专家并行优化,动态负载均衡。
- 支持超大规模集群,提升资源利用率。
- 开源以鼓励社区开发更高效的分布式训练方案。
4.3 Profile-Data
- 发布日期: 2025年2月27日
- GitHub 地址: deepseek-ai/profile-data
- 简介: Profile-Data 是 DeepSeek 开源周第四天发布的第三个项目,提供了一个分析 V3/R1 训练中计算-通信重叠的工具和数据集。它基于 DeepSeek 的时空效率模型,针对 3D 并行(数据并行、流水线并行、张量并行)提供详细的性能剖析数据,帮助开发者精确识别计算与通信之间的冲突点。Profile-Data 支持多种并行配置(如 EP64、TP1、4K 序列长度),并为超大规模模型训练提供了调优基准。DeepSeek 通过开源这一工具,助力开发者优化训练策略,提升集群效率。
- 特点:
- 针对 V3/R1 的计算-通信重叠分析,优化训练性能。
- 支持开发者定位性能瓶颈,提供调优参考。
- 开源以促进社区在并行训练分析上的进一步研究。
Day 5: 3FS、用于所有 DeepSeek 数据访问的 Thruster
5.1 3FS(Fire-Flyer File System)
- 发布日期: 2025年2月28日
- GitHub 地址: deepseek-ai/3FS
- 简介: 3FS(Fire-Flyer File System)是 DeepSeek 开源周第五天发布的核心项目,是一个高性能并行文件系统,充分利用现代 SSD 和 RDMA 网络的全部带宽。它在 180 节点集群中实现了 6.6 TiB/s 的聚合读取吞吐量,在 25 节点集群的 GraySort 基准测试中达到 3.66 TiB/min 的吞吐量,并为 KVCache 查找提供超过 40 GiB/s 的峰值性能。3FS 采用解耦架构并保证强一致性,专为 AI 工作负载设计,支持训练数据预处理、数据集加载、检查点保存/加载、嵌入向量搜索及 V3/R1 推理中的 KVCache 查找等场景。DeepSeek 通过开源 3FS,展示了其在分布式存储上的技术突破,为开发者提供了一个高效的数据访问加速引擎。
- 特点:
- 针对现代 SSD 和 RDMA 网络的深度优化。
- 高吞吐量和低延迟,支持大规模 AI 数据访问。
- 开源以推动社区在 AI 基础设施上的创新。
5.2 Smallpond
- 发布日期: 2025年2月28日
- GitHub 地址: deepseek-ai/smallpond
- 简介: Smallpond 是 DeepSeek 开源周第五天发布的配套项目,是基于 3FS 的数据处理框架。它充分利用 3FS 的高性能并行文件系统能力,简化了大规模数据处理任务的设计与实现。Smallpond 在分布式环境下支持高效的数据预处理、分片和排序等操作,例如在 25 节点集群上以 3.66 TiB/min 的吞吐量完成 GraySort 基准测试。它的设计特别适合 AI 训练和推理中的数据管道需求,与 3FS 无缝集成,为开发者提供了一个轻量但强大的工具。DeepSeek 通过开源 Smallpond,进一步扩展了 3FS 的应用生态,帮助加速 AGI 数据处理流程。
- 特点:
- 针对 3FS 优化的高效数据处理框架。
- 支持分布式数据管道,提升预处理效率。
- 开源以鼓励社区在此基础上开发数据密集型应用。
相关文章:

DeepSeek 202502 开源周合集
DeepSeek 本周的开源项目体现了其在 AI 技术栈中的深厚积累,从硬件协同优化(FlashMLA)、通信库(DeepEP)、核心计算(DeepGEMM)到推理模型(DeepSeek-R1),覆盖了…...

springai系列(二)从0开始搭建和接入azure-openai实现智能问答
文章目录 前言1.从0开始搭建项目2.进入微软openai申请key3.配置application.yaml4.编写controller5.测试源码下载地址总结 前言 之前使用openai的官网的api需要科学上网,但是我们可以使用其他的代理间接实现使用chatgpt的相关模型,解决这个问题。比如:本…...

Apache部署Vue操作手册(SSL部分)
1. Apache配置(windows版本) 1.1 httpd.conf 配置 找到apache配置文件 httpd.conf,将下面两条文件的注释#去掉,如果没搜到就新增这两条配置。一个是开启ssl模块,一个是引用专门的ssl配置文件。 LoadModule ssl_modu…...
人类驾驶的人脑两种判断模式(反射和预判)-->自动驾驶两种AI模式
一种模式是直觉模式,判断是基于条件反射,视觉感知 触发到 直接条件反射(从经历中沉淀形成的神经信息闭环),类似现在自动驾驶技术的传统AI模式。 另一种模式是物理时空图式推理模式,判断是基于预判预测&…...
Docker和K8S中pod、services、container的介绍和关系
在容器化技术中,Docker、Kubernetes(K8S)、Pod、Service 和 Container 是核心概念,理解它们的关系对构建和管理现代应用至关重要。以下是详细的分步解释: 1. 核心概念定义 (1) Container(容器)…...

【uniapp】在UniApp中实现持久化存储:安卓--生成写入数据为jsontxt
在移动应用开发中,数据存储是一个至关重要的环节。对于使用UniApp开发的Android应用来说,缓存(Cache)是一种常见的数据存储方式,它能够提高应用的性能和用户体验。然而,缓存数据在用户清除缓存或清除应用数…...

DeepSeek-R1本地部署保姆级教程
一、DeepSeek-R1本地部署配置要求 (一)轻量级模型 ▌DeepSeek-R1-1.5B 内存容量:≥8GB 显卡需求:支持CPU推理(无需独立GPU) 适用场景:本地环境验证测试/Ollama集成调试 (二&a…...
Python常见面试题的详解25
1. 什么是 MD5 加密,有什么特点 要点 定义:MD5 是一种广泛应用的哈希函数,它能够把任意长度的输入数据经过特定算法处理,转化为长度固定为 128 位的哈希值,通常以 32 位十六进制字符串的形式呈现,主要用于验…...

DeepSeek赋能大模型内容安全,网易易盾AIGC内容风控解决方案三大升级
在近两年由AI引发的生产力革命的背后,一场关乎数字世界秩序的攻防战正在上演:AI生成的深度伪造视频导致企业品牌声誉损失日均超千万,批量生成的侵权内容使版权纠纷量与日俱增,黑灰产利用AI技术持续发起欺诈攻击。 与此同时&#…...

阿里开源正式开园文生视频、图生视频模型-通义万相 WanX2.1
简介 发布时间与背景 通义万相 Wan2.1 模型于 2025年1月 发布,并迅速登顶视频生成领域权威评测 Vbench 的榜首,超越了包括 Sora、HunyuanVideo、Minimax 等国内外知名模型,并于这周开源。它是阿里云在 AI 视频生成领域的最新成果࿰…...
【Python爬虫(73)】用Python爬虫开启交通数据宝藏,畅行出行未来
【Python爬虫】专栏简介:本专栏是 Python 爬虫领域的集大成之作,共 100 章节。从 Python 基础语法、爬虫入门知识讲起,深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑,覆盖网页、图片、音频等各类数据爬取,还涉及数据处理与分析。无论是新手小白还是进阶开发…...

和鲸科技携手四川气象,以 AI 的力量赋能四川气象一体化平台建设
气象领域与农业、能源、交通、环境科学等国计民生关键领域紧密相连,发挥着不可替代的重要作用。人工智能技术的迅猛发展,为气象领域突破困境带来了新的契机。AI 技术能够深度挖掘气象大数据中蕴含的复杂信息,助力人类更精准地把握自然规律&am…...
spring boot 2.7 + seata +微服务 降级失败问题修复
文章引流 一个简单而使用的API管理工具 版本号 spring boot 2.7.17 spring-cloud-dependencies 2021.0.8 spring-cloud-circuitbreaker-resilience4j 2.1.7 spring-cloud-starter-alibaba-seata 2021.1 jdk 1.8原因分析 未配置属性 feign.circuitbreaker.enabledtrue # 未…...

python-leetcode-最长公共子序列
1143. 最长公共子序列 - 力扣(LeetCode) class Solution:def longestCommonSubsequence(self, text1: str, text2: str) -> int:m, n len(text1), len(text2)dp [[0] * (n 1) for _ in range(m 1)]for i in range(1, m 1):for j in range(1, n …...
centos 7 停更后如何升级kernel版本 —— 筑梦
centos 6/7 内核升级(bios/uefi两种引导方式) —— 筑梦之路_centos7 更新efi-CSDN博客 此处主要说明kernel rpm离线包可以从哪里下载,安装升级参考之前的文章 # 历史kernel版本rpm包http://mirrors.coreix.net/elrepo-archive-archive/kernel/el7/x86_64/RPMS/…...
WPF-3天快速WPF入门并达到企业级水准
嘿,小伙伴们!如果你已经有一定的C#开发基础,但想快速掌握WPF开发,达到企业级水准,那接下来的这个三天快速入门计划绝对适合你!虽然听起来有点挑战,但别担心,只要跟着这个高强度、结构…...
爬虫反爬:CSS位置偏移反爬案例分析与实战案例
文章目录 1. 反爬机制概述2. 反爬原理3. 案例分析4. 破解思路5. 实战样例样例1:使用Python和Selenium破解CSS位置偏移反爬样例2:电商网站商品列表CSS位置偏移反爬破解 6. 总结 1. 反爬机制概述 CSS位置偏移反爬是一种常见的反爬虫技术,通过C…...

Ubuntu20.04安装Redis
目录 切换到root用户 使用 apt install redis 安装redis 修改配置文件 编辑 重新启动服务器 使用Redis客户端连接服务器 切换到root用户 如果没有切换到root用户的,切换到root用户。 使用 apt install redis 安装redis 遇到y/n直接y即可。 redis安装好之…...

Ubuntu 22.04 安装Nvidia驱动加速deepseek
一键安装22.04 nvidia 驱动 nvidia 官网下载驱动我的环境是NVIDIA RTX A5000nvidia 文档参考没有安装驱动之前确认自己的型号 lspci | grep -i vga (如数字2231) 参考docker 支持nvidia ,注释了需要的取消注释即可 42行-92行一定要重启服务器…...
OkHttp、Retrofit、RxJava:一文讲清楚
一、okHttp的同步和异步请求 Call 是 OkHttp 的核心接口,代表一个已准备好执行的 HTTP 请求。它支持 同步 和 异步 两种模式: enqueue——>okHttp异步 OkHttpClient client new OkHttpClient();Request request new Request.Builder().url("…...

IDEA运行Tomcat出现乱码问题解决汇总
最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…...
vscode里如何用git
打开vs终端执行如下: 1 初始化 Git 仓库(如果尚未初始化) git init 2 添加文件到 Git 仓库 git add . 3 使用 git commit 命令来提交你的更改。确保在提交时加上一个有用的消息。 git commit -m "备注信息" 4 …...

日语AI面试高效通关秘籍:专业解读与青柚面试智能助攻
在如今就业市场竞争日益激烈的背景下,越来越多的求职者将目光投向了日本及中日双语岗位。但是,一场日语面试往往让许多人感到步履维艰。你是否也曾因为面试官抛出的“刁钻问题”而心生畏惧?面对生疏的日语交流环境,即便提前恶补了…...

智慧医疗能源事业线深度画像分析(上)
引言 医疗行业作为现代社会的关键基础设施,其能源消耗与环境影响正日益受到关注。随着全球"双碳"目标的推进和可持续发展理念的深入,智慧医疗能源事业线应运而生,致力于通过创新技术与管理方案,重构医疗领域的能源使用模式。这一事业线融合了能源管理、可持续发…...

vscode(仍待补充)
写于2025 6.9 主包将加入vscode这个更权威的圈子 vscode的基本使用 侧边栏 vscode还能连接ssh? debug时使用的launch文件 1.task.json {"tasks": [{"type": "cppbuild","label": "C/C: gcc.exe 生成活动文件"…...
TRS收益互换:跨境资本流动的金融创新工具与系统化解决方案
一、TRS收益互换的本质与业务逻辑 (一)概念解析 TRS(Total Return Swap)收益互换是一种金融衍生工具,指交易双方约定在未来一定期限内,基于特定资产或指数的表现进行现金流交换的协议。其核心特征包括&am…...

2025盘古石杯决赛【手机取证】
前言 第三届盘古石杯国际电子数据取证大赛决赛 最后一题没有解出来,实在找不到,希望有大佬教一下我。 还有就会议时间,我感觉不是图片时间,因为在电脑看到是其他时间用老会议系统开的会。 手机取证 1、分析鸿蒙手机检材&#x…...

【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)
🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...

WordPress插件:AI多语言写作与智能配图、免费AI模型、SEO文章生成
厌倦手动写WordPress文章?AI自动生成,效率提升10倍! 支持多语言、自动配图、定时发布,让内容创作更轻松! AI内容生成 → 不想每天写文章?AI一键生成高质量内容!多语言支持 → 跨境电商必备&am…...
OpenLayers 分屏对比(地图联动)
注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能,和卷帘图层不一样的是,分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...