DeepSeek开源周Day5压轴登场:3FS与Smallpond,能否终结AI数据瓶颈之争?
2025年2月28日,DeepSeek开源周迎来了第五天,也是本次活动的收官之日。自2月24日启动以来,DeepSeek团队以每天一个开源项目的节奏,陆续向全球开发者展示了他们在人工智能基础设施领域的最新成果。今天,他们发布了Fire-Flyer File System(简称3FS)和配套的数据处理框架Smallpond。这两项工具专注于解决AI训练与推理中的数据访问和处理难题,以卓越的性能和简洁的设计,为开发者提供了一套经过生产环境验证的解决方案。
开源周回顾:五天五项成果
DeepSeek开源周从2月24日開始,每日推出一项新工具,逐步构建起一个覆盖AI开发核心环节的技术链条。以下是前四天的简要回顾:
-
Day 1:FlashMLA - FlashMLA是一个专为Hopper GPU优化的高效MLA解码内核,针对变长序列处理进行了深度优化。它支持BF16数据格式,配备分页KV缓存(块大小64),在H800上的性能表现尤为突出:内存绑定场景下达到3000 GB/s,计算绑定场景下达到580 TFLOPS。这一工具为需要快速解码的AI模型提供了强有力的支持。
-
Day 2:DeepEP - DeepEP是首个开源的EP通信库,专为MoE(Mixture of Experts)模型的训练和推理设计。它支持高效的全对全通信,覆盖节点内(通过NVLink)和节点间(通过RDMA)场景,提供了高吞吐量内核用于训练和推理预填充、低延迟内核用于推理解码,以及原生FP8分派支持。此外,DeepEP还具备灵活的GPU资源控制功能,可优化计算与通信的重叠,提升大规模分布式训练的效率。
-
Day 3:DeepGEMM - DeepGEMM是一个FP8 GEMM(通用矩阵乘法)库,支持密集和MoE两种GEMM计算,广泛应用于V3/R1模型的训练和推理。它的性能在Hopper GPU上可达1350+ FP8 TFLOPS,核心逻辑仅约300行代码,采用即时编译(JIT)技术,无需复杂依赖。这种简洁而高效的设计使其在多种矩阵规模下超越了专家调优的内核。
-
Day 4:优化并行策略 - 第四天发布了三项工具:DualPipe、EPLB和性能分析数据集。DualPipe是一种双向管道并行算法,优化了V3/R1训练中的计算-通信重叠;EPLB是一个专家并行负载均衡器,针对MoE模型提升资源利用率;配套的分析工具则提供了V3/R1训练中的计算-通信重叠数据。这些工具共同助力大规模模型训练的效率提升。
这四天的成果从GPU计算优化到通信效率,再到并行策略,展现了DeepSeek在AI基础设施领域的全面布局。而今天发布的3FS和Smallpond则将焦点转向数据存储与处理,完成了这一技术拼图的最后一块。
3FS:分布式文件系统的性能标杆
Fire-Flyer File System(3FS)是一个专为AI工作负载设计的高性能分布式文件系统。它充分利用现代SSD的高速存储能力和RDMA网络的低延迟特性,构建了一个兼具高吞吐量与强一致性的共享存储层。这一系统的核心目标是为分布式应用的开发提供简洁、高效的数据访问支持,解决AI开发中数据密集型任务的瓶颈。

设计与特性
3FS的设计围绕三大特点展开:
-
解耦架构:通过将存储与计算分离,3FS允许存储节点和计算节点独立扩展。这种设计结合了数千个SSD的吞吐量和数百个存储节点的网络带宽,使得应用程序可以以无视数据位置的方式访问存储资源。
-
强一致性:3FS采用CRAQ(Chain Replication with Apportioned Queries)机制,通过链式复制和分担查询确保数据在所有节点间保持一致。这种强一致性让开发者无需担心数据同步问题,简化了应用逻辑的编写。
-
标准文件接口:基于事务型键值存储(例如FoundationDB),3FS提供了无状态的元数据服务,支持标准的文件系统接口。开发者无需学习复杂的专用API,就能像操作本地文件系统一样使用3FS。
支持的工作负载
3FS能够无缝支持AI开发中的多种场景:
- 数据准备:高效组织和管理数据分析管道的输出,支持大规模中间数据的存储与访问。
- 数据加载:通过随机访问功能,允许多个计算节点并行加载训练样本,无需额外的预取或洗牌操作。
- 检查点管理:提供高吞吐量的并行检查点保存和加载功能,满足大规模训练的需求。
- KVCache推理:作为DRAM的成本效益替代方案,3FS为推理中的键值缓存(KVCache)提供高吞吐量和大容量支持,显著降低硬件成本。
性能表现
3FS的性能数据令人印象深刻:
-
在一个由180个存储节点组成的集群中,每个节点配备2个200Gbps InfiniBand网卡和16个14TiB NVMe SSD,3FS实现了6.6 TiB/s的聚合读取吞吐量。这一测试是在500多个客户端节点(每个配备1个200Gbps网卡)的压力下完成的,同时还承载了训练任务的背景流量。
-
在25节点集群的GraySort基准测试中,3FS支持110.5 TiB数据的排序任务,耗时30分14秒,平均吞吐量达到3.66 TiB/min。这一测试展示了其在大规模数据处理中的稳定性。
-
对于推理中的KVCache查找,单个客户端节点的峰值吞吐量可达40 GiB/s,配合高效的垃圾回收机制,确保了持续的高性能。
获取与使用
开发者可以通过3FS GitHub仓库获取源代码,仓库中包含详细的设计文档、部署指南和API参考。安装依赖包括libfuse、FoundationDB和Rust工具链,构建过程支持Ubuntu 20.04和22.04,具体步骤可在文档中找到。
Smallpond:轻量级数据处理框架
与3FS配套发布的是Smallpond,一个基于DuckDB和3FS构建的轻量级数据处理框架。它的目标是为PB级数据集提供高效、简便的处理工具,同时保持无长运行服务的设计理念,降低使用和维护的复杂性。

功能与优势
Smallpond结合了DuckDB的强大SQL查询能力和3FS的高性能存储,具备以下特点:
- 高性能处理:利用DuckDB的列式存储和向量化查询引擎,确保数据处理的高效性。
- 可扩展性:支持跨节点处理超大规模数据集,轻松应对AI训练所需的PB级数据。
- 易用性:提供类似pandas的Python API,开发者只需几行代码即可完成复杂的数据操作。
使用示例
Smallpond的简单性体现在其使用方式上。以下是一个典型的工作流程:
# 下载示例数据
wget https://duckdb.org/data/prices.parquet
import smallpond# 初始化会话
sp = smallpond.init()# 加载数据
df = sp.read_parquet("prices.parquet")# 数据分区与处理
df = df.repartition(3, hash_by="ticker")
df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df)# 保存与查看结果
df.write_parquet("output/")
print(df.to_pandas())
这段代码展示了从数据加载、分区、SQL查询到结果输出的完整过程,整个操作无需手动管理分布式环境,极大降低了开发门槛。
性能表现
Smallpond的性能同样经过严格测试。在GraySort基准测试中,它与3FS协作,在50个计算节点和25个存储节点的集群上,成功在30分14秒内完成了110.5 TiB数据的排序,平均吞吐量达到3.66 TiB/min。这一结果不仅验证了Smallpond的高效性,也展示了其与3FS无缝集成的能力。
获取与使用
Smallpond支持Python 3.8至3.12版本,安装只需运行pip install smallpond。开发者可通过Smallpond GitHub仓库获取源代码,并在文档中找到详细的入门指南和API参考。此外,Smallpond还提供了开发支持,例如单元测试和文档构建指南,方便社区参与改进。
2024 AI基础设施论文补充
除了本次开源周的成果,DeepSeek团队在2024年的SC24会议上发表了论文《Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning》,详细阐述了他们的软硬件协同设计理念。论文可在ACM链接或Arxiv链接查看,其中包含了对3FS等技术的理论分析和实现细节,为理解今日发布内容提供了更深的背景。
五天成果总结
DeepSeek开源周的五项发布共同构成了一个完整的AI基础设施生态:
- FlashMLA:高效的GPU解码内核,为变长序列处理提供极致性能。
- DeepEP:MoE模型通信库,优化分布式训练和推理的通信效率。
- DeepGEMM:高性能FP8 GEMM库,加速核心矩阵计算。
- 优化并行策略(DualPipe/EPLB):提升大规模模型训练的并行效率与负载均衡。
- 3FS与Smallpond:解决数据存储与处理的瓶颈,提供高吞吐量与易用性。
从计算优化到数据管理,这五项工具覆盖了AI开发的关键环节,每一项都经过生产环境验证,确保了实用性与可靠性。开发者可以通过各项目的GitHub仓库下载代码,亲自体验这些工具的强大功能。
结语
随着Day 5的发布,DeepSeek开源周画上了圆满的句号。3FS和Smallpond的亮相,不仅展示了DeepSeek在数据访问领域的深入探索,也为AI社区提供了一套高效实用的解决方案。如果你对这些项目感兴趣,不妨访问它们的GitHub仓库,下载代码,动手尝试。让我们共同见证AI技术的未来发展。
- https://mp.weixin.qq.com/s/ZHY8zEjaDQa9f5fEzFYDLw
相关文章:
DeepSeek开源周Day5压轴登场:3FS与Smallpond,能否终结AI数据瓶颈之争?
2025年2月28日,DeepSeek开源周迎来了第五天,也是本次活动的收官之日。自2月24日启动以来,DeepSeek团队以每天一个开源项目的节奏,陆续向全球开发者展示了他们在人工智能基础设施领域的最新成果。今天,他们发布了Fire-F…...
[密码学实战]Java实现SM2数字信封(结合SM4对称加密)生成与解析
一、代码运行结果 二、什么是数字信封 2.1 基本概念 数字信封(Digital Envelope) 是一种结合对称加密与非对称加密的混合加密技术,通过以下步骤实现高效安全的数据传输: 对称加密:使用SM4算法加密原始数据,处理速度快,适合大数据量。非对称加密:使用SM2公钥加密SM4密…...
redis序列化设置
redis序列化设置 redis序列化设置序列化对象里有org.joda.time.DateTime1)、报错内容如下2)、解决方案:分别自定义时间的序列化和反序列化,以对象形式关联到redisTemplate redis序列化设置 redis序列化设置,通过自定义…...
Sqlserver安全篇之_TLS的证书概念
证书的理解 参考Sqlserver的官方文档https://learn.microsoft.com/zh-cn/sql/database-engine/configure-windows/certificate-overview?viewsql-server-ver16 TLS(Transport Layer Security)传输层安全和SSL(Secure Sockets Layer)安全套接字层协议位于应用程序协议层和TCP/…...
【HarmonyOS Next】 鸿蒙应用useNormalizedOHMUrl详解
【HarmonyOS Next】 鸿蒙应用useNormalizedOHMUrl详解 一、useNormalizedOHMUrl是什么? useNormalizedOHMUrl指的是是否使用标准化OHMUrl拼接。 在开发过程中,需要根据不同的环境或配置动态生成 URL。例如,在加载一些远程模块或者资源时,…...
Oracle 查询表空间使用情况及收缩数据文件
本文介绍Oracle收缩数据文件的相关操作,运维工作中有时会需要通过收缩数据文件来释放磁盘空间。 数据文件初始化方式: 1.我们创建表空间一般有两种方式初始化其数据文件,即指定初始大小为32G(很大的值)或指定初始大小为…...
怎么进行mysql的优化?
MySQL 的优化是一个系统性的工作,涉及多个层面,包括查询优化、索引优化、配置优化、架构优化等。以下是一些常见的 MySQL 优化方法: 查询优化 避免全表扫描:确保查询能够使用索引,避免 SELECT *,只选择需要…...
docker-compose方式启动Kafka Sasl加密认证(无zk)
首先参考文档,思考过程可以进行参考https://juejin.cn/post/7294556533932884020#heading-3 用的镜像是Bitnami,对SASL配置进行了简化,需要按照特定格式去配置jass验证 完整配置如下 镜像版本参考:https://hub.docker.com/r/bitn…...
Grafana接入Zabbix数据源
1. 对接 Zabbix 1.1 安装 Zabbix 插件 在线安装: 1.2 配置 Zabbix 数据源 点击 Configuration > Data Sources > Add data source。选择 Zabbix,填写: URL:http://<zabbix-server>/api_jsonrpc.phpUsername&#x…...
华为在不同发展时期的战略选择(节选)
华为在不同发展时期的战略选择(节选) 添加图片注释,不超过 140 字(可选) 来源:谢宁专著《华为战略管理法:DSTE实战体系》。本文有节选修改。 导言 从目前所取得的成就往回看,华为…...
【计算机网络】TCP协议相关总结,TCP可靠性的生动讲解
TCP 可靠性 确保快递不丢、不乱、不过载 机制作用(快递类比)防止的问题检验和检查包裹是否损坏,损坏就重新发数据出错序列号给每个包裹编号,按顺序整理乱序、重复确认应答每送到一件,就让收件人签收丢失滑动窗口控制…...
lua基础语法学习
lua基础语法学习 文章目录 lua基础语法学习1. 基础2. 输入输出3. 分支结构与循环结构4. 函数5. 元表与元方法6. 面向对象 1. 基础 注释 --单行注释--[[ 多行注释 --]]标识符 标识符以一个字母 A 到 Z 或 a 到 z 或下划线 _ 开头后加上 0 个或多个字母,下划线&…...
【个人开发】deepspeed+Llama-factory 本地数据多卡Lora微调【完整教程】
文章目录 1.背景2.微调方式2.1 关键环境版本信息2.2 步骤2.2.1 下载llama-factory2.2.2 准备数据集2.2.3 微调模式2.2.3.1 zero-1微调2.2.3.2 zero-2微调2.2.3.3 zero-3微调2.2.3.4 单卡Lora微调 2.2.4 实验2.2.4.1 实验1:多GPU微调-zero12.2.4.2 实验2:…...
【SpringBoot】数据访问技术spring Data、 JDBC、MyBatis、JSR-303校验
Spring Boot 数据访问技术及特性 目录标题 Spring Boot 数据访问技术及特性摘要1. 引言2. Spring Data架构与原理2.1 Spring Data概述2.2 Spring Data核心组件2.3 Spring Boot与Spring Data的集成机制 3. Spring Boot与JDBC的整合3.1 JDBC整合流程3.2 数据源自动配置3.3 JdbcTe…...
手机放兜里,支付宝“碰一下”被盗刷?
大家好,我是小悟。 近期,网络上关于“支付宝‘碰一下’支付易被盗刷”的传言甚嚣尘上,不少用户对此心生疑虑。 首先,要明确一点:“碰一下”支付并不会像某些传言中所描述的那样容易被隔空盗刷。这一观点已经得到了支付…...
Java Web应用中获取客户端的真实IP地址
Java Web应用中获取客户端的真实IP地址,尤其在存在代理服务器的情况下。 代码示例: public static String getClientIP(HttpServletRequest request) {String ip = parseCommaSeparatedIPs(request.getHeader("X-Forwarded-For"));if (isInvalid(ip)) {ip = pars…...
vue框架后遗症∶被遗忘的dom操作
用多了vue、react等前端框架,不得不说用数据驱动视图来开发真的很香,但是也免不了会有不用这些框架的项目,dom操作还是很有必要的,一开始学习网页设计的时候就教过,后面一直开发项目基本上用框架。虽然有些想不起来了&…...
基于深度学习+NLP豆瓣电影数据爬虫可视化推荐系统
博主介绍:资深开发工程师,从事互联网行业多年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了多年的设计程序开发,开发过上千套设计程序,没有什么华丽的语言,只有…...
8. 示例:对32位数据总线实现位宽和值域覆盖
文章目录 前言示例一:示例二:示例三:仿真与覆盖率分析覆盖点详细说明覆盖率提升技巧常见错误排查 示例四:仿真步骤 前言 针对32位数据总线实现位宽和值域的覆盖,并且能够用xrun运行,查看日志和波形。cover…...
深度剖析Seata源码:解锁分布式事务处理的核心逻辑
文章目录 写在文章开头如何使用源码(配置转掉)基于AT模式详解Seata全链路流程Seata服务端启动本地服务如何基于GlobalTransaction注解开启事务客户端如何开启分布式事务RM和TC如何协调处理分支事务RM生成回滚日志事务全局提交与回滚小结参考写在文章开头 在当今分布式系统日益…...
快速列出MS Word中所有可用字体
Word中有很多字体,虽然在字体下拉列表中提供了字体的样例,但是并不全面,例如使用Batang字体的话,数字会显示成什么效果,就无法直观的看到。 打开Word应用程序,新建一个空白文档,按AltF11打开VBE…...
SpringDataJPA使用deleteAllInBatch方法逻辑删除失效
概述 在使用Spring Boot JPA时,执行批量删除操作时,遇到逻辑删除失效的问题。具体而言,当使用deleteAllInBatch方法时,数据会被物理删除,而不是进行逻辑删除;但是当使用deleteAll时,逻辑删除操…...
【密码学实战】Java 实现 SM2 国密算法(签名带id、验签及 C1C3C2 加密解密)
前言 SM2是中国国家密码管理局发布的椭圆曲线公钥密码算法标准(GB/T 32918),属于国密算法体系。与RSA和ECDSA相比,SM2在相同安全强度下密钥更短、计算效率更高。本文将介绍如何在Java中实现SM2的密钥生成、数字签名、验签、加密及…...
flex布局自定义一行几栏,靠左对齐===grid布局
模板 <div class"content"><div class"item">1222</div><div class"item">1222</div><div class"item">1222</div><div class"item">1222</div><div class"…...
Harmony os next~鸿蒙应用开发入门教程
鸿蒙应用开发入门教程 基础准备与环境搭建 1. 了解鸿蒙系统 1.1 核心理念学习 HarmonyOS(鸿蒙系统)是华为推出的全场景分布式操作系统,其核心特点如下: 分布式能力 设备协同:手机、平板、智能手表、IoT设备等可无…...
使用 Ansys Discovery 高效创建角焊缝
概括 Ansys Discovery 2024R1 中的焊缝功能是一项重大改进,旨在简化和精简工程模拟中焊缝的分配过程。此功能集成了间歇焊缝等高级工具和功能,以更直观、更高效的方式促进焊缝的准备和分配。 该功能为工程师提供了无缝的工作流程,以准备和分…...
Rk3568驱动开发_新字符设备驱动原理_7
1.申请设备号: 之前用的是register_chrdev(LED_MAJOR, LED_NAME, &led_fops);手动申请很不方便 使用alloc_chrdev_region函数申请设备号,手动申请的话要先查询是否有空余的设备号,很不方便,用此函数内核会自动将将空余设备号…...
ESP32-S3 42引脚 语音控制模块、设备运转展示 GOOUUU TECH 果云科技S3-N16R8 控制舵机 LED开关 直流电机
最近还是想玩了下esp32,基于原来的开发板,看见佬做了一个语音识别的项目,通过这个语音识别可以控制LED开关和直流电机这些,详情可见视频(推荐)具体硬件就在下方。 信泰微】ESP32-S3 42引脚 语音控制模块、…...
2025年光电科学与智能传感国际学术会议(ICOIS 2025)
重要信息 官网:www.ic-icois.org 时间:2025年3月14-16日 地点:中国-长春 简介 2025年光电科学与智能传感国际学术会议(ICOIS 2025)将于2025年3月14-16日在中国-长春隆重召开。会议将围绕“光学光电”、“智能传感”…...
高性能PHP框架webman爬虫引擎插件,如何爬取数据
文章精选推荐 1 JetBrains Ai assistant 编程工具让你的工作效率翻倍 2 Extra Icons:JetBrains IDE的图标增强神器 3 IDEA插件推荐-SequenceDiagram,自动生成时序图 4 BashSupport Pro 这个ides插件主要是用来干嘛的 ? 5 IDEA必装的插件&…...
