当前位置：首页 > news >正文

DeepSeek开源周首日：发布大模型加速核心技术可变长度高效FlashMLA 加持H800算力解码性能狂飙升至3000GB/s

news 2025/11/21 22:26:04

FlashMLA的核心技术特性包括对BF16精度的全面支持，以及采用块大小为64的页式键值缓存（Paged KV Cache）系统，实现更精确的内存管理。在性能表现方面，基于CUDA12.6平台，FlashMLA在H800SXM5GPU上创下了显著成绩:在内存受限场景下达到3000GB/s的处理速度，在计算受限场景下则实现580TFLOPS的算力水平。

1. 核心功能与特性

性能提升
FlashMLA在H800 SXM5 GPU（CUDA 12.6）上表现亮眼：
- 内存受限场景下带宽达3000 GB/s
- 计算受限场景下算力峰值达580 TFLOPS（BF16精度）
关键技术优化
- 变长序列处理：针对自然语言处理中的动态序列长度优化，提升长文本推理效率。
- 分页KV缓存：块大小为64的分页机制，减少显存碎片化，提升内存利用率。
- BF16支持：通过低精度计算降低内存占用，同时保持模型性能。
MLA架构创新
相比传统注意力机制，MLA通过低秩压缩技术将每次查询的KV缓存量减少93.3%，显著降低推理时的显存需求，尤其适合长上下文场景。

2. 技术背景与意义

解决行业痛点
Transformer模型在长序列推理时面临KV缓存膨胀问题，导致显存占用高、硬件成本攀升。FlashMLA通过MLA架构和并行解码设计，将推理成本降低约80-90%，同时支持更高吞吐量
开源生态价值
FlashMLA开源代码库（GitHub链接）整合了FlashAttention-2/3和CUTLASS的技术实现，为开发者提供可复现的优化方案，加速AGI技术迭代。

3. 应用场景与部署

适用场景
- 大语言模型（LLM）推理加速，如对话AI、实时翻译、长文本生成等。
- 需要低延迟、高吞吐的工业级NLP任务。
部署要求
- 硬件：Hopper架构GPU（如H800/H100）
- 软件：CUDA 12.3+、PyTorch 2.0+

4. 对行业的影响

成本革命
DeepSeek通过MLA技术将模型训练和推理成本压缩至行业标杆水平。例如，其V3模型的训练成本仅600万美元（未含研发投入），而MLA的推理优化进一步降低商业化门槛。
算力效率提升
结合MoE（混合专家模型）架构和多Token预测技术，DeepSeek在单位算力下实现更高性能，推动行业从“堆算力”向“优化算法”转型。
开源竞争格局
此次开源被视为对Meta Llama、Mistral等项目的直接挑战，可能加速闭源与开源模型的性能差距缩小。

FlashMLA的发布标志着DeepSeek在高效计算领域的技术领先地位，其开源策略或将重塑大模型开发范式，推动更多低成本、高性能AI应用的涌现。

5.快速开始

安装

可以使用以下命令进行安装：

python setup.py install

基准测试

运行以下命令进行基准测试：

python tests/test_flash_mla.py

使用示例

在Python中可以这样使用：

from flash_mla import get_mla_metadata, flash_mla_with_kvcachetile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)for i in range(num_layers):...o_i, lse_i = flash_mla_with_kvcache(q_i, kvcache_i, block_table, cache_seqlens, dv,tile_scheduler_metadata, num_splits, causal=True,)...

6.核心代码的详细解释

以下是对 FlashMLA/flash_mla/flash_mla_interface.py 文件中：

`get_mla_metadata` 函数

def get_mla_metadata(cache_seqlens: torch.Tensor,num_heads_per_head_k: int,num_heads_k: int,
) -> Tuple[torch.Tensor, torch.Tensor]:"""Arguments:cache_seqlens: (batch_size), dtype torch.int32.num_heads_per_head_k: Equals to seq_len_q * num_heads_q // num_heads_k.num_heads_k: num_heads_k.Return:tile_scheduler_metadata: (num_sm_parts, TileSchedulerMetaDataSize), dtype torch.int32.num_splits: (batch_size + 1), dtype torch.int32."""return flash_mla_cuda.get_mla_metadata(cache_seqlens, num_heads_per_head_k, num_heads_k)

功能：该函数用于获取MLA（Multi-Head Attention）的元数据。
参数：
- cache_seqlens：一个形状为 (batch_size) 的 torch.Tensor，数据类型为 torch.int32，表示缓存的序列长度。
- num_heads_per_head_k：整数类型，其值等于 seq_len_q * num_heads_q // num_heads_k。
- num_heads_k：整数类型，表示 num_heads_k 的值。
返回值：
- tile_scheduler_metadata：形状为 (num_sm_parts, TileSchedulerMetaDataSize) 的 torch.Tensor，数据类型为 torch.int32。
- num_splits：形状为 (batch_size + 1) 的 torch.Tensor，数据类型为 torch.int32。
实现细节：该函数直接调用 flash_mla_cuda 模块中的 get_mla_metadata 函数，并将输入参数传递给它，然后返回该函数的结果。

`flash_mla_with_kvcache` 函数

def flash_mla_with_kvcache(q: torch.Tensor,k_cache: torch.Tensor,block_table: torch.Tensor,cache_seqlens: torch.Tensor,head_dim_v: int,tile_scheduler_metadata: torch.Tensor,num_splits: torch.Tensor,softmax_scale: Optional[float] = None,causal: bool = False,
) -> Tuple[torch.Tensor, torch.Tensor]:"""Arguments:q: (batch_size, seq_len_q, num_heads_q, head_dim).k_cache: (num_blocks, page_block_size, num_heads_k, head_dim).block_table: (batch_size, max_num_blocks_per_seq), torch.int32.cache_seqlens: (batch_size), torch.int32.head_dim_v: Head_dim of v.tile_scheduler_metadata: (num_sm_parts, TileSchedulerMetaDataSize), torch.int32, return by get_mla_metadata.num_splits: (batch_size + 1), torch.int32, return by get_mla_metadata.softmax_scale: float. The scaling of QK^T before applying softmax. Default to 1 / sqrt(head_dim).causal: bool. Whether to apply causal attention mask.Return:out: (batch_size, seq_len_q, num_heads_q, head_dim_v).softmax_lse: (batch_size, num_heads_q, seq_len_q), torch.float32."""if softmax_scale is None:softmax_scale = q.shape[-1] ** (-0.5)out, softmax_lse = flash_mla_cuda.fwd_kvcache_mla(q,k_cache,None,head_dim_v,cache_seqlens,block_table,softmax_scale,causal,tile_scheduler_metadata,num_splits,)return out, softmax_lse

功能：该函数用于执行带有键值缓存（KVCache）的MLA操作。
参数：
- q：形状为 (batch_size, seq_len_q, num_heads_q, head_dim) 的 torch.Tensor，表示查询张量。
- k_cache：形状为 (num_blocks, page_block_size, num_heads_k, head_dim) 的 torch.Tensor，表示键缓存张量。
- block_table：形状为 (batch_size, max_num_blocks_per_seq) 的 torch.Tensor，数据类型为 torch.int32，表示块表。
- cache_seqlens：形状为 (batch_size) 的 torch.Tensor，数据类型为 torch.int32，表示缓存的序列长度。
- head_dim_v：整数类型，表示 v 的头维度。
- tile_scheduler_metadata：形状为 (num_sm_parts, TileSchedulerMetaDataSize) 的 torch.Tensor，数据类型为 torch.int32，由 get_mla_metadata 函数返回。
- num_splits：形状为 (batch_size + 1) 的 torch.Tensor，数据类型为 torch.int32，由 get_mla_metadata 函数返回。
- softmax_scale：可选的浮点数，表示在应用softmax之前对 QK^T 进行缩放的比例，默认为 1 / sqrt(head_dim)。
- causal：布尔类型，表示是否应用因果注意力掩码，默认为 False。
返回值：
- out：形状为 (batch_size, seq_len_q, num_heads_q, head_dim_v) 的 torch.Tensor，表示输出张量。
- softmax_lse：形状为 (batch_size, num_heads_q, seq_len_q) 的 torch.Tensor，数据类型为 torch.float32，表示softmax的对数和指数（LogSumExp）。
实现细节：
- 如果 softmax_scale 未提供，则将其设置为 q 张量最后一个维度的平方根的倒数。
- 调用 flash_mla_cuda 模块中的 fwd_kvcache_mla 函数，传递相应的参数，并将返回的结果赋值给 out 和 softmax_lse。
- 最后返回 out 和 softmax_lse。

这些函数主要是作为Python接口，调用底层的CUDA实现（flash_mla_cuda 模块）来完成MLA操作和元数据的获取。

DeepSeek开源周首日：发布大模型加速核心技术可变长度高效FlashMLA 加持H800算力解码性能狂飙升至3000GB/s

FlashMLA的核心技术特性包括对BF16精度的全面支持，以及采用块大小为64的页式键值缓存（Paged KV Cache）系统，实现更精确的内存管理。在性能表现方面，基于CUDA12.6平台，FlashMLA在H800SXM5GPU上创下了显著成绩…...

编程日记 2025/2/27 21:11:50

易语言模拟真人鼠标轨迹算法 - 防止游戏检测

一.简介鼠标轨迹算法是一种模拟人类鼠标操作的程序，它能够模拟出自然而真实的鼠标移动路径。鼠标轨迹算法的底层实现采用C/C语言，原因在于C/C提供了高性能的执行能力和直接访问操作系统底层资源的能力。鼠标轨迹算法具有以下优势： 模拟…...

编程日记 2025/2/27 21:08:41

DeepSeek 提示词：基础结构

🧑 博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编…...

编程日记 2025/2/27 21:04:34

文件系统

目录 1.认识磁盘磁盘的物理结构 CHS定位法磁盘的逻辑结构 2.认识文件系统 inode 分区和分组磁盘上的文件系统 3.软硬链接软链接软链接的操作创建软链接查看软链接删除软链接软链接的特点软链接的使用场景硬链接硬链接的操作创建硬链接查看硬…...

编程日记 2025/2/27 21:01:28

力扣LeetCode：1472 设计浏览器历史记录

题目： 你有一个只支持单个标签页的浏览器 ，最开始你浏览的网页是 homepage ，你可以访问其他的网站 url ，也可以在浏览历史中后退 steps 步或前进 steps 步。请你实现 BrowserHistory 类： BrowserHistory(string h…...

编程日记 2025/2/27 20:58:25

【FL0091】基于SSM和微信小程序的社区二手物品交易小程序

🧑‍💻博主介绍🧑‍💻 全网粉丝10W,CSDN全栈领域优质创作者，博客之星、掘金/知乎/b站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战，以及程序定制化开发…...

编程日记 2025/2/27 20:52:15

【笔记ing】每天50个英语词汇

ex- e-out exclude 排外，排除 expect 期待，期望单词构成： 前缀（prefix）：情感（emotion）方向（orientation） 词根（root）&#xf…...

编程日记 2025/2/27 20:46:06

联想 SR590 服务器 530-8i RAID 控制器更换损坏的硬盘

坏了的硬盘会自动亮黄灯。用一个空的新盘来替换，新盘最好不要有东西。但是有东西可能也没啥，因为我看 RAID 控制器里有格式化的选项 1. 从 IPMI 把服务器关机，电源键进入绿色闪烁状态 2. 断电，推开塑料滑块拉出支架，…...

编程日记 2025/2/27 20:40:57

Java基础关键_012_包装类

目录一、基本数据类型对应的包装类 1.概览 2.说明二、包装类 1.最大值与最小值 2.构造方法 3.常用方法（Integer为例） （1）compare(int x, int y) （2）max(int a, int b) 和 min(int a, int b) &…...

编程日记 2025/2/27 20:36:50

【react】TypeScript在react中的使用

目录一、环境与项目配置 1. 创建 TypeScript React 项目 2. 关键tsconfig.json配置 3.安装核心类型包二、组件类型定义 1. 函数组件（React 18） 2.类组件三、Hooks 的深度类型集成 1. useState 2. useEffect 3. useRef 4. 自定义 Hook 四、事…...

编程日记 2025/2/27 20:23:37

vllm的使用方式，入门教程

vLLM是一个由伯克利大学LMSYS组织开源的大语言模型推理框架，旨在提升实时场景下的大语言模型服务的吞吐与内存使用效率。以下是详细的vLLM使用方式和入门教程： 1. 前期准备在开始使用vLLM之前，建议先掌握一些基础知识，包括操作…...

编程日记 2025/2/27 20:22:36

IDEA 使用codeGPT+deepseek

一、环境准备 1、IDEA 版本要求安装之前确保 IDEA 处于 2023.x 及以上的较新版本。 2、Python 环境安装 Python 3.8 或更高版本为了确保 DeepSeek 助手能够顺利运行，您需要在操作系统中预先配置 Python 环境。具体来说，您需要安装 Python 3.8 或更高…...

编程日记 2025/2/27 20:15:25

vue3中测试：单元测试、组件测试、端到端测试

1、单元测试：单元测试通常适用于独立的业务逻辑、组件、类、模块或函数，不涉及 UI 渲染、网络请求或其他环境问题。 describe(increment, () > {// 测试用例 }) toBe()：用于严格相等比较（），适用于原始类…...

编程日记 2025/2/27 20:10:18

机器学习介绍与数据集

一、机器学习介绍与定义 1.1 机器学习定义机器学习（Machine Learning）是让计算机从数据中自动学习规律，并依据这些规律对未来数据进行预测的技术。它涵盖聚类、分类、决策树、贝叶斯、神经网络、深度学习（Deep Learning&#xf…...

编程日记 2025/2/27 20:09:15

React 源码揭秘 | 更新队列

前面几篇遇到updateQueue的时候，我们把它先简单的当成了一个队列处理，这篇我们来详细讨论一下这个更新队列。有关updateQueue中的部分，可以见源码 UpdateQueue实现 Update对象我们先来看一下UpdateQueue中的内容，Update对象&…...

编程日记 2025/2/27 20:08:12

关于网络端口探测：TCP端口和UDP端口探测区别

网络端口探测是网络安全领域中的一项基础技术，它用于识别目标主机上开放的端口以及运行在这些端口上的服务。这项技术对于网络管理和安全评估至关重要。在网络端口探测中，最常用的两种协议是TCP（传输控制协议）和UDP（用…...

编程日记 2025/2/27 20:04:05

Vue.js 中使用 JSX 自定义语法封装组件

Vue.js 中使用 JSX 自定义语法封装组件在 Vue.js 开发中，使用模板语法是常见的构建用户界面方式，但对于一些开发者，特别是熟悉 JavaScript 语法的，JSX 提供了一种更灵活、更具表现力的替代方案。通过 JSX，我们可以在…...

编程日记 2025/2/27 20:03:03

设计模式教程：备忘录模式（Memento Pattern）

备忘录模式（Memento Pattern）详解一、模式概述备忘录模式（Memento Pattern）是一种行为型设计模式，允许在不暴露对象实现细节的情况下，保存对象的内部状态，并在需要时恢复该状态。备忘录模式…...

编程日记 2025/2/27 19:56:56

使用 C# 以api的形式调用 DeepSeek

一：创建 API 密钥首先，您需要来自 DeepSeek 的 API 密钥。访问 DeepSeek，创建一个帐户，并生成一个新的 API 密钥。二：安装所需的 NuGet 包使用 NuGet 包管理器安装包，或在包管理器控制台中运行以下命…...

编程日记 2025/2/27 19:55:53

CS5366AN：高集成Type-C转HDMI 4K60Hz芯片的国产突破

一、芯片概述 CS5366AN 是集睿致远（ASL）推出的一款高度集成的 Type-C转HDMI 2.0视频转换芯片，专为扩展坞、游戏底座、高清显示设备等场景设计。其核心功能是将USB Type-C接口的DisplayPort信号（DP Alt Mode）转换为HDM…...

编程日记 2025/2/27 19:54:51

（十）学生端搭建

本次旨在将之前的已完成的部分功能进行拼装到学生端，同时完善学生端的构建。本次工作主要包括： 1.学生端整体界面布局 2.模拟考场与部分个人画像流程的串联 3.整体学生端逻辑一、学生端在主界面可以选择自己的用户角色选择学生则进入学生登录界面…...

编程新知 2025/11/21 6:09:18

安宝特方案丨XRSOP人员作业标准化管理平台：AR智慧点检验收套件

在选煤厂、化工厂、钢铁厂等过程生产型企业，其生产设备的运行效率和非计划停机对工业制造效益有较大影响。随着企业自动化和智能化建设的推进，需提前预防假检、错检、漏检，推动智慧生产运维系统数据的流动和现场赋能应用。同时，…...

编程新知 2025/11/21 19:39:54

linux arm系统烧录

1、打开瑞芯微程序 2、按住linux arm 的 recover按键插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 （忘了有没有这步了估计有） 刷机程序和镜像就不提供了。要刷的时…...

编程新知 2025/11/16 21:53:57

【Web 进阶篇】优雅的接口设计：统一响应、全局异常处理与参数校验

系列回顾： 在上一篇中，我们成功地为应用集成了数据库，并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了！但是，如果你仔细审视那些 API，会发现它们还很“粗糙”：有…...

编程新知 2025/8/4 22:42:24

Rapidio门铃消息FIFO溢出机制

关于RapidIO门铃消息FIFO的溢出机制及其与中断抖动的关系，以下是深入解析： 门铃FIFO溢出的本质在RapidIO系统中，门铃消息FIFO是硬件控制器内部的缓冲区，用于临时存储接收到的门铃消息（Doorbell Message）。…...

编程新知 2025/11/2 0:32:25

JS设计模式(4)：观察者模式

JS设计模式(4):观察者模式一、引入在开发中，我们经常会遇到这样的场景：一个对象的状态变化需要自动通知其他对象，比如： 电商平台中，商品库存变化时需要通知所有订阅该商品的用户；新闻网站中&#xff0…...

编程新知 2025/9/1 6:48:07

【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变（硬件篇）

本项目是基于 STM32F103C8T6 微控制器的 SPWM（正弦脉宽调制）电源模块，能够生成可调频率和幅值的正弦波交流电源输出。该项目适用于逆变器、UPS电源、变频器等应用场景。供电电源输入电压采集上图为本设计的电源电路，图中 D1 为二极管，其目的是防止正负极电源反接， …...

编程新知 2025/11/17 21:09:02

搭建DNS域名解析服务器(正向解析资源文件)

正向解析资源文件 1）准备工作服务端及客户端都关闭安全软件 [rootlocalhost ~]# systemctl stop firewalld [rootlocalhost ~]# setenforce 0 2）服务端安装软件：bind 1.配置yum源 [rootlocalhost ~]# cat /etc/yum.repos.d/base.repo [Base…...

编程新知 2025/11/18 9:21:23