当前位置: 首页 > news >正文

【DeepSeek-R1背后的技术】系列九:MLA(Multi-Head Latent Attention,多头潜在注意力)

【DeepSeek背后的技术】系列博文:
第1篇:混合专家模型(MoE)
第2篇:大模型知识蒸馏(Knowledge Distillation)
第3篇:强化学习(Reinforcement Learning, RL)
第4篇:本地部署DeepSeek,断网也能畅聊!
第5篇:DeepSeek-R1微调指南
第6篇:思维链(CoT)
第7篇:冷启动
第8篇:位置编码介绍(绝对位置编码、RoPE、ALiBi、YaRN)
第9篇:MLA(Multi-Head Latent Attention,多头潜在注意力)

目录

  • 1 背景
  • 2 方法
  • 3 集中常见的Attention对比
  • 4 示例代码
  • 5 关键优势
  • 6 应用场景
  • 7 对比与变体

1 背景

多头潜在注意力(Multi-Head Latent Attention,MLA)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列时的效率和性能。

在传统的Transformer架构中,多头注意力(MHA)机制允许模型同时关注输入的不同部分,每个注意力头都独立地学习输入序列中的不同特征。然而,随着序列长度的增长,键值(Key-Value,KV)缓存的大小也会线性增加,这给模型带来了显著的内存负担。为解决MHA在高计算成本和KV缓存方面的局限性,DeepSeek引入了多头潜在注意力(MLA)。

多头潜在注意力(MLA)采用低秩联合压缩键值技术,优化了键值(KV)矩阵,显著减少了内存消耗并提高了推理效率。

  • 低秩联合压缩键值:MLA通过低秩联合压缩键值(Key-Value),将它们压缩为一个潜在向量(latent vector),从而大幅减少所需的缓存容量。这种方法不仅减少了缓存的数据量,还降低了计算复杂度。

  • 优化键值缓存:在推理阶段,MHA需要缓存独立的键(Key)和值(Value)矩阵,这会增加内存和计算开销。而MLA通过低秩矩阵分解技术,显著减小了存储的KV(Key-Value)的维度,从而降低了内存占用。

MLA通过“潜在向量”来表达信息,避免了传统注意力机制中的高维数据存储问题。利用低秩压缩技术,将多个查询向量对应到一组键值向量,实现KV缓存的有效压缩,使得DeepSeek的KV缓存减少了93.3%。

2 方法

MLA 主要步骤如下:

  1. 输入映射到潜在空间

给定输入X(其中 n 是序列长度,d 是特征维度),通过映射函数 f 将其投影到潜在空间:

z

f(⋅) 可为全连接层、卷积层等映射模块,潜在维度 k 是显著降低计算复杂度的关键。

  1. 潜在空间中的多头注意力计算

在潜在空间 Z 上进行多头注意力计算。对于第 i 个注意力头,其计算公式为:

公式1

将所有注意力头的输出拼接后再通过线性变换:

公式2

  1. 映射回原始空间

将多头注意力结果从潜在空间映射回原始空间:

公式3
g(⋅) 为非线性变换,如全连接层。

整体框架如下图所示:

框架

进一步优化:

MQA

3 集中常见的Attention对比

Attention对比

4 示例代码

import torch
import torch.nn as nnclass MultiHeadLatentAttention(nn.Module):def __init__(self, input_dim, latent_dim, num_heads):super(MultiHeadLatentAttention, self).__init__()self.latent_proj = nn.Linear(input_dim, latent_dim)  # 映射到潜在空间self.attention = nn.MultiheadAttention(embed_dim=latent_dim, num_heads=num_heads)self.output_proj = nn.Linear(latent_dim, input_dim)  # 映射回原始空间def forward(self, x):# 输入映射到潜在空间latent = self.latent_proj(x)# 在潜在空间中计算多头注意力attn_output, _ = self.attention(latent, latent, latent)# 映射回原始空间output = self.output_proj(attn_output)return output# 示例输入
batch_size, seq_len, input_dim = 32, 128, 512
x = torch.rand(batch_size, seq_len, input_dim)
mla = MultiHeadLatentAttention(input_dim=512, latent_dim=128, num_heads=8)
output = mla(x)

5 关键优势

  • 计算效率:潜在键值数量远少于原始序列,复杂度从 (O(n^2)) 降至 (O(nm))((m \ll n) 为潜在变量数)。
  • 长序列处理:适合处理长文本、高分辨率图像或视频数据。
  • 全局信息捕捉:潜在键值可学习到数据的全局结构,提升模型泛化能力。

6 应用场景

  • 自然语言处理:长文档翻译、文本摘要。
  • 计算机视觉:图像生成(如ViT变体)、视频理解。
  • 语音处理:长音频序列建模。

7 对比与变体

  • 与传统多头注意力:MLA通过潜在空间压缩减少计算量,而非直接处理所有输入元素。
  • 与Linformer/Performer:类似低秩近似目标,但实现方式不同(如潜在变量生成 vs 核方法或投影矩阵)。
  • 变体扩展:可结合稀疏注意力、层次化结构进一步优化。

相关文章:

【DeepSeek-R1背后的技术】系列九:MLA(Multi-Head Latent Attention,多头潜在注意力)

【DeepSeek背后的技术】系列博文: 第1篇:混合专家模型(MoE) 第2篇:大模型知识蒸馏(Knowledge Distillation) 第3篇:强化学习(Reinforcement Learning, RL) 第…...

【JavaWeb12】数据交换与异步请求:JSON与Ajax的绝妙搭配是否塑造了Web的交互革命?

文章目录 🌍一. 数据交换--JSON❄️1. JSON介绍❄️2. JSON 快速入门❄️3. JSON 对象和字符串对象转换❄️4. JSON 在 java 中使用❄️5. 代码演示 🌍二. 异步请求--Ajax❄️1. 基本介绍❄️2. JavaScript 原生 Ajax 请求❄️3. JQuery 的 Ajax 请求 &a…...

[特殊字符] 蓝桥杯 Java B 组 之位运算(异或性质、二进制操作)

Day 6:位运算(异或性质、二进制操作) 📖 一、位运算简介 位运算是计算机底层优化的重要手段,利用二进制操作可以大大提高运算速度。常见的位运算包括: 与(&):a &am…...

[MDM 2024]Spatial-Temporal Large Language Model for Traffic Prediction

论文网址:[2401.10134] Spatial-Temporal Large Language Model for Traffic Prediction 论文代码:GitHub - ChenxiLiu-HNU/ST-LLM: Official implementation of the paper "Spatial-Temporal Large Language Model for Traffic Prediction" …...

LTO优化详解

嵌入式开发过程中的LTO优化是什么意思?能够用来解决什么问题?它都优化了哪些?仅开启LTO真的可以优化SIZE的问题吗? 请分别回答我刚才提到的问题? 嗯,用户问关于嵌入式开发中的LTO优化,我需要详细解释这个概…...

分布式事务三阶段协议

分布式事务的三阶段分别是准备阶段、预提交阶段和提交 / 回滚阶段,以下是详细介绍: 三阶段提交协议可以理解为两阶段提交协议的改良版,是在协调者和参与者中都引入超时机制,并且把两阶段提交协议的第一个阶段分成了两步: 询问&am…...

LLaMA-Factory|微调大语言模型初探索(4),64G显存微调13b模型

上篇文章记录了使用lora微调deepseek-7b,微调成功,但是微调llama3-8b显存爆炸,这次尝试使用qlora微调HQQ方式量化,微调更大参数体量的大语言模型,记录下来微调过程,仅供参考。 对过程不感兴趣的兄弟们可以直…...

常用高压缩率的视频容器格式,并进行大比例压缩

常用的高压缩率视频容器格式,包括*.mp4 、*.mkv、*.webM等。     容器格式本身并不直接决定压缩率,而是取决于容器中所使用的视频编码格式等因素。不过,在常见的视频容器格式中,一些容器在搭配特定编码格式时,通常能表现出较高的压缩效率,以下是相关介绍: 1 MKV格式 …...

代码编译(词法义)

1.预处理 (Preprocessing): 在这个阶段,编译器会处理所有以 # 开头的指令,如 #include、#define 等。它会把头文件的内容插入到源代码中,进行宏替换等预处理操作,生成一个纯净的代码文件。 3.词法分析 (Lexical Analy…...

android,flutter 混合开发,pigeon通信,传参

文章目录 app效果native和flutter通信的基础知识1. 编解码器 一致性和完整性,安全性,性能优化2. android代码3. dart代码 1. 创建flutter_module2.修改 Android 项目的 settings.gradle,添加 Flutter module3. 在 Android app 的 build.gradl…...

at32f403a rt thread led基础bsp工程测试

1.led工程官方bsp使用 导出一个独立的AT32F403A的BSP工程 下载RTT源代码 gitee更新较慢 https://gitee.com/rtthread/rt-thread github版本更新最新 https://github.com/RT-Thread/rt-thread. 切换到V5.1.0分支(使用一个发布版本可以避免不必要的bug) 导出一个独立的AT32BSP…...

DeepSeek写贪吃蛇手机小游戏

DeepSeek写贪吃蛇手机小游戏 提问 根据提的要求,让DeepSeek整理的需求,进行提问,内容如下: 请生成一个包含以下功能的可运行移动端贪吃蛇H5文件: 要求 蛇和食物红点要清晰,不超过屏幕外 下方有暂停和重新…...

【好玩的工具和命令】 ASCII 艺术生成工具: figlet

figlet 是一款用于生成 ASCII 艺术文字的工具,支持多种字体样式。它能将输入的文本转换为由字符组成的大型字母图案,广泛应用于命令行环境下的标题展示或装饰。 核心功能 生成 ASCII 文字艺术:将普通文本转化为大号的、由字符构成的艺术字…...

工具--安川伺服故障代码

上传一下安川伺服故障代码,后续结合实际维修经验,逐个整理分析,绝对超出手册经验 故障代码 故障描述 a.020/a.02 用户参数和数检查异常 1 a.021/a.02 参数格式化异常 1 a.022/a.02 系统参数和数检查异常 1 a.023/a.02 参数密码异常…...

车载软件架构 --- OEM主机厂如何打入软件供应商内部?

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 简单,单纯,喜欢独处,独来独往,不易合同频过着接地气的生活,除了生存温饱问题之外,没有什么过多的欲望,表面看起来很高冷,内心热情,如果你身…...

AI 编程助手 cursor的系统提示词 prompt

# Role 你是一名极其优秀具有10年经验的产品经理和精通java编程语言的架构师。与你交流的用户是不懂代码的初中生,不善于表达产品和代码需求。你的工作对用户来说非常重要,完成后将获得10000美元奖励。 # Goal 你的目标是帮助用户以他容易理解的…...

Matlab写入点云数据到Rosbag

最近有需要读取一个点云并做处理后,重新写回rosbag。网上有很多读取的教程,但没有写入。自己写入时也遇到了很多麻烦,踩了一堆坑进行记录。 1. rosbag中一个lidar的msg有哪些信息? 通过如下代码,先读取一个rosbag的l…...

业务流程相关的权威认证和培训有哪些

业务流程的认证和培训种类繁多,旨在帮助专业人士掌握业务流程管理 (BPM) 的知识和技能,从而提升个人职业发展和组织运营效率。下面分别介绍: 一、 业务流程认证和培训的种类 业务流程的认证和培训可以大致分为以下几类,涵盖了不…...

基于Spring Boot的兴顺物流管理系统设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…...

【算法系列】荷兰国旗问题:三指针法原地排序

一、题目(leetcode75 颜色分类 --三分数组) 二、思路 算法核心:三指针分治策略 该问题被称为“荷兰国旗问题”(Dutch National Flag Problem),由计算机科学家Edsger Dijkstra提出。其核心思想是通过三个指针将数组划分为三个区…...

终极网盘直链解析指南:八大平台高速下载解决方案

终极网盘直链解析指南:八大平台高速下载解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 …...

父母发出什么样的光,孩子便绽放什么样的光芒

“父母是孩子人生中的第一面镜子。父母发出什么样的光,孩子便绽放什么样的光芒。”这句话简洁而深刻地揭示了家庭教育的本质。在孩子的成长过程中,父母不仅是生命的给予者,更是其世界观、人生观、价值观的最初塑造者。父母的存在状态、生活态…...

用51单片机和DAC0832做个简易信号发生器:手把手教你生成方波、三角波和锯齿波

51单片机与DAC0832实战:零基础搭建可调波形信号发生器 引言 在电子设计的世界里,信号发生器就像一位会说多种语言的翻译官,它能把数字世界的冰冷代码转化为模拟世界的连续波形。对于刚接触51单片机的爱好者来说,亲手制作一个能输出…...

如何不依赖AI检测工具,自己识别AI生成内容

AI检测工具其实并不靠谱:教你自己辨别机器人写的文章无论你愿不愿意,网络上的"垃圾内容"已经无处不在。AI生成的内容几乎已经全面占领互联网,其中大量内容语义不通、毫无价值。但对于不知道如何辨别的人来说,这些内容依…...

汽车智能制造效率困局怎么破?深度解析APS+AI如何赋能排程计划

“张工,东南亚那个加急订单插进来了,这周涂装车间的产线能排进去吗?”“等下,我先跑一遍约束……不行,焊装二线的JPH(每小时产量)冲突了,我得把12个参数全部重新调一遍,4…...

epoll_event

1 是什么&#xff1f; 在 Linux 系统编程中&#xff0c;epoll_event 是 epoll I/O 多路复用机制的核心数据结构&#xff0c; 定义在 <sys/epoll.h> 头文件中。 它的主要作用是向内核注册需要监听的 I/O 事件&#xff0c; 以及从内核接收已就绪的 I/O 事件。事件注册&…...

AI优化电动汽车充电:PSO算法与GPU加速实践

1. 电动汽车充电优化的AI革命&#xff1a;从理论到实践作为一名长期关注能源与AI交叉领域的技术从业者&#xff0c;我最近被加拿大皇家军事学院(RMC)团队的研究成果所震撼。他们开发的这套基于粒子群优化(PSO)算法的实时充电调度系统&#xff0c;完美诠释了如何用AI技术解决电动…...

ESP32-S3驱动3.5寸TFT触摸屏开发指南

1. Makerfabs 3.5寸TFT触摸屏深度解析 这款由Makerfabs推出的3.5英寸TFT触摸屏显示模块&#xff0c;集成了ESP32-S3双核处理器和电容式触摸功能&#xff0c;为嵌入式GUI开发提供了完整的硬件解决方案。我在实际项目中使用过类似规格的显示模块&#xff0c;可以确认其性能确实能…...

爱奇艺“艺人库”风波观察:与其情绪化宣泄 不如积极拥抱AI浪潮

雷递网 雷建平 4月22日爱奇艺日前宣布超百名艺人入驻AI平台纳逗Pro的艺人库&#xff0c;一时间网上卷起千层。 “爱奇艺”及“爱奇艺疯了”等话题词屡次登上微博热搜及细分话题榜首。其实&#xff0c;AI时代的来临&#xff0c;各行各业无不受其影响&#xff0c;何止影视产业。在…...

永磁同步电机智能控制技术:模糊逻辑与神经网络应用

1. 永磁同步电机智能控制技术演进永磁同步电机(PMSM)作为现代工业驱动系统的核心部件&#xff0c;其控制性能直接影响着电动汽车、工业机器人等高精度应用场景的能效表现。传统PID控制在面对参数变化和外部扰动时表现出的局限性&#xff0c;促使研究者将目光转向更具鲁棒性的控…...