当前位置: 首页 > news >正文

DeepSeek 细节之 MLA (Multi-head Latent Attention)

DeepSeek 系统模型的基本架构仍然基于Transformer框架,为了实现高效推理和经济高效的训练,DeepSeek 还采用了MLA(多头潜在注意力)。 MHA(多头注意力)通过多个注意力头并行工作捕捉序列特征,但面临高计算成本和显存占用;MLA(多头潜在注意力)则通过低秩压缩优化键值矩阵,降低显存占用并提高推理效率。

MHA(Muti Head Attention)

多头注意力机制 (MHA)通过多个注意力头并行工作来捕捉序列特征,但这种方法会导致计算成本高和显存占用大的问题。并且随着上下文窗口或批量大小的增加,多头注意力 (MHA)模型中与 KV 缓存大小相关的内存成本显着增长。

KV Cache 缓存的到底是什么呢

  • 基于 transformer 中的注意力计算公式

  • 预测下一个 token 时,其只能看到待预测 token 之前的所有 token,故在最终生成整个序列的过程中,会涉及到如下计算过程

  • 然后把上面的softmax结果和对应的V值一相乘,便可得到

  • 可以很明显的看到,上述计算过程中,有不少的重复计算,比如 K1V1, K2V2, K3V3 等,如果序列长度越长,类似这样的 KV 计算将越来越多

为了加快推理速度,很自然的就想起将这些 KV 对缓存到显存中,等到计算时命中了缓存就不用再重复计算了,自然也就加快了推理的速度。但是这种以空间换时间的做法,就带来了显存消耗巨大的问题,如下图所示,在模型推理时,KV Cache在显存占用量可达30%以上

自此针对于 KV cache 优化的工作也就应运而生了

GQA(Grouped-Query Attention) 、MQA(Muti Query Attention)

  • GQA是query数不变,但多个query(比如2个)组成一个group以共享一个key value
  • MQA则query也不变,但所有query(比如8个)共享一个key、一个value

MQA虽然较大降低了KV cache计算量,但性能相比MHA下降太多了,至于GQA的话则取了个折中:不好的是缓存下降的不够多、好的是相比MHA性能没有下降太多

MLA(Multi-head Latent Attent):致力于在推理中降低

  • MLA 致力于在推理中降低隐层维度,而不是直接减少 cache 的数量,而是类似 Lora 的方法,用多个小矩阵乘法来近似替代大矩阵

  • 对 Key 和 Value 进行了一个低秩联合压缩(即Low-Rank Key-Value Joint Compression,通过低秩转换为一个压缩的 KV,使得存储的 KV 的维度显著减小,在 MHA GQA中大量存在于keys values中的 KV 缓存——带阴影表示,到了MLA中时,只有一小部分的被压缩Compressed的Latent KV了

  • MLA的两个部分:一部分做压缩、一部分做RoPE编码,一文通透DeepSeek V2——通俗理解多头潜在注意力MLA:改进MHA,从而压缩KV缓存,提高推理速度一文中有详细的推导过程可供参考
    • MLA 先对Q K V的进行压缩:先对KV联合压缩后升维,再对Q压缩后升维
    • MLA 对 query 和 key 进行 RoPE 编码,并对其中的Key位置编码的部分进行 Cache,从而在推理时不需要对Key进行位置编码的计算,提高了推理效率

参考文献

  1. 一文通透DeepSeek V2——通俗理解多头潜在注意力MLA:改进MHA,从而压缩KV缓存,提高推理速度
  2. 一文搞懂DeepSeek - 多头注意力(MHA)和多头潜在注意力(MLA)
  3. DeepSeek V3推理: MLA与MOE解析
  4. 一文通透让Meta恐慌的DeepSeek-V3:在MoE、GRPO、MLA基础上提出Multi-Token预测(含FP8训练详解)

相关文章:

DeepSeek 细节之 MLA (Multi-head Latent Attention)

DeepSeek 系统模型的基本架构仍然基于Transformer框架,为了实现高效推理和经济高效的训练,DeepSeek 还采用了MLA(多头潜在注意力)。 MHA(多头注意力)通过多个注意力头并行工作捕捉序列特征,但面临高计算成本…...

Python爬虫具体是如何解析商品信息的?

在使用Python爬虫解析亚马逊商品信息时,通常会结合requests库和BeautifulSoup库来实现。requests用于发送HTTP请求并获取网页内容,而BeautifulSoup则用于解析HTML页面并提取所需数据。以下是具体的解析过程,以按关键字搜索亚马逊商品为例。 …...

lerobot调试记录

这里写自定义目录标题 libtiff.so undefined symbol libtiff.so undefined symbol anaconda3/envs/lerobot3/lib/python3.10/site-packages/../.././libtiff.so.6: undefined symbol: jpeg12_write_raw_data, version LIBJPEG_8.01.安装库 conda install -c conda-forge jpeg …...

【Word转PDF】在线Doc/Docx转换为PDF格式 免费在线转换 功能强大好用

在日常办公和学习中,将Word文档转换为PDF格式的需求非常普遍。无论是制作简历、撰写报告还是分享文件,都需要确保文档格式在不同设备上保持一致。而小白工具的“Word转PDF”功能正是为此需求量身打造的一款高效解决方案。 【Word转PDF】在线Doc/Docx转换…...

Jenkins 配置 Credentials 凭证

Jenkins 配置 Credentials 凭证 一、创建凭证 Dashboard -> Manage Jenkins -> Manage Credentials 在 Domain 列随便点击一个 (global) 二、添加 凭证 点击左侧 Add Credentials 四、填写凭证 Kind:凭证类型 Username with password: 配置 用…...

Datawhale Ollama教程笔记5

Dify 接入 Ollama 部署的本地模型 Dify 支持接入 Ollama 部署的大型语言模型推理和 embedding 能力。 快速接入 下载 Ollama 访问 Ollama 安装与配置,查看 Ollama 本地部署教程。 运行 Ollama 并与 Llama 聊天 ollama run llama3.1Copy to clipboardErrorCopied …...

小爱音箱连接电脑外放之后,浏览器网页视频暂停播放后,音箱整体没声音问题解决

背景 22年买的小爱音箱增强版play,小爱音箱连接电脑外放之后,浏览器网页视频暂停播放后,音箱整体没声音(一边打着游戏,一边听歌,一边放视频,视频一暂停,什么声音都没了,…...

go设置镜像代理

前言 在 Go 开发中,如果直接从官方源(https://proxy.golang.org)下载依赖包速度较慢,可以通过设置 镜像代理 来加速依赖包的下载。以下是增加 Go 镜像代理的详细方法: 一、设置 Go 镜像代理 1. 使用环境变量设置代理…...

Python爬虫系列教程之第十二篇:爬虫异常处理与日志记录

大家好,欢迎继续关注本系列爬虫教程!在实际的爬虫项目中,网络请求可能会因为各种原因失败,如连接超时、目标服务器拒绝访问、解析错误等。此外,大规模爬虫任务运行过程中,各种异常情况层出不穷,…...

将Google文档导入WordPress:简单实用的几种方法

Google文档是内容创作者非常实用的写作工具。它支持在线编辑、多人协作,并能够自动保存内容。但当我们想把Google文档中的内容导入WordPress网站时,可能会遇到一些小麻烦,比如格式错乱、图片丢失等问题。本文将为大家介绍几种简单实用的方法&…...

大白话实战Gateway

网关功能 网关在分布式系统中起了什么作用?参考下图: 前端想要访问业务访问,就需要知道各个访问的地址,而业务集群服务有很多,前端需要记录非常多的服务器地址,这种情况下,我们需要对整个业务集群做一个整体屏蔽,这个时候就引入Gateway网关,它就是所有服务的请求入…...

深入学习解析:183页可编辑PPT华为市场营销MPR+LTC流程规划方案

华为终端正面临销售模式转型的关键时刻,旨在通过构建MPRLTC项目,以规避对运营商定制的过度依赖,并探索新的增长路径。项目核心在于建设一套全新的销售流程与IT系统,支撑双品牌及自有品牌的战略发展。 项目总体方案聚焦于四大关键议…...

【微中子代理踩坑-前端node-sass安装失败】

微中子代理踩坑-前端node-sass安装失败-windows 1.npm版本2.python2.73.安装Visual Studio 1.npm版本 当前使用node版本13.12.0 2.python2.7 安装python2.7.9并配置环境变量 3.安装Visual Studio 安装Visual Studio 我是直接勾选了3个windows的sdk,然后就好了 最后 npm in…...

使用open-webui+deepseek构建本地AI知识库

序 本文主要研究一下如何使用OpenWebUIdeepseek构建本地AI知识库 步骤 拉取open-webui镜像 docker pull ghcr.io/open-webui/open-webui:maindocker启动 docker run -d -p 3000:8080 \ -e OLLAMA_BASE_URLhttp://host.docker.internal:11434 \ ghcr.io/open-webui/open-we…...

CSS盒模

CSS盒模型就像一个快递包裹,网页上的每个元素都可以看成是这样一个包裹,它主要由以下几个部分组成: 内容(content):就像包裹里真正装的东西,比如文字、图片等。在CSS里,可用width&a…...

【开源向量数据库】Milvus简介

Milvus 是一个开源、高性能、可扩展的向量数据库,专门用于存储和检索高维向量数据。它支持近似最近邻搜索(ANN),适用于图像检索、自然语言处理(NLP)、推荐系统、异常检测等 AI 应用场景。 官网&#xff1a…...

机器学习笔记——常用损失函数

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本笔记介绍机器学习中常见的损失函数和代价函数,各函数的使用场景。 热门专栏 机器学习 机器学习笔记合集 深度学习 深度学习笔记合集 文章目录 热门…...

Nginx--日志(介绍、配置、日志轮转)

前言:本博客仅作记录学习使用,部分图片出自网络,如有侵犯您的权益,请联系删除 一、Nginx日志介绍 nginx 有一个非常灵活的日志记录模式,每个级别的配置可以有各自独立的访问日志, 所需日志模块 ngx_http_log_module 的…...

2025 vue3面试题汇总,通俗易懂

一、基础概念与核心特性 1. Vue3 相比 Vue2 的改进(通俗版) 问题:Vue3 比 Vue2 好在哪? 答案: 更快: Proxy 代理:Vue2 的响应式像“逐个监听保险箱”(每个属性单独监听&#xff0…...

一周学会Flask3 Python Web开发-Debug模式开启

锋哥原创的Flask3 Python Web开发 Flask3视频教程: 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 默认情况,项目开发是普通模式,也就是你修改了代码,必须重启项目,新代码才生效&…...

c#笔记之同步异步

写在前面 1.同步异步和多线程的关系 为什么会有这个疑问:因为现在现在官方唯一推荐的异步就是Task + async/await但是Task又和多线程有使用; 异: 先确定一个答案:就是异步和多线程是两种东西,异步可以在单线程里异步也可以在多线程里异步;(就像一个人也可以煮饭的等…...

Qwerty Learner 终极词典导入指南:打造你的专属打字练习库

Qwerty Learner 终极词典导入指南:打造你的专属打字练习库 【免费下载链接】qwerty-learner 为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件 / Words learning and English muscle memory training software designed for keyboard workers 项目地址: https:/…...

【Flutter for OpenHarmony第三方库】Flutter for OpenHarmony 数据统计与用户行为分析功能适配与实现指南

Flutter for OpenHarmony 数据统计与用户行为分析功能适配与实现指南 欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net 摘要 在 OpenHarmony 生态持续扩张与 Flutter 跨平台开发深度融合的背景下,存量 Flutter 应用向鸿蒙终端迁移…...

WPF依赖属性三大回调实战:从PropertyChanged到Validate,一个真实案例讲透

WPF依赖属性三大回调实战:从PropertyChanged到Validate,一个真实案例讲透 在WPF开发中,依赖属性是实现数据绑定、样式和动画等功能的核心机制。但很多开发者在自定义控件时,往往只停留在基础用法上,对依赖属性的三大回…...

告别反射!用xLua在Unity里优雅地让C#和Lua互传数据(附完整代码示例)

告别反射!用xLua在Unity里优雅地让C#和Lua互传数据 在Unity游戏开发中,脚本语言的灵活性与原生代码的性能往往需要权衡。传统反射调用虽然能实现C#与Lua的交互,但性能开销大、代码维护困难。xLua作为腾讯开源的跨语言解决方案,通过…...

智能基线校正终极指南:如何用airPLS算法解决光谱分析中的基线漂移问题

智能基线校正终极指南:如何用airPLS算法解决光谱分析中的基线漂移问题 【免费下载链接】airPLS baseline correction using adaptive iteratively reweighted Penalized Least Squares 项目地址: https://gitcode.com/gh_mirrors/ai/airPLS 在光谱分析、色谱…...

CVPR2022 Oral解读:3D检测新SOTA,FocalsConv的PyTorch实现与调参避坑指南

CVPR2022 Oral论文FocalsConv实战:3D检测新范式PyTorch实现与工业级调优指南 在自动驾驶与机器人感知领域,3D物体检测技术正经历从理论突破到工程落地的关键转型期。2022年CVPR会议收录的Focal Sparse Convolutional Networks(FocalsConv&…...

NVIDIA NCCL 2.26性能优化与监控能力解析

1. NVIDIA NCCL 2.26深度解析:性能优化与监控能力全面提升在分布式AI训练和HPC领域,GPU间的通信效率直接决定了整体系统的扩展性。NVIDIA Collective Communications Library(NCCL)作为多GPU通信的事实标准,其2.26版本…...

B站M4S转MP4终极指南:三分钟学会视频备份完整方案

B站M4S转MP4终极指南:三分钟学会视频备份完整方案 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾因B站视频突然下架而措手不…...

Spyder 6.0:重新定义Python科学计算开发体验的技术架构演进

Spyder 6.0:重新定义Python科学计算开发体验的技术架构演进 【免费下载链接】spyder Official repository for Spyder - The Scientific Python Development Environment 项目地址: https://gitcode.com/gh_mirrors/sp/spyder 作为科学Python开发领域的标志性…...