当前位置: 首页 > article >正文

【大语言模型基础(2)】自注意力与多头机制:QKV、缩放与因果掩码

文章目录摘要1. 为什么需要自注意力2. Q、K、V 到底是什么一个具体例子3. Attention 公式在干什么第一步计算相似度第二步做缩放第三步s o f t m a x \mathrm{softmax}softmax归一化第四步对V a l u e ValueValue做加权平均4. 为什么 GPT 需要因果掩码BERT 和 GPT 的差别因果掩码怎么做5. 多头注意力为什么有用可以把它理解成6. 看注意力权重要注意什么7. 一张图就能记住的核心逻辑摘要Transformer 到底是怎么做到的在当前位置先看完整句话再决定自己该变成什么样这件事主要靠两样东西Q / K / V s o f t m a x Q / K / V \mathrm{softmax}Q/K/Vsoftmax把整句话的信息汇总成当前位置的新表示。因果掩码causal mask让同一套注意力公式在 GPT 里变成“只能看过去”。本文会顺着这条线讲清楚自注意力的直觉、QKV 的分工、缩放因子d k \sqrt{d_k}dk​​的作用以及为什么多头注意力和掩码会让 Transformer 既能理解语言也能生成语言。1. 为什么需要自注意力先看一个最经典的现象bank在“河岸”语境里是河边的岸在“银行”语境里是金融机构。同一个词放进不同句子里意思完全不同。这说明一个词的表示不能只看它自己还得看上下文。早期 RNN 的思路是把信息按顺序往后传但句子一长前面的信息很容易在传递中变弱、变形。Transformer 选择了另一条路让每个位置直接和所有位置交互由模型自己决定该重点关注谁。这就是自注意力的出发点。2. Q、K、V 到底是什么自注意力里常见的三个字母看起来抽象其实可以理解得很直白。QueryQ QQ当前位置“在问什么”KeyK KK每个位置“是什么类型的信息”ValueV VV每个位置“真正提供的内容”你可以把它想成一个匹配过程我现在这个词想从整句话里借一点信息回来但我得先判断谁最相关。一个具体例子看这句话The animal didn’t cross the street becauseitwas too tired.这里我们关心的是it指的是谁对于当前位置的it来说Q u e r y QueryQuery表示我在找一个能解释“too tired”的对象。句子里每个词都有自己的K e y KeyKey。每个词真正带来的语义内容是它自己的V a l u e ValueValue。it的Q u e r y QueryQuery去和所有K e y KeyKey做匹配后会发现和animal的匹配度高和street的匹配度低于是s o f t m a x \mathrm{softmax}softmax之后animal对应的权重更大。最后it会主要吸收animal的V a l u e ValueValue信息于是它的表示里就带上了“它指的是 animal”这层上下文。一句话概括Q QQ在问问题K KK决定谁该被关注V VV提供真正要拿走的信息。3. Attention 公式在干什么标准的缩放点积注意力公式是A t t e n t i o n ( Q , K , V ) s o f t m a x ( Q K ⊤ d k ) V \mathrm{Attention}(Q, K, V) \mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right) VAttention(Q,K,V)softmax(dk​​QK⊤​)V这条式子看起来长其实只有四步第一步计算相似度Q K ⊤ QK^\topQK⊤意思是当前位置和所有位置分别有多相关。第二步做缩放Q K ⊤ d k \frac{QK^\top}{\sqrt{d_k}}dk​​QK⊤​这里的d k d_kdk​是K e y KeyKey向量的维度。为什么要除以d k \sqrt{d_k}dk​​因为维度越大点积的数值通常越容易变大s o f t m a x \mathrm{softmax}softmax就会变得特别尖锐注意力几乎只押在一个位置上训练会更不稳定。所以这个缩放因子本质上是在给s o f t m a x \mathrm{softmax}softmax降温让注意力分布别太极端。第三步s o f t m a x \mathrm{softmax}softmax归一化s o f t m a x \mathrm{softmax}softmax会把相似度变成权重保证所有权重加起来等于1 11。这一步之后你得到的不再是“分数”而是“我到底该听谁多少”。第四步对V a l u e ValueValue做加权平均最后把这些权重乘到V VV上得到当前位置的新表示。也就是说自注意力本质上是在做一次“按相关性加权的信息汇聚”。4. 为什么 GPT 需要因果掩码这里是很多人第一次真正理解“生成式模型”和“理解式模型”区别的地方。BERT 和 GPT 的差别BERT做的是理解任务允许一个位置看到整句话的左右上下文。GPT做的是生成任务要建模的是p ( x t ∣ x t ) p(x_t \mid x_{t})p(xt​∣xt​)也就是只能根据前面的词预测下一个词。如果在训练时当前位置还能看到未来词那就等于把答案泄露给模型了。这当然不行。因果掩码怎么做做法很简单在注意力分数矩阵里把未来位置也就是j t j tjt的部分填成− ∞ -\infty−∞s o f t m a x \mathrm{softmax}softmax之后这些位置的权重就会变成0 00这样一来模型虽然“看得见”整个矩阵结构但实际上未来的信息在计算上被彻底屏蔽了。最重要的一点是Attention 的公式没变变的是“允许谁参与计算”。所以BERT 和 GPT 可以共享同一类注意力机制但因为掩码不同最终学到的是完全不同的建模方式。5. 多头注意力为什么有用如果只有一个注意力头模型每次只能用一种方式看问题。但语言里的关系不止一种有的关注语法有的关注指代有的关注语义有的关注长距离依赖多头注意力的做法是把隐藏维度切成几份每一份独立做一套注意力最后把结果拼接起来这样模型就可以同时从多个角度理解同一句话。可以把它理解成不是一个人独自判断“谁重要”而是几位专家各看一遍一个专家看语法一个专家看语义一个专家看指代关系最后把大家的意见综合起来。多头注意力的价值就在这里它让模型不只学一种相关性而是并行学习多种关系模式。6. 看注意力权重要注意什么很多工具都能把注意力权重画成热力图看起来很直观。但这里有一个常见误区注意力权重不是语法树也不等于人类可解释的最终答案。它只是模型内部的一种统计信号说明某些位置在当前计算中更受关注。它可以帮助我们观察模型但不能简单地把它当成“模型真正理解了什么”的唯一证据。7. 一张图就能记住的核心逻辑如果把整篇内容压缩成一句话那就是自注意力是在全句范围内按相关性重新分配信息而因果掩码决定模型能不能看未来。再展开一点就是Q QQ当前位置在问什么K KK谁和这个问题更匹配V VV匹配成功后拿走什么信息s o f t m a x \mathrm{softmax}softmax把匹配分数变成权重d k \sqrt{d_k}dk​​防止注意力过于尖锐m a s k \mathrm{mask}mask决定能看过去、还是能看全句多头让模型同时用多种视角理解句子Transformer 的聪明之处不在于它“记住了句子”而在于它学会了在每个位置上重新判断整句话里谁最重要。而 GPT 和 BERT 之所以走向不同方向只是因为它们在同一套注意力公式上分别加上了不同的“观看权限”。

相关文章:

【大语言模型基础(2)】自注意力与多头机制:QKV、缩放与因果掩码

文章目录摘要1. 为什么需要自注意力2. Q、K、V 到底是什么一个具体例子3. Attention 公式在干什么第一步:计算相似度第二步:做缩放第三步:softmax\mathrm{softmax}softmax 归一化第四步:对 ValueValueValue 做加权平均4. 为什么 G…...

ThinkPHP6+UniApp实战:手把手教你用宝塔面板部署Niushop V5.5.0多门店商城(含全插件配置)

ThinkPHP6UniApp实战:宝塔面板部署Niushop V5.5.0多门店商城全流程解析 在数字化转型浪潮中,电商系统的快速部署能力已成为技术团队的核心竞争力之一。本文将带您深入实战,从零开始完成Niushop V5.5.0多门店商城系统的完整部署。不同于基础教…...

小程序毕业设计springboot基于微信小程序的校园综合服务

前言 在现代校园生活节奏日益加快、师生需求愈发多元化的当下,Spring Boot 校园综合服务系统宛如一位万能助手,全方位覆盖校园学习、生活、社交等各个领域,依托 Spring Boot 强大的开发框架,将繁杂事务化繁为简,为校园…...

内存暴涨却查无踪迹?Python对象生命周期管理的7个致命盲区,现在不看明天宕机!

第一章:Python智能体内存管理的核心原理Python智能体(如基于LangChain、LlamaIndex构建的Agent)在运行过程中并非仅依赖语言模型推理,其内存管理机制直接决定状态持久性、上下文感知能力与多轮交互一致性。核心在于Python对象生命…...

PostgreSQL杂谈 13—GIN索引的优化策略与实战调优

1. GIN索引的核心原理与性能瓶颈 GIN(Generalized Inverted Index)作为PostgreSQL中的"万能工具箱",特别擅长处理数组、全文搜索这类"一对多"的数据关系。它的核心设计借鉴了搜索引擎的倒排索引思想,但比传统…...

小程序毕业设计基于微信小程序的校园跑腿小程序

前言 在校园生活节奏紧凑、同学们事务繁忙的当下,Spring Boot 基于微信小程序的校园跑腿小程序应运而生,为师生们提供了便捷高效的代劳服务,让校园生活更加从容有序。借助 Spring Boot 强大的后端支撑以及微信小程序无需安装、触手可及的优势…...

B站视频资源管理利器:DownKyi智能下载与高效处理全方案

B站视频资源管理利器:DownKyi智能下载与高效处理全方案 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等&…...

Fun-ASR-MLT-Nano-2512在教育培训场景的应用:语音课件自动转写

Fun-ASR-MLT-Nano-2512在教育培训场景的应用:语音课件自动转写 1. 技术背景与教育痛点 1.1 教育培训行业的语音处理需求 教育培训行业每天产生大量语音内容,包括教师授课录音、在线课程音频、学生互动语音等。传统的人工转写方式面临三大核心痛点&…...

RexUniNLU框架应用案例:SpringBoot集成实现教育平台客服智能意图识别

RexUniNLU框架应用案例:SpringBoot集成实现教育平台客服智能意图识别 1. 教育客服场景的智能化挑战 在线教育平台的客服系统每天需要处理大量用户咨询,从"我的课程怎么打不开"到"想了解编程课的价格",这些看似简单的提…...

OpenClaw定时任务:GLM-4.7-Flash实现自动化日报

OpenClaw定时任务:GLM-4.7-Flash实现自动化日报 1. 为什么需要自动化日报系统 每天下班前写日报这件事,我坚持了三年零四个月——直到上个月彻底放弃手工记录。不是因为懒,而是发现手工整理的日报存在三个致命问题: 第一是数据…...

春联生成模型-中文-base应用场景解析:图书馆数字文化服务实战

春联生成模型-中文-base应用场景解析:图书馆数字文化服务实战 1. 引言:传统文化与AI的碰撞 春节贴春联是中国延续千年的文化习俗,一副好春联不仅承载美好祝愿,更体现文化底蕴。如今,AI技术让这一传统焕发新生。在图书…...

终极免费方案:3分钟掌握ViGEmBus虚拟游戏手柄驱动的完整部署与应用

终极免费方案:3分钟掌握ViGEmBus虚拟游戏手柄驱动的完整部署与应用 【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus 你是否曾为游戏不支持你的手柄…...

终极指南:掌握AMD Ryzen SMU调试工具,解锁硬件调优新境界

终极指南:掌握AMD Ryzen SMU调试工具,解锁硬件调优新境界 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地…...

C++ STL 容器线程安全的边界条件

C STL容器线程安全的边界条件探析 在多线程编程中,C标准模板库(STL)容器的高效使用一直是开发者关注的焦点。尽管STL容器在设计上并未原生支持线程安全,但其性能优势使得开发者仍需在并发环境中谨慎使用。理解STL容器线程安全的边…...

4个突破性功能步骤:全面兼容让Switch手柄实现跨平台操控自由

4个突破性功能步骤:全面兼容让Switch手柄实现跨平台操控自由 【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gitcod…...

VS Code玩转Arduino开发——插件配置与工程搭建全攻略

1. 为什么选择VS Code开发Arduino? 很多Arduino爱好者刚开始接触开发时,都会使用官方提供的Arduino IDE。这个编辑器确实简单易用,但随着项目复杂度提升,你会发现它缺少很多现代编辑器该有的功能——代码补全、语法高亮、项目管理…...

augmentcode配置智谱、Deepseek、Minimax

Minimax 渠道名称:Minimax接口地址:https://api.minimaxi.com/anthropic/v1/chat/completionsToken:API Key模型:MiniMax-M2.7格式:默认格式 deepseek 渠道名称:deepseek接口地址:https://api.d…...

C++ 编译器优化选项详解

C 编译器优化选项详解 在C开发中,编译器优化是提升程序性能的关键手段之一。通过合理配置优化选项,开发者可以在不修改代码逻辑的情况下,显著提高程序的运行效率,减少资源消耗。本文将深入探讨C编译器的优化选项,帮助…...

造相 Z-Image镜像使用指南:显存监控条预警机制与OOM防护策略

造相 Z-Image镜像使用指南:显存监控条预警机制与OOM防护策略 1. 引言:为什么你的AI绘画服务总崩溃? 如果你用过一些开源的文生图模型,大概率遇到过这种情况:兴致勃勃地输入一段描述,点击生成,…...

Youtu-Parsing开源模型实战:ONNX导出+TensorRT加速部署全流程

Youtu-Parsing开源模型实战:ONNX导出TensorRT加速部署全流程 1. 引言 如果你处理过大量的扫描文档、PDF文件或者图片资料,一定遇到过这样的烦恼:想把图片里的文字、表格、公式提取出来,手动操作不仅费时费力,还容易出…...

Phi-3-mini-128k-instruct在软件测试中的应用:自动化生成测试用例与脚本

Phi-3-mini-128k-instruct在软件测试中的应用:自动化生成测试用例与脚本 1. 引言 如果你是一名软件测试工程师,或者正在准备软件测试面试,下面这个问题你一定不陌生:“如何保证测试用例的覆盖率,尤其是在需求频繁变更…...

保姆级教程:手把手教你用万物识别镜像搭建智能图片识别工具

保姆级教程:手把手教你用万物识别镜像搭建智能图片识别工具 1. 准备工作与环境配置 1.1 镜像基本信息介绍 万物识别-中文-通用领域镜像是一个基于cv_resnest101_general_recognition算法构建的预装环境,能够识别超过5万种日常物体。它封装了完整的推理…...

开箱即用体验:Z-Image-Turbo文生图镜像实战教程

开箱即用体验:Z-Image-Turbo文生图镜像实战教程 1. 为什么你需要这个镜像?一个真正“零等待”的AI绘图方案 如果你曾经尝试过部署一个AI文生图模型,大概率经历过这样的痛苦:花几个小时配置环境,然后面对几十GB的模型…...

Clawdbot汉化版实测:企业微信接入AI客服,响应速度提升92%

Clawdbot汉化版实测:企业微信接入AI客服,响应速度提升92% 1. 企业客服场景的痛点与解决方案 1.1 传统客服面临的挑战 在电商和客户服务领域,企业微信已成为重要的客户沟通渠道。然而传统客服模式存在三个核心问题: 响应延迟&a…...

Fish Speech 1.5保姆级教程:零代码实现Markdown文档转语音

Fish Speech 1.5保姆级教程:零代码实现Markdown文档转语音 1. 为什么选择Fish Speech 1.5? 在日常工作中,我们经常需要处理大量Markdown格式的技术文档。传统的文本转语音工具往往存在几个痛点:声音机械生硬、无法处理Markdown特…...

双系统安装完整指南——以双Win11为例

一、安装前的准备工作 1. 硬件与系统要求 CPU:支持 Windows 11(Intel 8 代 / AMD Ryzen 2000 及以上)主板: 支持 UEFI支持 TPM 2.0 磁盘: GPT 分区格式至少 120GB 空闲空间(建议每个系统 ≥ 80GB&#xf…...

Keil开发中printf重定向的常见陷阱与高效配置指南

1. 为什么你的printf在Keil里"装死"? 第一次在Keil里用printf的新手,八成会遇到这样的灵异事件:明明代码逻辑没问题,烧录后串口助手却像黑洞一样安静。我当年调试STM32F103时,整整两天都在和这个"哑巴&…...

造相-Z-Image-Turbo LoRA惊艳案例:光影质感/皮肤通透感/发丝细节高清呈现

造相-Z-Image-Turbo LoRA惊艳案例:光影质感/皮肤通透感/发丝细节高清呈现 1. 效果惊艳的亚洲美女生成体验 最近体验了基于Z-Image-Turbo的LoRA模型,特别是laonansheng/Asian-beauty-Z-Image-Turbo-Tongyi-MAI-v1.0这个专门针对亚洲美女风格的LoRA&…...

Lenovo Legion Toolkit深度解析:5大场景硬件优化与性能调校实战指南

Lenovo Legion Toolkit深度解析:5大场景硬件优化与性能调校实战指南 【免费下载链接】LenovoLegionToolkit Lightweight Lenovo Vantage and Hotkeys replacement for Lenovo Legion laptops. 项目地址: https://gitcode.com/gh_mirrors/le/LenovoLegionToolkit …...

3步解决华硕笔记本显示异常:G-Helper色彩配置修复指南

3步解决华硕笔记本显示异常:G-Helper色彩配置修复指南 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地址…...