当前位置：首页 > article >正文

从‘词向量搬家’到‘关系运算’：动手用NumPy模拟Transformer的QKV计算全过程（附代码）

article 2026/5/1 12:18:23

从词向量到关系运算用NumPy拆解Transformer的QKV核心机制当你第一次听说自注意力机制时是否也被那些神秘的Q、K、V字母搞得一头雾水作为Transformer架构的核心QKV计算远不止是几个矩阵乘法那么简单。让我们暂时抛开那些抽象的理论推导直接动手用NumPy从零构建整个过程——你会惊讶地发现原来那些看似复杂的向量运算本质上是在进行一场精妙的词向量搬家游戏。1. 准备词向量语言的空间化表达想象一下如果每个词都能在三维空间中找到自己的位置中国可能位于(3,6,10)而熊猫在(2,5,9)附近。这就是词向量的魔力——将离散的符号转化为连续的数学对象。在实际应用中维度通常高达512或768但为了演示我们先用3维空间import numpy as np # 定义句子中国的熊猫很可爱 vocab { 中国: np.array([3, 6, 10]), 的: np.array([1, 1, 1]), 熊猫: np.array([2, 5, 9]), 很: np.array([1, 2, 1]), 可爱: np.array([0, 8, 3]) } sentence [中国, 的, 熊猫, 很, 可爱] X np.stack([vocab[word] for word in sentence]) # 形状(5,3)词向量的关键特性语义相近的词距离更近如中国与熊猫向量方向蕴含语法关系如中国→熊猫可能代表拥有关系位置编码会保留单词顺序信息此处简化为静态向量提示真实场景中词向量通过Embedding层学习得到这里我们手动定义是为了更直观地观察变化2. QKV变换为词向量赋予多重身份每个词向量现在要扮演三个不同角色查询者(Query)、被查询者(Key)和值载体(Value)。这通过三个独立的线性变换实现np.random.seed(42) d_model 3 # 原始词向量维度 d_k 2 # QK空间维度通常小于d_model # 初始化变换矩阵 WQ np.random.randn(d_model, d_k) * 0.1 WK np.random.randn(d_model, d_k) * 0.1 WV np.random.randn(d_model, d_model) * 0.1 # 计算Q,K,V Q X WQ # 查询矩阵 (5,2) K X WK # 键矩阵 (5,2) V X WV # 值矩阵 (5,3)为什么需要三个矩阵Q代表当前词的提问如中国想知道谁与我相关K代表其他词的应答如熊猫回答我与你相关度是0.8V携带实际要传递的信息如熊猫携带的语义内容3. 注意力分数词与词的社交网络计算注意力分数本质上是建立词与词之间的关联图谱。点积运算衡量Q与K的匹配程度attn_scores Q K.T / np.sqrt(d_k) # 形状(5,5) print(原始注意力分数\n, attn_scores.round(2)) # 应用Softmax归一化 def softmax(x): exp_x np.exp(x - np.max(x, axis-1, keepdimsTrue)) return exp_x / np.sum(exp_x, axis-1, keepdimsTrue) attn_weights softmax(attn_scores) print(\n注意力权重\n, attn_weights.round(2))示例输出可能显示注意力权重 [[0.45 0.12 0.3 0.08 0.05] [0.2 0.2 0.2 0.2 0.2 ] [0.25 0.1 0.4 0.15 0.1 ] [0.1 0.1 0.1 0.5 0.2 ] [0.15 0.05 0.1 0.3 0.4 ]]解读注意力模式中国最关注熊猫权重0.3可爱主要关注自身和很自我强化停用词的呈现均匀分布符合预期4. 加权合成关系向量的动态组合现在我们将注意力权重作用于V矩阵完成信息的动态重组Z attn_weights V # 形状(5,3) print(\n注意力输出\n, Z.round(2)) # 残差连接原始信息保留 Z XV矩阵的本质不是简单的词向量拷贝而是学习到的关系传递器每个V向量像是一个语义插件可以增强或修正原始词向量残差连接确保不会丢失原始信息梯度流动更顺畅5. 可视化解析追踪向量空间的变化让我们用Matplotlib观察中国一词的演变过程import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D fig plt.figure(figsize(15,5)) # 原始词向量 ax1 fig.add_subplot(131, projection3d) for i, word in enumerate(sentence): ax1.scatter(*X[i], colorr) ax1.text(*X[i], word) ax1.set_title(初始词向量) # 注意力权重 ax2 fig.add_subplot(132) im ax2.imshow(attn_weights, cmapReds) ax2.set_xticks(range(len(sentence))) ax2.set_xticklabels(sentence) ax2.set_yticks(range(len(sentence))) ax2.set_yticklabels(sentence) ax2.set_title(注意力热力图) # 输出向量 ax3 fig.add_subplot(133, projection3d) for i, word in enumerate(sentence): ax3.scatter(*Z[i], colorg) ax3.text(*Z[i], word) # 绘制从X到Z的箭头 ax3.quiver(*X[i], *(Z[i]-X[i]), colorb, arrow_length_ratio0.1) ax3.set_title(输出向量蓝色箭头表示变化) plt.tight_layout() plt.show()关键观察点中国向量向熊猫方向移动语义关联可爱向量长度增加情感强度强化的几乎保持不变功能词无需调整6. 扩展实践多头注意力与层叠真实的Transformer会使用多头注意力机制让我们实现一个简化版n_heads 2 head_dim d_model // n_heads # 分割到多个头 def split_heads(x): return x.reshape(x.shape[0], n_heads, head_dim) Q_heads split_heads(Q WQ_multi) # WQ_multi形状为(d_model, d_model) K_heads split_heads(K WK_multi) V_heads split_heads(V WV_multi) # 每个头独立计算注意力 attn_outputs [] for h in range(n_heads): attn_h softmax(Q_heads[:,h] K_heads[:,h].T / np.sqrt(head_dim)) attn_outputs.append(attn_h V_heads[:,h]) # 合并多头输出 Z_multi np.concatenate(attn_outputs, axis-1) # 形状(5,3)多头机制的优势不同头可以捕捉不同类型的关系如语法vs语义扩展了模型的表示能力并行计算效率高7. 工程实践中的关键细节在实际项目中有几个容易忽视但至关重要的实现细节缩放点积的数学原理# 错误的缩放方式会导致梯度消失 attn_scores Q K.T / d_k # 正确的缩放保持方差稳定 attn_scores Q K.T / np.sqrt(d_k)注意力掩码的实现# 解码器的自回归掩码 mask np.triu(np.ones((len(sentence), len(sentence))), k1) attn_scores attn_scores - 1e9 * mask数值稳定的Softmaxdef safe_softmax(x): x x - np.max(x, axis-1, keepdimsTrue) exp_x np.exp(x) return exp_x / np.sum(exp_x, axis-1, keepdimsTrue)在BERT等模型中QKV计算通常占整体计算量的40%以上。通过分析中间变量的内存占用我们发现张量名称形状内存占比Q/K矩阵(seq_len, d_k)25%注意力权重(seq_len, seq_len)45%V矩阵(seq_len, d_model)30%这解释了为什么许多优化工作聚焦于稀疏注意力或低秩近似——当序列长度达到1024时注意力权重的(1024,1024)矩阵会成为显存瓶颈。

从‘词向量搬家’到‘关系运算’：动手用NumPy模拟Transformer的QKV计算全过程（附代码）

相关文章：

从‘词向量搬家’到‘关系运算’：动手用NumPy模拟Transformer的QKV计算全过程（附代码）

AI 会取代手工测试吗？测试工程师真正该担心什么？

从游戏建模到数字孪生：聊聊三维重建技术在实际项目里到底怎么用（附Blender+RealityCapture案例）

Windows系统必备：Visual C++运行库一键修复完全指南

如何快速下载国家中小学智慧教育平台电子课本：一站式解析工具使用指南

基于AI与静态生成的智能RSS聚合器FeedMe部署与定制指南

3步魔法：浏览器中的革命性法线贴图生成器

抖音评论采集终极指南：3步获取完整评论数据，无需编程基础

Pearcleaner：macOS彻底清理应用的终极指南，释放宝贵磁盘空间

从dev到prod只需1次git push：基于renv+GitHub Packages+RSPM的Tidyverse依赖全生命周期管控体系

为香蕉派Nano Pro构建国内优化版Armbian镜像与Docker集成指南

Blender贝塞尔曲线插件完全指南：从入门到精通

从手机闪屏到笔记本卡顿：聊聊那些由‘电感啸叫’暴露的隐藏电源问题

手把手教你用PaddleOCR的SVTR模型：从环境搭建到中文场景文字识别实战

抖音无水印视频终极下载指南：两款开源工具让你轻松保存高清内容

Taotoken 路由策略在实际高并发调用下的稳定性表现观察

手把手教你用GoT框架优化GPT-3.5/4的排序与关键词统计任务，成本直降30%+

告别裸机轮询：用沁恒CH582的TMOS构建高效低功耗蓝牙应用实战

Sunshine游戏串流服务器终极实战指南：零基础打造你的专属云游戏平台

有人AI算力主机 | 多源数据，AI分析，边缘智理

为你的开源项目集成大模型能力利用 Taotoken 实现快速原型验证

TVA在机器人核心零部件制造与检测中的体验分享（1）

通过 Python 示例代码快速实现与大模型的多轮对话交互

基于ETL与LLM的自动化新闻生成系统：从爬虫到发布的完整实践

阴阳师玩家必看：如何用OnmyojiAutoScript每天节省2小时游戏时间？

终极指南：5分钟上手REFramework，打造你的RE引擎游戏Mod开发环境

为什么开发者都在研究 OpenClaw？

旧手机别扔！用Magisk和BusyBox把它变成24小时在线的青龙面板服务器（保姆级教程）

Spring Boot项目启动报‘non-compatible bean definition‘？别慌，这3种常见原因和排查思路帮你搞定

抖音评论采集神器：5分钟掌握高效数据收集的终极方案