当前位置：首页 > news >正文

《动手学深度学习 Pytorch版》 10.1 注意力提示

news 2026/2/11 2:50:18

10.1.1 生物学中的注意力提示

“美国心理学之父” 威廉·詹姆斯提出的双组件（two-component）框架：

非自主性提示：基于环境中物体的突出性和易见性
自主性提示：受到了认知和意识的控制

10.1.2 查询、键和值

注意力机制与全连接层或汇聚层区别开来的元素：是否包含自主性提示
在注意力机制的背景下：
- 自主性提示被称为查询（query）。
- 给定任何查询，注意力机制通过注意力汇聚（attention pooling） 将选择引导至感官输入（sensory inputs），例如中间特征表示。
- 在注意力机制中，这些感官输入被称为值（value）。更通俗的解释，每个值都与一个**键（key）**配对，这可以想象为感官输入的非自主提示。可以通过设计注意力汇聚的方式，便于给定的查询（自主性提示）与键（非自主性提示）进行匹配，这将引导得出最匹配的值（感官输入）。

10.1.3 注意力的可视化

import torch
from d2l import torch as d2l

平均汇聚层可以被视为输入的加权平均值，注意力汇聚得到的是加权平均的总和值。下面的 show_heatmaps 函数，其输入 matrices 的形状是（要显示的行数，要显示的列数，查询的数目，键的数目）

#@save
def show_heatmaps(matrices, xlabel, ylabel, titles=None, figsize=(2.5, 2.5),cmap='Reds'):"""显示矩阵热图"""d2l.use_svg_display()num_rows, num_cols = matrices.shape[0], matrices.shape[1]fig, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize,sharex=True, sharey=True, squeeze=False)for i, (row_axes, row_matrices) in enumerate(zip(axes, matrices)):for j, (ax, matrix) in enumerate(zip(row_axes, row_matrices)):pcm = ax.imshow(matrix.detach().numpy(), cmap=cmap)if i == num_rows - 1:ax.set_xlabel(xlabel)if j == 0:ax.set_ylabel(ylabel)if titles:ax.set_title(titles[j])fig.colorbar(pcm, ax=axes, shrink=0.6);

attention_weights = torch.eye(10).reshape((1, 1, 10, 10))  # 生成对角线全1，其余部分全0的二维数组
show_heatmaps(attention_weights, xlabel='Keys', ylabel='Queries')  # 仅当查询和键相同时，注意力权重为1，否则为0。

在这里插入图片描述

练习

（1）在机器翻译中通过解码序列词元时，其自主性提示可能是什么？非自主性提示和感官输入又是什么？

自主性提示可能是上下文信息之类的

非自主性提示可能是指在机器翻译过程中使用的其他信息，比如语言学习或人工翻译的知识。

感官输入可能是指输入方式、

（2）随机生成一个 $10\times 10$ 矩阵并使用 softmax 运算来确保每行都是有效的概率分布，然后可视化输出注意力权重。

attention_weights = d2l.F.softmax(torch.rand((10, 10)), dim=1).reshape((1, 1, 10, 10))
show_heatmaps(attention_weights, xlabel='Keys', ylabel='Queries')

在这里插入图片描述

《动手学深度学习 Pytorch版》 10.1 注意力提示

10.1.1 生物学中的注意力提示 “美国心理学之父” 威廉詹姆斯提出的双组件（two-component）框架： 非自主性提示：基于环境中物体的突出性和易见性自主性提示：受到了认知和意识的控制 10.1.2 查询、键和值注意力机制…...

编程日记 2023/10/24 12:49:12

C# 写入文件比较

数据长度：128188个long BinaryWriter每次写一个long 耗时14.7828ms StreamWriter每次写一个long 耗时44.0934 ms FileStream每次写一个long 耗时20.5142 ms FileStream固定chunk写入，循环操作数组，耗时13.4126 ms byte[] chunk new byte[d…...

编程日记 2023/10/24 12:48:11

医院设备利用（Use of Hospital Facilities, ACM/ICPC World Finals 1991, UVa212）rust解法

医院里有n（n≤10）个手术室和m（m≤30）个恢复室。每个病人首先会被分配到一个手术室，手术后会被分配到一个恢复室。从任意手术室到任意恢复室的时间均为t1，准备一个手术室和恢复室的时间分别为t2和t3&#xf…...

编程日记 2023/10/24 12:47:10

解决github ping不通的问题（1024程序员节快乐！

1024程序员节快乐！（随便粘贴一个文档，参加活动解决github ping不通的问题域名解析（域名->IP）：https://www.ipaddress.com/ Ubuntu平台 github经常ping不通或者访问缓慢，方法是更改host…...

编程日记 2023/10/24 12:45:09

QT基础柱状图

目录 1.QBarSeries 2.QHorizontalBarSeries 3.QPercentBarSeries 4.QHorizontalPercentBarSeries 5.QStackedBarSeries 6.QHorizontalStackedBarSeries 从上图得知柱状的基类是QAbstractBarSeries，派生出来分别是柱状图的水平和垂直类，只是类型…...

编程日记 2023/10/24 12:43:07

微机原理与接口技术-第七章输入输出接口

文章目录 I/O接口概述I/O接口的典型结构基本功能 I/O端口的编址独立编址统一编址输入输出指令I/O寻址方式I/O数据传输量I/O保护 16位DOS应用程序DOS平台的源程序框架DOS功能调用无条件传送和查询传送无条件传送三态缓冲器锁存器接口电路查询传送查询输入端口查询输出端口中…...

编程日记 2023/10/24 12:42:05

YoloV8改进策略：独家原创，LSKA（大可分离核注意力）改进YoloV8，比Transformer更有效，包括论文翻译和实验结果

文章目录摘要论文：《LSKA（大可分离核注意力）：重新思考CNN大核注意力设计》1、简介2、相关工作3、方法4、实验5、消融研究6、与最先进方法的比较7、ViTs和CNNs的鲁棒性评估基准比较8、结论YoloV8官方结果改进一：测试结果摘要本文给大家带来一种超大核注意力机制的改进方…...

编程日记 2023/10/24 12:41:05

7天易语言从入门到实战（一）

1.1易语言简介易语言是一门有着伟大理想的语言。公司用的少，开发者也很少，并不影响国人对他的热情。曾经的多玩LOL，朗读女，都是陪伴再那个国产PC应用匮乏的时代。 2001年1月吴涛研发了中国自主知识产权的的中文编程语言——易语…...

编程日记 2023/10/24 12:40:03

redis缓存问题

缓存击穿缓存击穿是指某个热点数据存储在redis中，该数据在高并发的场景下，当该key过期时就会有大量的请求去查询数据库，对数据库的压力非常大，可能会导致数据库压垮。解决方案 1.不为热点的key设置过期时间。 2.使用分布式锁…...

编程日记 2023/10/24 12:39:01

mysql创建自定义函数报错

mysql创建自定义函数报错：This function has none of DETERMINISTIC, NO SQL, or READS SQL DATA in its declarat… 这是我们开启了bin-log，我们就必须指定我们的函数是否是 1.DETERMINISTIC 不确定的 2.NO SQL没有sql语句，当然也不会修改数…...

编程日记 2023/10/24 12:38:01

Docker 的数据管理与网络通信以及Docker镜像的创建

目录 Docker的数据管理 1、数据卷 2、数据卷容器 3、端口映射 4、容器互联二、Docker网络 1、Docker网络实现原理 2、Docker的网桥模式 1）Host 2）Container 3）none 4）bridge 5）自定义网络 3、创建自定义…...

编程日记 2023/10/24 12:36:59

linux系统查看bash的history

要输出最近的20条命令，可以使用history命令。在Bash终端中，输入以下命令即可获取最近的20条命令历史记录： history 20这将显示你最近执行的20条命令及其相应的行号。要将最近的20条命令写入到一个名为 “command.txt” 的文本文件中&#…...

编程日记 2023/10/24 12:35:58

【T+】畅捷通T+增加会计科目提示执行超时已过期。

【问题描述】在畅捷通T软件中， 增加会计科目的时候提示： 通过DataTable插入ext扩展表出错:执行超时已过期。完成操作之前已超时或服务器未响应。操作已被用户取消。语句已终止。【解决方法】【方法一】注销用户登录，回到软件登录界面…...

编程日记 2023/10/24 12:34:57

0基础学习VR全景平台篇第111篇：全景图拼接和编辑 - PTGui Pro教程

上课！全体起立~ 大家好，欢迎观看蛙色官方系列全景摄影课程！ 前情回顾：上节，我们将源图像导入了PTGui，也设置好了各项参数。下面我们就开始拼接全景图，并且在编辑器里进行一系列检查错位和设…...

编程日记 2023/10/24 12:30:54

Dynamics 365 使用ILMerge 合并CRM开发后的DLL

很久以前写过一篇博文，关于用ILMerge 命令合并DLL,当时时纯敲命令行的，现在有了更简单的方式，只需要在NuGet下载如下两个包另外插件引用第三方dll的新方案Preview来了，不久的将来就不需要使用ILMerge了...

编程日记 2023/10/24 12:29:53

SpringBoot Web请求响应

目录前言请求PostmanPostman使用简单参数原始方式接收普通参数SpringBoot方式接收普通参数参数名不一致问题实体参数简单实体参数复杂实体对象数组集合参数数组参数集合参数日期参数JSON参数路径参数响应ResponseBody统一响应结果请求响应案例案例需求与准备工作案例实现…...

编程日记 2023/10/24 12:28:52

Jenkins CLI二次开发工具类

使用Jenkins CLI进行二次开发使用背景公司自研CI/DI平台，借助JenkinsSonarQube进行代码质量管理。对接版本 Jenkins版本为：Version 2.428 SonarQube版本为：Community EditionVersion 10.2.1 (build 78527)技术选型 Java对接Jenkins有第…...

编程日记 2023/10/24 12:27:51

2. 计算WPL

题目 Huffman编码是通信系统中常用的一种不等长编码，它的特点是：能够使编码之后的电文长度最短。更多关于Huffman编码的内容参考教材第十章。输入： 第一行为要编码的符号数量n 第二行～第n1行为每个符号出现的频率输…...

编程日记 2023/10/24 12:26:49

筹备三年，自动驾驶L3标准将至，智驾产业链的关键一跃

‍作者|张祥威编辑|德新多位知情人士告诉HiEV，智能网联汽车准入试点通知，乐观预计将在一个月内发布。试点的推动，意味着国家层面的自动驾驶L3标准随之到来。「L3标准内容大部分与主机厂相关，由工信部牵头，找了几家…...

编程日记 2023/10/24 12:25:49

【Python】Python使用Switch语句

这里写目录标题 1.使用字典（Dictionary）2.使用if-elif-else 1.使用字典（Dictionary） 在 Python 中，没有内置的 switch 语句，但可以使用其他方式来实现类似的功能。以下是两种常见的方法： 使用…...

编程日记 2023/10/24 12:24:48

Java 语言特性(面试系列2)

一、SQL 基础 1. 复杂查询 （1）连接查询（JOIN） 内连接（INNER JOIN）：返回两表匹配的记录。 SELECT e.name, d.dept_name FROM employees e INNER JOIN departments d ON e.dept_id d.dept_id; 左…...

编程新知 2025/10/24 14:20:29

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统下面是一个完整的 Python 系统，利用大模型实现智能 UI 自动化，结合计算机视觉和自然语言处理技术，实现"看屏操作"的能力。系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

编程新知 2025/10/22 11:16:20

stm32G473的flash模式是单bank还是双bank？

今天突然有人stm32G473的flash模式是单bank还是双bank？由于时间太久，我真忘记了。搜搜发现，还真有人和我一样。见下面的链接：https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...

编程新知 2026/2/8 20:41:51

golang循环变量捕获问题

在 Go 语言中，当在循环中启动协程（goroutine）时，如果在协程闭包中直接引用循环变量，可能会遇到一个常见的陷阱 - 循环变量捕获问题。让我详细解释一下： 问题背景看这个代码片段： fo…...

编程新知 2026/1/21 14:29:57

【解密LSTM、GRU如何解决传统RNN梯度消失问题】

解密LSTM与GRU：如何让RNN变得更聪明？ 在深度学习的世界里，循环神经网络（RNN）以其卓越的序列数据处理能力广泛应用于自然语言处理、时间序列预测等领域。然而，传统RNN存在的一个严重问题——梯度消失&#…...

编程新知 2025/12/24 1:45:14

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...

编程新知 2026/1/26 21:57:45

TRS收益互换：跨境资本流动的金融创新工具与系统化解决方案

一、TRS收益互换的本质与业务逻辑 （一）概念解析 TRS（Total Return Swap）收益互换是一种金融衍生工具，指交易双方约定在未来一定期限内，基于特定资产或指数的表现进行现金流交换的协议。其核心特征包括&am…...

编程新知 2025/11/2 0:31:23

令牌桶滑动窗口-＞限流分布式信号量-＞限并发的原理 lua脚本分析介绍

文章目录前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结： 滑动窗口代码实现结果分析lua脚本原理解析限并发分布式信号量代码实现结果分析lua脚本实现原理双注解去实现限流并发结果分析： 实际业务去理解体会统一注…...

编程新知 2026/1/29 16:36:27

自然语言处理——Transformer

自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，但是它有一个很大的缺陷——很难并行化。我们可以考虑用CNN来替代RNN，但是…...

编程新知 2026/2/1 7:05:07

QT： `long long` 类型转换为 `QString` 2025.6.5

在 Qt 中，将 long long 类型转换为 QString 可以通过以下两种常用方法实现： 方法 1：使用 QString::number() 直接调用 QString 的静态方法 number()，将数值转换为字符串： long long value 1234567890123456789LL; …...

编程新知 2026/2/1 6:30:04

10.1.1 生物学中的注意力提示

10.1.2 查询、键和值

10.1.3 注意力的可视化

练习

相关文章：