当前位置：首页 > news >正文

实现pytorch注意力机制-one demo

news 2026/2/9 20:05:30

主要组成部分：

1. 定义注意力层：

定义一个Attention_Layer类，接受两个参数：hidden_dim（隐藏层维度）和is_bi_rnn（是否是双向RNN）。

2. 定义前向传播：

定义了注意力层的前向传播过程，包括计算注意力权重和输出。

3. 数据准备

生成一个随机的数据集，包含3个句子，每个句子10个词，每个词128个特征。

4. 实例化注意力层：

实例化一个注意力层，接受两个参数：hidden_dim（隐藏层维度）和is_bi_rnn（是否是双向RNN）。

5. 前向传播

将数据传递给注意力层的前向传播方法。

6. 分析结果

获取第一个句子的注意力权重。

7. 可视化注意力权重

使用matplotlib库可视化了注意力权重。

**主要函数和类：**
Attention_Layer类：定义了注意力层的结构和前向传播过程。
forward方法：定义了注意力层的前向传播过程。
torch.from_numpy函数：将numpy数组转换为PyTorch张量。
matplotlib库：用于可视化注意力权重。

import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
import matplotlib.pyplot as plt# 定义注意力层
class Attention_Layer(nn.Module):def __init__(self, hidden_dim, is_bi_rnn):super(Attention_Layer,self).__init__()self.hidden_dim = hidden_dimself.is_bi_rnn = is_bi_rnnif is_bi_rnn:self.Q_linear = nn.Linear(hidden_dim * 2, hidden_dim * 2, bias = False)self.K_linear = nn.Linear(hidden_dim * 2, hidden_dim * 2, bias = False)self.V_linear = nn.Linear(hidden_dim * 2, hidden_dim * 2, bias = False)else:self.Q_linear = nn.Linear(hidden_dim, hidden_dim, bias = False)self.K_linear = nn.Linear(hidden_dim, hidden_dim, bias = False)self.V_linear = nn.Linear(hidden_dim, hidden_dim, bias = False)def forward(self, inputs, lens):# 获取输入的大小size = inputs.size()Q = self.Q_linear(inputs) K = self.K_linear(inputs).permute(0, 2, 1)V = self.V_linear(inputs)max_len = max(lens)sentence_lengths = torch.Tensor(lens)mask = torch.arange(sentence_lengths.max().item())[None, :] < sentence_lengths[:, None]mask = mask.unsqueeze(dim = 1)mask = mask.expand(size[0], max_len, max_len)padding_num = torch.ones_like(mask)padding_num = -2**31 * padding_num.float()alpha = torch.matmul(Q, K)alpha = torch.where(mask, alpha, padding_num)alpha = F.softmax(alpha, dim = 2)out = torch.matmul(alpha, V)return out# 准备数据
data = np.random.rand(3, 10, 128)  # 3个句子，每个句子10个词，每个词128个特征
lens = [7, 10, 4]  # 每个句子的长度# 实例化注意力层
hidden_dim = 64
is_bi_rnn = True
att_L = Attention_Layer(hidden_dim, is_bi_rnn)# 前向传播
att_out = att_L(torch.from_numpy(data).float(), lens)# 分析结果
attention_weights = att_out[0, :, :].detach().numpy()  # 获取第一个句子的注意力权重# 可视化注意力权重
plt.imshow(attention_weights, cmap='hot', interpolation='nearest')
plt.colorbar()
plt.show()

在这里插入图片描述

实现pytorch注意力机制-one demo

主要组成部分： 1. 定义注意力层： 定义一个Attention_Layer类，接受两个参数：hidden_dim（隐藏层维度）和is_bi_rnn（是否是双向RNN）。 2. 定义前向传播： 定义了注意力层的…...

编程日记 2025/2/19 0:18:08

深入Flask：如何优雅地处理HTTP请求与响应

哈喽，大家好，我是木头左！本文将带你深入了解如何在Flask中优雅地处理HTTP请求和响应，让你的应用更加高效、安全和用户友好。创建一个简单的Flask应用让从创建一个最简单的Flask应用开始： from flask import Flaskapp = Flask(__name__)@app.route(/) def...

编程日记 2025/2/19 0:15:04

JVM ②-双亲委派模型 || 垃圾回收GC

这里是Themberfue 在上节课对内存区域划分以及类加载的过程有了简单的了解后，我们再了解其他两个较为重要的机制，这些都是面试中常考的知识点，有必要的话建议背出来，当然不是死记硬背，而是要有理解的背~~~如果对 JVM …...

编程日记 2025/2/19 0:14:01

jQuery介绍（快速、简洁JavaScript库，诞生于2006年，主要目标是简化HTML文档操作、事件处理、动画和Ajax交互）

文章目录 **核心功能 & 亮点**1. **简化 DOM 操作**2. **链式调用**3. **跨浏览器兼容**4. **便捷的事件绑定**5. **Ajax 封装**6. **动画效果** **现状与适用场景**- **传统项目维护**：许多旧系统（如 WordPress 插件、老企业网站）仍依赖…...

编程日记 2025/2/19 0:05:50

python旅游推荐系统+爬虫+可视化（协同过滤算法）

✅️基于用户的协同过滤算法 ✅️有后台管理 ✅️2w多数据集这个旅游数据分析推荐系统采用了Python语言、Django框架、MySQL数据库、requests库进行网络爬虫开发、机器学习中的协同过滤算法、ECharts数据可视化技术，以实现从网站抓取旅游数据、个性化推荐和直观展…...

编程日记 2025/2/19 0:03:47

Ubuntu 22.04.5 LTS 安装企业微信，（2025-02-17安装可行）

一、依赖包(Ubuntu 20.04/Debian 11) 点击下载https://www.spark-app.store/download_dependencies_latest 1、下载最新的依赖包。请访问星火应用商店依赖包下载页面，下载最新的依赖包。2、解压依赖包 </...

编程日记 2025/2/18 23:59:42

【Excel笔记_6】条件格式和自定义格式设置表中数值超过100保留1位，超过1000保留0位，低于100为默认

方法一：自定义格式选中需要设置格式的单元格区域。右键选择设置单元格格式，或者在工具栏中选择开始 -> 数字 -> 自定义格式。在类型框中输入以下自定义格式： [>1000]0;[>100]0.0;G/通用格式解释： [>1000]0&…...

编程日记 2025/2/18 23:57:36

UDP与TCP

用UDP一定比用TCP快吗？ 假设我们需要在a电脑的进程发一段数据到b电脑的进程我们可以选择使用TCP或UDP协议进行通信。对于TCP这样的可靠性协议每次消息发出后都能明确知道对方有没有收到，就像打电话一样，只要“喂喂"两下对方就能回你个…...

编程日记 2025/2/18 23:53:30

Web开发技术概述

Web开发技术涵盖了前端和后端开发，以及数据库技术。前端开发包括使用HTML、CSS、JavaScript等原生技术，以及jQuery、Bootstrap、AngularJS、React、Vue等框架。后端开发则涉及ASP.NET、PHP、Python Web（Flask、Django）、Java Web&…...

编程日记 2025/2/18 23:50:27

解压rar格式的软件有哪些？8种方法（Win/Mac/手机/网页端）

RAR 文件是一种常见的压缩文件格式，由尤金・罗谢尔（Eugene Roshal）开发，因其扩展名 “rar” 而得名。它通过特定算法将一个或多个文件、文件夹进行压缩，大幅减小存储空间，方便数据传输与备份。然而&#xf…...

编程日记 2025/2/18 23:49:25

uniapp开发：首次进入 App 弹出隐私协议窗口

前言：在移动应用开发中，隐私协议弹窗是一个非常重要的功能。它不仅符合法律法规的要求（如 GDPR、CCPA 等），还能增强用户对 App 的信任感。本文将介绍如何在 Uniapp 开发的 App 中实现“首次进入弹出隐私协议窗口&#…...

编程日记 2025/2/18 23:45:18

执行pnpm run dev报错：node:events:491 throw er； // Unhandled ‘error‘ event的解决方案

vite搭建的vue项目，使用pnpm包管理工具，执行pnpm run dev，报如下错误： 报错原因： pnpm依赖安装不完整，缺少esbuild.exe文件，导致无法执行启动命令。解决方案： 根据错误提示中提到…...

编程日记 2025/2/18 23:44:16

OpenCV机器学习（4）k-近邻算法（k-Nearest Neighbors, KNN）cv::ml::KNearest类

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述 cv::ml::KNearest 是 OpenCV 机器学习模块中的一部分，它提供了实现 k-近邻算法（k-Nearest Neighbors, KNN）的…...

编程日记 2025/2/18 23:40:10

JVM中的线程池详解：原理→实践

一、为什么需要线程池？ 在多线程编程中，频繁地创建和销毁线程会带来显著的性能开销。想象一下，如果你经营一家西餐厅，每次有顾客到来你都雇佣新的服务员，顾客吃完结账后就解雇——这种模式是不是非常效率低下且成本高…...

编程日记 2025/2/18 23:39:08

SNARKs 和 UTXO链的未来

1. 引言 SNARKs 经常被视为“解决”扩容问题的灵丹妙药。虽然 SNARKs 可以提供令人难以置信的好处，但也需要承认其局限性——SNARKs 无法解决区块链目前面临的现有带宽限制。本文旨在通过对 SNARKs 对比特币能做什么和不能做什么进行（相对&#xff09…...

编程日记 2025/2/18 23:34:00

JavaScript设计模式 -- 外观模式

在实际开发中，往往会遇到多个子系统协同工作时，直接操作各个子系统不仅接口繁琐，还容易导致客户端与内部实现紧密耦合。**外观模式（Facade Pattern）**通过为多个子系统提供一个统一的高层接口，将复杂性隐藏…...

编程日记 2025/2/18 23:32:56

百达翡丽（Patek Philippe）：瑞士制表的巅峰之作（中英双语）

百达翡丽（Patek Philippe）：瑞士制表的巅峰之作在钟表界，百达翡丽（Patek Philippe） 一直被誉为“世界三大名表”之一，并且常被认为是其中的至高存在。一句“没人能真正拥有一枚百达翡丽&#x…...

编程日记 2025/2/18 23:27:50

阿里云一键部署DeepSeek-V3、DeepSeek-R1模型

目录支持的模型列表模型部署模型调用 WebUI使用在线调试 API调用关于成本 FAQ 点击部署后服务长时间等待服务部署成功后，调用API返回404 请求太长导致EAS网关超时部署完成后，如何在EAS的在线调试页面调试模型部署之后没有“联网搜索…...

编程日记 2025/2/18 23:26:47

分享一款AI绘画图片展示和分享的小程序

🎨奇绘图册【开源】一款帮AI绘画爱好者维护绘图作品的小程序查看Demo 反馈 github 文章目录前言一、奇绘图册是什么？二、项目全景三、预览体验3.1 截图示例3.2 在线体验四、功能介绍4.1 小程序4.2 服务端五、安装部署5.1 快速开始~~5.2 手动部…...

编程日记 2025/2/18 23:25:45

【练习】【双指针】力扣热题100 283. 移动零

题目给定一个数组 nums，编写一个函数将所有 0 移动到数组的末尾，同时保持非零元素的相对顺序。请注意 ，必须在不复制数组的情况下原地对数组进行操作。示例 1: 输入: nums [0,1,0,3,12] 输出: [1,3,12,0,0] 示例 2: 输入: nums [0] 输出…...

编程日记 2025/2/18 23:20:40

国防科技大学计算机基础课程笔记02信息编码

1.机内码和国标码国标码就是我们非常熟悉的这个GB2312,但是因为都是16进制，因此这个了16进制的数据既可以翻译成为这个机器码，也可以翻译成为这个国标码，所以这个时候很容易会出现这个歧义的情况； 因此，我们的这个国…...

编程新知 2026/2/8 4:37:15

模型参数、模型存储精度、参数与显存

模型参数量衡量单位 M：百万（Million） B：十亿（Billion） 1 B 1000 M 1B 1000M 1B1000M 参数存储精度模型参数是固定的，但是一个参数所表示多少字节不一定，需要看这个参数以什么…...

编程新知 2025/12/20 12:32:08

Redis相关知识总结（缓存雪崩，缓存穿透，缓存击穿，Redis实现分布式锁，如何保持数据库和缓存一致）

文章目录 1.什么是Redis？2.为什么要使用redis作为mysql的缓存？3.什么是缓存雪崩、缓存穿透、缓存击穿？3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...

编程新知 2026/2/8 12:24:34

基于服务器使用 apt 安装、配置 Nginx

🧾 一、查看可安装的 Nginx 版本首先，你可以运行以下命令查看可用版本： apt-cache madison nginx-core输出示例： nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...

编程新知 2026/1/9 12:53:59

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

1. BluetoothProperties介绍 libsysprop/srcs/android/sysprop/BluetoothProperties.sysprop BluetoothProperties.sysprop 是 Android AOSP 中的一种系统属性定义文件（System Property Definition File），用于声明和管理 Bluetooth 模块相…...

编程新知 2025/11/22 12:02:51

基于Docker Compose部署Java微服务项目

一. 创建根项目根项目（父项目）主要用于依赖管理一些需要注意的点： 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件，否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

编程新知 2026/2/5 3:09:56

现代密码学 | 椭圆曲线密码学—附py代码

Elliptic Curve Cryptography 椭圆曲线密码学（ECC）是一种基于有限域上椭圆曲线数学特性的公钥加密技术。其核心原理涉及椭圆曲线的代数性质、离散对数问题以及有限域上的运算。椭圆曲线密码学是多种数字签名算法的基础，例如椭圆曲线数字签…...

编程新知 2026/2/6 7:30:33

04-初识css

一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...

编程新知 2026/1/29 17:54:05

让AI看见世界：MCP协议与服务器的工作原理

让AI看见世界：MCP协议与服务器的工作原理 MCP（Model Context Protocol）是一种创新的通信协议，旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天，MCP正成为连接AI与现实世界的重要桥梁。…...

编程新知 2026/1/31 11:13:53

AspectJ 在 Android 中的完整使用指南

一、环境配置（Gradle 7.0 适配） 1. 项目级 build.gradle // 注意：沪江插件已停更，推荐官方兼容方案 buildscript {dependencies {classpath org.aspectj:aspectjtools:1.9.9.1 // AspectJ 工具} } 2. 模块级 build.gradle plu…...

编程新知 2025/7/7 22:33:57