当前位置：首页 > news >正文

注意力机制讲解与代码解析

news 2026/2/10 2:27:39

一、SEBlock(通道注意力机制)

先在H*W维度进行压缩，全局平均池化将每个通道平均为一个值。
（B, C, H, W）---- (B, C, 1, 1)

利用各channel维度的相关性计算权重
(B, C, 1, 1) --- (B, C//K, 1, 1) --- (B, C, 1, 1) --- sigmoid

与原特征相乘得到加权后的。

import torch
import torch.nn as nnclass SELayer(nn.Module):def __init__(self, channel, reduction = 4):super(SELayer, self).__init__()self.avg_pool = nn.AdaptiveAvgPool2d(1) //自适应全局池化，只需要给出池化后特征图大小self.fc1 = nn.Sequential(nn.Conv2d(channel, channel//reduction, 1, bias = False),nn.ReLu(implace = True),nn.Conv2d(channel//reduction, channel, 1, bias = False),nn.sigmoid())def forward(self, x):y = self.avg_pool(x)y_out = self.fc1(y)return x * y

二、CBAM(通道注意力+空间注意力机制)

CBAM里面既有通道注意力机制，也有空间注意力机制。
通道注意力同SE的大致相同，但额外加入了全局最大池化与全局平均池化并行。

空间注意力机制：先在channel维度进行最大池化和均值池化，然后在channel维度合并，MLP进行特征交融。最终和原始特征相乘。

import torch
import torch.nn as nnclass ChannelAttention(nn.Module):def __init__(self, channel, rate = 4):super(ChannelAttention, self).__init__()self.avg_pool = nn.AdaptiveAvgPool2d(1)self.max_pool = nn.AdaptiveMaxPool2d(1)self.fc1 = nn.Sequential(nn.Conv2d(channel, channel//rate, 1, bias = False)nn.ReLu(implace = True)nn.Conv2d(channel//rate, channel, 1, bias = False)            )self.sig = nn.sigmoid()def forward(self, x):avg = sefl.avg_pool(x)avg_feature = self.fc1(avg)max = self.max_pool(x)max_feature = self.fc1(max)out = max_feature + avg_featureout = self.sig(out)return x * out

import torch
import torch.nn as nnclass SpatialAttention(nn.Module):def __init__(self):super(SpatialAttention, self).__init__()//(B,C,H,W)---(B,1,H,W)---(B,2,H,W)---(B,1,H,W)self.conv1 = nn.Conv2d(2, 1, kernel_size = 3, padding = 1, bias = False)self.sigmoid = nn.sigmoid()def forward(self, x):mean_f = torch.mean(x, dim = 1, keepdim = True)max_f = torch.max(x, dim = 1, keepdim = True)cat = torch.cat([mean_f, max_f], dim = 1)out = self.conv1(cat)return x*self.sigmod(out)

三、transformer里的注意力机制

Scaled Dot-Product Attention

该注意力机制的输入是QKV。

1.先Q,K相乘。

2.scale

3.softmax

4.求output

import torch
import torch.nn as nnclass ScaledDotProductAttention(nn.Module):def __init__(self, scale):super(ScaledDotProductAttention, self)self.scale = scaleself.softmax = nn.softmax(dim = 2)def forward(self, q, k, v):u = torch.bmm(q, k.transpose(1, 2))u = u / scaleattn = self.softmax(u)output = torch.bmm(attn, v)return outputscale = np.power(d_k, 0.5)  //缩放系数为K维度的根号。
//Q  (B, n_q, d_q) , K (B, n_k, d_k)  V (B, n_v, d_v),Q与K的特征维度一定要一样。KV的个数一定要一样。

MultiHeadAttention

将QKVchannel维度转换为n*C的形式,相当于分成n份，分别做注意力机制。

1.QKV单头变多头 channel ----- n * new_channel通过linear变换,然后把head和batch先合并

2.求单头注意力机制输出

3.维度拆分将最终的head和channel合并。

4.linear得到最终输出维度

import torch
import torch.nn as nnclass MultiHeadAttention(nn.Module):def __init__(self, n_head, d_k, d_k_, d_v, d_v_, d_o):super(MultiHeadAttention, self)self.n_head = n_headself.d_k = d_kself.d_v = d_vself.fc_k = nn.Linear(d_k_, n_head * d_k)self.fc_v = nn.Linear(d_v_, n_head * d_v)self.fc_q = nn.Linear(d_k_, n_head * d_k)self.attention = ScaledDotProductAttention(scale=np.power(d_k, 0.5))self.fc_o = nn.Linear(n_head * d_v, d_0)def forward(self, q, k, v):batch, n_q, d_q_ = q.size()batch, n_k, d_k_ = k.size()batch, n_v, d_v_ = v.size()q = self.fc_q(q)k = self.fc_k(k)v = self.fc_v(v)q = q.view(batch, n_q, n_head, d_q).permute(2, 0, 1, 3).contiguous().view(-1, n_q, d_q)k = k.view(batch, n_k, n_head, d_k).permute(2, 0, 1, 3).contiguous().view(-1, n_k, d_k)v = v.view(batch, n_v, n_head, d_v).permute(2, 0, 1, 3).contiguous().view(-1. n_v, d_v)    output = self.attention(q, k, v)output = output.view(n_head, batch, n_q, d_v).permute(1, 2, 0, 3).contiguous().view(batch, n_q, -1)output = self.fc_0(output)return output

注意力机制讲解与代码解析

一、SEBlock(通道注意力机制) 先在H*W维度进行压缩，全局平均池化将每个通道平均为一个值。 （B, C, H, W）---- (B, C, 1, 1) 利用各channel维度的相关性计算权重 (B, C, 1, 1) --- (B, C//K, 1, 1) --- (B, C, 1, 1) --- sigmoid 与原特征相…...

编程日记 2023/9/11 6:38:10

微调 TrOCR – 训练 TrOCR 识别弯曲文本

TrOCR（基于 Transformer 的光学字符识别）模型是性能最佳的 OCR 模型之一。在我们之前的文章中，我们分析了它们在单行打印和手写文本上的表现。然而，与任何其他深度学习模型一样，它们也有其局限性。TrOCR 在处理开箱即用的弯曲文本时表现不佳。本文将通过在弯曲文本数据集上…...

编程日记 2023/9/11 6:37:09

Jetsonnano B01 笔记7：Mediapipe与人脸手势识别

今日继续我的Jetsonnano学习之路，今日学习安装使用的是：MediaPipe 一款开源的多媒体机器学习模型应用框架。可在移动设备、工作站和服务器上跨平台运行，并支持移动 GPU 加速。介绍与程序搬运官方，只是自己的学习记录笔记&am…...

编程日记 2023/9/11 6:36:08

vue学习之v-if/v-else/v-else-if

v-else/v-else-if 创建 demo7.html,内容如下 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Docum…...

编程日记 2023/9/11 6:35:07

ansible的安装和简单的块使用

目录一、概述二、安装 1、选择源 2、安装ansible 3、模块查看三、实验 1、拓扑编辑 2、设置组、ping模块 3、hostname模块 4、file模块编辑 5、stat模块 6、copy模块（本地拷贝到远程） 7、fetch模块与copy模块类似，但作用…...

编程日记 2023/9/11 6:34:06

Android 状态栏显示运营商名称

Android 原生设计中在锁屏界面会显示运营商名称，用户界面中，大概是基于 icon 数量长度显示考虑，对运营商名称不作显示。但是国内基本都加上运营商名称。对图标显示长度优化基本都是：缩小运营商字体、限制字数长度、信号图标压缩上…...

编程日记 2023/9/11 6:33:05

10.Xaml ListBox控件

1.运行界面 2.运行源码 a.Xaml 源码 <Grid Name="Grid1"><ListBox x:Name="listBo...

编程日记 2023/9/11 6:32:03

基于vue3和element-plus的省市区级联组件

git地址：https://github.com/ht-sauce/elui-china-area-dht 使用:npm i elui-china-area-dht 默认使用使用方法 <template><div class"app"><elui-china-area-dht change"onChange"></elui-china…...

编程日记 2023/9/11 6:31:00

Paper: 利用RNN来提取恶意软件家族的API调用模式

论文摘要恶意软件家族分类是预测恶意软件特征的好方法，因为属于同一家族的恶意软件往往有相似的行为特征恶意软件检测或分类方法分静态分析和动态分析两种： 静态分析基于恶意软件中包含的特定签名进行分析，优点是分析的范围覆盖了整个代码…...

编程日记 2023/9/11 6:29:59

sdkman 安装以及 graalvm安装

sdkman安装以及graalvm安装全过程, (可能需要梯子) tiamTiam-Lenovo:~$ curl -s "https://get.sdkman.io" | bash-syyyyyyys:/yho: -yd./yh/ m..oho. hy ..sh/ :N -/…...

编程日记 2023/9/11 6:28:58

如何正确使用 WEB 接口的 HTTP 状态码和业务状态码？

当设计和开发 Web 接口时，必然会和 HTTP 状态码与业务状态码这两个概念打交道。很多同学可能没有注意过这两个概念或者两者的区别，做得稀里糊涂，接下来详细讲解下二者的定义、区别和使用方法。 HTTP 状态码 HTTP 状态码是由 HTTP 协议定义的…...

编程日记 2023/9/11 6:27:57

Spark【Spark SQL（三）DataSet】

DataSet DataFrame 的出现，让 Spark 可以更好地处理结构化数据的计算，但存在一个问题：编译时的类型安全问题，为了解决它，Spark 引入了 DataSet API（DataFrame API 的扩展）。DataSet 是分布式的数…...

编程日记 2023/9/11 6:26:56

制作立体图像实用软件：3DMasterKit 10.7 Crack

3DMasterKit 软件专为创建具有逼真 3D 和运动效果的光栅图片而设计：翻转、动画、变形和缩放。打印机、广告工作室、摄影工作室和摄影师将发现 3DMasterKit 是一种有用且经济高效的解决方案，可将其业务扩展到新的维度，提高生成的 3D 图像和光…...

编程日记 2023/9/11 6:25:55

高校 Web 站点网络安全面临的主要的威胁

校园网 Web 站点的主要安全威胁来源于计算机病毒、内部用户恶意攻击和破坏、内部用户非恶意的错误操作和网络黑客入侵等。 2.1 计算机病毒计算机病毒是指编制者在计算机程序中插入的破坏计算机功能或者数据， 影响计算机使用并且能够自我复制的一组计算机指令或…...

编程日记 2023/9/11 6:24:54

1,首先 axios请求，看后端接口路径，http://122.226.146.110:25002/api/xx/ResxxList，所以baseURL地址改成 ‘/api’ let setAxios originAxios.create({baseURL: /api, //这里要改掉timeout: 20000 // request timeout}); export default s…...

编程日记 2023/9/11 6:23:53

【Cicadaplayer】解码线程及队列实现

4.4分支https://github.com/alibaba/CicadaPlayer/blob/release/0.4.4/framework/codec/ActiveDecoder.h对外：送入多个包，获取一个帧 int send_packet(std::unique_ptr<IAFPacket> &packet, uint64_t timeOut) override;int getFrame(std::u...

编程日记 2023/9/11 6:22:52

把文件上传到Gitee的详细步骤

目录第一步：创建一个空仓库第二步：找到你想上传的文件所在的地址，打开命令窗口，git init 第三步：git add 想上传的文件 ，git commit -m "给这次提交取个名字" 第四步：和咱们在第…...

编程日记 2023/9/11 6:21:50

基于keras中Lenet对于mnist的处理

文章目录 MNIST导入必要的包加载数据可视化数据集查看数据集的分布开始训练画出loss图画出accuracy图使用数据外的图来测试图片可视化转化灰度图的可视化可视化卷积层的特征图第一层卷积 conv1 和 pool1第二层卷积 conv2 和 pool2 MNIST MNIST（Modified National …...

编程日记 2023/9/11 6:20:48

Python爬虫教程：IP池的使用

前言嗨喽~大家好呀，这里是魔王呐 ❤ ~! python更多源码/资料/解答/教程等点击此处跳转文末名片免费获取一、简介爬虫中为什么需要使用代理一些网站会有相应的反爬虫措施，例如很多网站会检测某一段时间某个IP的访问次数，如果访问频率…...

编程日记 2023/9/11 6:19:47

Ansible之playbook剧本

一、playbook概述1.1 playbook 介绍1.2 playbook 组成部分二、playbook 示例2.1 playbook 启动及检测2.2 实例一2.3 vars 定义、引用变量2.4 指定远程主机sudo切换用户2.5 when条件判断2.6 迭代2.7 Templates 模块1.先准备一个以 .j2 为后缀的 template 模板文件，设…...

编程日记 2023/9/11 6:18:45

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.算法仿真参数 5.算法理论概述 6.参考文献 7.完整程序 1.程序功能描述通过动态调整节点通信的能量开销，平衡网络负载，延长WSN生命周期。具体通过建立基于距离的能量消耗模型&am…...

编程新知 2026/2/6 5:38:46

R语言AI模型部署方案：精准离线运行详解

R语言AI模型部署方案：精准离线运行详解一、项目概述本文将构建一个完整的R语言AI部署解决方案，实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点： 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

编程新知 2025/12/6 1:56:35

k8s从入门到放弃之Ingress七层负载

k8s从入门到放弃之Ingress七层负载在Kubernetes（简称K8s）中，Ingress是一个API对象，它允许你定义如何从集群外部访问集群内部的服务。Ingress可以提供负载均衡、SSL终结和基于名称的虚拟主机等功能。通过Ingress，你可…...

编程新知 2025/9/7 0:12:53

理解 MCP 工作流：使用 Ollama 和 LangChain 构建本地 MCP 客户端

🌟 什么是 MCP？ 模型控制协议 (MCP) 是一种创新的协议，旨在无缝连接 AI 模型与应用程序。 MCP 是一个开源协议，它标准化了我们的 LLM 应用程序连接所需工具和数据源并与之协作的方式。可以把它想象成你的 AI 模型和想要使用它…...

编程新知 2026/1/27 17:31:07

【项目实战】通过多模态+LangGraph实现PPT生成助手

PPT自动生成系统基于LangGraph的PPT自动生成系统，可以将Markdown文档自动转换为PPT演示文稿。功能特点 Markdown解析：自动解析Markdown文档结构PPT模板分析：分析PPT模板的布局和风格智能布局决策：匹配内容与合适的PPT布局自动…...

编程新知 2026/2/3 22:50:07

uniapp手机号一键登录保姆级教程（包含前端和后端）

目录前置条件创建uniapp项目并关联uniClound云空间开启一键登录模块并开通一键登录服务编写云函数并上传部署获取手机号流程(第一种) 前端直接调用云函数获取手机号（第三种）后台调用云函数获取手机号错误码常见问题前置条件手机安装有sim卡手机开启…...

编程新知 2026/1/27 2:03:36

多模态图像修复系统：基于深度学习的图片修复实现

多模态图像修复系统：基于深度学习的图片修复实现 1. 系统概述本系统使用多模态大模型（Stable Diffusion Inpainting）实现图像修复功能，结合文本描述和图片输入，对指定区域进行内容修复。系统包含完整的数据处理、模型训练、推理部署流程。 import torch import numpy …...

编程新知 2025/9/9 21:28:16

Windows电脑能装鸿蒙吗_Windows电脑体验鸿蒙电脑操作系统教程

鸿蒙电脑版操作系统来了，很多小伙伴想体验鸿蒙电脑版操作系统，可惜，鸿蒙系统并不支持你正在使用的传统的电脑来安装。不过可以通过可以使用华为官方提供的虚拟机，来体验大家心心念念的鸿蒙系统啦！注意：虚拟…...

编程新知 2026/2/6 2:33:44

yaml读取写入常见错误 (‘cannot represent an object‘, 117)

错误一：yaml.representer.RepresenterError: (‘cannot represent an object’, 117) 出现这个问题一直没找到原因，后面把yaml.safe_dump直接替换成yaml.dump，确实能保存，但出现乱码： 放弃yaml.dump，又切…...

编程新知 2026/2/4 11:44:10

2.3 物理层设备

在这个视频中，我们要学习工作在物理层的两种网络设备，分别是中继器和集线器。首先来看中继器。在计算机网络中两个节点之间，需要通过物理传输媒体或者说物理传输介质进行连接。像同轴电缆、双绞线就是典型的传输介质，假设A节点要给…...

编程新知 2026/2/6 22:23:38

注意力机制讲解与代码解析

一、SEBlock(通道注意力机制)

二、CBAM(通道注意力+空间注意力机制)

三、transformer里的注意力机制

Scaled Dot-Product Attention

MultiHeadAttention

相关文章：

注意力机制讲解与代码解析

微调 TrOCR – 训练 TrOCR 识别弯曲文本

Jetsonnano B01 笔记7：Mediapipe与人脸手势识别

vue学习之v-if/v-else/v-else-if

ansible的安装和简单的块使用

Android 状态栏显示运营商名称

10.Xaml ListBox控件

基于vue3和element-plus的省市区级联组件

Paper: 利用RNN来提取恶意软件家族的API调用模式

sdkman 安装以及 graalvm安装

如何正确使用 WEB 接口的 HTTP 状态码和业务状态码？

Spark【Spark SQL（三）DataSet】

制作立体图像实用软件：3DMasterKit 10.7 Crack

高校 Web 站点网络安全面临的主要的威胁

vue前端解决跨域

【Cicadaplayer】解码线程及队列实现

把文件上传到Gitee的详细步骤

基于keras中Lenet对于mnist的处理

Python爬虫教程：IP池的使用

Ansible之playbook剧本

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

R语言AI模型部署方案：精准离线运行详解

k8s从入门到放弃之Ingress七层负载

理解 MCP 工作流：使用 Ollama 和 LangChain 构建本地 MCP 客户端

【项目实战】通过多模态+LangGraph实现PPT生成助手

uniapp手机号一键登录保姆级教程（包含前端和后端）

多模态图像修复系统：基于深度学习的图片修复实现

Windows电脑能装鸿蒙吗_Windows电脑体验鸿蒙电脑操作系统教程

yaml读取写入常见错误 (‘cannot represent an object‘, 117)

2.3 物理层设备