当前位置：首页 > news >正文

YOLO即插即用模块---AgentAttention

news 2026/5/13 5:44:29

Agent Attention: On the Integration of Softmax and Linear Attention

论文地址：https://arxiv.org/pdf/2312.08874

问题：普遍使用的 Softmax 注意力机制在视觉 Transformer 模型中计算复杂度过高，限制了其在各种场景中的应用。

方法：提出了一个新的注意力机制，名为 Agent Attention，通过引入一组代理 token (A) 来解决计算复杂度过高的问题。

具体步骤：

代理聚合 (Agent Aggregation): 将代理 token (A) 作为查询 token (Q) 的代理，从键 (K) 和值 (V) 中聚合信息，形成代理特征 (VA)。
代理广播 (Agent Broadcast): 将代理 token (A) 作为键，将全局信息从代理特征 (VA) 广播到每个查询 token (Q)，形成最终的输出。

代理 token (A) 的获取方式：

可学习的参数
从输入特征中提取 (例如，通过池化或卷积)

Agent Attention 模块：

包含纯 Agent Attention、代理偏置 (Agent Bias) 和深度可分离卷积 (DWC) 模块。
代理偏置用于添加位置信息，帮助不同的代理 token 关注不同的区域。
DWC 模块用于保持特征多样性，弥补线性注意力的不足。

Agent Attention 的优势：

高效计算和高表达能力：结合了 Softmax 注意力和线性注意力的优点，既降低了计算复杂度，又保持了高表达能力。
大感受野：可以采用更大的感受野，甚至全局感受野，同时保持相同的计算量。P8

实验结果：

在图像分类、目标检测、语义分割和图像生成等任务上，Agent Attention 都取得了显著的性能提升。
在高分辨率场景中，Agent Attention 表现出优异的性能。
将 Agent Attention 应用于 Stable Diffusion，可以加速图像生成过程，并显著提高图像生成质量，无需任何额外的训练。

总结： Agent Attention 是一种高效且高表达的注意力机制，可以有效地解决 Softmax 注意力计算复杂度过高的问题，在各种视觉任务中取得了显著的性能提升，特别是在高分辨率场景中。

即插即用代码：

import torch
import torch.nn as nn
from timm.models.layers import trunc_normal_class AgentAttention(nn.Module):def __init__(self, dim, num_patches, num_heads=8, qkv_bias=False, qk_scale=None, attn_drop=0., proj_drop=0.,sr_ratio=1, agent_num=49, **kwargs):super().__init__()assert dim % num_heads == 0, f"dim {dim} should be divided by num_heads {num_heads}."self.dim = dimself.num_patches = num_patcheswindow_size = (int(num_patches ** 0.5), int(num_patches ** 0.5))self.window_size = window_sizeself.num_heads = num_headshead_dim = dim // num_headsself.scale = head_dim ** -0.5self.q = nn.Linear(dim, dim, bias=qkv_bias)self.kv = nn.Linear(dim, dim * 2, bias=qkv_bias)self.attn_drop = nn.Dropout(attn_drop)self.proj = nn.Linear(dim, dim)self.proj_drop = nn.Dropout(proj_drop)self.sr_ratio = sr_ratioif sr_ratio > 1:self.sr = nn.Conv2d(dim, dim, kernel_size=sr_ratio, stride=sr_ratio)self.norm = nn.LayerNorm(dim)self.agent_num = agent_numself.dwc = nn.Conv2d(in_channels=dim, out_channels=dim, kernel_size=(3, 3), padding=1, groups=dim)self.an_bias = nn.Parameter(torch.zeros(num_heads, agent_num, 7, 7))self.na_bias = nn.Parameter(torch.zeros(num_heads, agent_num, 7, 7))self.ah_bias = nn.Parameter(torch.zeros(1, num_heads, agent_num, window_size[0] // sr_ratio, 1))self.aw_bias = nn.Parameter(torch.zeros(1, num_heads, agent_num, 1, window_size[1] // sr_ratio))self.ha_bias = nn.Parameter(torch.zeros(1, num_heads, window_size[0], 1, agent_num))self.wa_bias = nn.Parameter(torch.zeros(1, num_heads, 1, window_size[1], agent_num))trunc_normal_(self.an_bias, std=.02)trunc_normal_(self.na_bias, std=.02)trunc_normal_(self.ah_bias, std=.02)trunc_normal_(self.aw_bias, std=.02)trunc_normal_(self.ha_bias, std=.02)trunc_normal_(self.wa_bias, std=.02)pool_size = int(agent_num ** 0.5)self.pool = nn.AdaptiveAvgPool2d(output_size=(pool_size, pool_size))self.softmax = nn.Softmax(dim=-1)def forward(self, x, H, W):b, n, c = x.shapenum_heads = self.num_headshead_dim = c // num_headsq = self.q(x)if self.sr_ratio > 1:x_ = x.permute(0, 2, 1).reshape(b, c, H, W)x_ = self.sr(x_).reshape(b, c, -1).permute(0, 2, 1)x_ = self.norm(x_)kv = self.kv(x_).reshape(b, -1, 2, c).permute(2, 0, 1, 3)else:kv = self.kv(x).reshape(b, -1, 2, c).permute(2, 0, 1, 3)k, v = kv[0], kv[1]agent_tokens = self.pool(q.reshape(b, H, W, c).permute(0, 3, 1, 2)).reshape(b, c, -1).permute(0, 2, 1)q = q.reshape(b, n, num_heads, head_dim).permute(0, 2, 1, 3)k = k.reshape(b, n // self.sr_ratio ** 2, num_heads, head_dim).permute(0, 2, 1, 3)v = v.reshape(b, n // self.sr_ratio ** 2, num_heads, head_dim).permute(0, 2, 1, 3)agent_tokens = agent_tokens.reshape(b, self.agent_num, num_heads, head_dim).permute(0, 2, 1, 3)kv_size = (self.window_size[0] // self.sr_ratio, self.window_size[1] // self.sr_ratio)position_bias1 = nn.functional.interpolate(self.an_bias, size=kv_size, mode='bilinear')position_bias1 = position_bias1.reshape(1, num_heads, self.agent_num, -1).repeat(b, 1, 1, 1)position_bias2 = (self.ah_bias + self.aw_bias).reshape(1, num_heads, self.agent_num, -1).repeat(b, 1, 1, 1)position_bias = position_bias1 + position_bias2agent_attn = self.softmax((agent_tokens * self.scale) @ k.transpose(-2, -1) + position_bias)agent_attn = self.attn_drop(agent_attn)agent_v = agent_attn @ vagent_bias1 = nn.functional.interpolate(self.na_bias, size=self.window_size, mode='bilinear')agent_bias1 = agent_bias1.reshape(1, num_heads, self.agent_num, -1).permute(0, 1, 3, 2).repeat(b, 1, 1, 1)agent_bias2 = (self.ha_bias + self.wa_bias).reshape(1, num_heads, -1, self.agent_num).repeat(b, 1, 1, 1)agent_bias = agent_bias1 + agent_bias2q_attn = self.softmax((q * self.scale) @ agent_tokens.transpose(-2, -1) + agent_bias)q_attn = self.attn_drop(q_attn)x = q_attn @ agent_vx = x.transpose(1, 2).reshape(b, n, c)v = v.transpose(1, 2).reshape(b, H // self.sr_ratio, W // self.sr_ratio, c).permute(0, 3, 1, 2)if self.sr_ratio > 1:v = nn.functional.interpolate(v, size=(H, W), mode='bilinear')x = x + self.dwc(v).permute(0, 2, 3, 1).reshape(b, n, c)x = self.proj(x)x = self.proj_drop(x)return xif __name__ == '__main__':dim = 4num_patches = 64block = AgentAttention(dim=dim, num_patches=num_patches)H, W = 8，8x = torch.rand(1, num_patches, dim)output = block(x, H, W)print(f"Input size: {x.size()}")print(f"Output size: {output.size()}")

YOLO小伙伴可进群交流：

YOLO即插即用模块---AgentAttention

Agent Attention: On the Integration of Softmax and Linear Attention 论文地址：https://arxiv.org/pdf/2312.08874 问题： 普遍使用的 Softmax 注意力机制在视觉 Transformer 模型中计算复杂度过高，限制了其在各种场景中的应用。方法&a…...

编程日记 2024/10/31 6:20:54

探索开源语音识别的未来：高效利用先进的自动语音识别技术20241030

🚀 探索开源语音识别的未来：高效利用自动语音识别技术 🌟 引言在数字化时代，语音识别技术正在引领人机交互的新潮流，为各行业带来了颠覆性的改变。开源的自动语音识别（ASR）系统，如…...

编程日记 2024/10/31 6:18:51

学习路之TP6--workman安装

一、安装首先通过 composer 安装 composer require topthink/think-worker 报错： 分析：最新版本需要TP8，或装低版本的 composer require topthink/think-worker:^3.*安装后， 增加目录 vendor\workerman vendor\topthink\think-w…...

编程日记 2024/10/31 6:17:47

.NET内网实战：通过白名单文件反序列化漏洞绕过UAC

01阅读须知此文所节选自小报童《.NET 内网实战攻防》专栏，主要内容有.NET在各个内网渗透阶段与Windows系统交互的方式和技巧，对内网和后渗透感兴趣的朋友们可以订阅该电子报刊，解锁更多的报刊内容。 02基本介绍 03原理分析在渗透测试和红…...

编程日记 2024/10/31 6:15:44

Agents: Role 角色Goal 目标Backstory 背景故事 Tasks： Description 描述Expected Output 期望输出Agent 代理 Automated Project: Planning, Estimation, and Allocation Initial Imports 1.本地文件helper.py # Add your utilities or helper functions to…...

编程日记 2024/10/31 6:14:43

Git的.gitignore文件

一、各语言对应的.gitignore模板文件项目地址：https://github.com/github/gitignore 二、.gitignore文件不生效 .gitignore文件只是ignore没有被追踪的文件，已被追踪的文件，要先删除缓存文件。 # 单个文件 git rm --cached file/path/to…...

编程日记 2024/10/31 6:13:42

网站安全，WAF网站保护暴力破解

雷池的核心功能通过过滤和监控 Web 应用与互联网之间的 HTTP 流量，功能包括： SQL 注入保护：防止恶意 SQL 代码的注入，保护网站数据安全。跨站脚本攻击 (XSS)：阻止攻击者在用户浏览器中执行恶意脚本。暴力破解防护&a…...

编程日记 2024/10/31 6:12:40

深度学习：梯度下降算法简介

梯度下降算法简介梯度下降算法我们思考这样一个问题，现在需要用一条直线来回归拟合这三个点，直线的方程是 y w ^ x b y \hat{w}x b yw^xb，我们假设斜率 w ^ \hat{w} w^是已知的，现在想要找到一个最好的截距 b b b。一条…...

编程日记 2024/10/31 6:11:38

SparkSQL整合Hive后，如何启动hiveserver2服务

当spark sql与hive整合后，我们就无法启动hiveserver2的服务了，每次都要先启动hive的元数据服务（nohup hive --service metastore）才能启动hive,之前的beeline命令也用不了，hiveserver2的无法启动，这也导致我…...

编程日记 2024/10/31 6:09:36

前端路由如何从0开始配置？vue-router 的使用

在 Web 开发中，路由是指根据 URL 的不同部分将请求分发到不同的处理函数或页面的过程。路由是单页应用（SPA, Single Page Application）和服务器端渲染（SSR, Server-Side Rendering）应用中的一个重要概念。在开发中如何…...

编程日记 2024/10/31 6:08:34

Java中的运算符【与C语言的区别】

目录 1. 算术运算符 1.0 赋值运算符： 1.1 四则运算符： - * / % 【取余与C有点不同】 1.2 增量运算符： - * / % * 【右侧运算结果会自动转换类型】 1.3 自增、自减：、-- 2. 关系运算符 3. 逻辑运算符 3.1 短路求值 3.2 【…...

编程日记 2024/10/31 6:06:32

二、基础语法

入门了解注释 **作用：**在代码中加一些注释和说明，方便自己或者其他程序员阅读代码两种格式： 单行注释：// 描述信息通常放在一行代码的上方，或者一条语句的末尾，对该行代码进行说明多行注释&#x…...

编程日记 2024/10/31 6:03:29

DB-GPT系列（一）：DB-GPT能帮你做什么？

DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL and Agents)，围绕大模型提供灵活、可拓展的AI原生数据应用管理与开发能力，可以帮助企业快速构建、部署智能AI数据应用，通过智能数据分析、洞察…...

编程日记 2024/10/31 6:00:26

【Python各个击破】numpy

简介 NumPy是一个开源的Python库，它提供了一个强大的N维数组对象和许多用于操作这些数组的函数。它是大多数Python科学计算的基础，包括Pandas、SciPy和scikit-learn等库都建立在NumPy之上。安装 !pip install numpy导入 import numpy as np用法 # …...

编程日记 2024/10/31 5:59:24

【STM32 Blue Pill编程实例】-4位7段数码管使用

4位7段数码管使用文章目录 4位7段数码管使用1、7段数码介绍2、硬件准备与接线3、模块配置4、代码实现在本文中，我们将介绍如何将 STM32 Blue Pill开发板与 4 位 7 段数码管连接，并在 STM32CubeIDE 中对其进行编程。在文章中首先将介绍 4 位 7 段数码管及其与 STM32 Blue Pi…...

编程日记 2024/10/31 5:58:23

[进阶]java基础之集合(三)数据结构

文章目录数据结构概述常见的数据结构数据结构(栈)数据结构(队列)数据结构(数组)数据结构(链表) 数据结构概述数据结构是计算机底层存储、组织数据的方式。是指数据相互之间是以什么方式排列在一起的。数据结构是为了更加方便的管理和使用数据，需要结合具体的业…...

编程日记 2024/10/31 5:57:22

《Apache Cordova/PhoneGap 使用技巧分享》

一、引言在移动应用开发的领域中，Apache Cordova（也被称为 PhoneGap）是一个强大的工具，它允许开发者使用 HTML、CSS 和 JavaScript 等 Web 技术来构建跨平台的移动应用。这种方式不仅能够提高开发效率，还能降低开发成…...

编程日记 2024/10/31 5:54:18

SCP（Secure Copy

SCP（Secure Copy）‌是Linux系统下基于SSH协议的安全文件传输工具，用于在本地和远程主机间安全、快速地传输文件和目录。SCP命令通过加密传输确保数据的安全性，并且不占用过多系统资源‌。 SCP的基本用法 ‌基本语法‌&#xff1a…...

编程日记 2024/10/31 5:53:17

uniApp 省市区自定义数据

关于自定义省市区选择其实也是用了 uniApp的内置组件 picker <picker mode"multiSelector" change"bindRegionChange" columnchange"bindMultiPickerColumnChange" :value"valueRegion" :range"multiArray"><v…...

编程日记 2024/10/31 5:52:16

图解Redis 06 | Hash数据类型的原理及应用场景

介绍 Hash 类型特别适合存储对象，例如用户信息等。 String类型也可以用于存储用户信息，Hash与String存储用户信息的区别如下图所示： 内部实现 Hash 类型的底层数据结构是通过压缩列表（Ziplist）或哈希表&#xff…...

编程日记 2024/10/31 5:50:13

超声引导手术中的‘呼吸’难题：我们如何用体外标记法搞定肝部超声-CT的实时配准？

超声与CT影像实时配准：破解呼吸运动干扰的临床实战方案在肝癌射频消融或穿刺活检手术中，影像引导的精准度直接决定治疗效果。超声凭借其实时性成为首选引导工具，但图像质量局限常需与高分辨率的CT影像融合。这一过程中，呼吸运动导…...

编程新知 2026/5/13 5:23:22

抖音无水印下载器：终极免费批量下载工具完全指南

抖音无水印下载器：终极免费批量下载工具完全指南【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖…...

编程新知 2026/5/13 4:59:45

FPGA频率测量实战：从原理到实现，三种方法深度解析与选型指南

1. FPGA频率测量的工程意义与挑战在数字电路设计中，频率测量就像给信号"把脉"，是评估系统健康状况的基础操作。想象你正在开发一款智能温控器，需要精确测量风扇转速信号；或者设计无线通信模块，要监控本振频…...

编程新知 2026/5/13 3:19:59

LMQL：用编程语言精准控制大语言模型输出，告别提示词玄学

1. 项目概述：当自然语言成为编程语言如果你和我一样，既对大型语言模型（LLM）的能力感到兴奋，又对如何精准、可控地调用它们感到头疼，那么你肯定遇到过这样的场景：你向ChatGPT或Claude提出一个复杂…...

编程新知 2026/5/13 2:36:22

EmbedClaw：RAG应用中文本智能分块与向量化检索的工程实践

1. 项目概述：一个面向嵌入向量检索的“机械爪”最近在折腾RAG（检索增强生成）应用，发现向量数据库的检索效果，很大程度上取决于你“喂”进去的文本是怎么被切成一块一块的（也就是分块，Chunking&a…...

编程新知 2026/5/13 2:34:19

FPGA仿真库配置避坑指南：Xilinx 7系、Altera Cyclone V、Lattice ECP5在ModelSim 10.6d下的完整流程

FPGA仿真库配置避坑指南：Xilinx 7系、Altera Cyclone V、Lattice ECP5在ModelSim 10.6d下的完整流程第一次在ModelSim 10.6d环境下配置FPGA仿真库时，我花了整整三天时间排查各种路径错误和权限问题。直到现在，我还清楚地记得那个深夜——当仿…...

编程新知 2026/5/13 2:17:28

深度解析开源项目：Cursor Pro破解工具技术架构与实战应用完整指南

深度解析开源项目：Cursor Pro破解工具技术架构与实战应用完整指南【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能: Youve reach…...

编程新知 2026/5/13 2:11:22

语言启蒙到底要不要背单词

语言启蒙阶段到底要不要背单词？我更愿意把这个问题换一种问法：这些词是不是能和声音、图像、语境连起来，并且隔几天还能回来一次。如果只是拿一张词表硬记，入门用户很容易觉得枯燥。可如果完全不接触词汇，后面的听读…...

编程新知 2026/5/13 1:58:54

别再只调API了！深入Qt QGraphicsView事件流，彻底搞懂拖拽缩放背后的‘为什么’

深入Qt QGraphicsView事件流：从拖拽缩放的底层机制到高效调试在Qt的图形视图框架中，QGraphicsView、QGraphicsScene和QGraphicsItem构成了一个强大的交互系统。许多开发者虽然能够通过调用API实现基本功能，但当遇到事件被意外吞噬、坐标计算…...

编程新知 2026/5/13 1:43:38

从手机闪光灯到汽车大灯：聊聊‘发光强度’（坎德拉）在硬件选型中的实际应用

从手机闪光灯到汽车大灯：发光强度（坎德拉）的硬件实战指南当你在昏暗的停车场用手机闪光灯寻找钥匙时，是否想过为什么有些手机的补光能照亮整个车位，而有些却只能勉强看清手掌？这个差异背后，隐藏…...

编程新知 2026/5/13 1:09:12

YOLO即插即用模块---AgentAttention

相关文章：

YOLO即插即用模块---AgentAttention

探索开源语音识别的未来：高效利用先进的自动语音识别技术20241030

学习路之TP6--workman安装

.NET内网实战：通过白名单文件反序列化漏洞绕过UAC

AI Agents - 自动化项目：计划、评估和分配

Git的.gitignore文件

网站安全，WAF网站保护暴力破解

深度学习：梯度下降算法简介

SparkSQL整合Hive后，如何启动hiveserver2服务

前端路由如何从0开始配置？vue-router 的使用

Java中的运算符【与C语言的区别】

二、基础语法

DB-GPT系列（一）：DB-GPT能帮你做什么？

【Python各个击破】numpy

【STM32 Blue Pill编程实例】-4位7段数码管使用

[进阶]java基础之集合(三)数据结构

《Apache Cordova/PhoneGap 使用技巧分享》

SCP（Secure Copy

uniApp 省市区自定义数据

图解Redis 06 | Hash数据类型的原理及应用场景

超声引导手术中的‘呼吸’难题：我们如何用体外标记法搞定肝部超声-CT的实时配准？

抖音无水印下载器：终极免费批量下载工具完全指南

FPGA频率测量实战：从原理到实现，三种方法深度解析与选型指南

LMQL：用编程语言精准控制大语言模型输出，告别提示词玄学

EmbedClaw：RAG应用中文本智能分块与向量化检索的工程实践

FPGA仿真库配置避坑指南：Xilinx 7系、Altera Cyclone V、Lattice ECP5在ModelSim 10.6d下的完整流程

深度解析开源项目：Cursor Pro破解工具技术架构与实战应用完整指南

语言启蒙到底要不要背单词

别再只调API了！深入Qt QGraphicsView事件流，彻底搞懂拖拽缩放背后的‘为什么’

从手机闪光灯到汽车大灯：聊聊‘发光强度’（坎德拉）在硬件选型中的实际应用