当前位置：首页 > news >正文

YOLOv8改进 - 注意力篇 - 引入iRMB注意力机制

news 2025/7/13 5:48:46

#YOLO# #目标检测# #计算机视觉#

一、本文介绍

作为入门性篇章，这里介绍了iRMB注意力在YOLOv8中的使用。包含iRMB原理分析，iRMB的代码、iRMB的使用方法、以及添加以后的yaml文件及运行记录。

二、iRMB原理分析

iRMB官方论文地址：文章

iRMB官方代码地址：代码

iRMB注意力机制：iRMB是一种混合网络模块，结合了卷积神经网络（CNN）的轻量级特性和 Transformer 模型的动态处理能力。

三、相关代码：

iRMB注意力的代码，如下：

from timm.models._efficientnet_blocks import SqueezeExcite
from functools import partial
inplace = Trueclass LayerNorm2d(nn.Module):def __init__(self, normalized_shape, eps=1e-6, elementwise_affine=True):super().__init__()self.norm = nn.LayerNorm(normalized_shape, eps, elementwise_affine)def forward(self, x):x = rearrange(x, 'b c h w -> b h w c').contiguous()x = self.norm(x)x = rearrange(x, 'b h w c -> b c h w').contiguous()return xdef get_norm(norm_layer='in_1d'):eps = 1e-6norm_dict = {'none': nn.Identity,'in_1d': partial(nn.InstanceNorm1d, eps=eps),'in_2d': partial(nn.InstanceNorm2d, eps=eps),'in_3d': partial(nn.InstanceNorm3d, eps=eps),'bn_1d': partial(nn.BatchNorm1d, eps=eps),'bn_2d': partial(nn.BatchNorm2d, eps=eps),# 'bn_2d': partial(nn.SyncBatchNorm, eps=eps),'bn_3d': partial(nn.BatchNorm3d, eps=eps),'gn': partial(nn.GroupNorm, eps=eps),'ln_1d': partial(nn.LayerNorm, eps=eps),'ln_2d': partial(LayerNorm2d, eps=eps),}return norm_dict[norm_layer]def get_act(act_layer='relu'):act_dict = {'none': nn.Identity,'relu': nn.ReLU,'relu6': nn.ReLU6,'silu': nn.SiLU}return act_dict[act_layer]class ConvNormAct(nn.Module):def __init__(self, dim_in, dim_out, kernel_size, stride=1, dilation=1, groups=1, bias=False,skip=False, norm_layer='bn_2d', act_layer='relu', inplace=True, drop_path_rate=0.):super(ConvNormAct, self).__init__()self.has_skip = skip and dim_in == dim_outpadding = math.ceil((kernel_size - stride) / 2)self.conv = nn.Conv2d(dim_in, dim_out, kernel_size, stride, padding, dilation, groups, bias)self.norm = get_norm(norm_layer)(dim_out)self.act = get_act(act_layer)(inplace=inplace)self.drop_path = DropPath(drop_path_rate) if drop_path_rate else nn.Identity()def forward(self, x):shortcut = xx = self.conv(x)x = self.norm(x)x = self.act(x)if self.has_skip:x = self.drop_path(x) + shortcutreturn xclass iRMB(nn.Module):def __init__(self, dim_in, dim_out, norm_in=True, has_skip=True, exp_ratio=1.0, norm_layer='bn_2d',act_layer='relu', v_proj=True, dw_ks=3, stride=1, dilation=1, se_ratio=0.0, dim_head=8, window_size=7,attn_s=True, qkv_bias=False, attn_drop=0., drop=0., drop_path=0., v_group=False, attn_pre=False):super().__init__()self.norm = get_norm(norm_layer)(dim_in) if norm_in else nn.Identity()dim_mid = int(dim_in * exp_ratio)self.has_skip = (dim_in == dim_out and stride == 1) and has_skipself.attn_s = attn_sif self.attn_s:assert dim_in % dim_head == 0, 'dim should be divisible by num_heads'self.dim_head = dim_headself.window_size = window_sizeself.num_head = dim_in // dim_headself.scale = self.dim_head ** -0.5self.attn_pre = attn_preself.qk = ConvNormAct(dim_in, int(dim_in * 2), kernel_size=1, bias=qkv_bias, norm_layer='none',act_layer='none')self.v = ConvNormAct(dim_in, dim_mid, kernel_size=1, groups=self.num_head if v_group else 1, bias=qkv_bias,norm_layer='none', act_layer=act_layer, inplace=inplace)self.attn_drop = nn.Dropout(attn_drop)else:if v_proj:self.v = ConvNormAct(dim_in, dim_mid, kernel_size=1, bias=qkv_bias, norm_layer='none',act_layer=act_layer, inplace=inplace)else:self.v = nn.Identity()self.conv_local = ConvNormAct(dim_mid, dim_mid, kernel_size=dw_ks, stride=stride, dilation=dilation,groups=dim_mid, norm_layer='bn_2d', act_layer='silu', inplace=inplace)self.se = SqueezeExcite(dim_mid, rd_ratio=se_ratio,act_layer=get_act(act_layer)) if se_ratio > 0.0 else nn.Identity()self.proj_drop = nn.Dropout(drop)self.proj = ConvNormAct(dim_mid, dim_out, kernel_size=1, norm_layer='none', act_layer='none', inplace=inplace)self.drop_path = DropPath(drop_path) if drop_path else nn.Identity()def forward(self, x):shortcut = xx = self.norm(x)B, C, H, W = x.shapeif self.attn_s:# paddingif self.window_size <= 0:window_size_W, window_size_H = W, Helse:window_size_W, window_size_H = self.window_size, self.window_sizepad_l, pad_t = 0, 0pad_r = (window_size_W - W % window_size_W) % window_size_Wpad_b = (window_size_H - H % window_size_H) % window_size_Hx = F.pad(x, (pad_l, pad_r, pad_t, pad_b, 0, 0,))n1, n2 = (H + pad_b) // window_size_H, (W + pad_r) // window_size_Wx = rearrange(x, 'b c (h1 n1) (w1 n2) -> (b n1 n2) c h1 w1', n1=n1, n2=n2).contiguous()# attentionb, c, h, w = x.shapeqk = self.qk(x)qk = rearrange(qk, 'b (qk heads dim_head) h w -> qk b heads (h w) dim_head', qk=2, heads=self.num_head,dim_head=self.dim_head).contiguous()q, k = qk[0], qk[1]attn_spa = (q @ k.transpose(-2, -1)) * self.scaleattn_spa = attn_spa.softmax(dim=-1)attn_spa = self.attn_drop(attn_spa)if self.attn_pre:x = rearrange(x, 'b (heads dim_head) h w -> b heads (h w) dim_head', heads=self.num_head).contiguous()x_spa = attn_spa @ xx_spa = rearrange(x_spa, 'b heads (h w) dim_head -> b (heads dim_head) h w', heads=self.num_head, h=h,w=w).contiguous()x_spa = self.v(x_spa)else:v = self.v(x)v = rearrange(v, 'b (heads dim_head) h w -> b heads (h w) dim_head', heads=self.num_head).contiguous()x_spa = attn_spa @ vx_spa = rearrange(x_spa, 'b heads (h w) dim_head -> b (heads dim_head) h w', heads=self.num_head, h=h,w=w).contiguous()# unpaddingx = rearrange(x_spa, '(b n1 n2) c h1 w1 -> b c (h1 n1) (w1 n2)', n1=n1, n2=n2).contiguous()if pad_r > 0 or pad_b > 0:x = x[:, :, :H, :W].contiguous()else:x = self.v(x)x = x + self.se(self.conv_local(x)) if self.has_skip else self.se(self.conv_local(x))x = self.proj_drop(x)x = self.proj(x)x = (shortcut + self.drop_path(x)) if self.has_skip else xreturn x

四、YOLOv8中iRMB使用方法

1.YOLOv8中添加iRMB模块：

首先在ultralytics/nn/modules/conv.py最后添加模块的代码。

2.在conv.py的开头__all__ = 内添加iRMB模块的类别名：

3.在同级文件夹下的__init__.py内添加iRMB的相关内容：（分别是from .conv import iRMB ；以及在__all__内添加iRMB）

4.在ultralytics/nn/tasks.py进行iRMB注意力机制的注册，以及在YOLOv8的yaml配置文件中添加iRMB即可。

首先打开task.py文件，按住Ctrl+F，输入parse_model进行搜索。找到parse_model函数。找以下注册代码，将iRMB添加进去即可：

        elif m in {iRMB}:args = [ch[f],  ch[f]]

然后，就是新建一个名为YOLOv8_iRMB.yaml的配置文件：（路径:ultralytics/cfg/models/v8/YOLOv8_iRMB.yaml）其中参数中nc，由自己的数据集决定。本文测试，采用的coco8数据集，有80个类别。

# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv8 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect# Parameters
nc: 80  # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call CPAM-yolov8.yaml with scale 'n'# [depth, width, max_channels]n: [0.33, 0.25, 1024]  # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPss: [0.33, 0.50, 1024]  # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPsm: [0.67, 0.75, 768]   # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPsl: [1.00, 1.00, 512]   # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPsx: [1.00, 1.25, 512]   # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs# YOLOv8.0n backbone
backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]]  # 0-P1/2- [-1, 1, Conv, [128, 3, 2]]  # 1-P2/4- [-1, 3, C2f, [128, True]]- [-1, 1, Conv, [256, 3, 2]]  # 3-P3/8- [-1, 6, C2f, [256, True]]- [-1, 1, Conv, [512, 3, 2]]  # 5-P4/16- [-1, 6, C2f, [512, True]]- [-1, 1, Conv, [1024, 3, 2]]  # 7-P5/32- [-1, 3, C2f, [1024, True]]- [-1, 1, iRMB, [1024,1024]]- [-1, 1, SPPF, [1024, 5]]  # 9# YOLOv8.0n head
head:- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [[-1, 6], 1, Concat, [1]]  # cat backbone P4- [-1, 3, C2f, [512]]  # 12- [-1, 1, nn.Upsample, [None, 2, 'nearest']]- [[-1, 4], 1, Concat, [1]]  # cat backbone P3- [-1, 3, C2f, [256]]  # 15 (P3/8-small)- [-1, 1, Conv, [256, 3, 2]]- [[-1, 13], 1, Concat, [1]]  # cat head P4- [-1, 3, C2f, [512]]  # 18 (P4/16-medium)- [-1, 1, Conv, [512, 3, 2]]- [[-1, 10], 1, Concat, [1]]  # cat head P5- [-1, 3, C2f, [1024]]  # 21 (P5/32-large)- [[16, 19, 22], 1, Detect, [nc]]  # Detect(P3, P4, P5)

在根目录新建一个train.py文件，内容如下：

from ultralytics import YOLO# 加载一个模型
model = YOLO('ultralytics/cfg/models/v8/YOLOv8_iRMB.yaml')  # 从YAML建立一个新模型
# 训练模型
results = model.train(data='ultralytics/cfg/datasets/coco8.yaml', epochs=1,imgsz=640,optimizer="SGD")

训练输出：

五、总结

以上就是iRMB的原理及使用方式，但具体iRMB注意力机制的具体位置放哪里，效果更好。需要根据不同的数据集做相应的实验验证。希望本文能够帮助你入门YOLO中注意力机制的使用。

YOLOv8改进 - 注意力篇 - 引入iRMB注意力机制

#YOLO# #目标检测# #计算机视觉# 一、本文介绍作为入门性篇章，这里介绍了iRMB注意力在YOLOv8中的使用。包含iRMB原理分析，iRMB的代码、iRMB的使用方法、以及添加以后的yaml文件及运行记录。二、iRMB原理分析 iRMB官方论文地址：文章 iR…...

编程日记 2024/11/4 11:20:25

项目学习总结

文章目录项目学习总结项目中的vw适配vw使用封装axios实例axios常见请求配置axios响应结构axios拦截器配置Vue Router全局前置守卫项目学习总结在智慧商城项目中的学习总结。项目中的vw适配 vw 是一种长度单位，代表视口宽度的百分比。1vw 等于视口宽度的1%。…...

编程日记 2024/11/4 11:13:17

用于低成本接收机的LoRa SF11 500KHz波形检测解调算法

前一篇里，获取了LORAwan的物理层波形，并通过Octave查看了它的瞬时频率。LoRa是私有协议，网上已经有了很不错的开源的实现，如： S2_LoRa通信实验 LoRaPhy 以及GNU-Radio的Lora模块、LimeSDR的Lora实现。当我试图修改上…...

编程日记 2024/11/4 11:09:12

WEB防护

WEB防护的范围比较广，主要是指针对web安全而做的各种防御措施， 包含应对xss、csrf等漏洞攻击的应对方式。 Web防护是通过执行一系列针对HTTP/HTTPS的安全策略来专门为Web应用提供保护的一款产品， 主要用于防御针对网络应用层的攻击&#xff0…...

编程日记 2024/11/4 11:08:11

使用Jest进行JavaScript单元测试

💓 博客主页：瑕疵的CSDN主页 📝 Gitee主页：瑕疵的gitee主页 ⏩ 文章专栏：《热点资讯》使用Jest进行JavaScript单元测试引言 Jest 简介安装 Jest 创建基本配置编写测试用例运行测试快照测试模拟函数代码覆盖率…...

编程日记 2024/11/4 11:07:10

网络安全法详细介绍——爬虫教程

目录 [TOC](目录)一、网络安全法详细介绍1. 网络安全法的主要条款与作用2. 网络安全法与爬虫的关系3. 合法使用爬虫的指南二、爬虫的详细教程1. 准备环境与安装工具2. 使用requests库发送请求3. 解析HTML内容4. 使用robots.txt规范爬虫行为5. 设置请求间隔6. 数据清洗与存储三…...

编程日记 2024/11/4 11:03:05

PCB什么情况该敷铜，什么情况不该敷铜！

更多电路设计，PCB设计分享及分析，可关注本人微信公众号“核桃设计分享”！ 这个是老生常谈的问题了，可私底下还是有很多小伙伴问核桃这个问题，所以今天就好好聊一聊这个话题。先说结论：PCB不是什么时候都可…...

编程日记 2024/11/4 11:01:03

标准化的企业级信息管理系统信息中心必备PHP低代码平台

谈谈企业级信息管理系统！ 1. 标准化的企业级信息管理系统是信息中心必备，这才是集团该用的信息化管理系统。其有个很大特点是便于开发，能服务于企业技术中心，为其提供强大工具能力，在工具能力架构下通过流程、表单、报…...

编程日记 2024/11/4 10:57:59

Rust 力扣 - 1984. 学生分数的最小差值

文章目录题目描述题解思路题解代码题目链接题目描述题解思路原数组 nums 排序，遍历nums中下标为[0, nums.len() - k]的学生分数假设当前遍历的下标为i则，以 i 下标为最小值的学生分数的最小差值为nums[i k - 1] - nums[i] 取最小差值的最小值即…...

编程日记 2024/11/4 10:56:58

【098】基于SpringBoot+Vue实现的垃圾分类系统

系统介绍视频演示基于SpringBootVue实现的垃圾分类系统基于SpringBootVue实现的垃圾分类系统设计了三种角色、分别是管理员、垃圾分类管理员、用户，实现了个人中心、用户管理、垃圾分类管理员管理、垃圾分类管理、垃圾类型管理、垃圾图谱管理、系统管理等功能 …...

编程日记 2024/11/4 10:55:57

STM32CUBEIDE FreeRTOS操作教程（八）：queues多队列

STM32CUBEIDE FreeRTOS操作教程（八）：queues多队列 STM32CUBE开发环境集成了STM32 HAL库进行FreeRTOS配置和开发的组件，不需要用户自己进行FreeRTOS的移植。这里介绍最简化的用户操作类应用教程。以STM32F401RCT6开发板为例&#…...

编程日记 2024/11/4 10:53:55

SIGNAL TAP使用记录

一、首先编译工程二、打开signal tap，并设置抓取时钟以及采样深度二、点击set up，然后双击空白处，会弹出右侧窗口，点击filter选择pre_synthesis，这里选择综合前的信号观测，要确保左侧窗口内的信号是黑色…...

编程日记 2024/11/4 10:51:53

基于vue3和elementPlus的el-tree组件，实现树结构穿梭框，支持数据回显和懒加载

一、功能功能描述数据双向穿梭：支持从左侧向右侧转移数据，以及从右侧向左侧转移数据。懒加载支持：支持懒加载数据，适用于大数据量的情况。多种展示形式：右侧列表支持以树形结构或列表形式展示。全选与反选&#xf…...

编程日记 2024/11/4 10:48:50

彻底理解链表(LinkedList)结构

目录比较操作结构封装单向链表实现面试题循环链表实现双向链表实现链表（Linked List）是一种线性数据结构，由一组节点（Node）组成，每个节点包含两个部分：数据域（存储数据&#xff…...

编程日记 2024/11/4 10:46:47

TON 区块链开发的深入概述#TON链开发#DAPP开发#交易平台#NFT#Gamefi链游

区块链开发领域发展迅速，各种平台为开发人员提供不同的生态系统。其中一个更有趣且越来越相关的区块链是TON（开放网络）区块链。TON 区块链最初由 Telegram 构思，旨在提供快速、安全且可扩展的去中心化应用程序 (dApp)。凭借其独特…...

编程日记 2024/11/4 10:45:46

Hive专栏概述

Hive专栏概述 Hive“出身名门”，是最初由Facebook公司开发的数据仓库工具。它简单且容易上手，是深入学习Hadoop技术的一个很好的切入点。专栏内容包括：Hive的安装和配置，其核心组件和架构，Hive数据操作语言&#xff0c…...

编程日记 2024/11/4 10:43:39

鼠标悬停后出现小提示框实现方法

大家在网页上会经常看到某些图标或文字，当鼠标悬停后会在四周某个位置出现一个简短的文字提示，这种提示分为两种，一种是提示固定的文字，例如放在qq图标上，会显示固定的文字“QQ”；第二种是显示鼠标所在标签…...

编程日记 2024/11/4 10:42:38

计算机视觉常用数据集Foggy Cityscapes的介绍、下载、转为YOLO格式进行训练

我在寻找Foggy Cityscapes数据集的时候花了一番功夫，因为官网下载需要用公司或学校邮箱邮箱注册账号，等待审核通过后才能进行下载数据集。并且一开始我也并不了解Foggy Cityscapes的格式和内容是什么样的，现在我弄明白后写下这篇文章&#xf…...

编程日记 2024/11/4 10:39:35

css中的样式穿透

1. >>> 操作符 <style scoped> /* 影响子组件的样式 */ .parent >>> .child {color: red; } </style>注意：>>> 操作符在某些预处理器（如Sass）中可能无法识别，因为它不是标准的CSS语法。 …...

编程日记 2024/11/4 10:38:34

MMCA：多模态动态权重更新，视觉定位新SOTA | ACM MM‘24 Oral

来源：晓飞的算法工程笔记公众号，转载请注明出处论文: Visual Grounding with Multi-modal Conditional Adaptation 论文地址：https://arxiv.org/abs/2409.04999论文代码：https://github.com/Mr-Bigworth/MMCA 创新点提出了多模…...

编程日记 2024/11/4 10:35:30

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子，用于处理异步操作（如数据加载）中的错误。下面我将详细解释其用途并提供代码示例。一、useAsyncError 用途处理异步错误：捕获在 loader 或 action 中发生的异步错误替…...

编程新知 2025/6/18 6:31:56

【位运算】消失的两个数字（hard）

消失的两个数字（hard） 题⽬描述：解法（位运算）：Java 算法代码：更简便代码题⽬链接：⾯试题 17.19. 消失的两个数字题⽬描述： 给定⼀个数组，包含从 1 到 N 所有…...

编程新知 2025/7/8 4:43:23

如何在看板中有效管理突发紧急任务

在看板中有效管理突发紧急任务需要：设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP（Work-in-Progress）弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中，设立专门的紧急任务通道尤为重要，这能…...

编程新知 2025/7/12 20:20:25

【论文笔记】若干矿井粉尘检测算法概述

总的来说，传统机器学习、传统机器学习与深度学习的结合、LSTM等算法所需要的数据集来源于矿井传感器测量的粉尘浓度，通过建立回归模型来预测未来矿井的粉尘浓度。传统机器学习算法性能易受数据中极端值的影响。YOLO等计算机视觉算法所需要的数据集来源于…...

编程新知 2025/7/9 21:22:02

ETLCloud可能遇到的问题有哪些？常见坑位解析

数据集成平台ETLCloud，主要用于支持数据的抽取（Extract）、转换（Transform）和加载（Load）过程。提供了一个简洁直观的界面，以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...

编程新知 2025/7/8 15:28:22

Linux-07 ubuntu 的 chrome 启动不了

文章目录问题原因解决步骤一、卸载旧版chrome二、重新安装chorme三、启动不了，报错如下四、启动不了，解决如下总结问题原因在应用中可以看到chrome，但是打不开(说明：原来的ubuntu系统出问题了，这个是备用的硬盘&a…...

编程新知 2025/7/12 13:53:40

WEB3全栈开发——面试专业技能点P2智能合约开发（Solidity）

一、Solidity合约开发下面是 Solidity 合约开发的概念、代码示例及讲解，适合用作学习或写简历项目背景说明。 🧠 一、概念简介：Solidity 合约开发 Solidity 是一种专门为以太坊（Ethereum）平台编写智能合约的高级编…...

编程新知 2025/6/21 12:34:41

零基础设计模式——行为型模式 - 责任链模式

第四部分：行为型模式 - 责任链模式 (Chain of Responsibility Pattern) 欢迎来到行为型模式的学习！行为型模式关注对象之间的职责分配、算法封装和对象间的交互。我们将学习的第一个行为型模式是责任链模式。核心思想：使多个对象都有机会处…...

编程新知 2025/7/12 2:48:21

Redis数据倾斜问题解决

Redis 数据倾斜问题解析与解决方案什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中，部分节点存储的数据量或访问量远高于其他节点，导致这些节点负载过高，影响整体性能。数据倾斜的主要表现部分节点内存使用率远高于其他节…...

编程新知 2025/7/11 23:03:05

图表类系列各种样式PPT模版分享

图标图表系列PPT模版，柱状图PPT模版，线状图PPT模版，折线图PPT模版，饼状图PPT模版，雷达图PPT模版，树状图PPT模版图表类系列各种样式PPT模版分享：图表系列PPT模板https://pan.quark.cn/s/20d40aa…...

编程新知 2025/7/12 8:31:49

一、本文介绍

二、iRMB原理分析

四、YOLOv8中iRMB使用方法

五、总结

相关文章：