【论文阅读03】用于海洋物体检测的多注意力路径聚合网络
来源:用于海洋物体检测的多注意力路径聚合网络 |应用智能 (springer.com)
一、背景:

水下图像存在偏色、对比度低、能见度低等问题,使得海洋物体难以被探测到。这些都增加了海上目标探测的难度。
目前流行的检测器方法是基于卷积神经网络,不同层次的卷积层提取不同的尺度特征。特征金字塔网络(FPN)是目前目标检测器中最流行的网络结构。
FPN是一种利用CNN模型提取图像中各维度特征的有效方法。
路径聚合网络(PAN)在FPN骨干网的基础上增加了自下而上的路径增强。FPN框架可以充分利用和增强不同规模的特征层。
CNN与FPN:
卷积网络中,随着网络深度的增加,特征图的尺寸越来越小,语义信息也越来越抽象。浅层特征图的语义信息较少,目标位置相对比较准确,深层特征图的语义信息比较丰富,目标位置则比较粗略,导致小物体容易检测不到。FPN的功能可以说是融合了浅层到深层的特征图 ,从而充分利用各个层次的特征。
FPN与PAN
FPN和PAN都是用于解决目标检测中多尺度问题的重要网络结构,它们通过构建特征金字塔来提取不同尺度下的目标特征,从而提高检测精度。
FPN的核心思想是通过自顶向下和自底向上的路径来构建特征金字塔,并通过横向连接来融合不同层级的特征图。PAN则是在FPN的基础上进一步发展,增加了自底向上的路径。与FPN相比,PAN中的特征融合方式能够更好地保留低分辨率特征图中的细节信息,从而提高分割的准确性。
经典去雾算法--暗通道先验去雾(DCP)_暗通道先验去雾算法-CSDN博客
PAN网络结构
但是,不同尺度的特征融合会产生大量的冗余特征。此外,FPN框架的特征融合采用固定的方法,导致不同粒度的特征融合效率较低[17]。为了克服这些缺点,本文提出了多重关注。这样,海洋目标检测可以更有效地进行特征融合,提高检测精度。
本文提出了一种新的多注意路径聚合网络来实现海洋目标检测。
首先,构建基于多尺度特征金字塔的路径聚合网络结构;我们将骨干网的顶层特征与自下而上的路径聚合网络相结合。这增强了对原始语义信息的提取。多尺度网络结构有利于图像中包含多个不同大小目标的目标检测。然后,提出了一种多关注的方法,进一步提高了海洋目标检测的精度。多注意是坐标竞争注意和空间补充注意的结合。
坐标竞争注意使语义信息流和空间信息流相互竞争,相对考虑每个特征图的全局信息。空间补充注
为了进一步提高海洋目标检测的精度,我们提出了一种多注意力的方法。多注意力综合考虑了语义信息流和空间信息流中的全局信息和局部信息。不同层次特征的全局信息和局部信息相互补充,有助于不同尺度的特征提取。通过特征融合,多关注有利于多目标和小目标的检测。
我们提出了一种水下图像增强方法来增强水下图像数据集。采用基于双传输图的图像去雾算法和对比度限制自适应直方图均衡化(CLAHE)方法对水下图像进行增强。特殊的水下成像环境造成的水下图像模糊,使得人类视觉无法分辨海洋物体。水下图像增强提高了视觉质量,实现了较好的水下目标检测精度。此外,在实验中讨论了图像增强对目标检测的影响。
二、基础知识拓展:注意力机制
当一个场景进入人类视野时,往往会先关注场景中的一些重点,如动态的点或者突兀的颜色,剩下的静态场景可能会暂时性的忽略。注意力机制能够以高权重去聚焦重要信息,低权重去忽略不相关的信息,并且还可以不断调整权重,使得在不同的情况下也可以选取重要的信息,因此具有更高的可扩展性和鲁棒性。
注意力机制从一开始就就因其独特的思想深受广泛学者的喜爱,通过实验研究将其进行拓展应用于多种情景。注意力机制与传统算法的简单结合就可以提高系统的性能,因此注意力机制的提出对深度学习许多结构都有着性能提高的作用。

二、模型介绍:网络结构、多关注模型和图像增强三个部分
2.1FPN中的基础网络
算法利用Darknet作为主干网络从输入图像中提取特征。Darknet具有网络结构轻量化和适合实时检测的优点。
2.2多注意力机制

多注意力模块的位置
在深度学习中,FPN和PAN通过特征融合来增强模型对不同尺度目标的检测能力。然而,这种融合通常是基于静态权重的,可能不会动态地调整不同信息流的重要性。引入多注意力机制可以提供一种动态调整语义信息流和空间信息流之间权重的方法。
2.3海洋目标数据集的图像增强
经典去雾算法--暗通道先验去雾(DCP)_暗通道先验去雾算法-CSDN博客z
图片的增强效果可以用RGB通道的直方图来进行结果展示
三、训练与结果分析:
为了验证本文所提方法的有效性,给出了多组对比实验。首先,在四类水下图像数据集上进行了实验,包括与常用目标检测器的对比实验、消融实验、多注意验证实验和图像增强实验。在20类PASCAL VOC数据集上进行实验,验证了该方法不仅在水下数据集上具有良好的性能,而且适用于标准数据集。
用mAP(%)和FPS来衡量结果。

四、论文亮点与学习总结:
1.注意力机制:注意力机制能够帮助模型更加专注于图像中的关键区域,从而提高目标检测的准确性和效率。
2.DCP经典去雾用于图像增强
3.变小是下采样 ,变大是上采样
上采样(Upsampling)是将低分辨率的图像或特征图放大至高分辨率的过程。
下采样(Downsampling)则是将高分辨率的图像或特征图降低至低分辨率的过程。
4.FPN和PAN的内容及区别(修改版1.2)-CSDN博客5
5.
多尺度检测(Multi-scale Detection)是一种在目标检测任务中用于提高模型对不同大小目标识别能力的技术。在现实世界中,物体可以在图像中以不同的尺寸出现,而传统的目标检测模型可能只对特定尺寸的物体检测效果较好。多尺度检测通过以下方式来解决这个问题:
-
特征金字塔:构建一个特征金字塔,每个层级代表不同的分辨率,这样模型就可以在不同的尺度上检测目标。例如,FPN(特征金字塔网络)就是一种构建特征金字塔的结构。
-
尺度锚框:为每个目标生成多个不同尺寸的锚框(anchor boxes),这样在训练时模型就可以学习到在不同尺度上检测目标。
-
多尺度训练:在训练过程中使用不同尺寸的图像输入,使模型能够学习到不同尺寸的特征表示。
-
上采样和下采样:通过上采样和下采样技术,调整特征图的尺寸,以便于在不同尺度上进行目标检测。
-
自适应池化:使用自适应池化层(如SPP,自适应池化层)来保证无论输入特征图的大小如何,都能输出固定尺寸的特征图,从而使得后续的全连接层可以处理不同尺度的特征。
-
多尺度预测:在模型的最后,对于每个尺度的特征图进行检测,然后根据一定的策略(如非极大值抑制NMS)合并不同尺度上的检测结果
相关文章:
【论文阅读03】用于海洋物体检测的多注意力路径聚合网络
来源:用于海洋物体检测的多注意力路径聚合网络 |应用智能 (springer.com) 一、背景: 水下图像存在偏色、对比度低、能见度低等问题,使得海洋物体难以被探测到。这些都增加了海上目标探测的难度。 目前流行的检测器方法是基于卷积神经网络&…...
Linux 进程(2)
进程的回收 1.wait 原型 pid_t wait(int *status); 功能:该函数可以阻塞等待任意子进程退出 并回收该进程的状态。 一般用于父进程回收子进程状态。 参数:status 进程退出时候的状态 如果不关心其退出状态一般用NULL表示 如果要回收进程…...
[CSCCTF 2019 Qual]FlaskLight1
打开题目 右键查看一下源代码 看到提示,需要用GET方search函数...
layui table表单 checkbox选中一个其它也要选中
当我们选中其中一个商品的时候同类型的商品状态也要跟着改变 所以要在表单加载完成后去监听checkbox ,done:function (res) {console.log(详情表格数据,res)tableDetailList res.data;// 监听表格复选框选择table.on(checkbox( INST_SELECTORS.instLayFilters.unpaidTableDe…...
【pip镜像设置】pip使用清华镜像源安装
文章目录 问题:问题描述原因分析:PyPI(Python Package Index) PypI 镜像列表解决方案: 问题: 大家经常会使用 pip 进行python 的第三方库安装,但是,有时会出现 ERROR: Could not f…...
c++ 智能指针--std::shared_ptr
在C中,std::shared_ptr是智能指针的一种,它用于自动管理具有动态生命周期的对象。当std::shared_ptr的实例被销毁或重置时,它所指向的对象(如果仍然存在)将被自动删除(调用delete),前…...
网络工程师学习笔记(二)
计算机网络概述——二 通信子网中转发节点的互联模式叫做子网的拓扑结构 常见的拓扑结构: 总线型(一条总干线上连接着多个终端) 特点:损坏一个节点会造成单点故障 星型(中间一台服务器或者一各小型工作站周围都是计算机) 特点…...
90.WEB渗透测试-信息收集-Google语法(4)
免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于: 易锦网校会员专享课 上一个内容:89.WEB渗透测试-信息收集-Google语法(3) • inurl • 搜索特殊 UR…...
阿里Qwen2开源大模型本地部署及调试全攻略
阿里Qwen2开源大模型本地部署及调试全攻略 #Qwen2系列大模型性能卓越,超越业界知名模型。开源后受到AI开发者关注,支持多种语言,提升多语言理解。在预训练和微调上优化,实现智能水平提升。Qwen2系列模型在各项能力上均领先&#…...
『功能项目』移动后的光标显示【04】
我们打开上一篇03的射线双击项目, 本章要做的事情是在PlayerRayNavgation脚本中添加一个移动光标,实现人物在场景中鼠标点击移动后在移动过程中出现移动目标光标的效果。 在unity编辑器中创建一个Plane 重命名为MovementSign 删掉碰撞器 创建一个材质 选…...
HTML 基本语法特性与 title 标签介绍
目录 title标签 HTML 的基本语法特性 对换行和缩进不敏感 空白折叠现象 标签要严格封闭 title标签 在 HTML 中,<title>标签起着至关重要的作用,它主要用于定义文档的标题。通常情况下,<title>标签被放置在<head>标签内…...
CSS的:placeholder-shown伪类:精确控制输入框占位符样式
CSS(层叠样式表)是控制网页元素样式的强大工具。随着Web开发技术的进步,CSS不断引入新的选择器和伪类,以增强开发者对页面元素的控制能力。:placeholder-shown伪类是CSS中一个相对较新的特性,它允许开发者针对输入字段…...
Java之HashMap的底层实现
Java之HashMap的底层实现 摘要HashMap的底层原理哈希值转换为数组下标节点初始化put(Object key, Object value)重写toString()get(Object key)增加泛化remove(K key) 摘要 本博客主要讲述了Java的HashMap的底层实现 HashMap的底层原理 底层原理:数组链表 过程…...
多张图片进行模型重建并转换为OBJ模型
前提条件: 需要安装OpenCV库和Eigen库(用于矩阵运算)。你需要对计算机视觉和3D建模有一定了解。 步骤概述: 使用OpenCV进行图像处理和特征提取。使用OpenCV进行相机标定和图像对齐。使用重建算法(如SIFT、SURF…...
信息安全保证人员CISAW:安全集成
信息安全保障人员认证(CISAW)在安全集成领域的认证,主要针对申请者在信息系统安全集成的知识和理论以及项目实施中的综合应用能力进行全面评估。 这一认证特别强调对申请者在安全集成方面的知识深度和利用这些知识分析、解决实际问题的能力的评价。 此外ÿ…...
别再无效清理微信内存啦,这才是正确清理内存的方式
微信作为我们日常生活中必不可少的社交工具,随着时间的积累,往往会占据手机大量宝贵的存储空间。 如何在保证重要信息不丢失的同时,有效地管理和清理微信中的垃圾文件和无用数据,成为了一个值得探讨的话题。 本文将从几个方面介…...
ant design 的 tree 如何作为角色中的权限选择之一
这种功能如何弄呢? 编辑的时候要让权限能选中哦。 <ProForm.Item name"permissions" label{intl.formatMessage({ id: permission_choose })}><Spin spinning{loading}><TreecheckableonExpand{onExpand}expandedKeys{expandedKeys}auto…...
如何在项目管理中完成项目立项?
项目立项是项目管理中的重要环节,是项目正式启动的第一步。项目立项的概念指的是对项目进行初步评估、确定项目的可行性并正式批准项目开展的过程。其意义在于确保项目具备明确的目标和合理的资源配置,为项目的成功实施奠定坚实基础。 项目立项的前期准…...
LearnOpenGL——延迟渲染学习笔记
延迟渲染学习笔记 一、基本概念二、G-BufferMRT 三、Lighting Pass四、结合延迟渲染和前向渲染五、更多光源 我们之前使用的一直是 前向渲染(正向渲染 Forward Rendering),指的是在场景中根据所有光源照亮一个物体,之后再渲染下一…...
惠海H4312 dcdc同步整流降压恒压IC 30V 40V转3.3V/5V/12V小体积大电流单片机供电
1.产品描述 H4312是一种内置30V耐压MOS,并且能够实现精确恒压以及恒流的同步降压型 DC-DC 转换器: 支持 3.1A 持续输出电流输出电压可调,最大可支持 100%占空比;通过调节FB 端口的分压电阻,可以输出2.5V到 24V的稳定电压。 H4312 采用高端…...
FinalBurn Neo终极指南:如何轻松搭建经典街机游戏模拟器
FinalBurn Neo终极指南:如何轻松搭建经典街机游戏模拟器 【免费下载链接】FBNeo FinalBurn Neo - We are Team FBNeo. 项目地址: https://gitcode.com/gh_mirrors/fb/FBNeo FinalBurn Neo(简称FBNeo)是一款开源街机游戏模拟器…...
基于Web的Ollama客户端:本地大模型交互的图形化解决方案
1. 项目概述:一个与本地大模型交互的现代客户端 如果你最近在本地部署了像 Llama 3、Mistral 或 Qwen 这类开源大语言模型,大概率会接触到 Ollama 这个工具。它让模型的下载、运行和管理变得异常简单,一条 ollama run llama3 命令就能开启对…...
Ubuntu 全面拥抱 Rust 后,我意识到 Rust 社区要变了
文章目录Ubuntu 全面拥抱 Rust 后,我意识到 Rust 社区要变了“赢”与挑战并存从早期采用者到早期大众如何将应用推广转化为实际投入Rust 社区最需要的是共情小结Ubuntu 全面拥抱 Rust 后,我意识到 Rust 社区要变了 Canonical 正在全面推进 Ubuntu 系统向…...
AI智能体配置管理实战:基于agent-config-manager的解决方案
1. 项目概述与核心价值最近在折腾一个多智能体协作的项目,发现配置文件的管理简直是个灾难。每个智能体(Agent)都有自己的一堆参数:API密钥、模型选择、系统提示词、温度值、最大token数……更别提不同环境(开发、测试…...
基于Agen项目构建个人AI代理:从LLM原理到邮件处理实战
1. 项目概述:从“Agen”看个人化AI代理的构建思路最近在GitHub上看到一个名为“Agen”的项目,作者是Anjuan555。这个项目名本身就很值得玩味——“Agen”,很容易让人联想到“Agent”(代理),但又少了一个“t…...
Ubuntu 20.04上virt-manager报GDBus错误?别慌,三步排查法搞定它
Ubuntu 20.04 virt-manager报GDBus错误的深度排查指南 当你正准备用virt-manager管理KVM虚拟机时,突然弹出一个令人困惑的GDBus错误——这种场景对于Linux虚拟化用户来说并不陌生。这个看似简单的错误背后,其实涉及Linux桌面环境中多个关键组件的协同工作…...
告别单调列表!用Unity Dropdown组件打造游戏中的动态交互式菜单(附事件处理完整代码)
告别单调列表!用Unity Dropdown组件打造游戏中的动态交互式菜单(附事件处理完整代码) 在独立游戏开发中,UI交互的细腻程度往往决定了玩家的沉浸感。想象一下:当玩家在角色创建界面选择职业时,下拉菜单不仅显…...
在Windows上安装安卓应用的终极指南:APK安装器完整使用教程
在Windows上安装安卓应用的终极指南:APK安装器完整使用教程 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 想要在Windows电脑上直接运行安卓应用吗&#x…...
FanControl风扇控制:3分钟掌握专业级Windows散热管理终极指南
FanControl风扇控制:3分钟掌握专业级Windows散热管理终极指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Tren…...
论文Review 3DGS | Deformable Beta Splatting | 用 Beta Kernel 替代 Gaussian Kernel 的实时辐射场渲染方法
基本信息 题目:Deformable Beta Splatting 作者:Rong Liu, Dylan Sun, Meida Chen, Yue Wang, Andrew Feng 单位:University of Southern California / Institute for Creative Technologies 时间:2025 年 5 月,ar…...

