当前位置：首页 > news >正文

Revisiting image pyramid structure for high resolution salient object detection

news 2025/8/24 0:13:39

accv2022的技术，在我测评的数据集上确实要明显好于basnet，rembg等一众方法。

1.Introduction

使用LR数据集训练的方法通过调整输入尺寸可以在HR图像上产生不错的结果。本文主要关注仅使用LR数据集进行训练以产生高质量的HR预测。HR的有效感受野ERFs和LR图像不同。设计了逆显著性金字塔重建网络InSPyReNet，InSPyReNet来直接生成Image pyramid of saliency map，在推理时，重新设计了金字塔融合网络，将来自不同尺度的两个显著性地图图像金字塔重叠。

2.related works

高分辨率图像的图像分割。像素级预测任务，如SOD，将输入图像调整为预定义的形状，如384x384，训练数据集的平均分辨率的宽高通常都在300-400之间，例如imagenet的平均分辨率为378x469，DUTS的平均分辨率为322x372，但是对大图像进行下采样会导致严重的信息丢失，特别是对高频细节。Inspyrenet在训练时不需要高分辨率数据集，但能够预测出细节，特别是物体边界上的细节。

3.Methodology

3.1 Model architecture

使用res2net或者swin transformer作为backbone，但对于HR预测，使用swin作为backbone。在多尺度编码器中使用了UACANet中的PAA-e来减少骨干特征图的通道数，并使用PAA-d在最小阶段（即stage3）上预测初始显著图。采用这两个模块是因为它们利用非局部操作捕捉全局上下文，并且效率高。

从stage3开始构建图像金字塔已经足够，并应该一直重建直到遇到最低阶段stage-0以获得HR结果，在每个阶段上放置了一种基于自注意力的解码器，Scale Invariant context attention(SICA)用于预测显著图的拉普拉斯图像（Laplacian sailency map）。从预测的拉普拉斯显著图中，我们从较高的阶段向较低的阶段重建显著图。SICA的整体操作遵循OCRNet的方法。

拉普拉斯金字塔存储了每个尺度中低通滤波图像与原始图像之间的差异，可以将拉普拉斯图像解释为低通滤波信号的余项，即高频细节，我们重新设计我们的网络，通过构建拉普拉斯金字塔，集中于边界细节并从最小的阶段到其原始大小重新构建显著图，从最上层的阶段stage-3开始，将初始显著性图作为输入，并从拉普拉斯显著图中聚合高频细节。那么拉普拉斯是在什么时候添加的呢？是在SICA之后添加的。

3.2 supervision strategy and loss functions

在每个尺度上都用bce去监督。

3.3 推理

4.代码

下面主要来看看他的代码，主要还是在代码中实现的，inspyrenet

    def forward_inspyre(self, x):B, _, H, W = x.shapex1, x2, x3, x4, x5 = self.backbone(x)x1 = self.context1(x1) #4x2 = self.context2(x2) #4x3 = self.context3(x3) #8x4 = self.context4(x4) #16x5 = self.context5(x5) #32f3, d3 = self.decoder([x3, x4, x5]) #16f3 = self.res(f3, (H // 4,  W // 4 ))f2, p2 = self.attention2(torch.cat([x2, f3], dim=1), d3.detach())d2 = self.image_pyramid.reconstruct(d3.detach(), p2) #4x1 = self.res(x1, (H // 2, W // 2))f2 = self.res(f2, (H // 2, W // 2))f1, p1 = self.attention1(torch.cat([x1, f2], dim=1), d2.detach(), p2.detach()) #2d1 = self.image_pyramid.reconstruct(d2.detach(), p1) #2f1 = self.res(f1, (H, W))_, p0 = self.attention0(f1, d1.detach(), p1.detach()) #2d0 = self.image_pyramid.reconstruct(d1.detach(), p0) #2out = dict()out['saliency'] = [d3, d2, d1, d0]out['laplacian'] = [p2, p1, p0]return out

可以看到imagenet_pyramid的添加，为什么第一次输出总是拉普拉斯显著图就在这里。

Revisiting image pyramid structure for high resolution salient object detection

相关文章：

Revisiting image pyramid structure for high resolution salient object detection

中移（苏州）软件技术有限公司面试问题与解答（7）—— kmalloc与vmalloc的区别与联系及使用场景

微服务-微服务Alibaba-Nacos 源码分析（源码流程图）

后端性能优化的一些总结

【升级openssl1.1.1t报错libssl.so.1.1: cannot open shared object file】

CVE-2024-0352 likeshop v2.5.7文件上传漏洞分析

JAVA处理类似饼状图占比和100%问题，采用最大余额法

MATLAB矩阵的操作（第一部分）

全面掌握Django的web框架Django Rest_Framework（一）

AOP+Redisson 延时队列，实现缓存延时双删策略

Hive中left join 中的where 和 on的区别

LaTeX教程(001)-LaTeX文档结构(01)

SV-7041T 多媒体教学广播IP网络有源音箱

Linux文本三剑客awk经典案例

如何使用 Mermaid、GitHub 和 VSCode 用代码创建关系图三

考研经验总结——政治篇

春招秋招，在线测评到底难不难？

数学建模比赛中，使用大语言模型如chatgpt、文心一言该如何写Prompt（提示）？

tcpdump 抓包无法落盘

【网站项目】066农家乐信息平台

TDengine 快速体验（Docker 镜像方式）

突破不可导策略的训练难题：零阶优化与强化学习的深度嵌合

MySQL 隔离级别：脏读、幻读及不可重复读的原理与示例

大型活动交通拥堵治理的视觉算法应用

【大模型RAG】Docker 一键部署 Milvus 完整攻略

质量体系的重要

Qt Http Server模块功能及架构

AI编程--插件对比分析：CodeRider、GitHub Copilot及其他

【学习笔记】深入理解Java虚拟机学习笔记——第4章虚拟机性能监控，故障处理工具

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容