[论文阅读] Explicit Visual Prompting for Low-Level Structure Segmentations
[论文地址] [代码] [CVPR 23]
Abstract
我们考虑了检测图像中低层次结构的通用问题,其中包括分割被操纵的部分,识别失焦像素,分离阴影区域,以及检测隐藏的物体。每个问题通常都有一个特定领域的解决方案,我们表明,一个统一的方法在所有这些问题上都表现良好。我们从NLP中广泛使用的预训练和提示调整协议中得到启发,并提出了一个新的视觉提示模型,即显式视觉提示(EVP)。与以往的视觉提示不同的是,我们的视觉提示是典型的数据集级别的隐性嵌入,我们的关键见解是强制执行可调整的参数,专注于每个单独图像的显性视觉内容,即来自冻结补丁嵌入和输入的高频成分的特征。在相同数量的可调整参数(每个任务5.7%的额外可调谐参数)下,提议的EVP明显优于其他参数高效的微调协议。与特定任务的解决方案相比,EVP在不同的低层次结构分割任务上实现了最先进的性能。
Overview
本文是做什么的: 做的是参数高效微调(Parameter-Efficient Tuning)。例如对一个参数量巨大的模型,调整其所有参数是十分低效的,可以设计算法以只调整网络的一小部分(额外的)参数来取得与完全调整相当的性能。
何为显式(Explicit) 现有的方法(例如Visual Prompt Tuning)其所利用的提示(Prompt)是隐式的,也就是直接加网络层进去让模型自己学,具体学的东西是什么不知道,但最后模型性能有提升;本文的Prompt则是强制学习了模型的一些底层的结构信息(FFT+IFFT取得的模型高频成分),这些底层结构信息所构成的"手工特征"能够大大提升Prompt的效果。
本文的核心思想其实比较类似于传统分割网络里面的boundary aware之类的方法,加额外的与图片相关的信息进去给网络学。
Method
本文的网络结构如下所示:

虚线左边为Adapter的结构,虚线右边为整体结构。以SegFormer的Transformer backbone为例,本文主要加了以下几个东西,一个个来看:
-
Embedding Tune: 本文将Patch Embedding所得到的特征送入了一个Embedding Tune层。这么做的目的是辅助原始训练数据分布迁移到现在finetune的新数据上,思想类似于现有的VPT-Shallow。具体的网络实现则是一个线性层就可以搞定。需要注意的是,这个线性层对输入的Patch Embedding Feature进行了降维,具体降多少算是本文的一个超参。
-
HTC Tune 直接从原始图像中提取高频分量,作为手工特征以辅助finetune。具体的网络实现同样是使用一个线性层将提取的frequency map转化为特征。
-
Adapter 负责整合Embedding与HTC Tune获得的信息,并将其送入到Transformer backbone的每一层中去。其网络实现由三部分组成,分别为 M L P t u n e MLP_tune MLPtune, G E L U GELU GELU, M L P u p MLP_up MLPup,也就是两个线性层以及中间的GELU。将第二个MLP共享可以认为单纯是为了节省参数量(见消融实验)。
Ablation Study

本文主要所提出来的东西也就是这个高频分量Adapter F h f c F_{hfc} Fhfc。可以看到该组件在Shadow和Forgery上的贡献较大,而在Defocus以及Camouflaged上的贡献有限。事实上,对于Defocus以及Camouflaged这两个任务,修改单一的设计几乎都不会对最终结果有较大的影响。
相关文章:
[论文阅读] Explicit Visual Prompting for Low-Level Structure Segmentations
[论文地址] [代码] [CVPR 23] Abstract 我们考虑了检测图像中低层次结构的通用问题,其中包括分割被操纵的部分,识别失焦像素,分离阴影区域,以及检测隐藏的物体。每个问题通常都有一个特定领域的解决方案,我们表明&am…...
swagger在spring项目中的使用
一、Swagger2介绍 前后端分离开发模式中,api文档是最好的沟通方式。 Swagger 是一个规范和完整的框架,用于生成、描述、调用和可视化 RESTful 风格的 Web 服务。 及时性 (接口变更后,能够及时准确地通知相关前后端开发人员)规范性 (并且保…...
操作系统第五章——输入输出管理(中)
提示:若我会见到你,事隔经年,我如何向你招呼,以眼泪,以沉默 文章目录 5.2.1 IO核心子系统知识总览功能要在那个层次实现 5.2.2 假脱机技术(SPOOLing)知识总览什么是脱机技术假脱机技术——输入井…...
【网络】socket套接字基础知识
目录 IP地址和端口号 源IP地址和目的IP地址 端口号 源端口号和目的端口号 TCP/UDP协议 网络字节序 大小端 如何定义网络数据流地址 网络字节序和主机字节序的转换 socket编程接口 sockaddr结构 IP地址和端口号 源IP地址和目的IP地址 在IP数据包头部中,会…...
Go语言介绍以及Go语言环境安装
初步介绍: Go 是一个开源的编程语言,它能让构造简单、可靠且高效的软件变得容易。 Go是从2007年末由Robert Griesemer, Rob Pike, Ken Thompson主持开发,后来还加入了Ian Lance Taylor, Russ Cox等人,并最终于2009年11月开源&am…...
FPGA纯verilog实现CameraLink视频接收和发送,附带工程源码和技术支持
目录 1、前言2、CameraLink协议基础3、目前我已有的CameraLink收发工程4、设计方案5、CameraLink解码模块详解6、CameraLink编码模块详解7、vivado工程详解8、上板调试验证9、福利:工程代码的获取 1、前言 FPGA实现CameraLink视频编解码目前有两种方案:…...
k8s中的service、api-server、kube-proxy有什么区别
在Kubernetes(K8s)中,Service、API Server和kube-proxy是三个不同的组件,它们在集群中扮演着不同的角色和功能。下面我将为你解释它们之间的区别: 1. Service(服务): Service是K8s中…...
记录::opencv编译,cmake编译vs动态库
环境:window7,cmake-gui,vs2013 opencv:3.4.4 opencv_contrib:3.4.4(nonfree模块,主要为了用sift) 链接:https://pan.baidu.com/s/1OXg2IRaxTLTVqM2PVR2ZFA 提取码&a…...
网易SmartAuto,中文编程就是爽
上一篇我们应该用中文编程发出来后,果不其然不少人很不以为然,还有直说“骗钱的,估计也没人会上当”。这样的反应是在预料之中。 行胜于言,我今天讲一个我们已经用了好几年的产品,用来做UI自动化测试的SmartAuto&#…...
适配器模式那么强大,该怎么使用呢?
适配器模式是一种常用的设计模式,它可以将两个不兼容的接口进行转换,从而使它们之间可以进行交互。在业务开发中,我们经常需要将不同的系统或服务进行整合,而这些系统或服务往往有着不同的接口和数据格式。适配器模式提供了一种解…...
[极客大挑战 2019]PHP1
既然提到了备份网站估计也是存在着网站备份文件,可以先用御剑扫一下 啥都没扫出来,但是上回做文件备份的题目时收集了一些关于常用备份文件的文件名和后缀,可以直接使用burp抓包爆破,果然爆破出一个www.zip文件 访问下载好文件就有…...
PID 学习
采样数据: X 1 , X 2 , X 3 . . . , X ( k − 1 ) , X k X_1,X_2,X_3...,X_(k-1),X_k X1,X2,X3...,X(k−1),Xk E k S v − X k E_kS_v-X_k EkSv−Xk ( S v S_v Sv 是用户设定值) 比例算法: O U T P K p ∗ E k O U T 0 OUT_PK_p*…...
002. java.lang.NumberFormatException: Infinite or NaN,怎么破?
你好,我是YourBatman:当我老了,也写代码;不为别的,只为爱好。 📚前言 如果你工作超5年,100%遇到过这个异常:java.lang.NumberFormatException: Infinite or NaN Infinite中文释义…...
Vue常用的修饰符
Vue常用的修饰符有哪些有什么应用场景 修饰符是什么 在Vue中,修饰符处理了许多DOM事件的细节,让我们不再需要花大量的时间去处理这些烦恼的事情,而能有更多的精力专注于程序的逻辑处理 分类、有5种 表单修饰符事件修饰符鼠标按键修饰符键…...
freertos笔记-任务切换
红叶何时落水 任务切换,调用PendSV #define taskYIELD() portYIELD() #define portYIELD() \ { \portNVIC_INT_CTRL_REG portNVIC_PENDSVSET_BIT; \ 通过向中断控制和壮态寄存器 ICSR 的 bit28 写入 1 挂起 PendSV 来启动 PendSV 中断\__dsb( portSY_FULL_READ…...
企业电子招投标采购系统源码之登录页面-java spring cloud
信息数智化招采系统 服务框架:Spring Cloud、Spring Boot2、Mybatis、OAuth2、Security 前端架构:VUE、Uniapp、Layui、Bootstrap、H5、CSS3 涉及技术:Eureka、Config、Zuul、OAuth2、Security、OSS、Turbine、Zipkin、Feign、Monitor、…...
接口测试|Fiddler弱网测试
Fiddler进行弱网测试 弱网测试 概念:弱网看字面意思就是网络比较弱,我们通称为信号差,网速慢。 意义:模拟在地铁、隧道、电梯和车库等场景下使用APP ,网络会出现延时、中断和超时等情况。 在这里插入图片描述 Fidd…...
Linux-0.11 文件系统super.c详解
Linux-0.11 文件系统super.c详解 模块简介 该模块主要包含了对超级块的一些读写操作。 函数详解 lock_super static void lock_super(struct super_block * sb)该函数的作用是锁定bh块。 cli();//关中断while (sb->s_lock)//如果已经被锁定sleep_on(&(sb->s_wai…...
什么是ChatGPT、历史发展及应用领域
什么是ChatGPT ChatGPT是一种基于深度学习的自然语言处理技术,它可以生成高质量的自然语言文本,该技术是由OpenAI团队开发,旨在使计算机能够像人类一样理解和产生自然语言。ChatGPT使用了深度神经网络和自然语言处理技术,通过对大…...
Spring的创建与使用
目录 1.创建 Spring 项⽬ 1.1 创建一个 maven 项目 1.2 添加 spring 框架支持(spring-context/spring-beans) 2.将 Bean (对象) 存储到 Spring (容器) 中 2.1 在resources中创建一个spring配置文件 2.2 将 Bean 对象存储到 Spring 当中 2.2.1 创建 Bean 对象 2.2.2 将B…...
Notepad--:当文本编辑遇到真正的跨平台解决方案
Notepad--:当文本编辑遇到真正的跨平台解决方案 【免费下载链接】notepad-- 一个支持windows/linux/mac的文本编辑器,目标是做中国人自己的编辑器,来自中国。 项目地址: https://gitcode.com/GitHub_Trending/no/notepad-- 你是否曾因…...
3步搞定视频转PPT:开源智能提取工具终极指南
3步搞定视频转PPT:开源智能提取工具终极指南 【免费下载链接】extract-video-ppt extract the ppt in the video 项目地址: https://gitcode.com/gh_mirrors/ex/extract-video-ppt 你是否厌倦了手动从视频中截图制作PPT?想要快速将录播课程、会议…...
别再把AI当聊天机器人了:Claude Code之父的“15倍速”工程化工作流全拆解
在这个AI编程工具层出不穷的时代,大多数人还在纠结“哪家大模型的代码补全更准”,或者在对话框里一行行地复制粘贴代码。然而,Anthropic工程师、Claude Code的缔造者Boris Cherny最近在X上公开的一套工作流,直接震碎了开发者社区的…...
3大优势让学术翻译更安全:Zotero PDF翻译插件离线方案全解析
3大优势让学术翻译更安全:Zotero PDF翻译插件离线方案全解析 【免费下载链接】zotero-pdf-translate Translate PDF, EPub, webpage, metadata, annotations, notes to the target language. Support 20 translate services. 项目地址: https://gitcode.com/gh_mi…...
零成本全平台2D CAD解决方案:LibreCAD专业应用指南
零成本全平台2D CAD解决方案:LibreCAD专业应用指南 【免费下载链接】LibreCAD LibreCAD is a cross-platform 2D CAD program written in C17. It can read DXF/DWG files and can write DXF/PDF/SVG files. It supports point/line/circle/ellipse/parabola/spline…...
OpenWRT中通过Luci框架定制动态Web管理界面
1. Luci框架入门:从零理解MVC架构 第一次接触OpenWRT的Web管理界面时,我完全被Luci框架的简洁高效震惊了。这个基于Lua语言的轻量级框架,用最少的代码实现了路由器的完整配置管理。记得当时为了修改一个简单的网络参数,我翻遍了各…...
3大核心技术深度解析:Windows Defender Control开源项目的架构与实践指南
3大核心技术深度解析:Windows Defender Control开源项目的架构与实践指南 【免费下载链接】defender-control An open-source windows defender manager. Now you can disable windows defender permanently. 项目地址: https://gitcode.com/gh_mirrors/de/defen…...
Qwen3.5-2B企业落地案例:制造业设备图片故障诊断辅助系统搭建
Qwen3.5-2B企业落地案例:制造业设备图片故障诊断辅助系统搭建 1. 项目背景与挑战 在制造业生产线上,设备故障诊断一直是影响生产效率的关键环节。传统方式依赖工程师人工巡检,存在以下痛点: 人力成本高:需要专业工程…...
OpenClaw镜像体验:在星图GPU平台快速试用SecGPT-14B安全分析
OpenClaw镜像体验:在星图GPU平台快速试用SecGPT-14B安全分析 1. 为什么选择云平台体验OpenClaw 第一次接触OpenClaw时,我被它的自动化能力吸引,但本地安装过程让我望而却步。作为一个经常需要评估各种AI工具的安全工程师,我发现…...
(新)IEEE Access论文投稿全流程实战解析
1. IEEE Access投稿前的准备工作 第一次投稿到IEEE Access这种国际期刊,很多人都会感到无从下手。作为一个审过稿也投过稿的老手,我完全理解这种忐忑。别担心,跟着我的步骤走,保证你能顺利完成整个投稿流程。 首先得明确一点&…...
