CVPR2024|vivo提出使用对抗微调获得泛化性更强的SAM,分割性能直接登顶 SOTA!
在计算机视觉不断发展的领域中,基础模型已成为一种关键工具,显示出对多种任务的出色适应性。其中,由 Meta AI 开发的 Segment Anything Model(SAM)在图像分割任务中表现杰出。然而,和其他类似模型一样,SAM 在某些特定的细分应用中也遇到了限制。

针对此问题,VIVO提出了ASAM,这是一种通过对抗性调整来增强SAM性能的新方法。广泛的评估结果证实,ASAM 在分割任务中建立了新的基准,从而有助于计算机视觉基础模型的进步。

ASAM只是提高了SAM的性能,而不需要对架构进行修改。ASAM也是资源友好型的,因为它只需要8个A6000 gpu而不需要额外的数据(1% SA-1B数据)。
相关链接
论文地址:https://arxiv.org/pdf/2405.00256
项目页面:https://asam2024.github.io/
论文阅读

ASAM:增强分段任何模型与对抗性调整
摘要
在不断发展的计算机视觉领域,基础模型已成为关键工具,对各种任务表现出卓越的适应性。其中,Meta AI 的 Segment Anything Model (SAM) 在图像分割方面表现突出。然而,SAM 与其他同类模型一样,在特定的细分应用中也遇到了限制,这促使人们寻求不损害其固有功能的增强策略。
本文介绍了 ASAM,这是一种通过对抗性调整来增强 SAM 性能的新方法。我们利用自然对抗性示例的潜力,灵感来自它们在自然语言处理中的成功实施。通过利用稳定的扩散模型,我们增强了 SA-1B 数据集的一个子集 (1%),生成了更能代表自然变化而不是传统不可察觉的扰动的对抗性实例。我们的方法保持了对抗性示例的照片级真实感,并确保与原始掩模注释对齐,从而保持了分割任务的完整性。经过微调的 ASAM 在各种分割任务中都表现出显著的改进,而无需额外的数据或架构修改。我们广泛的评估结果证实,ASAM 在分割任务中建立了新的基准,从而有助于计算机视觉基础模型的进步。
方法

ASAM主要包含三个步骤,第一步是对抗性潜在优化,第二步是可控对抗样本生成,第三步是用对抗样本对SAM进行微调。
效果展示
更强大的 SAM

更强大的 SAM。与PGD-Tuning SAM、DAT-Tuning SAM、DatasetDM-Tuning SAM相比。ASAM 在所有14个测试数据集上都明显优于其他调优方法,并且与原始SAM相比实现了性能提升。

对提出的ASAM与其他方法进行定性比较。黄色框代表框提示。

从普通场景、医疗场景等不同场景的定性比较来看,提出的ASAM可以提高SAM的性能。

更强大的 EfficientSAM

更强大的 EfficientSAM。与 EfficientSAM( EfficientSAM:利用蒙版图像预训练实现高效分割,ESAM,CVPR2024)相比,AESAM 在 16 个不同数据集上实现了性能提升。ESAM 是 Meta 提出的最新成果,在 CVPR2024 上获得满分。
更强大的 HQSAM

更强大的 HQSAM。与 HQSAM(高质量分割任何内容,HQSAM,NeurIPS2023)相比,HQ-ASAM 可以在 4 个不同的数据集上实现性能提升。HQSAM 是由苏黎世联邦理工学院和香港科技大学提出的工作,在 Github 上获得了约 3.4k 个星。
更强大的 SAM 适配器

更强大的 SAM-Adapter。与 SAM-adapter(ICCV2023 研讨会)相比,ASAM-Adapter 在 2 个不同的数据集上实现了性能提升。
结论
本研究中引入的 ASAM 代表了 SAM 通过创新使用对抗性调整而取得的重大进步。我们采用稳定的扩散模型来增强 SA-1B 数据集的一部分,生成了自然、逼真的对抗性图像,从而显著提高了 SAM 在各种任务中的分割能力。这种方法受到 NLP 中对抗性训练技术的启发,在增强 SAM 性能的同时,保留了 SAM 的原始架构和零样本优势。
我们的研究结果表明,ASAM 不仅在分割任务中设定了新的基准,而且还有助于对抗性示例在计算机视觉领域的更广泛应用和理解,为提升大型视觉基础模型的能力提供了一种新颖而有效的方法。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~
相关文章:
CVPR2024|vivo提出使用对抗微调获得泛化性更强的SAM,分割性能直接登顶 SOTA!
在计算机视觉不断发展的领域中,基础模型已成为一种关键工具,显示出对多种任务的出色适应性。其中,由 Meta AI 开发的 Segment Anything Model(SAM)在图像分割任务中表现杰出。然而,和其他类似模型一样&…...
程序员必备的ChatGPT技巧:从代码调试到项目管理
近年来,随着人工智能技术的迅猛发展,ChatGPT作为一种强大的对话式AI工具,已经广泛应用于各个领域。而对于程序员来说,ChatGPT不仅可以帮助他们解决编程中的各种问题,还能在项目管理中发挥重要作用。本篇博客将详细介绍…...
JAVA开发的一套医院绩效考核系统源码:KPI关键绩效指标的清晰归纳
KPI是关键绩效指标(Key Performance Indicators)的缩写,它是一种用于衡量员工或组织绩效的量化指标。这些指标通常与组织的目标和战略相关,并帮助管理层评估员工和组织的实际表现。KPI还可以为员工提供清晰的方向,使他…...
面向对象编程——python
目录 一、面向对象编程 1.1 类和对象 1.2 继承 1.3 封装 1.4 多态 1.5 Python中的面向对象编程 二、类、对象和变量 2.1 类(Class) 2.2.1 类的属性(Class Attributes) 2.2.2 类的方法(Class Methods…...
【LeetCode】每日一题:合并K个升序链表
给你一个链表数组,每个链表都已经按升序排列。 请你将所有链表合并到一个升序链表中,返回合并后的链表。 解题思路 分治加两个链表合并,或者用根堆,根堆的初始化方法很值得背诵,还涉及lambda的用法 AC代码 # Defini…...
从零开始学docker(四)-安装mysql及主从配置(一)
mysql MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关…...
【目标检测】Yolov8 完整教程 | 检测 | 计算机视觉
学习资源:https://www.youtube.com/watch?vZ-65nqxUdl4 努力的小巴掌 记录计算机视觉学习道路上的所思所得。 1、准备图片images 收集数据网站:OPEN IMAGES 2、准备标签labels 网站:CVAT 有点是:支持直接导出yolo格式的标…...
新能源汽车 LabCar 测试系统方案(-)
什么是LabCar测试 LabCar测试目标是进行整车黄板台架功能测试,用于整车开发和测试阶段,满足设计人员和测试人员的试验需求,以验证整车性能,减少开发工作量。系统主要用于测试静态及动态工况下的纯电动汽车的各项功能实现情况。 …...
机器学习辅助的乙醇浓度检测(毕设节选)
目录 1.为什么要机器学习 2. 神经网络一般组成 3.BP神经网络工作过程 4.评价指标 5.实操代码 1.为什么要用机器学习 人工分析大量的谐振模式,建立各种WGM的响应与未知目标之间的关系,是一个很大的挑战。机器学习(ML)能够自行识别全谱的全部特征。作为…...
YOLO系列改进
yolo核心思想:把目标检测转变成一个回归问题。将整个图像作为网络的输入,仅仅经过一个神经网络,得到边界框的位置及其所属的类别。 YOLOv1 CVPR2016 输出7730的张量表示2个框的5个参数和20个种类。leaky ReLU,leaky并不会让负数…...
cuda与cudnn下载(tensorflow-gpu)
目录 前言 正文 前言 !!!tensorflow-gpu的版本要与cuda与cudnn想对应。这点十分重要!推荐下载较新的。即tensorflow-gpu2.60及以上,cuda11.x及以上,cudnn8.x及以上。 所以,下载之前先检查好…...
git 多分支实现上传文件但避免冲突检测
文章目录 背景实现步骤 背景 对于某些通过命令生成的配置文件(如 TypeScript 类型文件等) 实现步骤 1...
聊聊 golang 中 channel
1、引言 Do not communicate by sharing memory; instead, share memory by communicating Golang 的并发哲学是“不要通过共享内存进行通信,而要通过通信来共享内存”,提倡通过 channel 进行 goroutine 之间的数据传递和同步,而不是通过共享…...
SK Hynix 3D DRAM良率突破56.1%,开启存储新时代
根据韩国财经媒体Business Korea独家报道:在刚刚结束的VLSI 2024国际研讨会上,韩国半导体巨头SK Hynix公布了一项振奋人心的进展:其五层堆叠3D DRAM的制造良率已达到56.1%。此成果标志着3D DRAM技术在商业化道路上迈出了坚实的一步࿰…...
如何封装自动化测试框架?
封装自动化测试框架,测试人员不用关注框架的底层实现,根据指定的规则进行测试用例的创建、执行即可,这样就降低了自动化测试门槛,能解放出更多的人力去做更深入的测试工作。 本篇文章就来介绍下,如何封装自动化测试框…...
基于Java的在线编程考试系统【附源码】
毕业设计(论文) 题目:基于 二级学院: 现代技术学院 专业(方向): 计算机应用技术 班 级: 计科B2015 学 生: 指导教师: 2024年1月 29 日 本科毕业论文(设计)学术诚信声明 本人郑重…...
Beautiful Soup的使用
1、Beautiful Soup简介 Beautiful Soup是一个Python的一个HTML或XML的解析库,我们用它可以方便地从网页中提取数据。 Beautiful Soup 提供一些简单的、Python 式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓…...
633. 平方数之和(中等)
633. 平方数之和 1. 题目描述2.详细题解3.代码实现3.1 Python3.2 Java内存溢出溢出代码正确代码与截图 1. 题目描述 题目中转:633. 平方数之和 2.详细题解 本题是167. 两数之和 II - 输入有序数组(中等)题目的变型,由两数之和变…...
GIT回滚
1. 使用 git revert git revert 命令会创建一个新的提交,这个提交会撤销指定提交的更改。这通常用于公共分支(如 main 或 master),因为它不会重写历史。 git revert HEAD # 撤销最近的提交 # 或者指定一个特定的提交哈希值 …...
BEVM基于OP-Stack发布首个以WBTC为GAS连接以太坊和比特币生态的中继链
为了更好的连接以太坊和比特币生态,BEVM团队正在基于OPtimism的OP Stack来构建一个以WBTC为GAS兼容OP-Rollup的中继链,这条中继链将作为一种完全去中心化的中间层,把以太坊上的主流资产(WBTC/ ETH/USDC/USDT等)引入到BEVM网络。 不仅如此&am…...
Java笔记——Java 初识_java 版本历史
Java笔记——Java 初识_java 版本历史 Java 的发展历程 Sun 公司:Stanford University Network,斯坦福大学网络公司。 Oracle 公司。2004 年发布 Java 5.0,2014 年发布 Java 8,从 Java 9 开始每 6 个月发布一次 Java。 其实&#…...
小红书二面:Function Calling 的可靠性怎么保证?
1. 题目分析 Function Calling 大概是 LLM 应用开发中最拧巴的一个环节——你让一个概率模型去做一件需要百分之百精确的事。模型生成的自然语言可以有措辞差异、可以有风格变化,用户多半不会在意,但一个工具调用的参数少了一个字段、日期格式从 YYYY-M…...
Go语言内存管理与性能优化
Go语言内存管理与性能优化 一、内存管理基础 Go语言采用自动内存管理机制,开发者无需手动管理内存分配和释放。理解Go的内存管理机制对于编写高性能代码至关重要。 Go内存分配器 Go使用tcmalloc(Thread-Caching Malloc)作为底层内存分配器&am…...
联盟营销管理系统有哪些?如何选择?
在SaaS工具出海营销的广阔天地里,联盟营销(Affiliate Marketing)以其独特的优势成为众多企业竞相探索的流量获取新途径。本文将简要介绍几款主流的联盟营销工具,探讨其独特之处及适用场景。PartnerShare联盟系统PartnerShare联盟系统是中国出…...
3个简单步骤掌握gInk:Windows上最轻量的免费屏幕画笔工具
3个简单步骤掌握gInk:Windows上最轻量的免费屏幕画笔工具 【免费下载链接】gInk An easy to use on-screen annotation software inspired by Epic Pen. 项目地址: https://gitcode.com/gh_mirrors/gi/gInk gInk屏幕画笔工具是一款专为Windows用户设计的实时…...
【RS-M1系列-2】揭秘螺旋扫描:RS-M1如何重塑点云数据格局
1. 螺旋扫描:RS-M1的核心创新点 第一次拿到RS-M1的点云数据时,我就被它独特的螺旋扫描模式惊艳到了。与传统机械旋转式雷达那种"转圈圈"的扫描方式完全不同,RS-M1的5个激光通道通过一面振镜实现了螺旋状的扫描轨迹。这就像用五支笔…...
我为什么放弃30W年薪,选择去读AI硕士?
当“点工”撞上“智能墙”周五下午六点,我像往常一样提交了最后一份测试报告,关闭了Jira上的第47个Bug工单。屏幕上,自动化回归脚本的进度条刚好跑到100%,绿色通过。一切看起来都那么完美,那么稳定。但我的内心&#x…...
录音转文字在线版有哪些?这几款免费录音转文字在线工具怎么选?
很多人做录音转文字的时候默认用专业级的转录服务,其实像提词匠这样的轻量工具已经够用了。特别是如果你只是偶尔需要把会议录音、课堂笔记、视频素材转成文字,不必非要上手深度学习复杂的专业软件。下面我梳理了目前市面上主流的录音转文字在线版工具,既有微信小程序也有网页版…...
Huxley框架PDF生成利器:基于HTML模板的优雅解决方案
1. 项目概述:一个为Huxley框架量身定制的PDF生成利器如果你正在使用Huxley框架开发应用,并且遇到了需要生成PDF报告、发票、合同或者任何形式文档的需求,那么你很可能已经体会过那种“万事俱备,只欠PDF”的纠结。市面上的PDF生成库…...
开源桌面宠物应用开发指南:从原理到实践
1. 项目概述:一个开源的桌面宠物应用 最近在逛GitHub的时候,发现了一个挺有意思的开源项目,叫“openclaw-desktop-pet”。简单来说,它就是一个可以让你在电脑桌面上养一只小宠物的应用。这只宠物不是静态的图片,而是一…...
