SAM 2:分割图像和视频中的任何内容
文章目录
- 摘要
- 1 引言
- 2 相关工作
- 3 任务:可提示视觉分割
- 4 模型
- 5 数据
- 5.1 数据引擎
- 5.2 SA-V数据集
- 6 零样本实验
- 6.1 视频任务
- 6.1.1 提示视频分割
- 6.1.2 半监督视频对象分割
- 6.1.3 公平性评估
- 6.2 图像任务
- 7 与半监督VOS的最新技术的比较
- 8 数据和模型消融
- 8.1 数据消融
- 8.2 模型架构消融
- 8.2.1 容量消融
- 8.2.2 相对位置编码
- 8.2.3 记忆架构消融
- 9 结论
- 10 致谢
- 附录
- A PVS任务的细节
- B 局限性
- C SAM 2细节
- C. 1 架构
- C. 2 训练
- C.2.1 预训练
- C.2.2 全面训练
- C. 3 速度基准测试
- D 数据细节
- D. 1 SA-V数据集细节
- D.2 数据引擎细节
- D.2.1 注释协议
- D.2.2 数据引擎阶段比较
- E 关于零样本转移实验的更多细节
- E.1 零样本视频任务
- E.1.1 视频数据集细节
- E.1.2 交互式离线和在线评估细节
- E.1.3 半监督VOS评估细节
- E.1.4 SAM+XMem++和SAM+Cutie基线细节
- E.2 DAVIS交互式基准测试
- E.3 零样本图像任务
- E.3.1 数据集细节
- E.3.2 详细的零样本实验
- F 在半监督VOS中与最新技术的比较的更多细节
- G 模型、数据和注释卡片
- G. 1 模型卡片
- G. 2 SA-V数据集卡片
- G.3 数据注释卡片
摘要
我们提出了“Segment Anything Model 2”(SAM 2),这是一种基础模型,旨在解决图像和视频中的可提示视觉分割问题。我们构建了一个数据引擎,该引擎通过用户交互改进模型和数据,以收集迄今为止最大的视频分割数据集。我们的模型采用带有流式内存的简单变换器架构,适用于实时视频处理。使用我们的数据进行训练的SAM 2在广泛的任务中表现出色。在视频分割方面,我们观察到比先前方法更高的准确性,同时所需的交互次数减少了 3 3 3倍。在图像分割方面,我们的模型比“Segment Anything Model”(SAM)更准确,速度快了
相关文章:
SAM 2:分割图像和视频中的任何内容
文章目录 摘要1 引言2 相关工作3 任务:可提示视觉分割4 模型5 数据5.1 数据引擎5.2 SA-V数据集6 零样本实验6.1 视频任务6.1.1 提示视频分割6.1.2 半监督视频对象分割6.1.3 公平性评估6.2 图像任务7 与半监督VOS的最新技术的比较8 数据和模型消融8.1 数据消融8.2 模型架构消融…...
【免越狱】iOS任意版本号APP下载
下载地址 https://pan.quark.cn/s/570e928ee2c4 软件介绍 下载iOS旧版应用,简化繁琐的抓包流程。一键生成去更新IPA(手机安装后,去除App Store的更新检测)。 软件界面 使用方法 一、直接搜索方式 搜索APP,双击选…...
告别植物神经紊乱,这5种运动让你身心平衡,活力满满!♀️✨
Hey小伙伴们~👋 最近是不是感觉压力山大,晚上辗转反侧,白天又无精打采?😴😔 这可能是植物神经紊乱在悄悄作祟哦!别怕,今天就来给大家种草几个超有效的运动方式,帮你找回那…...
又一个iPhone时代开始
今年的苹果秋季发布会在昨晚召开了,今天早上我们也看到了很多相关的新闻。我猜你看完后的感觉可能是,这不过又是一次普普通通的参数升级。又是提升了百分之多少,又是增加了多少倍——非常简单的一些更新。比如说芯片升级了、相机的摄像头一会…...
在 CentOS 中永久关闭防火墙的步骤
在 CentOS 中永久关闭防火墙的步骤 在 CentOS 系统中,防火墙通常由 firewalld 服务管理。如果你希望在系统中永久关闭防火墙,可以按照以下步骤操作: 1. 停止防火墙服务 首先,你需要停止当前正在运行的防火墙服务。可以使用以下…...
【数据库】详解基本SQL语句用法
一、SELECTING DATA FROM TABLES【查询数据】 SELECT命令是表上所有查询的基础,因此给出它的完整描述以显示它的功能。在描述之后提供各种格式的示例。 1.1 整体描述 SELECT column1, column2, ... FROMtable1 [INNER | LEFT | RIGHT] JOIN table2 on conditions…...
R语言地理加权回归、主成份分析、判别分析等空间异质性数据分析
在自然和社会科学领域有大量与地理或空间有关的数据,这一类数据一般具有严重的空间异质性,而通常的统计学方法并不能处理空间异质性,因而对此类型的数据无能为力。以地理加权回归为基础的一系列方法:经典地理加权回归,…...
数学建模笔记—— 非线性规划
数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中…...
JavaScript中的控制流语句:break、continue、return、throw
在JavaScript编程中,控制流语句是控制代码执行流程的重要工具。这些语句包括break、continue、return和throw,它们可以在循环、函数以及其他代码块中使用,以改变正常的执行顺序。下面我们将逐一探讨这些语句的用途和示例。 break break语句…...
移动通信为啥要用双极化天线?
❝本文简单介绍下移动通信为啥要用双极化天线及其简单概述。 移动通信为啥要用双极化天线? - RFASK射频问问❝本文简单介绍下移动通信为啥要用双极化天线及其简单概述。什么是极化?电磁波的极化通常是用其电场矢量的空间指向来描述:在空间某…...
C语言从头学59——学习头文件math.h(二)
继续学习头文件<math.h>,编号接续前文。 六、三角函数 math.h中的三角函数包括: acos():反余弦,参数范围-1至1,返回值double类型:0~PI asin():反正弦,参…...
Leetcode 3283. Maximum Number of Moves to Kill All Pawns
Leetcode 3283. Maximum Number of Moves to Kill All Pawns 1. 解题思路2. 代码实现 题目链接:3283. Maximum Number of Moves to Kill All Pawns 1. 解题思路 这一题坦率地说没有想到什么好的思路,因此只能非常暴力地按照题意进行了一下构造。 显然…...
智能物流新“黑神话”:各位“天命人”,这份行业应用锦集请收下!
全球工业革新浪潮中,智能物流正成为制造业转型升级的核心驱动力之一。高柔性的智能物流解决方案可以帮助企业应对复杂的物流挑战,实现生产到仓储全过程的智能化、柔性化和高度集成,带来显著的经济效益。 作为行业领先的全场景柔性物流综合解…...
SpringSecurity原理解析(五):HttpSecurity 类处理流程
1、SpringSecurity 在spring boot中与SSM项目中基于配置文件的区别 通过前边的笔记我们可以知道,在传统的SSM项目中 SpringSecurity的使用是基于配置文件 的,然后spring 容器初始化的时候将 SpringSecurity 中的各种标签解析成对应的Bean对象,…...
C++系列-匿名对象
匿名对象 💢什么是匿名对象💢匿名对象的创建方式及作用域💢匿名对象的对象类型💢💢匿名的基本数据类型对象💢💢匿名的自定义的类类型对象💢💢匿名的标准库的类对象 &…...
tofixed和math.round什么区别
1、floor 返回不大于的最大整数(向下取整) 2、round 则是4舍5入的计算,入的时候是到大于它的整数(当-1.5时可见,四舍五入后得到的结果不是我们期待的,解决办法是先对他取绝对值,然后在用round方…...
OPENAIGC开发者大赛高校组金奖 | 基于混合大语言模型与多模态的全过程通用AI Agent
在第二届拯救者杯OPENAIGC开发者大赛中,涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到,我们特意开设了优秀作品报道专栏,旨在展示其独特之处和开发者的精彩故事。 无论您是技术专家还是爱好者,希望能带给您…...
MySql批量迁移数据库
导出数据库 将指定数据库实例(MYSQL_HOST、MYSQL_PORT、MYSQL_USER、MYSQL_PASSWORD)中的所有数据库(表结构、数据)导出到指定目录(BACKUP_DIR)下的多个单独的SQL脚本,每个SQL脚本名称即为数据…...
一、selenium自动化简介selenium工具集
文章目录 一、简介二、组成部分三、selenium工具集3.1 Selenium IDE3.2 Selenium WebDriver3.3 Selenium Grid3.4 Appium 一、简介 官方网站 Selenium 是支持 web 浏览器自动化的一系列工具和库的综合项目。 它提供了扩展来模拟用户与浏览器的交互,用于扩展浏览器分…...
CCF推荐B类会议和期刊总结:(计算机网络领域)
CCF推荐B类会议和期刊总结(计算机网络领域) 在计算机网络领域,中国计算机学会(CCF)推荐的B类会议和期刊代表了该领域的较高水平。以下是对所有B类会议和期刊的总结,包括全称、出版社、dblp文献网址以及所属…...
Ubuntu 20.04 LTS下Miniconda3安装与配置全攻略(含常见错误解决)
Ubuntu 20.04 LTS下Miniconda3安装与配置全攻略(含常见错误解决) 如果你正在Ubuntu 20.04 LTS上搭建Python开发或数据科学环境,Miniconda3绝对是一个值得考虑的选择。作为Anaconda的精简版,它保留了核心的conda包管理功能&#x…...
如何快速掌握这款免费音乐歌词工具:3分钟搞定全网歌词批量下载与格式转换
如何快速掌握这款免费音乐歌词工具:3分钟搞定全网歌词批量下载与格式转换 【免费下载链接】163MusicLyrics Windows 云音乐歌词获取【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 在数字音乐时代,你是否遇…...
GPEN对戴口罩人脸的修复能力实测:遮挡场景适应性
GPEN对戴口罩人脸的修复能力实测:遮挡场景适应性 1. 引言:当人脸识别遇上口罩 最近几年,口罩成了我们生活中的常客。无论是进出公共场所,还是在一些特殊的工作环境中,遮住半张脸的情况越来越普遍。这带来了一个有趣的…...
ENVI 5.3 vs 5.6 处理GF-6/GF-7数据实测:版本差异、流程对比与效率优化心得
ENVI 5.3与5.6处理GF-6/GF-7数据深度评测:从版本差异到实战优化 当高分卫星数据成为遥感分析的主流选择,ENVI作为行业标杆软件,其版本迭代对数据处理效率的影响往往被低估。本文将基于真实项目经验,拆解ENVI 5.3与5.6在处理GF-6/G…...
数据库扩展实战:如何用ShardingCore实现高性能分库分表
数据库扩展实战:如何用ShardingCore实现高性能分库分表 【免费下载链接】sharding-core high performance lightweight solution for efcore sharding table and sharding database support read-write-separation .一款ef-core下高性能、轻量级针对分表分库读写分离…...
通达信数据接口Python化:量化投资数据获取的革命性方案
通达信数据接口Python化:量化投资数据获取的革命性方案 【免费下载链接】mootdx 通达信数据读取的一个简便使用封装 项目地址: https://gitcode.com/GitHub_Trending/mo/mootdx 还在为股票数据的获取而烦恼吗?传统的数据接口往往复杂难用…...
避坑指南:用STM32CubeMX配置SPI驱动MAX7219数码管的几个关键细节
STM32CubeMX实战:避开MAX7219数码管驱动的5个致命配置误区 第一次用STM32CubeMX配置SPI驱动MAX7219数码管时,我盯着屏幕上闪烁不定的数字差点崩溃——明明按照教程一步步操作,为什么显示总是错乱?后来才发现,那些看似简…...
UI自动化测试--02(Xpath与CSS定位全攻略)
1.Xpath定位xpath和css定位可以利用以下元素的信息来完成定位: 层级结构 元素自身的所有信息 什么是Xpath: 是一种专门在xml文档中找元素的公式(表达式),而HTML刚好和XML结构很类似,所以XPATH的表达 式也可…...
如何在浏览器中免安装使用微信?这个开源插件给你答案!
如何在浏览器中免安装使用微信?这个开源插件给你答案! 【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 你是否曾经遇到过这样的…...
保姆级教程:用星图AI平台训练PETRV2-BEV模型,新手也能玩转自动驾驶
保姆级教程:用星图AI平台训练PETRV2-BEV模型,新手也能玩转自动驾驶 1. 前言:为什么你需要这篇教程? 如果你对自动驾驶技术感兴趣,想亲手训练一个能“看懂”周围环境的AI模型,但又被复杂的代码、昂贵的硬件…...
