当前位置: 首页 > article >正文

【深度学习】15. Segment Anything Model (SAM) :基于提示的分割新时代

Segment Anything Model (SAM) :基于提示的分割新时代

基本介绍

The first foundation model for promptable segmentation.

Segment Anything Model(简称 SAM)是 Meta AI 于 2023 年提出的一种通用型图像分割基础模型。与以往分割模型不同,SAM 是首个支持多种交互提示(prompt)方式进行分割的模型,可以在不训练的前提下实现多种图像分割任务,是典型的 zero-shot promptable segmentation 模型。

模型能力概览

  • 只需简单点击图像、框选区域、画掩码或提供文字提示,即可自动生成目标分割结果;
  • 可对不确定区域生成多个有效掩码;
  • 可对整张图像进行全目标检测和分割;
  • 在对图像嵌入进行预计算后,SAM可以即时为任何提示提供分割掩码,实现与模型的实时交互。
  • 分割速度极快,预计算 embedding 后能实时响应提示

SAM由三个相互连接的组件构建:任务、模型和数据引擎

在这里插入图片描述

  • Task: Promptable Segmentation

    • 在这种情况下,提示符是分割任务,可以是前景/背景点、粗框或蒙版、点击、文本,或者一般情况下,指示图像中要分割的内容的任何信息。该任务也被用作模型的预训练目标。
  • 模型: Segment Anything Model (SAM)

    • 重量级图像编码器输出图像嵌入。
    • 一个轻量级的提示编码器有效地查询图像嵌入。
    • 轻量级掩码解码器生成对象掩码和置信度分数。

SAM 的结构组成

SAM 的结构由三个核心模块构成:

模块名称作用说明
图像编码器使用 ViT 结构对整张图像生成 embedding(图像特征向量)
提示编码器编码前景点、背景点、框、掩码等用户提示信息
掩码解码器综合图像和提示信息,生成分割掩码及其置信度评分

整体流程是:图像 → ViT → 图像 embedding + 提示 embedding → 解码 → 分割掩码

支持的提示类型(Prompt Types)

提示类型示例说明
点提示单点/多点点击指定前景或背景区域
框提示粗略框定区域生成与框中物体一致的掩码
掩码提示传入已有掩码,进一步优化支持迭代式修正
多模态提示(实验)如文本:“segment the dog”未来可能支持文本指令(暂不稳定)

示例:通过点击分割一只猫

假设你上传了一张猫的照片并点击了猫的头部,SAM 的工作如下:

  1. 将整张图像通过 ViT 编码为高维 embedding;
  2. 对点击坐标编码为提示 embedding;
  3. 解码器融合两种信息,生成多个候选掩码;
  4. 输出包含:
    • 最可能的掩码;
    • 多个备选掩码(适用于歧义区域);
    • 每个掩码的置信度(IoU score 估计);

支持多掩码、多粒度分割

SAM 特别支持 ambiguity-aware segmentation,即:

  • 输出多个粒度层级的掩码,如 “整只狗”、“狗的头”、“狗的耳朵”;

    SAM旨在为单个提示预测多个掩码(即3个掩码:整体、部分、子部分)。

  • 对每个掩码预测一个 置信度分数(IoU 估计);

    为了对掩码进行排名,该模型预测每个掩码的置信度分数(即估计的IoU(交集/联合))

  • 训练时仅对损失最小的掩码反向传播,提升鲁棒性。

数据引擎:SA-1B 数据集

为了训练 SAM,Meta 构建了迄今为止最大的分割数据集:

  • 名称:SA-1B(Segment Anything 1 Billion)
  • 数据量:包含 1100 万张图像,11 亿个分割掩码,比任何先前的分割数据集多400倍的掩码
  • 用途:用于训练、评估通用分割模型
  • 开放性:仅限研究使用,开源访问:https://segment-anything.com/dataset

分割任何10亿掩码(SA-1B)数据集是迄今为止最大的标记分割数据集。它是专门为开发和评估高级分割模型而设计的。

数据集将是训练和微调未来通用模型的重要组成部分

实验表现与优势

  • SAM的结果具有开创性的原因之一是,与其他技术(如ViTDet)相比,分割掩码的效果非常好。
  • 在 23 个数据集上进行评测,尤其在 单点 zero-shot 分割 上表现优异;
  • 使用 1 个点提示时,性能已超越传统模型(RITM,SIMPLECLICK,FOCALCLICK)使用多个提示点的效果;
  • 分割边缘细腻、结构自然,是当前最强的基础模型之一。

局限性

虽然 SAM 很强大,但仍存在一些限制:

  • 对复杂结构或细小物体容易漏检或产生错误边界;
  • 在多点交互下可能不如专门的交互式分割模型(如 SimpleClick);
  • SAM在文本到掩码任务上的表现并不完全稳健。
  • SAM的性能预计会被特定于领域的工具超越(例如,ilastik)。
  • SAM是用自监督技术初始化的(即,MAE),它的绝大部分能力来自大规模的监督训练。

总结

SAM 引领了 promptable segmentation 的新范式,具备以下特征:

  • 可迁移性强:一次训练,支持多任务、多场景;
  • 交互式强:支持实时反馈和多种交互方式;
  • 数据基础强大:配合 SA-1B 具备强泛化能力;
  • 未来可拓展至多模态分割、3D 分割、视频分割等更广泛应用。

你现在就可以通过官方 demo 在线体验:

Segment Anything Demo

相关文章:

【深度学习】15. Segment Anything Model (SAM) :基于提示的分割新时代

Segment Anything Model (SAM) :基于提示的分割新时代 基本介绍 The first foundation model for promptable segmentation. Segment Anything Model(简称 SAM)是 Meta AI 于 2023 年提出的一种通用型图像分割基础模型。与以往分割模型不同&…...

Java从入门到精通 - 常用API(一)

常用 API 此笔记参考黑马教程,仅学习使用,如有侵权,联系必删 文章目录 常用 API1. 包代码演示 2. String2.1 String 概述代码演示总结 2.2 String 的常用方法代码演示 2.3 String 使用时的注意事项第一点第二点代码演示 总结题目 2.4 String…...

SQL 筛选出在表1但不在表2中的数据

SQL 筛选出在表1但不在表2中的数据 在SQL中,要筛选出存在于表1但不存在于表2中的数据,有几种常见的方法: 方法1:使用LEFT JOIN WHERE IS NULL SELECT t1.* FROM table1 t1 LEFT JOIN table2 t2 ON t1.join_key t2.join_key W…...

MATLAB实战:实现数字调制解调仿真

以下是使用MATLAB实现BPSK和QPSK数字调制解调仿真的完整代码。该代码包括调制、AWGN信道、匹配滤波/相关解调、星座图绘制以及误码率计算与理论值比较。 %% 清理环境 clear all; close all; clc; %% 参数设置 numBits 100000; % 传输比特数 EbN0_dB 0:2:10; …...

ccf中学生计算机程序设计入门篇课后题p164页test(1)-2 输入一个数,统计这个数二进制中1的个数

include <iostream> using namespace std;int main() {int x;int n 0;// 输入数据cin >> x;// 统计x二进制中1的个数for (n 0; x ! 0; x & x - 1) {n;}// 输出结果cout << n << endl;return 0; }程序解释&#xff1a; 输入&#xff1a;程序从标…...

实现Cursor + Pycharm 交互

效果演示&#xff1a; 直接可以在cursor或Pycharm中点击右键点击&#xff0c;然后就可以跳转到另一个应用的对应位置了 使用方法&#xff1a; 分别在两个应用中安装插件【Switch2Cursor Switch2IDEA&#xff0c;这两个插件分别安装在 IDEA 和 Cursor 中】&#xff1a; Switc…...

C++标准模板库

C标准库参考&#xff1a; C 标准库-CSDN博客 标准模板库STL C 标准库 和 STL 的关系 1. 严格来说&#xff0c;STL ≠ C 标准库 STL&#xff08;Standard Template Library&#xff09; 是 C 标准库的一个子集&#xff0c;主要提供泛型编程相关的组件&#xff08;如容器、迭代器…...

dvwa6——Insecure CAPTCHA

captcha&#xff1a;大概是“我不是机器人”的一个勾选框或者图片验证 LOW: 先输入密码正常修改试一下&#xff08;123&#xff09;&#xff0c;发现报错 查看源码&#xff1a; <?phpif( isset( $_POST[ Change ] ) && ( $_POST[ step ] 1 ) ) {// Hide the C…...

【机器学习及深度学习】机器学习模型的误差:偏差、方差及噪声

机器学习模型的误差分析 V1.0机器学习模型的衡量准则概念引入机器学习模型误差分析误差出现的原因及消除 V1.0 机器学习模型的衡量准则 衡量机器学习模型的好坏可以考虑以下几个方面&#xff1a; 偏差&#xff08;Bias&#xff09;&#xff1a; 在充分训练的情况下&#xff0…...

【学习笔记】On the Biology of a Large Language Model

On the Biology of a Large Language Model 1 Introduction 目标是对这些模型的内部工作机制进行逆向工程&#xff0c;从而更好地理解它们&#xff0c;并评估它们是否适合特定用途。 正如细胞是生物系统的基本构建单元&#xff0c;我们假设特征是模型内部计算的基本单位。仅仅…...

飞腾D2000,麒麟系统V10,docker,ubuntu1804,小白入门喂饭级教程

#下载docker Index of linux/static/stable/ 根据电脑的CPU类型选择&#xff1a; Intel和AMD选x86_64飞腾D2000选aarch64 #选择较新的版本 #在包含下载的docker-XX.X.X.tgz的文件夹中右键->打开终端 # 解压安装包&#xff08;根据实际下载的文件&#xff09; tar -zxvf …...

星野录(博客系统)测试报告

目录 一. 项目背景 二、项目功能 三、测试计划 1. 功能测试 1.1 测试用例 1.2 执行测试部分操作截图 2. 使用selenium进行自动化测试 2.1 添加相关依赖 2.2 登录页面测试 3.3 注册页面测试 3.4 博客列表页面测试 3.5 博客详情页测试 3.6 博客编辑页面测试 3.7 个人…...

使用 Java 实现一个简单且高效的任务调度框架

目录 一、任务调度系统概述 (一)任务调度的目标 (二)任务调度框架的关键组成 二、任务状态设计 (一)任务状态流转设计 (二)任务表设计(SQL) 三、单机任务调度实现 (一)获取待处理任务 (二)执行任务 代码实现(单线程版本) (三)多线程提高吞吐量 四…...

2022—2025年:申博之路及硕士阶段总结

文章目录 1 前景概要2 打造神兵利器2.1 夺天地之精2.2 锻兵魂之形2.3 契人兵之命 3 潜心闭关修炼3.1 第一阶段&#xff1a;苦心智3.2 第二阶段&#xff1a;劳筋骨3.3 第三阶段&#xff1a;摧意志 4 突破晋级4.1 突破失败4.2 聚气凝神4.3 心魔再现4.4 新起点 5 回顾及深思 1 前景…...

项目执行中缺乏灵活应对机制,如何增强适应性?

项目执行中缺乏灵活应对机制可以通过建立风险预警机制、培养团队快速响应能力、制定动态调整方案、加强团队沟通协作、引入敏捷管理理念来增强适应性。 其中&#xff0c;培养团队快速响应能力尤为重要。这种能力意味着当项目遇到突发状况时&#xff0c;团队能迅速评估问题、确定…...

Agentic Workflow是什么?Agentic Workflow会成为下一个AI风口吗?

无论是想要学习人工智能当做主业营收&#xff0c;还是像我一样作为开发工程师但依然要运用这个颠覆开发的时代宠儿&#xff0c;都有必要了解、学习一下人工智能。 近期发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;入行门槛低&#x…...

大模型模型推理的成本过高,如何进行量化或蒸馏优化

在人工智能的浪潮中,大模型已经成为推动技术革新的核心引擎。从自然语言处理到图像生成,再到复杂的多模态任务,像GPT、BERT、T5这样的庞大模型展现出了惊人的能力。它们在翻译、对话系统、内容生成等领域大放异彩,甚至在医疗、金融等行业中也开始扮演重要角色。可以说,这些…...

BUUCTF[极客大挑战 2019]EasySQL 1题解

[极客大挑战 2019]EasySQL题解 分析解题过程漏洞原理分析明确注入点&#xff1a;尝试万能密码法法一法二 总结 分析 从题目分析&#xff0c;这道题应该与SQL注入有关&#xff0c;启动靶机之后&#xff0c;访问url是一个登录界面&#xff0c;随便输入用户名密码之后&#xff0…...

Css样式中设置gap: 12px以后左右出现距离问题解析

原因核心&#xff1a; 虽然写的是&#xff1a; display: flex; gap: 12px;但在实际 DOM 中&#xff0c;这段结构&#xff1a; <div class"el-form-item__content"><div class"el-input"><input type"text" class"el-inpu…...

MySQL问题:count(*)与count(1)有什么区别

Count&#xff08;1&#xff09;查询过程 如果表里只有主键索引&#xff0c;没有二级索引时&#xff0c;InnoDB循环遍历主键索引&#xff0c;将读取到的记录返回给Server层&#xff0c;但是不会读取记录中的任何字段的值&#xff0c;因为count函数的参数是1&#xff0c;不是字…...

大模型 提示模板 设计

大模型 提示模板 设计 论文介绍:LangGPT - 从编程语言视角重构大语言模型结构化可复用提示设计框架 核心问题: 现有提示工程缺乏结构化设计模板,依赖经验优化,学习成本高且复用性低,难以支持提示的迭代更新。 创新思路: 受编程语言的结构化和可复用性启发,提出LangGP…...

excel表格记账 : 操作单元格进行加减乘除 | Excel中Evaluate函数

文章目录 引用I 基础求和∑II Excel中Evaluate函数基于字符串表达式进行计算用法案例 :基于Evaluate实现汇率计算利润知识扩展在单元格内的换行选择整列单元格引用 需求: 基于汇率计算利润,调整金额以及进汇率和出汇率自动算出利润,已经统计总利润。 基于Evaluate实现汇率计…...

20250602在荣品的PRO-RK3566开发板的Android13下的uboot启动阶段配置BOOTDELAY为10s

20250602在荣品的PRO-RK3566开发板的Android13下的uboot启动阶段配置BOOTDELAY为10s 2025/6/2 18:15 缘起&#xff1a;有些时候&#xff0c;需要在uboot阶段做一些事情。 于是&#xff0c;希望在荣品的PRO-RK3566开发板的Android13下的uboot启动停下。 1、【原始的LOG&#xff…...

如何合理设计缓存 Key的命名规范,以避免在共享 Redis 或跨服务场景下的冲突?

设计合理的缓存 Key 命名规范对于避免冲突、提高可维护性和可读性至关重要&#xff0c;尤其是在共享 Redis 实例或跨服务调用的场景下。 以下是一个推荐的缓存 Key 命名规范和设计思路&#xff1a; 一、核心原则 唯一性 (Uniqueness): 这是最重要的原则&#xff0c;确保不同…...

Trae CN IDE自动生成注释功能测试与效率提升全解析

Trae CN IDE 的自动注释功能可以通过 AI 驱动的代码分析生成自然语言注释&#xff0c;以下是具体测试方法和优势总结&#xff1a; 一、Python 代码注释生成测试 1. 测试环境 IDE&#xff1a;Trae CN IDE&#xff08;需确认支持 Python&#xff09;代码示例&#xff1a; def …...

让AI弹琴作曲不再是梦:Python+深度学习玩转自动化音乐创作

让AI弹琴作曲不再是梦:Python+深度学习玩转自动化音乐创作 一、AI也能谱出动人的旋律?真不是科幻! 还记得小时候学钢琴时老师的那句经典:“感觉不到情绪的乐句,是没灵魂的。” 当时我一边练琴一边想:要是有个机器能帮我写谱、调性又不跑调就好了! 结果几年后,真被我碰…...

C++概率论算法详解:理论基础与实践应用

清言神力&#xff0c;创作奇迹。接受福利&#xff0c;做篇笔记。 参考资料 [0] 概率论中均值、方差、标准差介绍及C/OpenCV/Eigen的三种实现. https://blog.csdn.net/fengbingchun/article/details/73323475. [4] C中的随机数及其在算法竞赛中的使用 - 博客园. https://www.…...

ssh登录wsl2

1. ssh服务重新安装 Ubuntu20.04子系统自带的ssh服务无法连接&#xff0c;需卸载后重新安装。 sudo apt-get remove openssh-server sudo apt-get install openssh-server2. 修改配置信息 sudo vim /etc/ssh/sshd_config修改内容&#xff1a; # 最好一模一样 Port 33 # 这…...

黑马Java面试笔记之 消息中间件篇(Kafka)

一. Kafka保证消息不丢失 Kafka如何保证消息不丢失 使用Kafka在消息的收发过程中都会出现消息丢失&#xff0c;Kafka分别给出了解决方案 生产者发送消息到Brocker丢失消息在Brocker中存储丢失消费者从Brocker接收消息丢失 1.1 生产者发送消息到Brocker丢失 设置异步发送 消息…...

LeetCode - 234. 回文链表

目录 题目 快慢双指针步骤 读者可能的错误写法 正确的写法 题目 234. 回文链表 - 力扣&#xff08;LeetCode&#xff09; 快慢双指针步骤 找到链表的中点&#xff08;find_mid函数&#xff09;&#xff1a; 使用快慢指针&#xff0c;慢指针每次走一步&#xff0c;快指针…...