当前位置：首页 > news >正文

Vision - 开源视觉分割算法框架 Grounded SAM2 配置与推理教程 (1)

news 2026/2/9 14:47:47

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/143388189

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

Grounded SAM2

Grounded SAM2 集成多个先进模型的视觉 AI 框架，融合 GroundingDINO、Florence-2 和 SAM2 等模型，实现开放域目标检测、分割和跟踪等多项视觉任务的突破性进展，通过自然语言描述来定位图像中的目标，生成精细的目标分割掩码，在视频序列中持续跟踪目标，保持 ID 的一致性。

Paper: Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks，SAM 版本由 1.0 升级至 2.0

1. 环境配置

GitHub: Grounded-SAM-2

git clone https://github.com/IDEA-Research/Grounded-SAM-2
cd Grounded-SAM-2

准备 SAM 2.1 模型，格式是 pt 的，GroundingDINO 模型，格式是 pth 的，即：

wget https://huggingface.co/facebook/sam2.1-hiera-large/resolve/main/sam2.1_hiera_large.pt?download=true -O sam2.1_hiera_large.pt
wget https://huggingface.co/ShilongLiu/GroundingDINO/resolve/main/groundingdino_swint_ogc.pth

2. 测试图像

测试脚本：grounded_sam2_local_demo.py

导入相关的依赖包：

import os
import cv2
import json
import torch
import numpy as np
import supervision as sv
import pycocotools.mask as mask_util
from pathlib import Path
from torchvision.ops import box_convert
from sam2.build_sam import build_sam2
from sam2.sam2_image_predictor import SAM2ImagePredictor
from grounding_dino.groundingdino.util.inference import load_model, load_image, predictfrom PIL import Image
import matplotlib.pyplot as plt

配置数据，以及依赖环境，其中包括：

输入文本提示，例如袜子(socks) 和吉他(guitar)
输入图像
SAM2 模型 v2.1 版本，以及配置
GroundingDINO (DETR with Improved deNoising anchOr boxes, 改进的去噪锚框的DETR) 模型，以及配置
Box 阈值、文本阈值
输出文件夹与Json

即：

TEXT_PROMPT = "socks. guitar."
#IMG_PATH = "notebooks/images/truck.jpg"
IMG_PATH = "[your path]/llm/vision_test_data/image2.png"image = Image.open(IMG_PATH)
plt.figure(figsize=(9, 6))
plt.title(f"annotated_frame")
plt.imshow(image)SAM2_CHECKPOINT = "./checkpoints/sam2.1_hiera_large.pt"
SAM2_MODEL_CONFIG = "configs/sam2.1/sam2.1_hiera_l.yaml"
GROUNDING_DINO_CONFIG = "grounding_dino/groundingdino/config/GroundingDINO_SwinT_OGC.py"
GROUNDING_DINO_CHECKPOINT = "gdino_checkpoints/groundingdino_swint_ogc.pth"
BOX_THRESHOLD = 0.35
TEXT_THRESHOLD = 0.25
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
OUTPUT_DIR = Path("outputs/grounded_sam2_local_demo")
DUMP_JSON_RESULTS = True# create output directory
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)

加载 SAM2 模型，获得 sam2_predictor，即：

# build SAM2 image predictor
sam2_checkpoint = SAM2_CHECKPOINT
model_cfg = SAM2_MODEL_CONFIG
sam2_model = build_sam2(model_cfg, sam2_checkpoint, device=DEVICE)
sam2_predictor = SAM2ImagePredictor(sam2_model)

加载 GroundingDINO 模型，获得 grounding_model，即：

# build grounding dino model
grounding_model = load_model(model_config_path=GROUNDING_DINO_CONFIG, model_checkpoint_path=GROUNDING_DINO_CHECKPOINT,device=DEVICE
)

SAM2 加载图像数据，即：

text = TEXT_PROMPT
img_path = IMG_PATH# image(原图), image_transformed(正则化图像)
image_source, image = load_image(img_path)
sam2_predictor.set_image(image_source)

GroudingDINO 预测 Bounding Box，输入模型、图像、文本、Box和Text阈值，即：

load_image() 和 predict() 都来自于 GroundingDINO，数据和模型匹配。

boxes, confidences, labels = predict(model=grounding_model,image=image,caption=text,box_threshold=BOX_THRESHOLD,text_threshold=TEXT_THRESHOLD,
)

适配不同 Box 的格式：

h, w, _ = image_source.shape
boxes = boxes * torch.Tensor([w, h, w, h])
input_boxes = box_convert(boxes=boxes, in_fmt="cxcywh", out_fmt="xyxy").numpy()

SAM2 依赖的 PyTorch 配置：

# FIXME: figure how does this influence the G-DINO model
torch.autocast(device_type="cuda", dtype=torch.bfloat16).__enter__()if torch.cuda.get_device_properties(0).major >= 8:# turn on tfloat32 for Ampere GPUs (https://pytorch.org/docs/stable/notes/cuda.html#tensorfloat-32-tf32-on-ampere-devices)torch.backends.cuda.matmul.allow_tf32 = Truetorch.backends.cudnn.allow_tf32 = True

SAM2 预测图像：

masks, scores, logits = sam2_predictor.predict(point_coords=None,point_labels=None,box=input_boxes,multimask_output=False,
)

后处理预测结果：

"""
Post-process the output of the model to get the masks, scores, and logits for visualization
"""
# convert the shape to (n, H, W)
if masks.ndim == 4:masks = masks.squeeze(1)confidences = confidences.numpy().tolist()
class_names = labelsclass_ids = np.array(list(range(len(class_names))))labels = [f"{class_name} {confidence:.2f}"for class_name, confidencein zip(class_names, confidences)
]

输出结果可视化：

"""
Visualize image with supervision useful API
"""
img = cv2.imread(img_path)
detections = sv.Detections(xyxy=input_boxes,  # (n, 4)mask=masks.astype(bool),  # (n, h, w)class_id=class_ids
)box_annotator = sv.BoxAnnotator()
annotated_frame = box_annotator.annotate(scene=img.copy(), detections=detections)label_annotator = sv.LabelAnnotator()
annotated_frame = label_annotator.annotate(scene=annotated_frame, detections=detections, labels=labels)
cv2.imwrite(os.path.join(OUTPUT_DIR, "groundingdino_annotated_image.jpg"), annotated_frame)
plt.figure(figsize=(9, 6))
plt.title(f"annotated_frame")
plt.imshow(annotated_frame[:,:,::-1])mask_annotator = sv.MaskAnnotator()
annotated_frame = mask_annotator.annotate(scene=annotated_frame, detections=detections)
cv2.imwrite(os.path.join(OUTPUT_DIR, "grounded_sam2_annotated_image_with_mask.jpg"), annotated_frame)
plt.figure(figsize=(9, 6))
plt.title(f"annotated_frame")
plt.imshow(annotated_frame[:,:,::-1])

GroundingDINO 的 Box 效果，准确检测出袜子和吉他，两类实体：

Box

SAM2 的分割效果，如下：
Seg

转换成 COCO 数据格式：

def single_mask_to_rle(mask):rle = mask_util.encode(np.array(mask[:, :, None], order="F", dtype="uint8"))[0]rle["counts"] = rle["counts"].decode("utf-8")return rleif DUMP_JSON_RESULTS:# convert mask into rle formatmask_rles = [single_mask_to_rle(mask) for mask in masks]input_boxes = input_boxes.tolist()scores = scores.tolist()# save the results in standard formatresults = {"image_path": img_path,"annotations" : [{"class_name": class_name,"bbox": box,"segmentation": mask_rle,"score": score,}for class_name, box, mask_rle, score in zip(class_names, input_boxes, mask_rles, scores)],"box_format": "xyxy","img_width": w,"img_height": h,}with open(os.path.join(OUTPUT_DIR, "grounded_sam2_local_image_demo_results.json"), "w") as f:json.dump(results, f, indent=4)

Vision - 开源视觉分割算法框架 Grounded SAM2 配置与推理教程 (1)

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/143388189 免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。 Ground…...

编程日记 2024/11/6 18:11:04

DAY21|二叉树Part08|LeetCode: 669. 修剪二叉搜索树、108.将有序数组转换为二叉搜索树、538.把二叉搜索树转换为累加树

目录 LeetCode: 669. 修剪二叉搜索树基本思路 C代码 LeetCode: 108.将有序数组转换为二叉搜索树基本思路 C代码 LeetCode: 538.把二叉搜索树转换为累加树基本思路 C代码 LeetCode: 669. 修剪二叉搜索树力扣代码链接文字讲解：LeetCode: 669. 修剪二叉搜…...

编程日记 2024/11/6 18:05:58

在gitlab，把新分支替换成master分支

1、备份master分支，可以打tag 2、删除master分支正常情况下，master分支不允许删除，需要做两个操作才能删除 a、变更项目默认分支为非master分支，可以先随便选择 b、取消master为非保护分支操作了上述两步，就可以删…...

编程日记 2024/11/6 18:04:57

使用 Spring Boot 集成 Thymeleaf 和 Flying Saucer 实现 PDF 导出

在 Spring Boot 项目中，生成 PDF 报表或发票是常见需求。本文将介绍如何使用 Spring Boot 集成 Thymeleaf 模板引擎和 Flying Saucer 实现 PDF 导出，并提供详细的代码实现和常见问题解决方案。目录一、项目依赖二、创建 Thymeleaf 模板三、创建 PDF 生…...

编程日记 2024/11/6 18:01:54

web——upload1——攻防世界

第一次做木马题目，有点懵逼，浮现一下做题思路可以上传一个文件，通过学习学习到了一句话木马一句话木马： 利用文件上传漏洞，往目标网站中上传一句话木马，然后你就可以在本地通过中国菜刀chopper.exe即可…...

编程日记 2024/11/6 18:00:52

1.查看防火墙状态systemctl status firewalld 2.getenforce 3.安装nginx yum install nginx -y 4.网站信息 echo "welcome to yinchuankejixuanyuan" > /usr/share/nginx/html/index.html 5.查看命令状态 nginx -t 6.重启 systemctl restart nginx...

编程日记 2024/11/6 17:59:51

Java基础-Java中的常用类（上）

(创作不易，感谢有你，你的支持，就是我前行的最大动力，如果看完对你有帮助，请留下您的足迹） 目录 String类创建字符串字符串长度连接字符串创建格式化字符串 String 方法 System类常用方法方…...

编程日记 2024/11/6 17:57:49

气压仪器智能打气泵方案芯片SIC8833

智能打气泵方案最开始是机械式的开发，后来慢慢地演变成由一个气缸、压力传感器和主控芯片的开发的PCBA方案，它具备小体积、智能数显、预设胎压、动态测量、精准压力检测以及过充过放等功能。其方案设计原理是利用主控芯片和压力传感器的组合设计&#x…...

编程日记 2024/11/6 17:56:48

软件测试（系统测试）的定位和专业：完善产品；专业；非助手；自动化

软件测试（系统测试）的定位在研发流程的后端，测试并非无中生有的创举，而是从既有基础（即“1”）出发，致力于推动产品向更高层次（即从“1”到“100”）的跃升与完善。在这一…...

编程日记 2024/11/6 17:55:46

2024 CSS保姆级教程四

CSS中的动画 CSS动画（CSS Animations）是为层叠样式表建议的允许可扩展标记语言（XML）元素使用CSS的动画的模块即指元素从一种样式逐渐过渡为另一种样式的过程常见的动画效果有很多，如平移、旋转、缩放等等&#…...

编程日记 2024/11/6 17:54:42

PostgreSQL技术内幕17：PG分区表

文章目录 0.简介1.概念介绍2.分区表技术产生的背景3.分区类型及使用方式4.实现原理4.1 分区表创建4.2 分区表查询4.3 分区表写入4.4 分区表删除 0.简介本文主要介绍PG中分区表的概念，产生分区表技术的原因，使用方式和其内部实现原理，旨在能…...

编程日记 2024/11/6 17:53:40

群控系统服务端开发模式-应用开发-上传工厂开发

现在的文件、图片等上传基本都在使用oss存储。而现在常用的oss存储有阿里云、腾讯云、七牛云、华为云等，但是用的最多的还是前三种。而我主要封装的是本地存储、阿里云存储、腾讯云存储、七牛云存储。废话不多说，直接上传设计图及说明，就一目…...

编程日记 2024/11/6 17:49:35

【Docker系列】指定系统平台拉取 openjdk:8 镜像

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan 的首页,持续学…...

编程日记 2024/11/6 17:45:31

语音识别：docker部署FunASR以及springboot集成funasr

内容摘选自: https://github.com/modelscope/FunASR/blob/main/runtime/docs/SDK_advanced_guide_offline_zh.md FunASR FunASR是一个基础语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD&#xf…...

编程日记 2024/11/6 17:44:30

Rust项目结构

文章目录一、module模块1.文件内的module 二、模块化项目结构1.关于module2.各个模块之间互相引用三、推荐项目结构1.实例参考一、module模块 1.文件内的module 关键字：mod 引入模块中的方法 usemod名字：方法名usemod名字.*写全路径二、模块化项…...

编程日记 2024/11/6 17:39:23

计算并联电阻的阻值

计算并联电阻的阻值 C语言代码C代码Java代码Python代码 💐The Begin💐点点关注，收藏不迷路💐 对于阻值为r1和r2的电阻，其并联电阻阻值公式计算如下： R1/(1/r11/r2) 输入两个电阻阻抗大小，浮…...

编程日记 2024/11/6 17:37:21

MySQL符号类型（详细）

在 MySQL 中，符号可以分为几种主要类型，以下是所有符号类型的小写分类： 1. 占位符 ?：用于准备语句中的占位符，表示将来要替换的值。 2. 分隔符 ;：表示 sql 语句的结束。 ,：用于分隔列、值或…...

编程日记 2024/11/6 17:36:20

Angular引用控件类

说明： angular 在一个控件类里面，引入另外一个控件类，这样做的好处，就是代码分离，当你一个页面存在多少类似于独立的界面时，可以使用这种方式，分离代码更好维护程序效果图： step…...

编程日记 2024/11/6 17:35:19

stm32 踩坑笔记

串口问题： 问题：会改变接收缓冲的下一个字节串口的初始化如下，位长度选择了9位。因为要奇偶校验，要选择9位。但是接收有用数据只用到1个字节。问题原因： 所以串口接收时会把下一个数据更改...

编程日记 2024/11/6 17:31:14

文件上传和文件包含

声明: 本文章只是适用于网络安全教学,请自觉遵守网络安全法,严禁用于非法途径,若读者做出来任何危害网络安全的行为,后果自负,均与本人无关. 文件上传： 大部分的网站和应用系统都有上传的功能，如用户头像上传，图片上传，文档上传…...

编程日记 2024/11/6 17:30:13

uniapp 对接腾讯云IM群组成员管理（增删改查）

UniApp 实战：腾讯云IM群组成员管理（增删改查） 一、前言在社交类App开发中，群组成员管理是核心功能之一。本文将基于UniApp框架，结合腾讯云IM SDK，详细讲解如何实现群组成员的增删改查全流程。权限校验…...

编程新知 2026/1/13 9:59:27

简易版抽奖活动的设计技术方案

1.前言本技术方案旨在设计一套完整且可靠的抽奖活动逻辑，确保抽奖活动能够公平、公正、公开地进行，同时满足高并发访问、数据安全存储与高效处理等需求，为用户提供流畅的抽奖体验，助力业务顺利开展。本方案将涵盖抽奖活动的整体架构设计、核心流程逻辑、关键功能实现以及…...

编程新知 2026/2/7 17:41:40

基于Flask实现的医疗保险欺诈识别监测模型

基于Flask实现的医疗保险欺诈识别监测模型项目截图项目简介社会医疗保险是国家通过立法形式强制实施，由雇主和个人按一定比例缴纳保险费，建立社会医疗保险基金，支付雇员医疗费用的一种医疗保险制度， 它是促进社会文明和进步的…...

编程新知 2026/1/24 14:59:08

苍穹外卖--缓存菜品

1.问题说明用户端小程序展示的菜品数据都是通过查询数据库获得，如果用户端访问量比较大，数据库访问压力随之增大 2.实现思路通过Redis来缓存菜品数据，减少数据库查询操作。缓存逻辑分析： ①每个分类下的菜品保持一份缓存数据…...

编程新知 2026/2/7 15:39:49

vue3+vite项目中使用.env文件环境变量方法

vue3vite项目中使用.env文件环境变量方法 .env文件作用命名规则常用的配置项示例使用方法注意事项在vite.config.js文件中读取环境变量方法 .env文件作用 .env 文件用于定义环境变量，这些变量可以在项目中通过 import.meta.env 进行访问。Vite 会自动加载这些环境变…...

编程新知 2026/1/26 19:12:01

【无标题】路径问题的革命性重构：基于二维拓扑收缩色动力学模型的零点隧穿理论

路径问题的革命性重构：基于二维拓扑收缩色动力学模型的零点隧穿理论一、传统路径模型的根本缺陷在经典正方形路径问题中（图1）： mermaid graph LR A((A)) --- B((B)) B --- C((C)) C --- D((D)) D --- A A -.- C[无直接路径] B -…...

编程新知 2025/10/21 1:07:59

[免费]微信小程序问卷调查系统(SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】

大家好，我是java1234_小锋老师，看到一个不错的微信小程序问卷调查系统(SpringBoot后端Vue管理端)【论文源码SQL脚本】，分享下哈。项目视频演示【免费】微信小程序问卷调查系统(SpringBoot后端Vue管理端) Java毕业设计_哔哩哔哩_bilibili 项…...

编程新知 2026/1/29 5:39:49

如何应对敏捷转型中的团队阻力

应对敏捷转型中的团队阻力需要明确沟通敏捷转型目的、提升团队参与感、提供充分的培训与支持、逐步推进敏捷实践、建立清晰的奖励和反馈机制。其中，明确沟通敏捷转型目的尤为关键，团队成员只有清晰理解转型背后的原因和利益，才能降低对变化的…...

编程新知 2026/2/4 16:04:15

【SpringBoot自动化部署】

SpringBoot自动化部署方法使用Jenkins进行持续集成与部署 Jenkins是最常用的自动化部署工具之一，能够实现代码拉取、构建、测试和部署的全流程自动化。配置Jenkins任务时，需要添加Git仓库地址和凭证，设置构建触发器（如GitHub…...

编程新知 2025/11/18 2:17:20

LCTF液晶可调谐滤波器在多光谱相机捕捉无人机目标检测中的作用

中达瑞和自2005年成立以来，一直在光谱成像领域深度钻研和发展，始终致力于研发高性能、高可靠性的光谱成像相机，为科研院校提供更优的产品和服务。在《低空背景下无人机目标的光谱特征研究及目标检测应用》这篇论文中提到中达瑞和 LCTF 作为多…...

编程新知 2025/12/31 17:08:10

Vision - 开源视觉分割算法框架 Grounded SAM2 配置与推理教程 (1)

1. 环境配置

2. 测试图像

相关文章：

Vision - 开源视觉分割算法框架 Grounded SAM2 配置与推理教程 (1)

DAY21|二叉树Part08|LeetCode: 669. 修剪二叉搜索树、108.将有序数组转换为二叉搜索树、538.把二叉搜索树转换为累加树

在gitlab，把新分支替换成master分支

使用 Spring Boot 集成 Thymeleaf 和 Flying Saucer 实现 PDF 导出

web——upload1——攻防世界

nginx 搭建网站

Java基础-Java中的常用类（上）

气压仪器智能打气泵方案芯片SIC8833

软件测试（系统测试）的定位和专业：完善产品；专业；非助手；自动化

2024 CSS保姆级教程四

PostgreSQL技术内幕17：PG分区表

群控系统服务端开发模式-应用开发-上传工厂开发

【Docker系列】指定系统平台拉取 openjdk:8 镜像

语音识别：docker部署FunASR以及springboot集成funasr

Rust项目结构

计算并联电阻的阻值

MySQL符号类型（详细）

Angular引用控件类

stm32 踩坑笔记

文件上传和文件包含

uniapp 对接腾讯云IM群组成员管理（增删改查）

简易版抽奖活动的设计技术方案

基于Flask实现的医疗保险欺诈识别监测模型

苍穹外卖--缓存菜品

vue3+vite项目中使用.env文件环境变量方法

【无标题】路径问题的革命性重构：基于二维拓扑收缩色动力学模型的零点隧穿理论

[免费]微信小程序问卷调查系统(SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】

如何应对敏捷转型中的团队阻力

【SpringBoot自动化部署】

LCTF液晶可调谐滤波器在多光谱相机捕捉无人机目标检测中的作用