当前位置：首页 > article >正文

CV中常用Backbone-3：Clip/SAM原理以及代码操作

article 2026/4/22 1:54:54

前面已经介绍了简单的视觉编码器，这里主要介绍多模态中使用比较多的两种backbone：1、Clip；2、SAM。对于这两个backbone简单介绍基本原理，主要是讨论使用这个backbone。
1、CV中常用Backbone-2：ConvNeXt模型详解
2、CV中常用Backbone(Resnet/Unet/Vit系列/多模态系列等)以及代码

SAM

SAM已经出了两个版本分别是：SAM v1和SAM v2这里对这两种分别进行解释，并且着重了解一下他的数据集是怎么构建的（毕竟很多论文里面都会提到直接用SAM作为一种数据集生成工具）

SAM v1¹

https://arxiv.org/pdf/2304.02643
官方Blog：Introducing Segment Anything: Working toward the first foundation model for image segmentation²

结构上还是比较简单，首先在 Image Encoder：选择的是MAE；Prompt Encoder：从上面结构图很容易知道就3类prompt：1、text用CLIP进行编码；2、points、bbox使用论文³（主要是通过傅里叶特征映射方法来提高模型对于高频函数学习能力）中的方法来进行编码处理；3、mask这种内容就直接使用卷积进行编码而后将结果和编码后图像相加；

对于points以及bbox编码原理很简单就是用点或者坐标直接计算他们的傅里叶特征，比如说points的伪代码

import numpy as np
# 假设输入点为2D，[x, y]
points = np.array([[0.5, 0.3], [0.2, 0.7]])  # 形状: (N, 2)
m = 256  # 映射维度
sigma = 10.0  # 频率控制参数# 生成随机矩阵B
B = np.random.normal(0, sigma, size=(m, 2))  # 形状: (m, 2)
# 计算傅里叶特征
Bx = np.dot(points, B.T)  # 点积，形状: (N, m)
fourier_features = np.concatenate([np.cos(2 * np.pi * Bx), np.sin(2 * np.pi * Bx)], axis=1)  # 形状: (N, 2m)

Mask decoder：掩码解码器可以有效的将图嵌入、提示嵌入和输出标记映射到掩码。本模型的解码器基于Transformer的解码器块修改，在解码器后添加了动态掩码预测头。解码器使用了提示自注意力和交叉注意力在提示到图嵌入（prompt-to-image embedding）和vice-versa两个方面进行了修改。完成这两个部分后，对图像进行上采样再使用MLP将输出标记映射到动态线性分类器上，最终得出每个图像位置的蒙板前景概率。

Resolving ambiguity：对于一个不确定的提示，模型会给出多个有效掩码，经过修改SAM可以由单个提示预测输出多个掩码（一般是3个–整体、部分、子部分）。训练时，仅掩码进行反向传播。为了对掩码进行排名，模型会预测每个掩码的置信分数（使用IOU度量），所谓的整体、部分、子部分，比如说：

SAM v2⁴

https://arxiv.org/pdf/2408.00714

SAM v2更像是SAM v1在视频邻域的泛化，整个模型结构如下所示：

主要值得关注的是其中的 Memory Attention：将当前帧的特征与过去帧的特征和预测以及任何新的提示联系起来。通过堆叠了 L 个transformer模块，第一个模块将当前帧的图像编码作为输入。每个区块执行self-attention，然后cross-attention（提示/未提示）帧和对象的记忆，这些记忆存储在一个记忆库中，接着是一个 MLP。在self-attention和cross-attention中使用了vanilla注意力操作，从而受益于高效注意力内核的最新发展。
memory encoder通过使用卷积模块对输出掩码进行下采样，并将其与图像编码器的无条件帧嵌入相加，生成记忆，然后使用轻量级卷积层来融合信息。
memory bank通过维护最多N个最近帧的FIFO记忆队列来保留视频中目标对象的过去预测信息，并将提示信息存储在最多M个提示帧的FIFO队列中。例如，在VOS任务中，初始掩码是唯一的提示，内存库始终保留第一帧的记忆以及最多N个最近(非提示)帧的记忆。两组记忆都以空间特征图的形式存储。
除空间存储器外，还根据每个帧的掩码解码器输出标记，将对象指针列表作为轻量级向量存储起来，用于存储要分割对象的高级语义信息。
我们将时间位置信息嵌入到N个最近帧的memory中，允许模型表示短期物体运动，但不包含到提示帧的记忆中，因为提示帧的训练信号更稀疏，并且更难以推广到推理设置中，提示帧可能来自与训练期间看到的时间范围非常不同的时间范围。

Clip⁵

Clip模型结构（论文里面提到的）也比较简单，其核心机制为：核心机制是通过对比学习和嵌入空间对齐，将图像和文本映射到一个共享的语义空间中

预训练过程：直接将文本和图像都进行编码，而后将编码后的内容通过计算他的相似度（比如：cosine similarities）来确保模型最后能够对齐文本和图像之间的特征。
使用过程：对于给定的图像直接通过Clip的图像编码，而后将文本进行编码（文本编码中会有一个 label dataset通过从label dataset中抽取出标签和自己文本进行组合得到n条微博呢）再去计算最后的结果。

代码操作

所有代码见：sam-clip.ipynb

参考

https://arxiv.org/pdf/2304.02643 ↩︎
https://ai.meta.com/blog/segment-anything-foundation-model-image-segmentation/ ↩︎
https://arxiv.org/abs/2006.10739 ↩︎
https://arxiv.org/pdf/2408.00714 ↩︎
https://arxiv.org/pdf/2103.00020 ↩︎

CV中常用Backbone-3：Clip/SAM原理以及代码操作

前面已经介绍了简单的视觉编码器，这里主要介绍多模态中使用比较多的两种backbone：1、Clip；2、SAM。对于这两个backbone简单介绍基本原理，主要是讨论使用这个backbone。 1、CV中常用Backbone-2：ConvNeXt模型详解 2、CV中…...

编程日记 2026/4/22 1:54:54

RPC 协议详解、案例分析与应用场景

一、RPC 协议原理详解 RPC 协议的核心目标是让开发者像调用本地函数一样调用远程服务，其实现过程涉及多个关键组件与流程。 （一）核心组件客户端（Client）：发起远程过程调用的一方，它并不关心调…...

编程日记 2026/4/21 11:44:25

dify-plugin-daemon的.env配置文件

源码位置：dify-plugin-daemon\.env 本文使用dify-plugin-daemon v0.1.0版本，主要总结了dify-plugin-daemon\.env配置文件。为了本地调试方便，采用本地运行时环境WSL2Ubuntu22.04方式运行dify-plugin-daemon服务。一.服务器基本配置服务器…...

编程日记 2026/4/21 4:32:50

【Python】开发工具uv

文章目录 1. uv install1.1 下载安装脚本来安装1.2 使用pipx安装uv1.3 补充 2. 考虑在离线系统上安装uv2.1 下载并上传安装包2.2 用户级安装uv（~/.local/bin/）2.3 补充 3. uv 管理Python解释器4. uv 管理依赖5. uv运行代码5.1 uv不在项目下执行脚本5.2 u…...

编程日记 2026/1/5 14:22:51

《技术择时，价值择股》速读笔记

文章目录书籍信息概览技术择时价值择股投资策略投资心态书籍信息书名：《技术择时，价值择股：A股投资实战笔记》作者：二十八画生概览技术择时三种简单方法，教你买在起涨点趋势行情中的“买点”判断&#xff…...

编程日记 2026/4/6 1:08:49

Python可视化设计原则

在数据驱动的时代，可视化不仅是结果的呈现方式，更是数据故事的核心载体。Python凭借其丰富的生态库（Matplotlib/Seaborn/Plotly等），已成为数据可视化领域的主力工具。但工具只是起点，真正让图表产生价值的&…...

编程日记 2026/4/21 21:34:41

SAP重塑云ERP应用套件

在2025年Sapphire大会上，SAP正式发布了其云ERP产品的重塑计划，推出全新“Business Suite”应用套件，并对供应链相关应用进行AI增强升级。这一变革旨在简化新客户进入SAP生态系统的流程，同时为现有客户提供更加统一、智能和高效的业…...

编程日记 2025/11/27 0:35:17

2025.5.25总结

今天早上刷了会手机，然后下午去刷了一道科目一，限时训练3.5h。遗憾的是，这周只刷了一道题，并没有达成每周两道的目标。其次，一天下来跟平时的节假日一样，有些小压抑。我也察觉到了自己的情绪。烦心事无非…...

编程日记 2026/1/8 2:57:41

（九）PMSM驱动控制学习---无感控制之高阶滑膜观测器

在之前的文章中，我们介绍了永磁同步电机无感控制中的滑模观测器，但是同时我们也认识到了他的缺点：因符号函数带来的高频切换分量，使用低通滤波器引发相位延迟；在本篇文章，我们将会介绍高阶滑模观测器的无感…...

编程日记 2026/4/19 2:50:10

6个跨境电商独立站平台

1. WP最主题(WPZUI) 官网：http://www.wpzui.com 简介： WP最主题专注于专业WordPress主题开发定制，致力于为用户提供高质量、高性能的WordPress主题。其主题设计注重用户体验和SEO优化，适用于多种网站类型，包括企业站…...

编程日记 2026/2/19 15:13:12

电子电路：电学都有哪些核心概念？

电子是基本粒子，带负电荷。电荷是物质的一种属性，电子带有负电荷，而质子带有正电荷。电荷的单位是库仑。电流呢，应该是指电荷的流动，单位是安培，也就是库仑每秒。所以电流其实就是电荷在导体中的移动形成的。比如，当电子在导线中流动时，就形成了电流。不过要注意，传…...

编程日记 2025/8/14 14:33:03

SQL进阶之旅 Day 2：基础查询优化技巧

【SQL进阶之旅 Day 2】基础查询优化技巧开篇：为什么需要基础查询优化？ 在SQL学习的旅程中，掌握基础查询优化是迈向专业数据库开发的关键一步。随着数据量的爆炸式增长，简单的SELECT语句已经无法满足现代应用对性能的要求。今天…...

编程日记 2026/4/16 20:50:41

时序数据库 TDengine × Superset：一键构建你的可视化分析系统

如果你正在用 TDengine 管理时序数据，写 SQL 查询没问题，但一到展示环节就犯难——图表太基础，交互不够，甚至连团队都看不懂你辛苦分析的数据成果？别担心，今天要介绍的这个组合，正是为你量身打造…...

编程日记 2026/2/22 4:58:29

一键化部署

好的，我明白了。你希望脚本变得更简洁，主要负责： 代码克隆：从 GitHub 克隆你的后端和前端项目，并在克隆前确保目标目录为空。文件复制：将你预先准备好的 Dockerfile (后端和前端各一个)、前端的 nginx.con…...

编程日记 2026/2/21 21:45:19

Win 系统 conda 如何配置镜像源

通过命令添加镜像源（推荐） 以清华源为例，依次执行以下命令： # 添加主镜像源 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main # 添加免费开源镜像源 conda config --add channels http…...

编程日记 2026/2/18 11:45:20

Devicenet主转Profinet网关助力改造焊接机器人系统智能升级

某汽车零部件焊接车间原有6台焊接机器人（采用Devicenet协议）需与新增的西门子S7-1200 PLC（Profinet协议）组网。若更换所有机器人控制器或上位机系统，成本过高且停产周期长。《解决方案》工程师选择稳联技术转换网关…...

编程日记 2026/4/20 12:53:12

《STL--list的使用及其底层实现》

引言： 上次我们学习了容器vector的使用及其底层实现，今天我们再来学习一个容器list， 这里的list可以参考我们之前实现的单链表，但是这里的list是双向循环带头链表，下面我们就开始list的学习了。一：list的…...

编程日记 2026/4/20 10:36:45

whisper相关的开源项目 (asr)

基于 Whisper（OpenAI 的开源语音识别模型）的开源项目有很多，涵盖了不同应用场景和优化方向。以下是一些值得关注的项目： 1. 核心工具 & 增强版 Whisper OpenAI Whisper 由 OpenAI 开源的通用语音识别模型，支持多语…...

编程日记 2026/4/10 16:28:08

python的pip怎么配置的国内镜像

以下是配置pip国内镜像源的详细方法： 常用国内镜像源列表清华大学：https://pypi.tuna.tsinghua.edu.cn/simple阿里云：https://mirrors.aliyun.com/pypi/simple中科大：https://pypi.mirrors.ustc.edu.cn/simple华为云&#xff1…...

编程日记 2026/4/21 7:17:13

PCB 通孔是电容性的，但不一定是电容器

哼？……这是什么意思？…… 多年来，流行的观点是 PCB 通孔本质上是电容性的，因此可以用集总电容器进行建模。虽然当信号的上升时间大于或等于过孔不连续性延迟的 3 倍时，这可能是正确的，但我将向您展示为什…...

编程日记 2026/4/20 10:36:44

领域驱动设计与COLA框架：从理论到实践的落地之路

目录引言 DDD核心概念什么是领域驱动设计 DDD的核心概念 1. 统一语言（Ubiquitous Language） 2. 限界上下文（Bounded Context） 3. 实体（Entity）与值对象（Value Object） 4. 聚…...

编程日记 2026/4/11 8:59:03

公有云AWS基础架构与核心服务：从概念到实践

🔥「炎码工坊」技术弹药已装填！ 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 （初学者技术专栏） 一、基础概念定义：AWS（Amazon Web Services）是亚马逊提供的云计算服务&a…...

编程日记 2026/4/21 0:51:21

Python60日基础学习打卡D35

import torch import torch.nn as nn import torch.optim as optim from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import MinMaxScaler import time import matplotlib.pyplot as plt# 设置GPU设…...

编程日记 2026/4/20 13:38:03

CV中常用Backbone-3：Clip/SAM原理以及代码操作

SAM

SAM v1¹

SAM v2⁴

Clip⁵

代码操作

参考

相关文章：

CV中常用Backbone-3：Clip/SAM原理以及代码操作

RPC 协议详解、案例分析与应用场景

dify-plugin-daemon的.env配置文件

【Python】开发工具uv

《技术择时，价值择股》速读笔记

Python可视化设计原则

SAP重塑云ERP应用套件

2025.5.25总结

（九）PMSM驱动控制学习---无感控制之高阶滑膜观测器

6个跨境电商独立站平台

电子电路：电学都有哪些核心概念？

SQL进阶之旅 Day 2：基础查询优化技巧

时序数据库 TDengine × Superset：一键构建你的可视化分析系统

一键化部署

Win 系统 conda 如何配置镜像源

Devicenet主转Profinet网关助力改造焊接机器人系统智能升级

《STL--list的使用及其底层实现》

whisper相关的开源项目 (asr)

python的pip怎么配置的国内镜像

PCB 通孔是电容性的，但不一定是电容器

领域驱动设计与COLA框架：从理论到实践的落地之路

公有云AWS基础架构与核心服务：从概念到实践

Python60日基础学习打卡D35

Python经典算法实战

spring+tomcat 用户每次发请求，tomcat 站在线程的角度是如何处理用户请求的，spinrg的bean 是共享的吗

目标检测 RT-DETR（2023）详细解读

微信小程序隐私协议弹窗授权

题目 3325: 蓝桥杯2025年第十六届省赛真题-2025 图形

金众诚业财一体化解决方案如何提升项目盈利能力？

bitbar环境搭建（ruby 2.4 + rails 5.0.2）

SAM

SAM v11

SAM v24

Clip5

代码操作

参考

相关文章：

SAM v1¹

SAM v2⁴

Clip⁵