当前位置：首页 > news >正文

clip论文阅读（Learning Transferable Visual Models From Natural Language Supervision）

news 2026/2/8 15:43:03

摘要

使用标签标注的图像数据集具有规模不足、费时费力的缺点。所以作者提出了使用（text，image）的数据训练预训练模型（pre-train model) ，实验结果表明pre-train model在下游任务（图像分类、ORC等）中表现出色。例如：pre-train model在图像集ImageNet中的ACC高于Resnet（有监督训练的模型）在其上的ACC（准确率）

训练pre-train model的过程

在这里插入图片描述

从图中矩阵可看出正样本为写对角线元素共N个，负样本为其他元素共 $N^{2}-N$ 个。

实现的核心代码如下所示：
1、将输入的图片使用resnet或其他模型提取特征向量I_f，将输入的文本使用transformer或其他模型提取特征向量T_f。
2、对前一步生成的特征向量分别加权重向量生成I_e和T_e。
3、两个向量相乘生成NxN的矩阵logits
4、最大化批处理中N对实数对图像和文本嵌入的余弦相似度，同时最小化 $N^{2}−N$ 对错误对嵌入的余弦相似度。
重点来了labels为[0,1,2…,n-1]的向量，表示正确类别的索引值。
5、总结：模型输入（text，image）；输出——text和image的特征向量。最终的目的是训练image encoder和text encoder，其中训练过程中的loss为步骤4中的内容。

在这里插入图片描述

将pre-train model应用于下游任务

传统的视觉模型需要在新的数据集上进行微调，而clip可以直接实现zero-shot的图像分类，即不需要任何训练数据，就能在某个具体下游任务上实现分类。

操作步骤：

1、根据任务的分类标签构建每个类别的描述文本：A photo of {label}，然后将这些文本送入Text Encoder得到对应的文本特征，如果类别数目为N，那么将得到N个文本特征；
2、将要预测的图像送入Image Encoder得到图像特征，然后与N个文本特征计算缩放的余弦相似度（和训练过程一致），选择相似度最大的文本对应的类别作为图像分类预测结果，进一步地，可以将这些相似度看成logits，送入softmax后可以到每个类别的预测概率。
在这里插入图片描述

应用（待更新）

styleclip
clipdraw
clips

参考：https://openatomworkshop.csdn.net/664ee0a5b12a9d168eb70230.html

clip论文阅读（Learning Transferable Visual Models From Natural Language Supervision）

目录

摘要

训练pre-train model的过程

将pre-train model应用于下游任务

应用（待更新）

相关文章：

clip论文阅读（Learning Transferable Visual Models From Natural Language Supervision）

用于图像分割的协 SMA Transformer:同多注意力转换器 !

lodash中_.difference如何过滤数组

关于C# 数据库访问转为 C++ CLI 数据库访问

百度移动刷下拉词工具：快速出下拉词的技术分析

学习笔记-Golang中的Context

ArrayList 源码解析

libgit2编译

mac新手入门（快捷键）

curl 的使用详解

从基础到进阶：利用EasyCVR安防视频汇聚平台实现高效视频监控系统的五步走

CORS漏洞及其防御措施：保护Web应用免受攻击

C语言自定义类型结构体(24)

补题篇--codeforces

【字幕】恋上数据结构与算法之015动态数组03简单接口的实现

基于2023年网络赛赛题了解OpenCv

你到底更适合买虚拟主机还是服务器？

linux手册翻译 addr2line

python-素数中的等差数列

Unity3D 服务器AStar寻路客户端位置同步显示验证详解

CMake基础：构建流程详解

Qt Http Server模块功能及架构

前端开发面试题总结-JavaScript篇(一)

【HTTP三个基础问题】

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理）

重启Eureka集群中的节点，对已经注册的服务有什么影响

QT3D学习笔记——圆台、圆锥

PHP 8.5 即将发布：管道操作符、强力调试

苹果AI眼镜：从“工具”到“社交姿态”的范式革命——重新定义AI交互入口的未来机会

相关类相关的可视化图像总结