当前位置：首页 > news >正文

图像分类竞赛进阶技能：OpenAI-CLIP使用范例

news 2025/12/16 1:18:14

OpenAI-CLIP

在这里插入图片描述

官方介绍

尽管深度学习已经彻底改变了计算机视觉，但目前的方法存在几个主要问题:典型的视觉数据集是劳动密集型的，创建成本高，同时只教授一组狭窄的视觉概念;标准视觉模型擅长于一项任务且仅擅长于一项任务，并且需要大量的努力来适应新的任务;在基准测试中表现良好的模型在压力测试中的表现令人失望，1234对整个计算机视觉深度学习方法产生了怀疑。
我们提出了一个旨在解决这些问题的神经网络:它是在各种各样的图像上训练的，有各种各样的自然语言监督，这些图像在互联网上随处可见。通过设计，可以用自然语言指导网络执行各种各样的分类基准测试，而不直接优化基准测试的性能，类似于GPT-25和GPT-3.6的“零镜头”功能。这是一个关键的变化:通过不直接优化基准测试，我们表明它变得更具代表性:我们的系统在不使用任何原始1.28M标记示例的情况下，在ImageNet零拍上与原始ResNet-507的性能匹配时，将这一“鲁棒性差距”缩小了75%。

CLIP使用示例

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import osimport cv2
import skimage
import IPython.display
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
from glob import globfrom collections import OrderedDict
import torch
import gc%matplotlib inline
%config InlineBackend.figure_format = 'retina'

安装CLIP库

openai-clip-weights链接

!pip install ../input/openaiclipweights/python-ftfy-master/python-ftfy-master
!pip install ../input/openaiclipweights/clip/CLIP
!cp ../input/openaiclipweights/CLIP-main/CLIP-main/clip/bpe_simple_vocab_16e6.txt /opt/conda/lib/python3.7/site-packages/clip/.
!gzip -k /opt/conda/lib/python3.7/site-packages/clip/bpe_simple_vocab_16e6.txt
!ls /opt/conda/lib/python3.7/site-packages/clip/.import torch
import clip
from tqdm.notebook import tqdm
from torch.utils.data import DataLoader, Datasetprint("Torch version:", torch.__version__)

下载几张图片用于测试

!wget https://farm8.staticflickr.com/6036/6426668771_b5b915e46c_o.jpg
!wget https://c6.staticflickr.com/8/7457/10806045045_02d3dbdcee_o.jpg
!wget https://c1.staticflickr.com/4/3267/2888764405_0a0a608604_o.jpg
!wget https://farm8.staticflickr.com/4028/4294212194_a49663b2b9_o.jpg
!wget https://c5.staticflickr.com/9/8173/8019508216_6540c8686a_o.jpg
!wget https://farm3.staticflickr.com/1146/1357102390_943c5cb999_o.jpg

统计图片列表

files = glob('*.jpg')
print(files)![请添加图片描述](https://img-blog.csdnimg.cn/13db547da25a4f7fa7dc027d4535e93d.png)

列出可用的CLIP预训练模型

clip.available_models()

请添加图片描述

列出可用的CLIP预训练权重

!ls ../input/openaiclipweights/clip/CLIP/models/

请添加图片描述

加载CLIP的基础视觉模型

model, preprocess = clip.load("../input/openaiclipweights/clip/CLIP/models/ViT-B-32.pt")
model.cuda().eval()

请添加图片描述

重头戏，对每一张图片我们可以提问问题，并且查看CLIP会做出什么样的回答

QUERIES = ["a dog","a cat","a elephant","a zebra","a sleeping dog","a sleeping cat","a giraffe","a poodle","animal inside a car","animal outside a car","a sofa","some animals","santa claus","ipod","two mugs","three mugs","blue sky",
] ```## 使用CLIP结合问题对图片进行打分```python
with torch.no_grad():for file in files:print(file)#加载图像数据img = Image.open(file).convert('RGB')#图片可视化plt.imshow(cv2.resize(np.array(img),(256,256)))plt.show()#使用clip对图片进行预处理img = preprocess(img).unsqueeze(0).cuda()#将图片进行编码image_embeddings = model.encode_image(img)image_embeddings/=image_embeddings.norm(dim=-1, keepdim = True)score = []#提问问题并且进行打分for query in QUERIES:text = clip.tokenize(query)cuda()#问题文本编码text_embeddings = model.encode_text(texts)text_embeddings /= text_embeddings.norm(dim=-1, keepdim=True)#计算图片和问题之间的匹配分数sc = float((image_embeddings @ text_embeddings.T).cpu().numpy())score.append(sc)print( pd.DataFrame({'query': QUERIES, 'score': score}).sort_values('score', ascending=False) )print('')print('-------------------------')print('')

请添加图片描述

数据集
petfinder-data

参考文章

OpenAI推出CLIP：连接文本与图像，Cover所有视觉分类任务
openai-CLIP

图像分类竞赛进阶技能：OpenAI-CLIP使用范例

OpenAI-CLIP 官方介绍尽管深度学习已经彻底改变了计算机视觉，但目前的方法存在几个主要问题:典型的视觉数据集是劳动密集型的，创建成本高，同时只教授一组狭窄的视觉概念;标准视觉模型擅长于一项任务且仅擅长于一项任务，并且需要大…...

编程日记 2023/2/18 21:00:23

Metasploit框架基础（一）

文章目录前言一、基础认知二、批量POC/EXP的构想三、poc检测框架的简单实现四、xray五、Meatsploit框架参考前言 Metasploit 一款渗透测试框架漏洞利用的集合与构建和定制满足你的需求的基础漏洞利用和验证的工具这几个说法都是百度或者官方文档中出现的手法，说…...

编程日记 2023/2/18 20:59:12

pytorch零基础实现语义分割项目（二）——标签转换与数据加载

数据转换与加载项目列表前言标签转换RGB标签到类别标签映射RGB标签转换成类别标签数据数据加载随机裁剪数据加载项目列表语义分割项目（一）——数据概况及预处理语义分割项目（二）——标签转换与数据加载语义分割项目&#x…...

编程日记 2023/2/18 20:58:02

python(8.5)--列表习题

目录一、求输出结果题二、计算列表元素个数三、查找是否存在某元素四、删除某元素五、如何在列表中插入元素六、如何从列表中删除重复的元素七、如何将列表中的元素按照从小到大的顺序排序八、从列表中删除重复的元素九、大到小的顺序排序一、求输出结…...

编程日记 2023/2/18 20:56:52

一通道pwm参考 https://blog.csdn.net/yangshengwei230612/article/details/128738351?spm1001.2014.3001.5501 以下主要是多通道与一通道的区别芯片 stm32f407rgt6 1、配置PWM设备驱动相关宏定义添加PWM宏定义 #define BSP_USING_PWM8 #define BSP_USING_PWM8_CH1 #d…...

编程日记 2023/2/18 20:55:43

C语言练习 | 初学者经典练习汇总

目录 1、下面代码输出多少，为什么？ 2、你要好好学习么？ 3、一直写代码， 4、两个数求最大值 5、输入1-5输出工作日，输入6-7输出休息日，其他输入错误 6、写一个输入密码的代码 7、怎么样当输入数字时候…...

编程日记 2023/2/18 20:54:31

华为OD机试 - 自动曝光（Python） | 机试题算法思路【2023】

最近更新的博客华为OD机试 - 卡片组成的最大数字（Python） | 机试题算法思路华为OD机试 - 网上商城优惠活动（一）（Python） | 机试题算法思路华为OD机试 - 统计匹配的二元组个数（Python） | 机试题算法思路华为OD机试 - 找到它（Python） | 机试题算法思路华为OD机试…...

编程日记 2023/2/18 20:53:20

「6」线性代数（期末复习）

🚀🚀🚀大家觉不错的话，就恳求大家点点关注，点点小爱心，指点指点🚀🚀🚀 目录第五章相似矩阵及二次型 &2）方阵的特征值与特征向量 &3&#xff…...

编程日记 2023/2/18 20:52:12

1.1 硬件与micropython固件烧录及自编译固件

1.ESP32硬件和固件淘宝搜ESP32模块,20-50元都有,自带usb口,即插即用. 固件下载地址:MicroPython - Python for microcontrollers 2.烧录方法为简化入门难度,建议此处先使用带GUI的开发工具THonny,记得不是给你理发的tony老师. 烧录的入口是: 后期通过脚本一次型生成和烧…...

编程日记 2023/2/18 20:51:03

【MySQL进阶】视图存储过程触发器

😊😊作者简介😊😊 ： 大家好，我是南瓜籽，一个在校大二学生，我将会持续分享Java相关知识。 🎉🎉个人主页🎉🎉 ： 南瓜籽的主页…...

编程日记 2023/2/18 20:48:43

[Linux篇] Linux常见命令和权限

文章目录使用XShell登录Linux1.Linux常用基本命令：1.1 ls（列出当前的目录下都有哪些文件和目录）1.2 cd (change directory 切换目录)1.3 pwd（查看当前目录的绝对路径）1.4 touch（创建文件）1.5 ca…...

编程日记 2023/2/18 20:47:33

29岁从事功能测试被辞，面试2个月都找不到工作吗？

最近一个28岁老同学联系我，因为被公司辞退，找我倾诉，于是写下此文。他是14年二本毕业，在我的印象里人特别懒，不爱学习，专业不好，毕业前因为都没找到合适工作，直接去创业了&#xf…...

编程日记 2023/2/18 20:46:23

【C#个人错题笔记1】

观前提醒记录一些我不会或者少见的内容，不一定适合所有人字符串拼接 int a3,b8; Console.WriteLine(ab);//11 Console.WriteLine("ab");//ab Console.WriteLine(a""b);//38 Console.WriteLine("ab"ab);//ab38 Console.WriteLine…...

编程日记 2023/2/18 20:45:13

基于lambda的mongodb查询插件

需求背景需要一个像mybatis plus 一样的基于lambda, 且面向对象的查询mongo数据的插件。在网上找了很久，没有发现有类似功能的插件。于是自己手写了一个，借助mongoTemplate屏蔽了底层查询语句的实现细节。在此基础上，实现了查询的统一封装。技…...

编程日记 2023/2/18 20:44:00

基于微信小程序的微信社团小程序

文末联系获取源码开发语言：Java 框架：ssm JDK版本：JDK1.8 服务器：tomcat7 数据库：mysql 5.7/8.0 数据库工具：Navicat11 开发软件：eclipse/myeclipse/idea Maven包：Maven3.3.9 浏览器…...

编程日记 2023/2/18 20:42:50

GEE学习笔记七十三：【GEE之Python版教程七】静态展示影像和动态展示影像

我们使用GEE在线编辑可以直接通过在线的网页可以加载展示我们计算的结果，而python版的GEE要展示我们的计算结果可能就比较麻烦。如果有同学看过GEE的python版API中可以找到一个类ee.mapclient，这个类的介绍是它是GEE官方通过Tk写的一个加载展示地图的类。…...

编程日记 2023/2/18 20:41:40

PGLBox全面解决图训练速度、成本、稳定性、复杂算法四大问题！

图神经网络（Graph Neural Network，GNN）是近年来出现的一种利用深度学习直接对图结构数据进行学习的方法，通过在图中的节点和边上制定聚合的策略，GNN能够学习到图结构数据中节点以及边内在规律和更加深层次的语义特征。…...

编程日记 2023/2/18 20:40:29

超详细的 pytest 教程（一）使用入门篇

前言 pytest到目前为止还没有翻译的比较好全面的使用文档，很多英文不太好的小伙伴，在学习时看英文文档还是很吃力。本来去年就计划写pytest详细的使用文档的，由于时间关系一直搁置，直到今天才开始写。本文是第一篇，主…...

编程日记 2023/2/18 20:39:19

二叉树理论基础知识点

二叉树的种类在我们解题过程中二叉树有两种主要的形式：满二叉树和完全二叉树满二叉树满二叉树：如果一棵二叉树只有度为0的结点和度为2的结点，并且度为0的结点在同一层上，则这棵二叉树为满二叉树。如图所示： 这…...

编程日记 2023/2/18 20:38:08

【算法基础】堆⭐⭐⭐

一、堆 1. 堆的概念堆（heap）是计算机科学中一类特殊的数据结构的统称。堆通常是一个可以被看做一棵树的数组对象。堆总是满足下列性质：（1）堆中某个结点的值总是不大于或不小于其父结点的值；（2）堆总是一棵完全二叉树。将根结点最大的堆叫做最大堆或大根堆，根结点…...

编程日记 2023/2/18 20:36:59

Java如何权衡是使用无序的数组还是有序的数组

在 Java 中，选择有序数组还是无序数组取决于具体场景的性能需求与操作特点。以下是关键权衡因素及决策指南： ⚖️ 核心权衡维度维度有序数组无序数组查询性能二分查找 O(log n) ✅线性扫描 O(n) ❌插入/删除需移位维护顺序 O(n) ❌直接操作尾部 O(1) ✅内存开销与无序数组相…...

编程新知 2025/8/3 11:17:37

python如何将word的doc另存为docx

将 DOCX 文件另存为 DOCX 格式（Python 实现） 在 Python 中，你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是，.doc 是旧的 Word 格式，而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...

编程新知 2025/12/13 22:42:30

Cloudflare 从 Nginx 到 Pingora：性能、效率与安全的全面升级

在互联网的快速发展中，高性能、高效率和高安全性的网络服务成为了各大互联网基础设施提供商的核心追求。Cloudflare 作为全球领先的互联网安全和基础设施公司，近期做出了一个重大技术决策：弃用长期使用的 Nginx，转而采用其内部开发…...

编程新知 2025/12/9 3:52:17

【git】把本地更改提交远程新分支feature_g

创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...

编程新知 2025/12/13 4:20:30

自然语言处理——Transformer

自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，但是它有一个很大的缺陷——很难并行化。我们可以考虑用CNN来替代RNN，但是…...

编程新知 2025/12/11 16:21:02

处理vxe-table 表尾数据是单独一个接口，表格tableData数据更新后，需要点击两下，表尾才是正确的

修改bug思路： 分别把 tabledata 和表尾相关数据 console.log() 发现更新数据先后顺序不对 settimeout延迟查询表格接口 ——测试可行升级↑：async await 等接口返回后再开始下一个接口查询 ________________________________________________________…...

编程新知 2025/12/9 21:25:16

虚拟电厂发展三大趋势：市场化、技术主导、车网互联

市场化：从政策驱动到多元盈利政策全面赋能 2025年4月，国家发改委、能源局发布《关于加快推进虚拟电厂发展的指导意见》，首次明确虚拟电厂为“独立市场主体”，提出硬性目标：2027年全国调节能力≥2000万千瓦&#xff0…...

编程新知 2025/8/3 1:06:36

云安全与网络安全：核心区别与协同作用解析

在数字化转型的浪潮中，云安全与网络安全作为信息安全的两大支柱，常被混淆但本质不同。本文将从概念、责任分工、技术手段、威胁类型等维度深入解析两者的差异，并探讨它们的协同作用。一、核心区别定义与范围网络安全：聚焦于保…...

编程新知 2025/12/12 12:44:52

HTTPS证书一年多少钱？

HTTPS证书作为保障网站数据传输安全的重要工具，成为众多网站运营者的必备选择。然而，面对市场上种类繁多的HTTPS证书，其一年费用究竟是多少，又受哪些因素影响呢？ 首先，HTTPS证书通常在PinTrust这样的专业平…...

编程新知 2025/12/15 14:24:25

SQL注入篇-sqlmap的配置和使用

在之前的皮卡丘靶场第五期SQL注入的内容中我们谈到了sqlmap，但是由于很多朋友看不了解命令行格式，所以是纯手动获取数据库信息的接下来我们就用sqlmap来进行皮卡丘靶场的sql注入学习，链接：https://wwhc.lanzoue.com/ifJY32ybh6vc…...

编程新知 2025/12/8 23:31:43

图像分类竞赛进阶技能：OpenAI-CLIP使用范例

OpenAI-CLIP

官方介绍

CLIP使用示例

安装CLIP库

重头戏，对每一张图片我们可以提问问题，并且查看CLIP会做出什么样的回答

相关文章：

图像分类竞赛进阶技能：OpenAI-CLIP使用范例

Metasploit框架基础（一）

pytorch零基础实现语义分割项目（二）——标签转换与数据加载

python(8.5)--列表习题

rt-thread pwm 多通道

C语言练习 | 初学者经典练习汇总

华为OD机试 - 自动曝光（Python） | 机试题算法思路【2023】

「6」线性代数（期末复习）

1.1 硬件与micropython固件烧录及自编译固件

【MySQL进阶】视图存储过程触发器

[Linux篇] Linux常见命令和权限

29岁从事功能测试被辞，面试2个月都找不到工作吗？

【C#个人错题笔记1】

基于lambda的mongodb查询插件

基于微信小程序的微信社团小程序

GEE学习笔记七十三：【GEE之Python版教程七】静态展示影像和动态展示影像

PGLBox全面解决图训练速度、成本、稳定性、复杂算法四大问题！

超详细的 pytest 教程（一）使用入门篇

二叉树理论基础知识点

【算法基础】堆⭐⭐⭐

Java如何权衡是使用无序的数组还是有序的数组

python如何将word的doc另存为docx

Cloudflare 从 Nginx 到 Pingora：性能、效率与安全的全面升级

【git】把本地更改提交远程新分支feature_g

自然语言处理——Transformer

处理vxe-table 表尾数据是单独一个接口，表格tableData数据更新后，需要点击两下，表尾才是正确的

虚拟电厂发展三大趋势：市场化、技术主导、车网互联

云安全与网络安全：核心区别与协同作用解析

HTTPS证书一年多少钱？

SQL注入篇-sqlmap的配置和使用