当前位置: 首页 > news >正文

(1)CLIP

CLIP

  • 概述
  • 1. 训练与推理
  • 2. 最终效果与局限性
  • 3.后续应用
    • 3.1 DALL-E
    • 3.2 ActionCLIP
    • 3.3 CLIP-Event



概述

CLIP:contrastive language-image pretraining
利用文本的监督信号训练一个迁移能力特别强的视觉模型
传统的视觉模型,人工标注图像,那么模型只能识别标注数据,迁移能力弱

1. 训练与推理

训练

数据
图像+图像文本作为标签(互联网数据已经标好了)

模型

  • Text-encoder:重点不在训练它,直接transformer拿来用,已经海量文本训练好了
  • Image-encoder:重点在于训练它,希望image-encoder能够学到图像的真实含义
  • 4亿对文本-图像,不是标注的,直接爬取的

训练方法
对比学习,计算image-text相似度,正样本相似度高,负样本相似度低

推理
图搜文任务为例:
图像+模型得到向量,候选文本+模型得到向量,计算相似度,挑选出最终文本
文本的描述质量也会影响效果,比如细粒度,比如某些具体场景的描述

训练策略补充说明
以对比损失,image-text的相似度来进行训练
另一种方式,image预测具体的token,效果要差

2. 最终效果与局限性

CLIP VS Restnet50

  • CLIP 在特别具体或者非日常场景的表现一般,比如 minst 数据集,比如稀有花的数据集
  • Resnet 不是最强模型,VIT 模型要比 Resnet50 更强,论文中 clip 主要是跟 resnet50 来比,如果要达到 VIT 的效果,可能需要1000倍的数据量
  • 目前的参数都是根据 Imagenet 来的,可能泛化也受限于 Imagenet 数据集,因为调参成本太高

3.后续应用

3.1 DALL-E

GAN思想的网络

  • 生成器:VQGAN(根据文本生成图像)
    1)维护一个码本,这个码本含有大量特征
    2)生成过程就是判断一张图片的每个像素点应该生成的特征跟码本里面的哪种特征更像
    3)同时还要约束新生成像素点也要基于已经生成的
  • 判别器:CLIP(判断根据文本生成的图像与文本之间的相似度是不是高)

形象化的理解 DALL-E
1)类GPT化:输入文本+图像(可以是一个初始的图像,也可以是噪音图像),然后希望生成与文本描述相同的图像
2)用到三种注意力:text、image、text-image
3)官网描述的 text 和 image 的 特征 / token 数量:
其中文本是 256 token,字典大小是 16384
其中图片是 1024 token,字典(码本)大小是 8192

3.2 ActionCLIP

ActionCLIP:A New Paradigm for Video Action Recognition
识别视频中的行为

3.3 CLIP-Event

CLIP-Event:Connecting texts and images with event structures
训练:抽取文本三元组。who do what
推理:就可以推理出图片中的每个人物在干嘛

相关文章:

(1)CLIP

CLIP 概述1. 训练与推理2. 最终效果与局限性3.后续应用3.1 DALL-E3.2 ActionCLIP3.3 CLIP-Event 概述 CLIP:contrastive language-image pretraining 利用文本的监督信号训练一个迁移能力特别强的视觉模型 传统的视觉模型,人工标注图像,那么…...

MongoDB高可用和分片集群知识

一、MongoDB实现高可用 1. MongoDB复制集(Replication Set) 在实际生产中,MongoDB要实现高可用,以免MongoDB单实例挂了,服务不可用。MongoDB实现高可用是以MongoDB复制集的形式实现,和集群部署概念相同,MongoDB复制集…...

【Python日志功能】一.日志基础与基本配置

文章目录 相关链接第一篇:日志基础与基本配置1 日志的概念与用途2 Python logging 模块介绍3 日志级别4 配置日志格式和输出位置4.1 配置日志格式4.2 配置输出位置 5 实验:基本日志配置和输出实验1:基本日志配置实验2:使用配置文件…...

深圳铨顺宏科技展邀您体验前沿人工智能技术

我们诚挚地邀请您参加即将举行的展会,探索RFID技术在资产与人员管理中的广泛应用。这些展会将为您提供一个深入了解前沿技术和创新解决方案的机会。 东莞台湾名品博览会(东莞台博会)展会时间:9月5日至8日。此次展会展示了来自台湾…...

Lombok:Java开发者的代码简化神器【后端 17】

Lombok:Java开发者的代码简化神器 在Java开发中,我们经常需要编写大量的样板代码,如getter、setter、equals、hashCode、toString等方法。这些代码虽然基础且必要,但往往占据了大量开发时间,且容易在属性变更时引发错误…...

[linux]GCC G++官方源码国内下载地址汇总

【GCC介绍】 GCC(GNU Compiler Collection,GNU编译器套件)是由GNU项目开发的一套编程语言编译器,也是GNU计划的关键部分。它最初作为GNU C Compiler(GNU C语言编译器)出现,但随着时间的推移&…...

部署opengauss5.0.3,细节满满

部署opengauss5.0.3 1.关闭安全服务 修改/etc/selinux/config文件中的“SELINUX”值为“disabled”。临时关闭selinux setenforce 0 查看selinux状态 getenforce2.host配置 [rootcentos79 ~]# cat /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 local…...

面试题总结(四) -- STL与算法篇

面试题总结(四) – STL与算法篇 文章目录 面试题总结(四) -- STL与算法篇<1> 请列举 C STL 中常用的容器&#xff08;如 vector、list、map 等&#xff09;及其特点。<2> 如何在 C 中使用 STL 算法&#xff08;如排序、查找等&#xff09;&#xff1f;<3> 解…...

HashSet及其实现原理

目录 一、Set二、HashSet三、HashSet的实现原理四、HashSet的线程安全与顺序1、线程安全2、有序性 一、Set Set 接口是 java.util 包下的一个集合接口&#xff0c;它继承自 Collection 接口。Set 接口定义了一个不允许包含重复元素的集合。Set 接口的实现类主要有 HashSet、Lin…...

反序列化漏洞练习1

根据代码可以看出来sis类只是接收了参数cmd&#xff0c;下边是通过get获得cmd的值&#xff0c;所以可以在序列化过程中直接为cmd赋值。 根据源码编写序列化代码 <?php class sis{public $cmdsystem("whoami");?>;public function __wakeup(){eval($this-&g…...

树莓派Pico2(RP2350)开发环境搭建

树莓派Pico2(RP2350)开发环境搭建 文章目录 树莓派Pico2(RP2350)开发环境搭建1、RP2350介绍2、开发环境搭建3、工程编译4、固件下载Raspberry Pi再次通过推出RP2350 MCU突破了微控制器设计的界限。这款微控制器是之前RP2040的重大升级,带来了更强大的性能、高级安全功能,…...

vue 路由中使用keepAlive在这个组件中使用onActivated

onMounted: 在组件挂载时触发一次。onActivated: 当 keep-alive 组件从缓存中被激活时触发。如果你将当前组件包裹在 keep-alive 中&#xff0c;激活时会调用此钩子。onDeactivated: 当 keep-alive 组件被缓存时触发。 注意事项 onActivated 只在组件从 keep-alive 缓存中恢复…...

医学数据分析实训 项目一 医学数据采集

项目一 医学数据采集 一、实践目的 了解医学数据的特点&#xff1b;熟悉常见的医学公共数据库的使用方法&#xff1b;掌握获取医学数据的方法&#xff1b; 二、实践平台 操作系统&#xff1a;Windows10 及以上Python 版本&#xff1a;3.8.x 及以上PyCharm 或 Anoconda 集成…...

《Oracle(一)- 基础》

文章目录 一、Oracle简介&#xff08;一&#xff09;什么是ORACLE&#xff08;二&#xff09;ORACLE 体系结构1.数据库2.实例3.数据文件&#xff08;dbf&#xff09;4.表空间5.用户 二、ORACLE 安装与配置&#xff08;一&#xff09;VMware 挂载 windows server 2003&#xff0…...

Unity Resource System 优化笔记

Unity Resources System 定义 Resources System允许开发者在项目中的Resources文件夹下存放一个或多个资源文件夹&#xff0c;并且可以在Unity运行时通过Unity提供的API对资源和对象进行加载和卸载。 如果Resources中的文件结构复杂&#xff0c;内容多&#xff0c;会给应用常…...

Flutter之SystemChrome全局设置

一、简介 SystemChrome作为一个全局属性&#xff0c;很像 Android 的 Application&#xff0c;功能很强大。 二、使用详解 2.1 setPreferredOrientations 设置屏幕方向 在我们日常应用中可能会需要设置横竖屏或锁定单方向屏幕等不同要求&#xff0c;通过 setPreferredOrien…...

Windows11 WSL2的ubuntu 22.04中拉取镜像报错

问题描述 在windows11 WSL2的ubuntu 22.04中拉取镜像报错。错误为&#xff1a; Error response from daemon: Get "https://registry-1.docker.io/v2/": net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting header…...

【Linux】多线程:线程同步、条件变量

目录 一、同步的概念 为什么需要同步呢&#xff1f; 二、条件变量 条件变量的相关概念 1、条件变量的初始化&#xff1a;静态初始化、动态初始化 2、条件变量的等待&#xff1a;pthread_cond_wait函数 工作原理及流程【重要&#xff01;】 关键点总结 3、条件变量的激…...

【Android Studio】使用雷电模拟器调试

文章目录 进入开发者模式使雷电模拟器adb连接PC测试 进入开发者模式 多次点击版本号 -开区USB调试 使雷电模拟器adb连接PC 写cmd脚本 雷电模拟器端口为5555 &#xff0c;脚本内容如下&#xff1a; adb.exe connect 127.0.0.1:5555双击bat脚本文件 测试...

你必须知道的C语言问题(9)

问&#xff1a;如下代码&#xff0c;两个结构体类型成员变量相同&#xff0c;只是成员顺序不同&#xff0c;为什么大小不同&#xff1f; #include <stdio.h> #include <stdint.h> #include <string.h> #include <stdlib.h>typedef struct _test1{uint…...

主流人脸识别算法框架实战选型指南:从精度、速度到资源消耗的权衡

1. 人脸识别算法框架的核心选型逻辑 第一次接触人脸识别项目时&#xff0c;面对琳琅满目的算法框架确实容易犯选择困难症。经过多个项目的实战验证&#xff0c;我发现选型本质上是在玩一个"不可能三角"游戏——精度、速度和资源消耗这三者永远无法同时达到最优。就像…...

Claude Computer Use:AI 操控电脑的革命性突破详解

Claude Computer Use:AI 操控电脑的革命性突破详解 引言 2024 年,Anthropic 公司推出了 Claude 3.5 Sonnet 模型,并首次引入了Computer Use(电脑使用)功能。这项技术标志着 AI 从单纯的对话助手向能够实际操作电脑的自主代理迈出了重要一步。本文将深入解析 Claude Comp…...

基于深度学习yolov13+qwen与deepseek的脑肿瘤识别与分析系统

基于YOLOv13AI的智能脑肿瘤检测系统 项目简介 基于YOLOv13深度学习模型与DeepSeek、Qwen大语言模型的智能脑肿瘤检测系统。本系统将前沿的计算机视觉技术与人工智能分析能力结合&#xff0c;为用户提供快速、精准的脑部医学影像分析与肿瘤识别服务&#xff0c;为医疗诊断、科研…...

WaveTools鸣潮工具箱:从游戏卡顿到流畅体验的智能优化方案

WaveTools鸣潮工具箱&#xff1a;从游戏卡顿到流畅体验的智能优化方案 【免费下载链接】WaveTools &#x1f9f0;鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 你是否曾因《鸣潮》游戏帧率不稳而错过关键操作&#xff1f;是否在多账号切换时反复调…...

超离谱!iOS 26.0.1 Filza 管理器发布,有效可用

Filza 内置 DarkSword 利用已发布&#xff0c;支持更多系统版本。 注意&#xff01;System 目录仍然无法修改&#xff0c;仅对 var/mobile 目录。能实现读取、写入、删除等操作。有点离谱&#xff01;Little_34306 作者刚发布网页版授权 Filza 方法&#xff0c;现在又发布 Fi…...

C++性能调优第一步:手把手教你用QueryPerformanceCounter和chrono精准测量微秒级函数耗时

C性能调优实战&#xff1a;微秒级耗时测量的艺术与科学 在追求极致性能的世界里&#xff0c;每一微秒都至关重要。高频交易系统中&#xff0c;1微秒的延迟可能意味着数百万美元的损失&#xff1b;游戏引擎里&#xff0c;帧间时间的细微波动会导致画面卡顿&#xff1b;实时音视频…...

告别手动造数据!用JMeter JSR223预处理程序+Groovy脚本,5分钟搞定接口签名和AES加密

告别手动造数据&#xff01;用JMeter JSR223预处理程序Groovy脚本&#xff0c;5分钟搞定接口签名和AES加密 性能测试工程师最头疼的莫过于每次执行测试前&#xff0c;都要手动计算接口签名、拼接参数、加密敏感数据。这种重复性工作不仅耗时耗力&#xff0c;还容易出错。想象一…...

利用快马AI快速生成产区标准可视化地图原型

最近在做一个农业规划项目&#xff0c;需要展示不同等级产区的分布和标准。传统做法是用PPT贴静态地图&#xff0c;每次修改都要重做&#xff0c;特别麻烦。后来发现用InsCode(快马)平台可以快速搭建交互式地图应用&#xff0c;效果出乎意料的好。 地图底图选择 中国地图最常用…...

Omni-Vision Sanctuary 算法优化:LSTM时序网络在视频分析中的应用

Omni-Vision Sanctuary 算法优化&#xff1a;LSTM时序网络在视频分析中的应用 1. 引言&#xff1a;视频分析中的时序挑战 视频数据与静态图像最大的区别在于时间维度。传统计算机视觉方法在处理连续帧时&#xff0c;往往将每一帧视为独立图像进行分析&#xff0c;忽略了帧与帧…...

快速构建SpringBoot微服务:Phi-3-mini智能代码生成与架构咨询

快速构建SpringBoot微服务&#xff1a;Phi-3-mini智能代码生成与架构咨询 1. 引言&#xff1a;当AI助手遇上Java开发 最近接手了一个新项目&#xff0c;需要快速搭建一套SpringBoot微服务架构。正当我对着空白的IDE发愁时&#xff0c;同事推荐了Phi-3-mini这个AI助手。说实话…...