当前位置：首页 > news >正文

BLIP2预研笔记

news 2026/2/10 19:21:36

0. 前言

文章是公司内部分享学习写的预研报告，里面有小部分文段是直接从网上借鉴的，侵删

1. 任务和方法历史进化：

在大模型等类似的预训练模型的方式（以包含“预训练阶段”等n阶段训练方式为特色）为主流之前，以前通常把“从图片到文字”的多模态的任务进行了细致的划分：

如：图片描述任务/看图说话任务（Image Caption）、视觉问答任务（Visual Question Answering，VQA）等等；

在大模型的技术路线成为主流后，由于预训练阶段不区分具体的细分任务，而是完成了A模态分布到B模态分布的理解和映射，因此现在普遍统称为图生文任务（image2text）；

以往针对单一任务，一般流行end2end的网络；近期借助于NLP的发展，利用大模型既有的对自然语言的理解能力和知识，衍生了一些基于LLM模型能力之上的方法，如ALBEF、BLIP、CLIP等。如BLIP是freeze住LLM的参数，只训练特定部分的网络（而不是以前流行的那种end2end方式）

（以前之所以被“e2e”思想统治，是因为以前的网络大家发现e2e训练出来的结果比多stage训练的结果好太多了；而好太多的原因有很多，举几个个人的经验：

数据量没到训练LLM这个规模，再好的architecture都无法很好的学习到分布&在高维空间的有效解耦；
以前有大量网络也是尝试过encoder-decoder的结构，但不敢打断分开训练encoder和decode的原因是中间的象征knowledge/memory/code（这些是不同论文里对中间这个bottleneck的称呼）的bottleneck对数据的抽取并不足够有效；换句话说，虽然在论文里对这个提取出来的array叫做knowledge，但它没有资格被叫做“knowledge”；有些论文中或者说很多算法工程师一些具体的实验中都发现了类似的问题，但因为pipeline通常都定下来了，对“经过bottleneck出现信息缺失”等问题的尝试修复也只是一些“小巧思”，比如加多一个MLP用作简单的attention网络来对knowledge有更好的提取，等等。
预训练中经过特别设计后的任务和损失函数，辅助有效地训练了庞大的基座模型；如BEiT中训练阶段设计了一个MIM（masked image modeling）的预训练任务，基于损坏的图像patch恢复原始视觉token；但BEiT用于的细分任务如图像分割，就与MIM任务毫无关系；
架构上比起之前的e2e思想统治时期的模型架构应该要优秀一些（这个是我的猜测，目前相关的研究还有很多，有些在研究模型搞这么大究竟会不会带来更多的坏处，e.g.最近有一篇文章认为LLM纯靠“死记硬背”）），例如现在的pretrain+finetune的方式在预训练阶段会设计不同的任务固定不同部分的模型参数分别进行训练。

2. BLIP的架构是从ALBEF改动而来：

ALBEF架构

BLIP(Bootstrapping Language-Image Pretraining)：为什么叫Bootstrapping，是因为训练数据来自网络图文对，包含大量噪声，所以增加了一个在线数据打标签和清理的任务，把处理好的数据继续用来迭代原模型。

BLIP1架构

BLIP2架构

3. BLIP的这种架构来做图生文任务，相比于以前流行的框架（通常为end2end）：

3.1 数据集标注/模型输入输出：

传统图生文任务要求有人工标注，标注过程如下：

给一张图片，如：

标注人员1会打上标签“一个小孩在骑马”；

标注人员2会打上标签“小孩在马上训练马术”；

标注人员3会打上标签“身穿马术服的小孩在白色的马上”；

不同的标注人员对图片的描述语句的方式不一样，有的会描述一件事、有的会描述具体的专业词汇、有的会强调位置关系；训练过程中对这些不同的groundtruth用比较宽松的策略都训进去，能提升模型输出表达的兼容能力。

BLIP提出的CapFilt方式：

在BLIP1中提出了CapFilt方式可以优化传统的图片描述标签；在BLIP2中引入了LLM的能力，大幅提升了对图片的描述能力。

3.2 训练方式：

传统的end2end方式一次性训练完，没有预训练阶段和微调阶段的区分

1）end2end方式不能很好的训练多分支或者规模较大的模型

2）end2end方式的训练成本较高

BLIP为代表的Pretrain+Finetune的方式，对各个部位分开训练

1）成本较低

2）利用了大模型的能力，节省了标注成本和时间

5. 项目分享：clip_interrogator

5.1 clip_interrogator 1

CLIP Interrogator - a Hugging Face Space by pharmapsychotic

5.2 clip_interrogator 2.1

CLIP Interrogator 2 - a Hugging Face Space by fffiloni

5.3 对ComfyUI框架写了个移植的clip_interrogator的插件

unanan/ComfyUI-clip-interrogator: Unofficial ComfyUI custom nodes of clip-interrogator (github.com)

5.4 另一个利用stable diffusion的Image2text项目：WD14

WaifuDiffusion v1.4 Tags - a Hugging Face Space by SmilingWolf

BLIP2预研笔记

0. 前言文章是公司内部分享学习写的预研报告，里面有小部分文段是直接从网上借鉴的，侵删 1. 任务和方法历史进化： 在大模型等类似的预训练模型的方式（以包含“预训练阶段”等n阶段训练方式为特色）为主流之前&#xf…...

编程日记 2024/5/10 11:51:02

安卓开发问题：安卓Ble出现动态鉴权失败以及扫描设备一直进入不了的问题

问题1描述 1、安卓12需要动态鉴权 // 鉴权函数 requestPermissions(permissionsList.toArray(strings), MyConstants.REQUEST_CODE_PERMISSIONS);但是在鉴权回调函数中如Manifest.permission.BLUETOOTH_SCAN、Manifest.permission.BLUETOOTH_CONNECT一直显示失败&…...

编程日记 2024/5/10 11:50:01

DSP ARM FPGA 实验箱_音频处理_滤波操作教程：3-9 音频信号的滤波实验

一、实验目的掌握Matlab辅助设计滤波器系数的方法，并实现音频混噪及IIR滤波器滤除，并在LCD上显示音频信号的FFT计算结果。二、实验原理音频接口采用的是24.576MHz（读兆赫兹）晶振，实验板上共有3个音频端口&#x…...

编程日记 2024/5/10 11:47:59

Rust多线程交叉打印+Send Sync特征讲解

导航 Rust多线程交叉打印Send Sync特征讲解一、Rust多线程交叉打印二、Send Sync 特征讲解 Rust多线程交叉打印Send Sync特征讲解一、Rust多线程交叉打印先说背景有两个线程，分别为0号线程和1号线线程两个线程交叉打印共享值，并将共享值1当标志为fa…...

编程日记 2024/5/10 11:46:57

C#爬虫爬取某东商品信息

🏆作者：科技、互联网行业优质创作者 🏆专注领域：.Net技术、软件架构、人工智能、数字化转型、DeveloperSharp、微服务、工业互联网、智能制造 🏆欢迎关注我（Net数字智慧化基地），里面…...

编程日记 2024/5/10 11:43:53

【Stylus详解与引入】

文章目录 Stylus详解与引入一、Stylus简介二、Stylus的特性1. 变量2. 嵌套规则3. 混合（Mixins）4. 函数5. 条件语句和循环三、Stylus的引入与配置1. 安装Stylus和stylus-loader2. 配置Webpack3. 在Vue项目中使用Stylus4. 编译Stylus代码四、Stylus的性能…...

编程日记 2024/5/10 11:42:52

001 登录(md5加密)

文章目录 pom.xmlLoginController.javaUserMapper.javaUser.javaUserServiceImpl.javaUserService.javaMD5Util.javaMD5UtilTest.javaValidatorUtil.javaLoginVo.javaRespBean.javaRespBeanEnum.javaSeckillApplication.javaUserMapper.xmllogin.htmlapplication.yamlsql 传统方…...

编程日记 2024/5/10 11:41:50

Linux学习笔记5---WSL2编译裸机程序并烧录至SD卡

在用WLS进行开发的时候发现在mnt/底下竟然识别不了U盘！！也识别不了SD卡！！那程序不就不能烧录到SD卡上了？？？那还开发个锤子。在网上查找了一些相关资料，发现可以通过Win32DiskImager…...

编程日记 2024/5/10 11:40:49

React 第二十九章 React 和 Vue 描述页面的区别

面试题：React 和 Vue 是如何描述 UI 界面的？有一些什么样的区别？ 标准且浅显的回答： React 中使用的是 JSX，Vue 中使用的是模板来描述界面前端领域经过长期的发展，目前有两种主流的描述 UI 的方案&#xf…...

编程日记 2024/5/10 11:39:47

Dnspy附加进程调试---代码被优化及无法获取局部变量

代码被优化或者无法获取局部变量的效果图如下： 当你在调试的时候，看到这种情况还是挺恼火的，经过查阅资料后，发现可以这种解决： 参考链接：Making an Image Easier to Debug dnSpy/dnSpy Wiki GitHub 假设…...

编程日记 2024/5/10 11:36:43

Redis---------实现更改数据业务，包括缓存更新，缓存穿透雪崩击穿的处理

三种更新策略内存淘汰是Redis内存的自动操作，当内存快满了就会触发内存淘汰。超时剔除则是在存储Redis时加上其有限期(expire)，有限期一过就会自动删除掉。而主动更新则是自己编写代码去保持更新，所以接下来研究主动更新策略。主动更新策略…...

编程日记 2024/5/10 11:35:42

蓝牙小车的具体实现

title: 蓝牙小车开发时的一些细节 cover: >- https://tse1-mm.cn.bing.net/th/id/OIP-C.BrSgB91U1MPHGyaaZEqcbwHaEo?w273&h180&c7&r0&o5&dpr1.3&pid1.7 abbrlink: 842d5faf date: tags: #小车基本运动之最重要的—PWM ##1.PWM（Pulse …...

编程日记 2024/5/10 11:34:41

污染修复乙级设计资质中关于设计成果保护的规定

关于污染修复乙级设计资质中设计成果的保护，虽然直接针对该资质的设计成果保护规定可能未在公开资料中有详细阐述，但根据中国知识产权法律体系和行业惯例，设计成果作为智力成果的一部分，主要受以下几个方面的法律保护：…...

编程日记 2024/5/10 11:33:39

##10 卷积神经网络（CNN）：深度学习的视觉之眼

文章目录前言1. CNN的诞生与发展2. CNN的核心概念3. 在PyTorch中构建CNN4. CNN的训练过程5. 应用：使用CNN进行图像分类5. 应用：使用CNN进行时序数据预测代码实例7. 总结与展望前言在深度学习的领域中，卷积神经网络（CNN）已经成为视觉识别任务的核心技术。自从AlexNet在2…...

编程日记 2024/5/10 11:31:37

Linux下添加自己的服务脚本（service）

systemd服务文件（service file）是用来定义和配置systemd服务的文件，通常以.service为后缀。以下是service文件的详细格式和内容说明： 1 文件路径 /etc/systemd/system（供系统管理员和用户使用）系统服务，开机不需要登录就能运行的程序/usr/lib/systemd/system（供发行版…...

编程日记 2024/5/10 11:28:33

C++:内存管理

C:内存管理一、C/C内存分布二、C语言中动态内存管理方式：malloc/calloc/realloc/free三、C内存管理方式1.new/delete操作内置类型2.new和delete操作自定义类型四、operator new与operator delete函数（重点）五、new和delete的实现原理1.内置…...

编程日记 2024/5/10 11:27:31

Veeam - 数据保护和管理解决方案_Windows平台部署备份还原VMware手册

Veeam - - 数据保护和管理解决方案 Veeam Backup & Replication Console Veeam Data Platform Veeam Backup & Replication是一款强大的虚拟机备份、恢复和复制解决方案安全备份、干净恢复和数据弹性 — 即时交付在混合云中随时随地管理、控制、备份和恢复您的所有数…...

编程日记 2024/5/10 11:26:30

易基因：Nature子刊：ChIP-seq等揭示c-di-AMP与DasR互作以调控细菌生长、发育和抗生素合成｜项目文章

大家好，这里是专注表观组学十余年，领跑多组学科研服务的易基因。 c-di-AMP是一种在细菌信号中普遍存在且至关重要的核苷酸第二信使，对于大多数c-di-AMP合成生物体来说，c-di-AMP稳态及其信号转导的分子机制非常值得关注。 2024年…...

编程日记 2024/5/10 11:24:27

stm32学习探究：利用TB6612驱动直流电机

在这篇文章中，我们将探讨如何使用STM32微控制器和TB6612FNG直流电机驱动模块来驱动直流电机。TB6612FNG是一款基于MOSFET的H桥集成电路，能够独立双向控制两个直流电机，非常适合用于小型机器人或双轮车等项目。一、TB6612FNG 驱动模块介绍 …...

编程日记 2024/5/10 11:22:24

SpringBatch快速入门

Job监听 Spring Batch的Job监听是一种机制，用于在Job的不同阶段插入自定义的逻辑。它允许开发人员在Job开始、结束、失败等不同的事件发生时执行特定的操作。具体来说，Spring Batch提供了以下几个Job监听器： JobExecutionListener&#xff…...

编程日记 2024/5/10 11:21:22

多模态2025：技术路线“神仙打架”，视频生成冲上云霄

文｜魏琳华编｜王一粟一场大会，聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度。其中，…...

编程新知 2026/2/8 20:43:00

Prompt Tuning、P-Tuning、Prefix Tuning的区别

一、Prompt Tuning、P-Tuning、Prefix Tuning的区别 1. Prompt Tuning（提示调优）核心思想：固定预训练模型参数，仅学习额外的连续提示向量（通常是嵌入层的一部分）。实现方式：在输入文本前添加可训练的连续向量（软提示），模型只更新这些提示参数。优势：参数量少（仅提…...

编程新知 2026/2/10 1:20:48

rknn优化教程（二）

文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK，开始写第二篇的内容了。这篇博客主要能写一下： 如何给一些三方库按照xmake方式进行封装，供调用如何按…...

编程新知 2025/6/11 15:25:30

【Oracle APEX开发小技巧12】

有如下需求： 有一个问题反馈页面，要实现在apex页面展示能直观看到反馈时间超过7天未处理的数据，方便管理员及时处理反馈。我的方法：直接将逻辑写在SQL中，这样可以直接在页面展示完整代码： SELECTSF.FE…...

编程新知 2026/2/7 17:35:15

通过Wrangler CLI在worker中创建数据库和表

官方使用文档：Getting started Cloudflare D1 docs 创建数据库在命令行中执行完成之后，会在本地和远程创建数据库： npx wranglerlatest d1 create prod-d1-tutorial 在cf中就可以看到数据库： 现在，您的Cloudfla…...

编程新知 2026/1/31 6:18:08

【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现（服务端执行命令请求的过程 - 初始化服务器）

服务端执行命令请求的过程【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...

编程新知 2026/2/2 0:45:02

HTML 列表、表格、表单

1 列表标签作用：布局内容排列整齐的区域列表分类：无序列表、有序列表、定义列表。例如： 1.1 无序列表标签：ul 嵌套 li，ul是无序列表，li是列表条目。注意事项： ul 标签里面只能包裹 li…...

编程新知 2026/1/24 22:33:33

React Native在HarmonyOS 5.0阅读类应用开发中的实践

一、技术选型背景随着HarmonyOS 5.0对Web兼容层的增强，React Native作为跨平台框架可通过重新编译ArkTS组件实现85%以上的代码复用率。阅读类应用具有UI复杂度低、数据流清晰的特点。二、核心实现方案 1. 环境配置 （1）使用React Native…...

编程新知 2025/8/19 2:57:37

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

1. BluetoothProperties介绍 libsysprop/srcs/android/sysprop/BluetoothProperties.sysprop BluetoothProperties.sysprop 是 Android AOSP 中的一种系统属性定义文件（System Property Definition File），用于声明和管理 Bluetooth 模块相…...

编程新知 2025/11/22 12:02:51

WEB3全栈开发——面试专业技能点P2智能合约开发（Solidity）

一、Solidity合约开发下面是 Solidity 合约开发的概念、代码示例及讲解，适合用作学习或写简历项目背景说明。 🧠 一、概念简介：Solidity 合约开发 Solidity 是一种专门为以太坊（Ethereum）平台编写智能合约的高级编…...

编程新知 2026/1/27 9:33:09