【LLM多模态】综述Visual Instruction Tuning towards General-Purpose Multimodal Model
note
文章目录
- note
- 论文
- 1. 论文试图解决什么问题
- 2. 这是否是一个新的问题
- 3. 这篇文章要验证一个什么科学假设
- 4. 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
- 5. 论文中提到的解决方案之关键是什么?
- 6. 论文中的实验是如何设计的?
- 7. 用于定量评估的数据集是什么?代码有没有开源?
- 8. 论文中的实验及结果有没有很好地支持需要验证的科学假设?
- 9. 这篇论文到底有什么贡献?
- 10. 下一步呢?有什么工作可以持续深入?
- Reference
论文
新加坡-南洋理工大学发的paper,2023年12月
我们还是从十大问题分析这篇论文,但由于是综述,可能没有实验环节详细的部分。
1. 论文试图解决什么问题
- 一篇关于Visual Instruction Tuning 视觉指令微调任务的综述,Visual Instruction Tuning是为了让多模态LLM拥有指令遵循能力
- 文章介绍传统CV局限性(需要针对不同任务训练不同模型,缺乏交互能力),如下图左侧
- 文章从三方面介绍Visual Instruction Tuning的发展过程:单语言(英语)到多语言、图片输入从单一到多元(从图片到视频/3D图像等)、任务复杂化(从基本的图片分类到VQA视觉问答、图像生成等难任务)
2. 这是否是一个新的问题
去年年底到今年,类似的综述还是不少的。
3. 这篇文章要验证一个什么科学假设
4. 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
相关的视觉微调 公开数据集如下,大部分是GPT3.5或者GPT4构造的,而且多轮对话的visual SFT数据还不少:
5. 论文中提到的解决方案之关键是什么?
跟进一步,视觉微调的主流过程,基于预训练的LLM,将视觉特征token化冰对齐到语言空间中,利用语言模型得到多模态LLM的输出:
6. 论文中的实验是如何设计的?
是综述,没实验。
7. 用于定量评估的数据集是什么?代码有没有开源?
用于多模态视觉微调的评估数据集:
- VQAv2:Visual Question Answering(视觉问答)数据集,广泛用于评估模型在理解图像内容并回答问题方面的能力。
- GQA:Graphic Question Answering数据集,包含复杂的视觉问答任务,测试模型的视觉推理能力。
- OKVQA:Open-ended Knowledge Visual Question Answering数据集,需要外部知识来回答视觉问题,评估模型结合视觉和知识推理的能力。
- OCR-VQA:Optical Character Recognition Visual Question Answering数据集,测试模型在图像中识别和理解文本的能力。
- A-OKVQA:Augmented OKVQA数据集,扩展了OKVQA,包含更多样的问答对,测试模型在多种情境下的知识推理能力。
- MSCOCO:Microsoft Common Objects in Context数据集,包含丰富的图像标注信息,广泛用于图像识别和分割任务。
- TextCaps:数据集专注于图像字幕生成,测试模型在理解图像内容并生成自然语言描述方面的能力。
- RefCOCO、RefCOCO+、RefCOCOg:ReferIt Game数据集的变体,用于评估模型在图像中定位指定对象的能力。
- Visual Genome:包含图像、区域标注和关系描述的数据集,广泛用于视觉问答和图像理解任务。
- Flickr30K:包含丰富的图像及其描述的数据集,用于评估图像字幕生成和图像理解。
- VizWiz:数据集包含盲人用户拍摄的图像和相关问题,用于评估模型在处理实际场景和用户生成内容方面的能力。
- ScienceQA:针对科学领域的问答数据集,测试模型在结合视觉和科学知识回答问题方面的能力。
8. 论文中的实验及结果有没有很好地支持需要验证的科学假设?
略,综述没实验。
9. 这篇论文到底有什么贡献?
这篇综述对Visual Instruction Tuning进行了任务分类:
(1)Discriminative判别式任务:
-
图像分类(Image Classification):利用可学习的
[CLS]
token表示全局图像特征,计算[CLS] token和提示tokens之间的相似性,如下图
-
语义分割(Image Segmentation):常规的语义分割是像素级别的分类任务,LISA模型是根据复杂的query生成分割掩码,理解query并在图像中找到对应的区域(比如找到下面的维C最多的食物并标记),所以这里模型最终生成一张图。
-
目标检测(Object Detection):下图是visionLLM的做法,提出一个指令感知图像分词器(Instruction-Aware Image Tokenizer)有效理解和解析视觉输入,总之是让LLM最终回答出query指向目标的上下左右坐标。VisionLLM 在 COCO 数据集上的目标检测任务中实现了超过 60% 的平均精度(mAP),这与特定于检测的模型相当。
- 视觉定位(Visual Grounding)
(2)生成式任务:
- 图像生成
- 图像编辑
(3)复杂推理任务:
- Image Captioning:图像描述,可以用如MiniGPT-4、Clever Flamingo等模型
- Visual Question Answering:即VQA视觉问答,可以用如MiniGPT-v2、instructBLIP等模型
- Visual Assistant:视觉助手,可以用如LLaVA、Qwen-VL(多任务预训练数据很好)等模型
(4)视频学习的微调:视频理解、视频生成、视频字幕生成等
如video-chatgpt模型(如下),视频具有时序特性,Video-ChatGPT使用预训练的视频编码器将视频分割成多个帧,并提取每一帧的视觉特征。这些视觉特征再经过时序编码,生成包含时序信息的特征向量。用户可以对视频进行提问:
(5)文档学习的视觉微调:
如mPLUG-DocOwl模型:
(6)3D Vision Learning的视觉微调:包括depth estimation, 3D reconstruction(3D重建), object recognition, and scene comprehension(场景理解)等具体任务。
10. 下一步呢?有什么工作可以持续深入?
- 增强模型在视觉和语言之间的对齐能力
- 动态场景理解:比如视频、实时流媒体的多模态输入
- 用于帮助艺术家、设计师进行图像、视频编辑;用于教育领域等
Reference
[1] Visual Instruction Tuning towards General-Purpose Multimodal Model: A Survey
相关文章:

【LLM多模态】综述Visual Instruction Tuning towards General-Purpose Multimodal Model
note 文章目录 note论文1. 论文试图解决什么问题2. 这是否是一个新的问题3. 这篇文章要验证一个什么科学假设4. 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?5. 论文中提到的解决方案之关键是什么?6. 论文中的…...
探索Linux中的神奇工具:重定向符的妙用
探索Linux中的神奇工具:重定向符的妙用 在Linux系统中,重定向符是一个强大的工具,用于控制命令的输入和输出,实现数据流的定向。本文将详细介绍重定向符的基本用法和一些实用技巧,帮助读者更好地理解和运用这个功能。…...
Kubernetes 文档 / 概念 / 工作负载 / 工作负载管理 / Job
Kubernetes 文档 / 概念 / 工作负载 / 工作负载管理 / Job 此文档从 Kubernetes 官网摘录 中文地址 英文地址 Job 会创建一个或者多个 Pod,并将继续重试 Pod 的执行,直到指定数量的 Pod 成功终止。 随着 Pod 成功结束,Job 跟踪记录成功完成的…...

办公自动化-Python如何提取Word标题并保存到Excel中?
办公自动化-Python如何提取Word标题并保存到Excel中? 应用场景需求分析实现思路实现过程安装依赖库打开需求文件获取word中所有标题去除不需要的标题创建工作簿和工作表分割标题功能名称存入测试对象GN-TC需求标识符存入测试项标识存入需求标识符 完整源码实现效果学…...

基于Java、SpringBoot和uniapp在线考试系统安卓APP和微信小程序
摘要 基于Java、SpringBoot和uniapp的在线考试系统安卓APP微信小程序是一种结合了现代Web开发技术和移动应用技术的解决方案,旨在为教育机构提供一个方便、高效和灵活的在线考试平台。该系统采用Java语言进行后端开发,使用SpringBoot框架简化企业级应用…...
抖音a-bogus加密解析(三)
要补的环境我给提示,大家自行操作,出了问题就是因为缺环境,没补好 window global; // reading _u未定义 window.requestAnimationFrame function () {} // XMLHttpRequest 未定义 window.XMLHttpRequest function () {} window.onwheelx …...

IS-IS DIS
原理概述 OSPF 协议支持4种网络类型, IS-IS 协议只支持两种网络类型,即广播网络和点到点网络。与 OSPF 协议相同, IS-IS 协议在广播网络中会将网络视为一个伪节点( Pseudonode ,简称 PSN ),并选举出一台 DIS ( Designa…...
random和range
含义: random(1,10) 不包含10,用于生成随机数。它可以生成浮点数或整数,取决于具体的使用方式。 range(0,1) 不包含1,用于生成一个整数序列。它可以生成一个指定范围内的连续整数序列。 区别在于&#x…...

研二学妹面试字节,竟倒在了ThreadLocal上,这是不要应届生还是不要女生啊?
一、写在开头 今天和一个之前研二的学妹聊天,聊及她上周面试字节的情况,着实感受到了Java后端现在找工作的压力啊,记得在18,19年的时候,研究生计算机专业的学生,背背八股文找个Java开发工作毫无问题&#x…...
Golang:gammazero/deque是一个快速环形缓冲区deque(双端队列)实现
gammazero/deque是一个快速环形缓冲区deque(双端队列)实现。 文档 https://github.com/gammazero/deque 安装 go get github.com/gammazero/deque代码示例 先入先出队列 package mainimport ("fmt""github.com/gammazero/deque&quo…...
C++ 时间处理-统计函数运行时间
1. 关键词2. 问题3. 解决思路4. 代码实现 4.1. timecount.h4.2. timecount.cpp 5. 测试代码6. 运行结果7. 源码地址 1. 关键词 C 时间处理 统计函数运行时间 跨平台 2. 问题 C如何简单便捷地实现“函数运行时间的统计”功能? 3. 解决思路 类的构造函数&#x…...
JAVA面试题大全(十五)
1、Zookeeper 是什么? zookper是一个分布式的,开放源码的分布式应用程序协调服务。是 google chubby 的开源实现,是 hadoop 和 hbase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护…...

使用python对指定文件夹下的pdf文件进行合并
使用python对指定文件夹下的pdf文件进行合并 介绍效果代码 介绍 对指定文件夹下的所有pdf文件进行合并成一个pdf文件。 效果 要合并的pdf文件,共计16个1页的pdf文件。 合并成功的pdf文件:一个16页的pdf文件。 代码 import os from PyPDF2 import …...
Day50 | 309.最佳买卖股票时机含冷冻期 714.买卖股票的最佳时机含手续费 总结
代码随想录算法训练营Day50 | 309.最佳买卖股票时机含冷冻期 714.买卖股票的最佳时机含手续费 总结 LeetCode 309.最佳买卖股票时机含冷冻期 题目链接:LeetCode 309.最佳买卖股票时机含冷冻期 思路: 四个状态。 保持持有股票,保持卖出股票…...

Steam在连接至服务器发生错误/连接服务器遇到问题解决办法
Steam作为全球最大的数字游戏分发平台,构建了一个活跃的玩家社区,用户可以创建个人资料,添加好友,组建群组,参与讨论,甚至直播自己的游戏过程。通过创意工坊,玩家还能分享自制的游戏模组、地图、…...
kafka 工作流程文件存储
爬虫组件分析 目录概述需求: 设计思路实现思路分析1.kafka 工作流程2.kafka 文件存储 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy,skip hardness,make a better result,wait for…...

贪心算法4(c++)
过河的最短时间 题目描述 输入 在漆黑的夜里,N位旅行者来到了一座狭窄而且没有护栏的桥边。如果不借助手电筒的话,大家是无论如何也不敢过桥去的。不幸的是,N个人一共只带了一只手电筒,而桥窄得只够让两个人同时过,如果…...
【无标题】yoloV8目标检测与实例分割--目标检测onnx模型部署
1. 模型转换 ONNX Runtime 是一个开源的高性能推理引擎,用于部署和运行机器学习模型,其设计的目标是优化执行open neural network exchange (onnx)格式定义各模型,onnx是一种用于表示机器学习模型的开放标准。ONNX Ru…...

深入理解与防御跨站脚本攻击(XSS):从搭建实验环境到实战演练的全面教程
跨站脚本攻击(XSS)是一种常见的网络攻击手段,它允许攻击者在受害者的浏览器中执行恶意脚本。以下是一个XSS攻击的实操教程,包括搭建实验环境、编写测试程序代码、挖掘和攻击XSS漏洞的步骤。 搭建实验环境 1. 安装DVWAÿ…...

初步认识栈和队列
Hello,everyone,今天小编讲解栈和队列的知识!!! 1.栈 1.1栈的概念及结构 栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。 进行数据插入和删除操作的一端 称为栈顶&…...

stm32G473的flash模式是单bank还是双bank?
今天突然有人stm32G473的flash模式是单bank还是双bank?由于时间太久,我真忘记了。搜搜发现,还真有人和我一样。见下面的链接:https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...

基于ASP.NET+ SQL Server实现(Web)医院信息管理系统
医院信息管理系统 1. 课程设计内容 在 visual studio 2017 平台上,开发一个“医院信息管理系统”Web 程序。 2. 课程设计目的 综合运用 c#.net 知识,在 vs 2017 平台上,进行 ASP.NET 应用程序和简易网站的开发;初步熟悉开发一…...
在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中,手势开发全攻略:
在 HarmonyOS 应用开发中,手势交互是连接用户与设备的核心纽带。ArkTS 框架提供了丰富的手势处理能力,既支持点击、长按、拖拽等基础单一手势的精细控制,也能通过多种绑定策略解决父子组件的手势竞争问题。本文将结合官方开发文档,…...

循环冗余码校验CRC码 算法步骤+详细实例计算
通信过程:(白话解释) 我们将原始待发送的消息称为 M M M,依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)(意思就是 G ( x ) G(x) G(x) 是已知的)࿰…...

【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现(服务端执行命令请求的过程 - 初始化服务器)
服务端执行命令请求的过程 【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生 初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...
基础测试工具使用经验
背景 vtune,perf, nsight system等基础测试工具,都是用过的,但是没有记录,都逐渐忘了。所以写这篇博客总结记录一下,只要以后发现新的用法,就记得来编辑补充一下 perf 比较基础的用法: 先改这…...
WEB3全栈开发——面试专业技能点P2智能合约开发(Solidity)
一、Solidity合约开发 下面是 Solidity 合约开发 的概念、代码示例及讲解,适合用作学习或写简历项目背景说明。 🧠 一、概念简介:Solidity 合约开发 Solidity 是一种专门为 以太坊(Ethereum)平台编写智能合约的高级编…...

Java面试专项一-准备篇
一、企业简历筛选规则 一般企业的简历筛选流程:首先由HR先筛选一部分简历后,在将简历给到对应的项目负责人后再进行下一步的操作。 HR如何筛选简历 例如:Boss直聘(招聘方平台) 直接按照条件进行筛选 例如:…...
Rapidio门铃消息FIFO溢出机制
关于RapidIO门铃消息FIFO的溢出机制及其与中断抖动的关系,以下是深入解析: 门铃FIFO溢出的本质 在RapidIO系统中,门铃消息FIFO是硬件控制器内部的缓冲区,用于临时存储接收到的门铃消息(Doorbell Message)。…...

优选算法第十二讲:队列 + 宽搜 优先级队列
优选算法第十二讲:队列 宽搜 && 优先级队列 1.N叉树的层序遍历2.二叉树的锯齿型层序遍历3.二叉树最大宽度4.在每个树行中找最大值5.优先级队列 -- 最后一块石头的重量6.数据流中的第K大元素7.前K个高频单词8.数据流的中位数 1.N叉树的层序遍历 2.二叉树的锯…...