多模态视觉大语言模型——LLaVA
论文题目:Visual Instruction Tuning
论文地址:https://arxiv.org/abs/2304.08485
github: https://github.com/haotian-liu/LLaVA
1. Abstract
本文首次尝试使用GPT-4生成多模态指令数据,并基于这些数据训练了LLaVA(Large Language and Vision Assistant)模型,这是一种结合视觉编码器和语言模型的多模态大模型,用于视觉和语言理解。实验表明,LLaVA在多模态任务上表现优异,与GPT-4结合后实现了92.53%最佳准确率。研究还提供了公开数据、模型和代码,以促进视觉指令跟随领域的研究。
2. Instruction
人工智能领域的一个核心目标是开发一个通用的助手,能够有效地遵循多模态的视觉和语言指令,与人类的意图相一致,来完成各种现实世界的任务。这需要将视觉信息与语言语义进行映射,这是人类交流的通用渠道。
为了实现这一目标,社区对开发语言增强的基础视觉模型产生了浓厚兴趣。这些模型在开放世界的视觉理解方面具有强大的能力,包括分类、检测、分割、图像描述和视觉生成与编辑等任务。这些任务通常由单个大型视觉模型独立解决,任务指令隐含地体现在模型设计中。然而,这种做法限制了模型的交互性和适应性。
另一方面,大型语言模型(LLM)表明语言可以发挥更广泛的作用:成为通用助手的通用接口,各种任务指令可以直接地用语言表示,并指导端到端训练的神经助手切换到感兴趣的特定任务进行解决。例如,ChatGPT 和 GPT-4 的成功展示了与人类指令对齐的 LLM 的强大能力,并激发了开发开源 LLM 的巨大兴趣。其中,LLaMA 是一个开源 LLM,其性能与 GPT-3 相当。Alpaca、Vicuna 和 GPT-4-LLM 等模型利用各种机器生成的优质基于指令的样本来提高 LLM 的对齐能力,与专有 LLM 相比表现出令人印象深刻的结果。重要的是,这一领域的工作仅限于文本。
在这篇论文中,作者提出了视觉指令微调(Visual Instruction-tuning),这是首次将指令微调扩展到语言-图像多模态空间,为构建通用视觉助手铺平道路。具体来说,论文有以下贡献:
-
基于多模态指令数据:一个关键挑战是缺乏基于视觉-语言指令数据。提出了一种数据重塑的视角和流程,利用ChatGPT/GPT-4将图像-文本对转换为适当的指令格式。
-
大型多模态模型:开发了一个大型多模态模型(LMM),通过将CLIP的开集视觉编码器与语言解码器Vicuna连接起来,并在作者自己构建的指令视觉-语言数据上进行端到端微调。实证研究验证了使用生成数据进行LMM指令微调的有效性,并提出了构建通用指令视觉agent的实用技巧。当与GPT-4结合时,LLaVA在Science QA 多模态推理数据集上实现了SoTA结果。
-
多模态指令基准数据:提出了LLaVA-Bench,包含两个具有挑战性的基准,包含多样化的配对图像、指令和详细标注。
-
开源:作者向公众发布了以下资产:生成的多模态指令数据、代码库、模型检查点和视觉聊天演示。
总结来说,这篇论文通过提出视觉指令微调技术,为构建通用视觉助手提供了新的思路和方法,并通过多模态指令跟随数据、大型多模态模型和开源资产,为相关领域的研究和应用提供了有力支持。
3. Related Work
3.1 Multimodal Instruction-following Agents
-
端到端训练的模型:这类模型针对每个具体的研究主题分别进行探索。例如,在视觉语言导航任务和Habitat 中,需要让具有实体的AI agent遵循自然语言指令,并在视觉环境中执行一系列动作以完成目标。在图像编辑领域,给定一个输入图像和一个书面指令,InstructPix2Pix 通过遵循人类指令来编辑图像。
-
通过LangChain/ LLMs协调各种模型的系统:这类系统包括Visual ChatGPT、X-GPT、MM-REACT、VisProg和ViperGPT等。尽管这些系统在构建基于指令Agent 方面有共同的目标,但它们通常是通过不同的模型和架构来实现的。
虽然在构建基于指令agents方面有相同的目标,但本文专注于为多个任务开发一个端到端训练的语言视觉多模态模型。
3.2 In
相关文章:
多模态视觉大语言模型——LLaVA
论文题目:Visual Instruction Tuning 论文地址:https://arxiv.org/abs/2304.08485 github: https://github.com/haotian-liu/LLaVA 1. Abstract 本文首次尝试使用GPT-4生成多模态指令数据,并基于这些数据训练了LLaVA(Large Language and Vision Assistant)模型,这是一种结…...
服务注册到nacos上,不能点击下线的问题处理
nacos不能下线: 修改 /usr/local/mid/nacos/data 文件夹下 protocol 文件重命名为 protocol_bak,然后再重启nacos nacos单机启动命令:cd sh startup.sh -m standalone nginx启动命令:cd /usr/local/mid/nginx/sbin ./…...
未来3-5年,哪些工作会被AI取代
一篇由高盛经济学家约瑟夫布里格斯 (Joseph Briggs)和德维西科德纳尼 (Devesh Kodnani)撰写的报告指出,全球预计将有3亿个工作岗位被生成式AI取代。 报告称:“最近出现的生成式人工智能将降低劳动力成本和…...
鸿蒙系统开发【网络管理】
网络管理 介绍 此Demo展示如何查询网络详情、域名解析、网络状态监听等功能。 效果预览: 使用说明: 1.启动应用,在点击检查网络、网络详情、网络连接信息后,展示对应的信息; 2.在域名解析的模块下,输入…...
nginx如何处理请求
nginx如何处理请求 注:内容翻译自Nginx官网文档 How nginx processes a request。 基于名称的虚拟服务器 nginx首先要决定哪个服务器应该处理请求。让我们从一个简单的配置开始,三个虚拟服务器都监听在端口*:80: server {listen 80;server_name e…...
换地不换IP?揭秘微博IP地址的奥秘
在这个信息飞速传递的时代,社交媒体成为我们生活中不可或缺的一部分。微博,作为其中的佼佼者,不仅是我们获取资讯的重要渠道,也是展现自我、分享生活的重要平台。然而,你有没有遇到过这样的情况:明明已经换…...
数据库事务处理技术——故障恢复
1. 数据故障恢复的宏观思路 我们知道DBMS是利用内存(主存)和外存(辅存)这样的存储体系进行数据库的管理,其中内存也就是我们常说的缓存是易失的。而事务时DBMS对数据库进行控制的基本单元,宏观上是由程序设…...
Java零基础之多线程篇:性能考虑篇
哈喽,各位小伙伴们,你们好呀,我是喵手。运营社区:C站/掘金/腾讯云;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点,并以文字的形式跟大家一起交流,互相学习,一…...
CSP 初赛复习 :计算机网络基础
计算机网络的基础和网络的拓扑结构是计算机网络设计和实施的关键要素。 计算机网络的基础涉及多个方面,包括网络层协议(如IP、ICMP、IGMP等)、传输层协议(TCP、UDP等)以及应用层协议(…...
【Docker应用】快速搭建Plik服务结合内网穿透无公网IP远程访问传输文件
文章目录 前言1. Docker部署Plik2. 本地访问Plik3. Linux安装Cpolar4. 配置Plik公网地址5. 远程访问Plik6. 固定Plik公网地址7. 固定地址访问Plik 前言 本文介绍如何使用Linux docker方式快速安装Plik并且结合Cpolar内网穿透工具实现远程访问,实现随时随地在任意设…...
记录使用FlinkSql进行实时工作流开发
使用FlinkSql进行实时工作流开发 引言Flink SQL实战常用的Connector1. MySQL-CDC 连接器配置2. Kafka 连接器配置3. JDBC 连接器配置4. RabbitMQ 连接器配置5. REST Lookup 连接器配置6. HDFS 连接器配置 FlinkSql数据类型1. 基本数据类型2. 字符串数据类型3. 日期和时间数据类…...
韶音开放式耳机怎么样?韶音、西圣、QCY热门款实测横评
开放式耳机是目前最火爆的的耳机市场细分赛道,开放式耳机的优点包括健康卫生,佩戴舒适性高,方便我们接收外部环境音等等,以上这些优势使得开放式耳机特别适配户外运动场景,在工作、日常生活等场景下使用也是绰绰有余。…...
求值(河南萌新2024)
我真的服了,注意数据范围!!!!!!!!!!!!!!!!!!&#…...
【Linux】文件描述符 fd
目录 一、C语言文件操作 1.1 fopen和fclose 1.2 fwrite和fread 1.3 C语言中的输入输出流 二、Linux的文件系统调用 2.1 open和文件描述符 2.2 close 2.3 read 2.4 write 三、Linux内核数据结构与文件描述符 一、C语言文件操作 在C语言中我们想要打开一个文件并对其进…...
带通采样定理
一、采样定理 1.1 低通采样定理(奈奎斯特采样) 低通采样定理(奈奎斯特采样)是要求大于信号的最高上限频率的两倍 1.2 带通采样定理 带通信号的采样频率在某个时间小于采样频率也能无失真恢复原信号 二、频谱混叠 对一个连续时域信号,采…...
运维工作中的事件、故障排查处理思路
一、运维工作中的事件 https://www.51cto.com/article/687753.html 二、运维故障排查 一)故障排查步骤 1、明确故障 故障现象的直接表现故障发生的时间、频率故障发生影响哪些系统故障发生是否有明确的触发条件 故障举例:无法通过ssh登录系统 影响…...
深入源码P3C-PMD:使用流程(1)
PMD开源组件启动流程介绍 在软件开发领域,代码质量是项目成功的关键因素之一。为了提升代码质量,开发者们常常借助各种工具进行代码分析和检查。PMD作为一款开源的静态代码分析工具,在Java、JavaScript、PLSQL等语言项目中得到了广泛应用。本…...
java~反射
反射 使用的前提条件:必须先得到代表的字节码的Class,Class类用于表示.class文件(字节码) 原理图 加载完类后,在堆中就产生了一个Class类型的对象(一个类只有一个Class对象),这个对…...
【Linux】(26) 详解磁盘与文件系统:从物理结构到inode机制
目录 1.认识磁盘、 1.1 理论 1.2 磁盘的物理结构 CHS 寻址 1.3 磁盘的逻辑抽象结构 2. inode 结构 1.Boot Block 启动块 2.Super Block(超级块) 3.Group Descriptor Block(块组描述符) 4.Data Blocks (数据块) 5.Inode…...
8.1 字符串中等 43 Multiply Strings 38 Count and Say
43 Multiply Strings【默写】 那个难点我就没想先解决,原本想法是先想其他思路,但也没想出。本来只想chat一下使用longlong数据类型直接stoi()得不得行,然后就看到了答案,直接一个默写的大动作。但这道题确实考察的是还原乘法&…...
agent实习面经(十一)
来自网络,侵删 先完成,再完美 某东,某节1.LLM 为什么有幻觉,如何减少 LLM 幻觉?1.1概率生成机制:LLM 本质是基于统计概率预测下一个 token,而非检索事实数据库。当训练数据中缺乏确切信息或模…...
解锁新可能:ArkData 在智能穿戴设备中的应用
解锁新可能:ArkData 在智能穿戴设备中的应用随着人们对健康生活的重视,智能穿戴设备愈发普及。这些设备能够实时收集心率、步数、睡眠等健康数据,为人们的健康管理提供重要参考。在这一背景下,如何高效管理和利用这些健康数据成为…...
【FastAPI 2.0流式AI响应核心机密】:3大异步协程调度陷阱、2处EventSource底层劫持点、1个未公开的StreamingResponse状态机设计缺陷
第一章:FastAPI 2.0流式AI响应的架构演进与设计哲学FastAPI 2.0 将流式响应能力从实验性支持提升为核心原语,其底层重构了 Starlette 的响应生命周期与事件循环集成机制,使 Server-Sent Events(SSE)、text/event-strea…...
小型电商自动化:OpenClaw+nanobot处理订单邮件
小型电商自动化:OpenClawnanobot处理订单邮件 1. 为什么选择OpenClaw处理电商订单 作为一个经营小型电商的个体商户,我每天要处理几十封来自Gmail的订单邮件。这些邮件包含客户信息、商品清单和收货地址,需要手动录入到库存表格、生成物流单…...
CI/CD 流水线性能优化:从构建到部署
CI/CD 流水线性能优化:从构建到部署 前言 哥们,别整那些花里胡哨的理论。今天直接上硬菜——我在大厂一线优化 CI/CD 流水线性能的真实经验总结。作为一个白天写前端、晚上打鼓的硬核工程师,我对效率的追求就像对鼓点节奏的把控一样严格。 背…...
基于springboot的某学院勤工俭学岗位兼职平台设计与实现
目录 技术选型与架构设计核心功能模块划分数据库设计要点关键代码实现示例安全与权限控制测试与部署计划扩展性考虑 项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 技术选型与架构设计 后端采用SpringBoot框架,集…...
1.1 AI技术全景图:从传统ML到大模型
AI技术全景图:从传统ML到大模型本文适合谁:完全没有AI背景的读者。读完这篇,你会知道"AI/机器学习/深度学习/大模型"这几个词是什么关系,以及你将要学的东西在整个AI世界里处于什么位置。AI发展经历了三个时代——本文带…...
5分钟搞定ollama+qwen2.5模型配置:从下载到对话测试全流程指南
5分钟极速部署ollama与qwen2.5:零基础打造本地AI对话系统 在AI技术平民化的今天,拥有一个本地运行的对话模型不再是专业开发者的专利。本文将带您用最短时间完成ollama服务部署与qwen2.5模型配置,无需复杂环境搭建,从零开始构建属…...
医疗文本处理实战:用jieba分词器搞定妇科专业术语分词(附完整词典配置)
医疗文本处理实战:用jieba分词器精准解析妇科专业术语 在医疗信息化和自然语言处理领域,专业术语的准确识别一直是技术难点。特别是妇科临床文本中,"妇科凝胶"、"宫颈刮片"等复合型专业词汇的切割问题,直接影…...
3步打造专属游戏体验:面向MOD爱好者的整合包使用指南
3步打造专属游戏体验:面向MOD爱好者的整合包使用指南 【免费下载链接】DOL-CHS-MODS Degrees of Lewdity 整合 项目地址: https://gitcode.com/gh_mirrors/do/DOL-CHS-MODS 你是否曾因MOD安装流程复杂而放弃尝试?面对众多版本选择时是否感到无从下…...
