多模态大语言模型arxiv论文略读(四)

A Survey on Multimodal Large Language Models
➡️ 论文标题:A Survey on Multimodal Large Language Models
➡️ 论文作者:Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, Enhong Chen
➡️ 研究机构: 中国科学技术大学、腾讯优图实验室
➡️ 问题背景:近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)以其强大的能力,如基于图像编写故事和无需OCR的数学推理,成为研究热点。这些模型利用大规模语言模型(LLMs)作为“大脑”来执行多模态任务,展示了通向通用人工智能的潜在路径。自GPT-4发布以来,MLLMs的研究热潮不断,学术界和工业界都在努力开发能够与GPT-4V竞争甚至超越的MLLMs。
➡️ 研究动机:本文旨在追踪和总结MLLMs的最新进展,为研究人员提供该领域的基本概念、主要方法和当前进展的概览。文章不仅关注视觉和语言模态,还涵盖了涉及视频和音频模态的工作。此外,文章还开放了一个GitHub页面,实时更新最新的研究进展。
➡️ 方法简介:文章首先介绍了MLLMs的基本构成,包括架构、训练策略和数据、以及评估方法。随后,文章深入讨论了MLLMs的几个重要话题,如如何进一步改进或扩展MLLMs、如何缓解多模态幻觉问题等。文章还介绍了三个关键技术:多模态上下文学习(M-ICL)、多模态链式思维(M-CoT)和基于LLM的视觉推理(LAVR)。
➡️ 实验设计:文章没有具体描述实验设计,而是通过综述的形式,总结了MLLMs的架构、训练策略、数据集选择、评估方法等方面的内容。文章还讨论了现有的挑战,并指出了未来的研究方向。
Kosmos-2: Grounding Multimodal Large Language Models to the World
➡️ 论文标题:Kosmos-2: Grounding Multimodal Large Language Models to the World
➡️ 论文作者:Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei
➡️ 研究机构: Microsoft Research
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)已经在多种任务中展现出强大的能力,包括语言、视觉和视觉-语言任务。然而,这些模型在处理复杂多模态任务时的能力仍有待提升,特别是在将文本描述与视觉世界中的对象进行精确关联(grounding)方面。
➡️ 研究动机:为了增强多模态大语言模型在视觉-语言任务中的表现,特别是提高模型在理解对象描述(如边界框)和将文本与视觉世界关联方面的能力,研究团队开发了KOSMOS-2。KOSMOS-2不仅继承了KOSMOS-1的多模态感知能力,还引入了新的grounding能力,使模型能够更准确地理解和响应视觉输入。
➡️ 方法简介:研究团队通过构建大规模的grounded image-text对数据集(GRIT),来训练KOSMOS-2。GRIT数据集基于LAION-2B和COYO-700M的子集构建,通过预训练的检测器和grounding模型,将文本中的名词短语和指代表达与图像中的对象区域关联起来。KOSMOS-2采用Transformer架构,通过next-word预测任务进行训练,能够处理文本、图像和grounded image-text对。
➡️ 实验设计:KOSMOS-2在多个任务上进行了评估,包括多模态grounding(如短语grounding和指代表达理解)、多模态指代(如指代表达生成)、感知-语言任务(如图像描述和视觉问答)以及语言任务(如语言理解和生成)。实验结果表明,KOSMOS-2在grounding任务上表现出色,特别是在短语grounding和指代表达理解任务上,显著优于现有的零样本模型。
Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic
➡️ 论文标题:Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic
➡️ 论文作者:Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu, Rui Zhao
➡️ 研究机构: SenseTime Research, SKLSDE, Beihang University, SEIEE, Qing Yuan Research Institute, Shanghai Jiao Tong University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理图像内容时,虽然能够感知图像,但无法与用户就图像中的具体位置进行对话。这种局限性阻碍了MLLMs在日常交流中的应用,例如在混合现实(XR)头戴设备、视觉机器人交互和在线购物等场景中,用户需要指示图像中的特定区域,而模型需要准确地理解并回应这些指示。
➡️ 研究动机:为了填补这一空白,研究团队提出了Shikra,一个能够处理空间坐标输入和输出的多模态大语言模型。Shikra的设计旨在实现参照对话(Referential Dialogue, RD),即模型能够理解用户对图像中特定区域的指示,并在回应时指明这些区域。这一能力不仅扩展了MLLMs的应用范围,还为视觉-语言任务(如视觉问答VQA、图像描述和位置相关任务REC、PointQA)提供了新的解决方案。
➡️ 方法简介:Shikra的架构包括一个视觉编码器、一个对齐层和一个大语言模型(LLM)。该模型通过自然语言形式处理所有输入和输出的坐标,无需额外的词汇表、位置编码器、预/后检测模块或外部插件模型。研究团队通过构建和利用高质量的参照对话数据集(如Flickr30K Entities)来训练Shikra,使其能够灵活地处理位置信息。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉问答(VQA)、图像描述和参照表达理解(REC)等任务。实验设计了不同的任务形式,如Spotting Captioning,要求模型描述图像并指出提到的对象或区域。此外,研究团队还通过GPT-4生成了高质量的参照对话数据,以增强模型在处理位置信息时的性能。实验结果表明,Shikra在处理位置信息时表现出色,不仅在传统的视觉-语言任务中取得了良好的成绩,还在未见过的设置中展现了强大的应用潜力。
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding
➡️ 论文标题:mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding
➡️ 论文作者:Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Yuhao Dan, Chenlin Zhao, Guohai Xu, Chenliang Li, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang
➡️ 研究机构: DAMO Academy, Alibaba Group
➡️ 问题背景:现有的多模态大语言模型(MLLMs)在无需特定训练的情况下,已经展示了在浅层OCR-free文本识别任务中的潜力,但这些模型在处理复杂文档理解任务时,如图表、文档和网页中的复杂文本和对象关系,仍面临挑战。
➡️ 研究动机:为了克服现有MLLMs在复杂文档理解任务中的局限性,研究团队提出了mPLUG-DocOwl,通过统一的指令调优策略,增强了模型在文档理解任务中的表现,同时保持了通用的单模态和多模态能力。
➡️ 方法简介:mPLUG-DocOwl基于mPLUG-Owl,通过构建一个包含广泛视觉-文本理解任务的指令调优数据集,以及一个OCR-free文档指令理解评估集LLMDoc,来评估模型的指令理解和文档理解能力。在训练过程中,视觉编码器和语言模型保持冻结,仅对视觉抽象器和语言模型的低秩适应(LoRA)进行微调。
➡️ 实验设计:实验在多个公开数据集上进行,包括文档理解、图表理解、自然图像和网页理解等任务。实验设计了不同类型的指令,如视觉问题回答、信息提取、自然语言推理和图像描述,以全面评估模型在不同任务中的表现。实验结果表明,mPLUG-DocOwl在OCR-free文档理解任务中超越了现有方法,包括多个标准基准和LLMDoc评估集。
ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning
➡️ 论文标题:ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning
➡️ 论文作者:Liang Zhao, En Yu, Zheng Ge, Jinrong Yang, Haoran Wei, Hongyu Zhou, Jianjian Sun, Yuang Peng, Runpei Dong, Chunrui Han, Xiangyu Zhang
➡️ 研究机构: MEGVII Technology, Huazhong University of Science and Technology, Tsinghua University, Xian Jiaotong University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在人机交互方面展现了巨大的潜力,但现有的端到端MLLMs仅允许用户通过语言指令与其交互,这限制了交互的准确性和效率。特别是在处理复杂场景时,仅使用语言难以准确描述用户需求。
➡️ 研究动机:为了克服现有MLLMs在交互形式上的局限性,研究团队提出了一种新的方法,通过引入精确引用指令(Precise Referring Instructions),利用点和框等引用提示来指代特定区域,使MLLMs能够更精细地与用户交互。这种方法不仅提高了交互的灵活性和用户友好性,还增强了模型在特定区域任务中的表现。
➡️ 方法简介:研究团队提出了ChatSpot,一个统一的端到端多模态大语言模型,支持多种交互形式,包括鼠标点击、拖放和绘制框。ChatSpot通过设计一个简单但有效的精确引用指令调优方法,构建了一个高质量的多粒度视觉-语言指令跟随数据集(MGVLID),并设计了一系列评估任务来测试模型的有效性。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉-语言任务和视觉任务。实验设计了不同类型的指令(如图像级指令和区域级指令),以及不同的评估指标,以全面评估ChatSpot在区域识别、零样本学习和多轮对话等方面的能力。实验结果表明,ChatSpot在多个任务上表现优异,特别是在区域分类和光学字符识别任务中。
相关文章:
多模态大语言模型arxiv论文略读(四)
A Survey on Multimodal Large Language Models ➡️ 论文标题:A Survey on Multimodal Large Language Models ➡️ 论文作者:Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, Enhong Chen ➡️ 研究机构: 中国科学技术大学、腾讯优图…...
空对象模式(Null Object Pattern)在C#中的实现详解
一 、什么是空对象模式 空对象模模是靠”空对孔象式是书丯一种引施丼文行为,行凌,凌万成,个默疤"空象象象象来飞䛿引用用用用电从延盈盈甘仙丿引用用用职从延务在仅代砷易行行 」这种燕式亲如要目的片片 也说媚平父如如 核心思烟 定义一个人 派一个 � 创建…...
在kotlin的安卓项目中使用dagger
在 Kotlin 的 Android 项目中使用 Dagger(特别是 Dagger Hilt,官方推荐的简化版)进行依赖注入(DI)可以大幅提升代码的可测试性和模块化程度。 1. 配置 Dagger Hilt 1.1 添加依赖 在 bu…...
(三)链式工作流构建——打造智能对话的强大引擎
上一篇:(二)输入输出处理——打造智能对话的灵魂 在前两个阶段,我们已经搭建了一个基础的智能对话,并深入探讨了输入输出处理的细节。今天,我们将进入智能对话的高级阶段——链式工作流构建。这一阶段的目…...
python三大库之---pandas(二)
python三大库之—pandas(二) 文章目录 python三大库之---pandas(二)六,函数6.1、常用的统计学函数6.2重置索引6.3 遍历6.3.1DataFrame 遍历6.3.2 itertuples()6.3.3 使用属性遍历 6.4 排序6.4.1 sort_index6.4.2 sort_…...
php7.4.3连接MSsql server方法
需要下载安装Microsoft Drivers for PHP for SQL Server驱动, https://download.csdn.net/download/tjsoft/90568178 实操Win2008IISphp7.4.3连接SqlServer2008数据库所有安装包资源-CSDN文库 适用于 SQL Server 的 PHP 的 Microsoft 驱动程序支持与 SQL Server …...
Flask返回文件方法详解
在 Flask 中返回文件可以通过 send_file 或 send_from_directory 方法实现。以下是详细方法和示例: 1. 使用 send_file 返回文件 这是最直接的方法,适用于返回任意路径的文件。 from flask import Flask, send_fileapp = Flask(__name__)@app.route("/download")…...
JS中的Promise对象
基本概念 Promise 是 JavaScript 中用于处理异步操作的对象。它代表一个异步操作的最终完成及其结果值。Promise 提供了一种更优雅的方式来处理异步代码,避免了传统的回调地狱。 Promise 有三种状态 Pending(等待中):初始状态&…...
macOS设置定时播放眼保健操
文章目录 1. ✅方法一:直接基于日历2. 方法二:基于脚本2.1 音乐文件获取(ncm转mp3)2.2 创建播放音乐任务2.3 脚本实现定时播放 1. ✅方法一:直接基于日历 左侧新建一个日历,不然会和其他日历混淆,看起来会有点乱 然后…...
Python 小练习系列 | Vol.14:掌握偏函数 partial,用函数更丝滑!
🧩 Python 小练习系列 | Vol.14:掌握偏函数 partial,用函数更丝滑! 本节的 Python 小练习系列我们将聚焦一个 冷门但高能 的工具 —— functools.partial。它的作用类似于“函数的预设模板”,能帮你写出更加灵活、优雅…...
记录学习的第二十三天
老样子,每日一题开胃。 我一开始还想着暴力解一下试试呢,结果不太行😂 接着两道动态规划。 这道题我本来是想用最长递增子序列来做的,不过实在是太麻烦了,实在做不下去了。 然后看了题解,发现可以倒着数。 …...
Web品质 - 重要的HTML元素
Web品质 - 重要的HTML元素 在构建一个优秀的Web页面时,HTML元素的选择和运用至关重要。这些元素不仅影响页面的结构,还直接关系到页面的可用性、可访问性和SEO表现。本文将深入探讨一些关键的HTML元素,并解释它们在提升Web品质方面的重要性。 1. <html> 根元素 HTM…...
SpringBoot整合sa-token,Redis:解决重启项目丢失登录态问题
SpringBoot整合sa-token,Redis:解决重启项目丢失登录态问题 🔥1. 痛点直击:为什么登录状态会消失?2.实现方案2.1.导入依赖2.2.新增yml配置文件 3.效果图4.结语 😀大家好!我是向阳🌞&…...
Python 字典和集合(子类化UserDict)
本章内容的大纲如下: 常见的字典方法 如何处理查找不到的键 标准库中 dict 类型的变种set 和 frozenset 类型 散列表的工作原理 散列表带来的潜在影响(什么样的数据类型可作为键、不可预知的 顺序,等等) 子类化UserDict 就创造自…...
npm fund 命令的作用
运行别人的项目遇到这个问题: npm fund 命令的作用 npm fund 是 npm 提供的命令,用于显示项目依赖中哪些包需要资金支持。这些信息来自包的 package.json 中定义的 funding 字段,目的是帮助开发者了解如何支持开源维护者。 典型场景示例 假…...
ES:账号、索引、ILM
目录 笔记1:账号权限查看、查看账号、创建账号等查看所有用户查看特定用户验证权限修改用户权限删除用户 笔记2:索引状态和内容的查看等查看所有索引查看特定索引内容查看索引映射查看索引设置查看索引统计信息查看ILM策略 笔记1:账号权限查看…...
哈希表(开散列)的实现
目录 引入 开散列的底层实现 哈希表的定义 哈希表的扩容 哈希表的插入 哈希表查找 哈希表的删除 引入 接上一篇,我们使用了闭散列的方法解决了哈希冲突,此篇文章将会使用开散列的方式解决哈希冲突,后面对unordered_set和unordered_map的…...
#在docker中启动mysql之类的容器时,没有挂载的数据...在后期怎么把数据导出外部
如果要导出 Docker 容器内的 整个目录(包含所有文件及子目录),可以使用以下几种方法: 方法 1:使用 docker cp 直接复制目录到宿主机 适用场景:容器正在运行或已停止(但未删除)。 命…...
[蓝桥杯] 挖矿(CC++双语版)
题目链接 P10904 [蓝桥杯 2024 省 C] 挖矿 - 洛谷 题目理解 我们可以将这道题中矿洞的位置理解成为一个坐标轴,以题目样例绘出坐标轴: 样例: 输入的5为矿洞数量,4为可走的步数。第二行输入是5个矿洞的坐标。输出结果为在要求步数…...
Johnson算法 流水线问题 java实现
某印刷厂有 6项加工任务J1,J2,J3,J4,J5,J6,需要在两台机器Mi和M2上完 成。 在机器Mi上各任务所需时间为5,1,8,5,3,4单位; 在机器M2上各任务所需时间为7,2,2,4,7,4单位。 即时间矩阵为: T1 {5, …...
远程监控系统项目里练习
1、项目目标 设备端: (1)基于stm32mp157开发板,裁剪linux5.10.10,完成ov5640摄像头移植; (2)完成用户层程序,完成对摄像头的控制及与云端服务的数据交互。 云端&…...
安装并配置Maven
如图所示,解压安装包,配置环境变量,在bin目录那个界面新建文件夹repository,写上安装路径的坐标,修改Maven仓库镜像,输入cmd验证是否安装成功 <mirror><id>alimaven</id><mirrorOf>…...
PlatformIO 自定义脚本选择编译库源文件 - 设置只用于C++ 的编译选项
PlatformIO 只支持以文件夹为单位选择要编译的源文件,不像Keil 或者CMake,可以手动控制每一个源文件。而且默认只会将库的src 文件夹下的源文件全部加入编译。比如,某个库的文件结构如下: libx src include mem| a.c| b.c| c.c…...
dolphinscheduler单机部署链接oracle
部署成功请给小编一个赞或者收藏激励小编 1、安装准备 JDK版本:1.8或者1.8oracle版本:19Coracle驱动版本:8 2、安装jdk 下载地址:https://www.oracle.com/java/technologies/downloads/#java8 下载后上传到/tmp目录下。 然后执行下面命…...
MongoDB常见面试题总结(上)
MongoDB 基础 MongoDB 是什么? MongoDB 是一个基于 分布式文件存储 的开源 NoSQL 数据库系统,由 C 编写的。MongoDB 提供了 面向文档 的存储方式,操作起来比较简单和容易,支持“无模式”的数据建模,可以存储比较复杂…...
java基础 迭代Iterable接口以及迭代器Iterator
Itera迭代 Iterable < T>迭代接口(1) Iterator iterator()(2) forEach(Consumer<? super T> action)forEach结合Consumer常见场景forEach使用注意细节 (3)Spliterator spliterator() Iterator< T>迭代器接口如何“接收” Iterator<T>核心方法迭代器的…...
CentOS禁用nouveau驱动
1、验证 nouveau 是否在运行 lsmod | grep nouveau如果命令返回结果,说明 nouveau 驱动正在运行。 2、编辑黑名单文件 通过编辑黑名单配置文件来禁用 nouveau 驱动,这样在系统启动时不会加载它。 vi /etc/modprobe.d/blacklist-nouveau.conf修改以下…...
Linux 时间同步工具 Chrony 简介与使用
一、Chrony 是什么? chrony 是一个开源的网络时间同步工具,主要由两个组件组成: chronyd:后台服务进程,负责与时间服务器交互,同步系统时钟。chronyc:命令行工具,用于手动查看或修…...
C语言:字符串处理函数strstr分析
在 C 语言中,strstr 函数用于查找一个字符串中是否存在另一个字符串。它的主要功能是搜索指定的子字符串,并返回该子字符串在目标字符串中第一次出现的位置的指针。如果没有找到子字符串,则返回 NULL。 详细说明: 头文件…...
28--当路由器开始“宫斗“:设备控制面安全配置全解
当路由器开始"宫斗":设备控制面安全配置全解 引言:路由器的"大脑保卫战" 如果把网络世界比作一座繁忙的城市,那么路由器就是路口执勤的交通警察。而控制面(Control Plane)就是警察的大脑…...
