探索多模态大语言模型(MLLMs)的推理能力
探索多模态大语言模型(MLLMs)的推理能力
Multimodal Large Language Models (MLLMs)
flyfish
原文:Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning
论文地址
多模态大语言模型(Multimodal Large Language Models, MLLMs)是指那些可以处理和生成多种类型数据的大型机器学习模型,而不仅仅局限于文本。传统的语言模型主要专注于理解和生成自然语言文本,但多模态模型能够结合文本与其他形式的数据,如图像、音频、视频等。
什么是多模态?
“多模态”这个术语指的是信息的不同表达形式或渠道。在人工智能领域,它通常指模型能够处理来自不同来源或具有不同性质的数据。例如:
文本:句子、段落、文档等。
图像:照片、插图、图表等。
音频:语音、音乐、环境声音等。
视频:电影、演示文稿、监控录像等。
探索多模态大语言模型(MLLMs)的推理能力:多模态推理新兴趋势的全面综述。
展示了多模态大语言模型的发展历程,通过不同的路径和节点展示了模型之间的继承关系和技术演进。每条路径代表了一种特定的技术方向,而节点则代表了在这个方向上的具体模型
大型语言模型(LLMs)的最新进展,以及新兴的多模态大语言模型(MLLMs)领域,在广泛的多模态任务和应用中展现出了令人瞩目的能力。特别是,各种具有不同模型架构、训练数据和训练阶段的多模态大语言模型已经在众多多模态基准测试中得到了评估。这些研究在不同程度上揭示了多模态大语言模型当前能力的不同方面。然而,多模态大语言模型的推理能力尚未得到系统的研究。在本次综述中,我们全面回顾了现有的多模态推理评估协议,对多模态大语言模型的前沿成果进行了分类和阐述,介绍了多模态大语言模型在推理密集型任务中的应用新趋势,最后讨论了当前的实践情况和未来的发展方向。
引言
在过去的十年中,借助不断增长的计算能力和扩展的数据,多模态大语言模型在许多领域和应用中取得了显著进展。它们被认为是最有可能实现强人工智能或通用人工智能终极目标的模型家族。强人工智能通常被认为具有思维,但多模态大语言模型是否具有思维,或者如何确定其思维的存在,仍然是一个开放且复杂的问题。
人们不需要拥有夏洛克·福尔摩斯那样的头脑,就能对来自现实世界的多种模态(如视觉、音频、文本、嗅觉等)的观察结果进行自然推理,然后采取行动。在双系统理论(一种广泛应用的认知科学理论)中,人类认知系统的第二种类型——能够进行抽象推理的系统,被认为是“在进化上较新且为人类所特有”。这一特征引发了一个有趣的问题:多模态大语言模型能够进行推理吗?
具体而言,我们对需要理解和整合来自视觉、文本、音频等多种模态信息的推理任务感兴趣。多模态大语言模型在多种多模态推理任务中已经展示了有效性。显著的例子包括视觉问答(VQA)、多模态对话等。最近,也有大量研究专注于特别提升多模态大语言模型的推理能力,例如多模态指令调优和通过提示进行多模态推理。多模态大语言模型的强大能力也引发了将其作为代理应用于现实环境或使其能够使用工具的研究。尽管在现有基准数据集上表现出色,但现在就断言当前的多模态大语言模型能够真正对多种输入模态进行推理还为时尚早。
即使在仅文本的场景中,大型语言模型在某些方面(如数学和多步推理)仍然缺乏恰当的推理能力。此外,大型语言模型和多模态大语言模型都存在幻觉问题,这会阻碍模型进行正确推理。基于推理能力在多模态大语言模型中的重要性以及相关研究的快速发展,我们认为有必要全面回顾多模态大语言模型推理能力的现状,并提供有见地的讨论来启发未来的研究。在接下来的章节中,我们将首先定义我们所关注的推理能力并阐述现有的评估协议(第2节);随后,我们将总结多模态大语言模型的现状(第3节);接着深入探讨多模态推理的一个关键训练阶段,即多模态指令调优(第4节);然后我们将讨论多模态大语言模型在推理密集型应用中的情况,包括具身人工智能(第5.1节)和工具使用(第5.2节);之后,我们将分析多模态推理基准测试的结果(第6节);最后,我们将对多模态大语言模型的现状和未来发展方向提供集中的见解和讨论(第7节)。
推理:定义和评估协议
什么是推理?
推理是人类基本的智能行为之一,它需要理解和分析给定条件和背景知识,以合乎逻辑和理性地得出新结论。推理在逻辑学领域已经得到了广泛研究。为了清晰地理解推理,我们参考逻辑学领域中基于前提、结论和推理概念所建立的定义。推理通常被视为这些概念的整合。具体来说,前提和结论是关于某个案例的真假陈述。推理是从给定前提中选择和解释信息、建立联系、验证并最终基于所提供和解释的数据得出结论的中间推理步骤。
逻辑学领域中的推理高度依赖数学,数学用于构建一套基本逻辑规则。因此,只有遵循这些逻辑规则的推理才被认为是有效的。除了逻辑规则,进行实际推理任务还需要领域知识。例如,算术推理需要数学知识,而常识知识对于日常生活任务中的推理至关重要。领域知识作为给定输入之外的额外前提,对于在特定领域中得出有效结论是必不可少的。
根据参考文献,推理可分为形式推理和非正式推理,其中只要前提为真,形式推理的结论就保证为真,而非正式推理在可用信息不完整或模糊时不能保证结论的真实性。通常,非正式推理使用自然语言进行,对日常生活任务至关重要。此外,根据推理方向,推理可分为演绎推理、归纳推理、溯因推理和类比推理:
- 演绎推理:它代表了最经典的推理形式。给定一组已知知识(前提),它逐步推导出新知识以得到结论。例如,给定前提“猫是哺乳动物”和“所有哺乳动物都有四只脚”,演绎推理可以推导出新结论“猫有四只脚”。需要注意的是,演绎推理只关注推理步骤是否遵循逻辑规则,对前提的真实性没有任何限制。因此,错误的前提即使推理步骤符合逻辑,也可能导致错误的结论。
- 归纳推理:专注于从具体观察中推断出一般规则。例如,给定前提(观察)“到目前为止我见过的任何哺乳动物都有四只脚”,归纳推理可以推断出“所有哺乳动物都有四只脚”。归纳推理是科学领域发现新原理和定律的有效工具。需要注意的是,由于很难收集到完整的观察结果,归纳推理的结论对于某些未见过的观察可能是不正确的。
- 溯因推理:是为给定观察推断出最佳解释。它被视为演绎推理的逆向方向,即多个原因可能导致结果(观察),应推断出最可能的原因。考虑这样一个场景:一辆汽车在高速公路上停着,危险警示灯闪烁。溯因推理可能得出更合理的结论:汽车出故障了,而不是不太可能的解释——有人在恶作剧。由于可能的原因数量通常很多,溯因推理需要大量常识和领域知识来推断出可信的原因。
- 类比推理涉及基于相似性将知识从一个或几个实例转移到另一个实例。有两种形式的类比推理在现实生活活动中得到了研究和应用。第一种形式是以一个或多个相似案例作为输入,得出一个隐含命题,最后将该命题应用于一个新案例。例如,考虑 “铁能导电” 和 “铜能导电” 这两个案例,由此可以推断出一个命题 “任何金属都能导电”,进而推断出 “银作为一种金属,也能导电”。第二种形式的类比推理是考虑两个实体的相似性,根据一个实体的属性来推断另一个实体的属性。例如,给定前提 “让植物充分接受阳光照射能促进其生长和健康” 以及 “人类和植物都需要某些环境因素(如水、空气和养分)才能茁壮成长”,人们可以使用类比推理假设 “人类经常晒太阳可能也对其健康有益”。通过类比推理,可以低成本快速推断新对象的属性。然而,类比推理的前提只能支持可能正确而非绝对正确的结论。
在本文中,我们关注多模态大语言模型的推理能力。这些模型所采用的推理方法属于非正式推理范畴。这主要是因为它们利用自然语言来阐述推理过程中的步骤和结论,并且在推理机制中允许存在一定程度的不准确性。本文主要关注三种推理类型:演绎推理、溯因推理和类比推理。之所以强调这些类型,是因为它们在现实世界的推理任务中普遍应用,特别是在当前多模态大语言模型的应用范围内。
纯语言推理任务
为了更深入地了解多模态大语言模型的推理能力,了解相关的推理任务至关重要。这些任务被广泛认为需要模型具备推理能力才能有效解决。基于输入数据,我们可以将推理任务分为两类:纯语言推理任务和多模态推理任务,前者不需要图像,后者则涉及图像和文本。纯语言任务的研究历史更为悠久,用于任务分类的方法以及从这些研究中获得的见解为多模态推理任务的发展提供了有价值的指导
解决数学问题
解决数学问题通常需要一步或多步的算术推理。解题者需要基于对输入问题、隐含算术运算以及概念知识的理解,推导出一系列能够得出最终答案的运算步骤。隐含运算和概念知识的范围可依据不同的学校年级水平进行分类。例如,GSM8K这些基准测试所要求的数学知识通常是小学阶段所学的内容,包括加法、减法、乘法、除法等基本运算。MathQA 基准测试和 AQuA基准测试涵盖了源自诸如 GMAT(研究生管理入学考试)和 GRE(美国研究生入学考试)等标准化考试的数学问题。MATH基准测试则包含极具挑战性的数学问题,涉及排列组合问题、等比数列问题、高阶方程求解等领域。该基准测试要求解题者具备大量高级数学知识和数学推理技巧,以及遵循多步解题程序的能力,因此仍是一项极具挑战性的任务。
进行常识推理
常识是一个涵盖范围广泛但定义略显宽松的概念。虽然缺乏确切边界,但它通常指的是那些超出专业知识范畴、完成基础教育的人理应熟知的知识。常识知识涵盖了多个领域,包括社会常识(例如,明白如果在公众场合被指责,人们会感到尴尬)、物理常识(例如,知道汽车比自行车速度快)、生物常识(例如,了解企鹅和考拉在自然环境中不会相遇)以及众多其他方面。人们普遍认为,常识知识在日常决策和现实生活场景中起着重要作用,这使得常识推理成为语言模型的一项基本前提条件。
处理符号推理
符号推理可以被描述为一种依据精确定义的规则(如逻辑推导规则)对抽象对象进行的认知过程。除了编程和数学解题之外,还有各种各样的任务需要运用符号推理。其中一项任务是逻辑推理,例如 PrOntoQA 、SimpleLogic、FOLIO 和 ProofWriter 等数据集所体现的那样。在这些任务中,给定一组事实和逻辑规则,要求模型基于逻辑运算来证明一个公式。其他任务涉及对虚拟对象的理解。例如,在 BIG - Bench Hard 中的 Penguins、Date 和 Colored Objects 等数据集中,需要对与虚拟对象相关的属性进行统计分析和操作。一个示例问题可能是 “哪只企鹅是以一位著名爵士音乐家的名字命名的?”。尽管语言模型展现出了理解简单符号操作的能力,但在复杂符号推理任务方面,它们的能力被认为相对较弱 。
开源多模态大语言模型
1. BLIP (Bootstrap Language-Image Pre-training)
- 简介: BLIP 是一个用于视觉和语言任务的预训练模型,它能够在图像字幕生成、视觉问答等任务中表现出色。
2. CLIP (Contrastive Language–Image Pre-training)
- 简介: CLIP 是由OpenAI开发的模型,旨在学习文本和图像之间的关系。它可以通过对比学习的方法来理解图片内容,并与描述性文本关联起来。
3. M6 (Multi-Modality to Multi-Modality Multitask Mega-transformer)
- 简介: 构建了目前规模最大的中文多模态预训练数据集,它包含超过 1.9TB 的图像以及 292GB 的文本,涵盖了广泛的领域。提出了一种跨模态预训练方法,名为 M6(即多模态到多模态多任务大型 Transformer),用于对单模态和多模态数据进行统一的预训练。将模型规模扩展至 100 亿和 1000 亿参数,打造出了中文领域最大的预训练模型。将该模型应用于一系列下游应用中,并通过与强大的基准模型对比,展示了其卓越的性能。此外,专门设计了一个文本引导图像生成的下游任务,结果表明经过微调的 M6 能够生成高分辨率且细节丰富的高质量图像。
4. MiniGPT-4
- 简介: MiniGPT-4 是一个轻量级版本的多模态语言模型,基于GPT架构进行了优化以适应较小的计算资源。
5. FLAVA (Fusion of Language and Vision with Alignment)
- 简介: FLAVA 是由Meta AI开发的多模态预训练框架,结合了视觉和语言信息,提供了强大的跨模态理解和生成能力。
6. ViT-G/14
- 简介: ViT-G/14 是一个大型视觉Transformer模型,专为高分辨率图像设计,可以与其他语言模型结合使用,形成多模态解决方案。
7. Qwen
- 简介: Qwen 是阿里云发布的多模态大语言模型,具有强大的中文处理能力,同时也支持多种国际语言及跨模态任务。
相关文章:

探索多模态大语言模型(MLLMs)的推理能力
探索多模态大语言模型(MLLMs)的推理能力 Multimodal Large Language Models (MLLMs) flyfish 原文:Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Mult…...

72 mysql 的客户端和服务器交互 returnGeneratedKeys
前言 这里主要是针对如下 情况的讨论 比如我们 tz_zone 表有一个自增长的主键 id, 然后 客户端这边可以通过 PreparedStatement 相关的 api 来获取 服务端这边生成的自增长的 id 我们这里 来看一下 这个流程, 整体的 客户端 和 服务器的交互上面来看 问题来自于 主题&…...

【连续学习之SSL算法】2018年论文Selfless sequential learning
1 介绍 年份:2018 期刊: arXiv preprint Aljundi R, Rohrbach M, Tuytelaars T. Selfless sequential learning[J]. arXiv preprint arXiv:1806.05421, 2018. 本文提出了一种名为SLNID(Sparse coding through Local Neural Inhibition and…...

【蓝桥杯——物联网设计与开发】拓展模块5 - 光敏/热释电模块
目录 一、光敏/热释电模块 (1)资源介绍 🔅原理图 🔅AS312 🌙简介 🌙特性 🔅LDR (2)STM32CubeMX 软件配置 (3)代码编写 (4&#x…...

数字IC后端设计实现十大精华主题分享
今天小编给大家分享下吾爱IC社区星球上周十大后端精华主题。 Q1:星主,请教个问题,长tree的时候发现这个scan的tree 的skew差不多400p,我高亮了整个tree的schematic,我在想是不是我在这一系列mux前边打断,设置ignore p…...

高质量配音如何影响游戏的受欢迎度
在游戏行业中,创造沉浸式、引人入胜且令人难忘的体验往往决定了游戏的成功或失败。在影响游戏流行度的众多因素中,配音脱颖而出,成为将叙事与玩家互动连接起来的重要元素。高质量的配音将游戏中的对白转化为游戏的活跃部分,让玩家…...

QWidget应用封装为qt插件,供其他qt应用调用
在之前的文章中,有介绍通过QProcess的方式启动QWidget应用,然后将其窗口嵌入到其他的qt应用中,作为子窗口使用.这篇文章主要介绍qt插件的方式将QWidget应用的窗口封装为插件,然后作为其他Qt应用中的子窗口使用. 插件优点: 与主程序为同一个进程,免去了进程间繁琐的通信方式,…...

UE(虚幻)学习(四) 第一个C++类来控制小球移动来理解蓝图和脚本如何工作
UE5视频看了不少,但基本都是蓝图如何搞,或者改一下属性,理解UE系统现有组件使用的。一直对C脚本和蓝图之间的关系不是很理解,看到一个视频讲的很好,我也做笔记记录一下。 我的环境是UE5.3.2. 创建UE空项目 我们创建…...

使用FreeNAS软件部署ISCSI的SAN架构存储(IP-SAN)练习题
一,实验用到工具分别为: VMware虚拟机,安装教程:VMware Workstation Pro 17 安装图文教程 FreeNAS系统,安装教程:FreeNAS-11.2-U4.1安装教程2024(图文教程) 二,新建虚…...
Sql Sqserver 相关知识总结
Sql Sqserver 相关知识总结 文章目录 Sql Sqserver 相关知识总结前言优化语句查询(select)条件过滤(Where)分组处理(GROUP BY)模糊查询(like)包含(in)合集&am…...
面试题整理17----K8s中request和limit资源限制是如何实现的
面试题整理17----K8s中request和limit资源限制是如何实现的 1. 资源请求(Resource Requests)2. 资源限制(Resource Limits)3. 总结 在Kubernetes(K8s)中,Pod的资源限制(Resource Lim…...
Spring Boot @Conditional注解
在Spring Boot中,Conditional 注解用于条件性地注册bean。这意味着它可以根据某些条件来决定是否应该创建一个特定的bean。这个注解可以放在配置类或方法上,并且它会根据提供的一组条件来判断是否应该实例化对应的组件。 要使用 Conditional注解时&#…...

jpeg文件学习
相关最全的一篇文章链接:https://www.cnblogs.com/wtysos11/p/14089482.html YUV基础知识 Y表示亮度分量:如果只显示Y的话,图像看起来会是一张黑白照。 U(Cb)表示色度分量:是照片蓝色部分去掉亮度&#x…...

c++基于过程
前言: 笔记基于C黑马程序员网课视频:黑马程序员匠心之作|C教程从0到1入门编程,学习编程不再难_哔哩哔哩_bilibili 在此发布笔记,只是为方便学习,不做其他用途,原作者为黑马程序员。 1. C基础 1.1 用Visual Studio写C程…...

FOC软件 STM32CubeMX 使用
1、安装-及相关软件版本 展示版本注意事项:keil MDK和STM32CubeMX版本至少要大于等于图中版本。 2、 Motor Profiler 5.2.0使用方法...
leetcode hot 100 全排列
46. 全排列 已解答 中等 相关标签 相关企业 给定一个不含重复数字的数组 nums ,返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 class Solution(object): def permute(self, nums): """ :type nums: List[int] :rtype: List[List[int…...

使用qrcode.vue生成当前网页的二维码(H5)
使用npm: npm install qrcode.vue 使用yarn: yarn add qrcode.vue package.json: 实现: <template><div class"code"><qrcode-vue :value"currentUrl" :size"size" render-as&…...
0055. shell命令--useradd
目录 55. shell命令--useradd 功能说明 语法格式 选项说明 选项 退出值 相关文件 /etc/passwd /etc/shadow /etc/group /etc/gshadow /etc/skel/ /etc/login.defs /etc/default/useradd 实践操作 注意事项 55. shell命令--useradd 功能说明 useradd 命令是 Lin…...

blender中合并的模型,在threejs中显示多个mesh;blender多材质烘培成一个材质
描述:在blender中合并的模型导出为glb,在threejs中导入仍显示多个mesh,并不是统一的整体,导致需要整体高亮或者使用DragControls等不能统一控制。 原因:模型有多个材质,在blender中合并的时候,…...
vue 本地自测iframe通讯
使用 postMessage API 来实现跨窗口(跨域)的消息传递。postMessage 允许你安全地发送消息到其他窗口,包括嵌套的 iframe,而不需要担心同源策略的问题。 发送消息(父应用) 1. 父应用:发送消息给…...
Ubuntu系统下交叉编译openssl
一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机:Ubuntu 20.04.6 LTSHost:ARM32位交叉编译器:arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...
脑机新手指南(八):OpenBCI_GUI:从环境搭建到数据可视化(下)
一、数据处理与分析实战 (一)实时滤波与参数调整 基础滤波操作 60Hz 工频滤波:勾选界面右侧 “60Hz” 复选框,可有效抑制电网干扰(适用于北美地区,欧洲用户可调整为 50Hz)。 平滑处理&…...
在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中,手势开发全攻略:
在 HarmonyOS 应用开发中,手势交互是连接用户与设备的核心纽带。ArkTS 框架提供了丰富的手势处理能力,既支持点击、长按、拖拽等基础单一手势的精细控制,也能通过多种绑定策略解决父子组件的手势竞争问题。本文将结合官方开发文档,…...
前端倒计时误差!
提示:记录工作中遇到的需求及解决办法 文章目录 前言一、误差从何而来?二、五大解决方案1. 动态校准法(基础版)2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言 前几天听说公司某个项…...

python/java环境配置
环境变量放一起 python: 1.首先下载Python Python下载地址:Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个,然后自定义,全选 可以把前4个选上 3.环境配置 1)搜高级系统设置 2…...
2024年赣州旅游投资集团社会招聘笔试真
2024年赣州旅游投资集团社会招聘笔试真 题 ( 满 分 1 0 0 分 时 间 1 2 0 分 钟 ) 一、单选题(每题只有一个正确答案,答错、不答或多答均不得分) 1.纪要的特点不包括()。 A.概括重点 B.指导传达 C. 客观纪实 D.有言必录 【答案】: D 2.1864年,()预言了电磁波的存在,并指出…...
Auto-Coder使用GPT-4o完成:在用TabPFN这个模型构建一个预测未来3天涨跌的分类任务
通过akshare库,获取股票数据,并生成TabPFN这个模型 可以识别、处理的格式,写一个完整的预处理示例,并构建一个预测未来 3 天股价涨跌的分类任务 用TabPFN这个模型构建一个预测未来 3 天股价涨跌的分类任务,进行预测并输…...

基于当前项目通过npm包形式暴露公共组件
1.package.sjon文件配置 其中xh-flowable就是暴露出去的npm包名 2.创建tpyes文件夹,并新增内容 3.创建package文件夹...

如何将联系人从 iPhone 转移到 Android
从 iPhone 换到 Android 手机时,你可能需要保留重要的数据,例如通讯录。好在,将通讯录从 iPhone 转移到 Android 手机非常简单,你可以从本文中学习 6 种可靠的方法,确保随时保持连接,不错过任何信息。 第 1…...
相机Camera日志分析之三十一:高通Camx HAL十种流程基础分析关键字汇总(后续持续更新中)
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:有对最普通的场景进行各个日志注释讲解,但相机场景太多,日志差异也巨大。后面将展示各种场景下的日志。 通过notepad++打开场景下的日志,通过下列分类关键字搜索,即可清晰的分析不同场景的相机运行流程差异…...