当前位置: 首页 > article >正文

多模态大语言模型arxiv论文略读(三十七)

请添加图片描述

A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models

➡️ 论文标题:A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models
➡️ 论文作者:Jie Liu, Wenxuan Wang, Yihang Su, Jingyuan Huan, Wenting Chen, Yudi Zhang, Cheng-Yi Li, Kao-Jung Chang, Xiaohan Xin, Linlin Shen, Michael R. Lyu
➡️ 研究机构: The City University of Hong Kong、The Chinese University of Hong Kong、Shenzhen University、National Yang Ming Chiao Tung University、Taipei Veterans General Hospital、Stanford University
➡️ 问题背景:当前的医疗多模态大语言模型(Med-MLLMs)在现代医疗中展现出强大的信息综合和医疗决策支持能力。然而,这些模型的评估通常依赖于不适用于Med-MLLMs的有限样本,导致对其能力的评估不全面。现有的医疗基准测试方法往往无法准确衡量Med-MLLMs的复杂能力,尤其是在不同专科和诊断能力方面。
➡️ 研究动机:为了填补这一空白,研究团队提出了Asclepius,这是一个新的Med-MLLMs基准测试,旨在全面评估这些模型在不同医疗专科和诊断能力方面的表现。Asclepius基于三个核心原则设计:多专科覆盖、多维度能力评估和原创性与盲测。通过这些原则,Asclepius确保了对Med-MLLMs的全面、系统和公正的评估。
➡️ 方法简介:研究团队构建了一个系统化的数据集,包含3,232个原创的多模态问题,涵盖了15个医疗专科和8个能力评估维度。数据集的构建采用了两种策略:一是从现有的医学图像数据集中生成问题-答案对;二是从美国医学执照考试(USMLE)和当前的医学教科书中提取问题-答案对。所有问题都经过了医学学生的改写和审查,并由资深医生验证,确保了数据的质量和准确性。
➡️ 实验设计:实验在四个通用的多模态大语言模型(GPT-4V、GPT-4o、Gemini、Claude 3.5 Sonnet)和五个专门的Med-MLLMs(CheX-agent、RadFM、Med-Flamingo、XrayGPT、BiomedGPT-B)上进行。实验设计了不同的评估指标,包括多项选择题、是非题、开放式问题和报告生成任务。此外,研究还邀请了三位临床专科医生参与评估,以建立人类专家的性能基准。实验结果表明,GPT-4V在大多数专科和能力评估中表现最佳,接近人类医生的水平,而其他模型的表现则相对较低。

Efficient Multimodal Learning from Data-centric Perspective

➡️ 论文标题:Efficient Multimodal Learning from Data-centric Perspective
➡️ 论文作者:Muyang He, Yexin Liu, Boya Wu, Jianhao Yuan, Yueze Wang, Tiejun Huang, Bo Zhao
➡️ 研究机构: 北京人工智能研究院、北京大学、香港科技大学(广州)、牛津大学、上海交通大学
➡️ 问题背景:多模态大型语言模型(MLLMs)在视觉理解和推理任务中表现出显著的能力。然而,这些模型的部署受到训练和推理阶段巨大计算成本的限制,这阻碍了它们在更广泛的研究和用户社区中的普及。尽管使用较小的预训练视觉和语言模型可以降低成本,但这通常会导致性能显著下降。
➡️ 研究动机:为了克服性能下降的问题,研究团队提出了一种通过优化高质量训练数据来训练更小但性能更好的MLLMs的方法。具体来说,研究团队引入了Bunny,一个轻量级MLLMs家族,通过精选的训练数据实现高效的多模态学习。实验结果表明,Bunny-4B/8B在多个基准测试中超越了现有的大型MLLMs。
➡️ 方法简介:研究团队通过数据集浓缩技术构建了高质量的训练数据集,包括Bunny-pretrain-LAION-2M和Bunny-695K。这些数据集用于模型的预训练和指令调优。Bunny模型包括三个主要模块:语言模型主干、视觉编码器和跨模态投影器。研究团队还探索了LoRA微调、高分辨率图像处理、权重合并等技术,以进一步提升模型性能。
➡️ 实验设计:研究团队在11个流行的基准测试上评估了Bunny模型的性能,包括MME感知、MME认知、MMBench测试集和开发集、SEED-Bench-1、MMMU验证集和测试集、VQA-v2测试开发集、GQA测试开发平衡集、ScienceQA-IMG测试集和POPE。实验结果表明,Bunny-4B/8B在大多数基准测试中均优于现有的大型MLLMs。

CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation

➡️ 论文标题:CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation
➡️ 论文作者:Xinbei Ma, Zhuosheng Zhang, Hai Zhao
➡️ 研究机构: 上海交通大学电子信息技术与电气工程学院、计算机科学与工程系、智能交互与认知工程上海市教委重点实验室、Web3可信数据流通与治理上海市重点实验室
➡️ 问题背景:当前的多模态大语言模型(MLLMs)在图形用户界面(GUI)自动化任务中展现出显著的潜力,但这些模型在实际应用中面临两大挑战:一是对强大的(M)LLMs的依赖,二是GUI环境建模的不足。这些问题限制了模型在实际场景中的表现,尤其是在生成准确的GUI命令和处理隐私与安全问题方面。
➡️ 研究动机:为了克服上述挑战,研究团队提出了一个全面认知的MLLM代理(CoCo-Agent),旨在通过增强环境感知和条件动作预测,系统地提升GUI自动化性能。研究旨在通过改进模型的感知和响应能力,提高其在实际应用中的可靠性和安全性。
➡️ 方法简介:CoCo-Agent采用了LLaVA作为多模态骨干,并提出了两种新方法:全面环境感知(CEP)和条件动作预测(CAP)。CEP通过整合文本目标、历史动作和视觉通道的高、低层次描述,增强GUI感知。CAP将复杂的GUI动作命令分解为子问题,按照自上而下的顺序进行预测,从而提高动作预测的准确性和效率。
➡️ 实验设计:研究在AITW和META-GUI两个基准数据集上进行了实验,涵盖了应用操作、网页操作和对话等多种任务。实验设计了不同的感知元素(如文本目标、历史动作)和视觉模块选择,以及未来动作预测的分析,以全面评估CoCo-Agent的性能和潜力。实验结果表明,CoCo-Agent在这些任务上达到了新的最先进水平,展示了其在实际场景中的应用潜力。

Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models

➡️ 论文标题:Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models
➡️ 论文作者:Didi Zhu, Zhongyi Sun, Zexi Li, Tao Shen, Ke Yan, Shouhong Ding, Kun Kuang, Chao Wu
➡️ 研究机构: 浙江大学、腾讯优图实验室
➡️ 问题背景:多模态大型语言模型(MLLMs)在处理未见过的任务时,通常会导致在原始任务上的性能显著下降,这种现象被称为灾难性遗忘(Catastrophic Forgetting)。这种现象在多模态生成和理解任务中尤为突出,如图像描述和视觉问答。
➡️ 研究动机:现有的缓解灾难性遗忘的方法主要针对小型模型,且依赖于全模型微调,这在MLLMs中不仅计算成本高昂,而且效果有限。研究团队旨在提出一种参数高效的后训练调整方法,以在提升新任务性能的同时,保持模型在原始任务上的性能。
➡️ 方法简介:研究团队提出了Model Tailor方法,该方法通过保留预训练参数,仅替换少量(≤10%)微调参数,来有效缓解灾难性遗忘。具体而言,Model Tailor通过融合显著性和敏感性分析,生成稀疏掩码来识别“模型补丁”,并引入补偿机制来“装饰补丁”,以增强模型在目标任务和原始任务上的性能。
➡️ 实验设计:研究团队在InstructBLIP和LLaVA-1.5两个模型上进行了实验,涵盖了图像描述和视觉问答任务。实验设计了不同任务的组合,以评估模型在多任务场景下的性能。实验结果表明,Model Tailor在保持原始任务性能的同时,显著提升了新任务的性能,且在多任务场景下表现出色。

Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion

➡️ 论文标题:Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion
➡️ 论文作者:Ziyue Wang, Chi Chen, Yiqi Zhu, Fuwen Luo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Maosong Sun, Yang Liu
➡️ 研究机构: 清华大学、阿里巴巴集团、上海人工智能实验室、江苏协同创新语言能力中心
➡️ 问题背景:多模态大语言模型(MLLMs)在多种视觉-语言任务中表现出色,但它们在处理涉及多张图像的上下文时存在局限性。主要原因是每个图像的视觉特征在被送入大语言模型(LLMs)之前,由冻结的编码器单独编码,缺乏对其他图像和多模态指令的感知。这种现象被称为先验LLM模态隔离,包括图像-文本隔离和图像间隔离。
➡️ 研究动机:现有的研究已经揭示了模态隔离问题对MLLMs性能的影响。为了进一步理解这些问题,并探索解决方案,研究团队提出了一种新的范式——浏览-集中(Browse-and-Concentrate, Brote),旨在通过两阶段的方法,先对输入进行初步浏览,生成条件上下文向量,再在该向量的指导下深入理解多模态输入,从而提高模型对多图像输入的理解能力。
➡️ 方法简介:研究团队提出了浏览-集中(Brote)范式,该范式包括两个阶段:浏览阶段和集中阶段。在浏览阶段,模型对输入进行初步浏览,生成条件上下文向量;在集中阶段,模型在该向量的指导下深入理解多模态输入。此外,研究团队还开发了训练策略,以增强模型对浏览阶段生成的条件上下文向量的利用能力。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉-语言理解(NLVR2)、图像问答(VQAv2、A-OKVQA)、视频问答(MSVD QA、MSRVTT QA)等任务。实验设计了不同的训练策略,如上下文丢弃(context dropping),以评估模型在不同条件下的表现。实验结果表明,Brote范式显著提高了模型在多图像场景下的性能,平均准确率分别提高了2.13%和7.60%。

相关文章:

多模态大语言模型arxiv论文略读(三十七)

A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models ➡️ 论文标题:A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models ➡️ 论文作者:Jie Liu, Wenxuan Wang, Yihang Su, Jingyuan Huan, …...

IDEA创建Gradle项目然后删除报错解决方法

根据错误信息,你的项目目录中缺少Gradle构建必需的核心文件(如settings.gradle/build.gradle),且IDEA可能残留了Gradle的配置。以下是具体解决方案: 一、问题根源分析 残留Gradle配置 你通过IDEA先创建了Gradle子模块…...

SpringBoot 学习

什么是 SpringBoot SpringBoot 是基于 Spring 生态的开源框架,旨在简化 Spring 应用的初始化搭建和开发配置。它通过约定大于配置的理念,提供快速构建生产级应用的解决方案,显著降低开发者对 XML 配置和依赖管理的负担。 特点: …...

MoE架构解析:如何用“分治”思想打造高效大模型?

在人工智能领域,模型规模的扩大似乎永无止境。从GPT-3的1750亿参数到传闻中的GPT-4万亿级规模,每一次突破都伴随着惊人的算力消耗。但当我们为这些成就欢呼时,一个根本性问题愈发尖锐:如何在提升模型能力的同时控制计算成本&#…...

云服务器和独立服务器的区别在哪

在当今数字化的时代,服务器成为了支撑各种业务和应用的重要基石。而在服务器的领域中,云服务器和独立服务器是两个备受关注的选项。那么,它们到底有何区别呢? 首先,让我们来聊聊成本。云服务器通常采用按需付费的模式…...

使用 Pandas 进行多格式数据整合:从 Excel、JSON 到 HTML 的处理实战

前言 在数据处理与分析的实际场景中,我们经常需要整合不同格式的数据,例如 Excel 表格、JSON 配置文件、HTML 报表等。本文以一个具体任务(蓝桥杯模拟练习题)为例,详细讲解如何使用 Python 的 Pandas 库结合其他工具&…...

深入解析 Linux 中动静态库的加载机制:从原理到实践

引言 在 Linux 开发中,动静态库是代码复用的核心工具。静态库(.a)和动态库(.so)的加载方式差异显著,直接影响程序的性能、灵活性和维护性。本文将深入剖析两者的加载机制,结合实例演示和底层原…...

VuePress 使用教程:从入门到精通

VuePress 使用教程:从入门到精通 VuePress 是一个以 Vue 驱动的静态网站生成器,它为技术文档和技术博客的编写提供了优雅而高效的解决方案。无论你是个人开发者、团队负责人还是开源项目维护者,VuePress 都能帮助你轻松地创建和管理你的文档…...

Kafka与Spark-Streaming

大数据处理的得力助手:Kafka与Spark-Streaming 在大数据处理的领域中,Kafka和Spark-Streaming都是极为重要的工具。今天,咱们就来深入了解一下它们,看看这些技术是如何让数据处理变得高效又强大的。先来说说Kafka,它是…...

【设计】接口幂等性设计

1. 幂等性定义 接口幂等性: 无论调用次数多少,对系统状态的影响与单次调用相同。 比如用户支付接口因网络延迟重复提交了三次。 导致原因: 用户不可靠(手抖多点)网络不可靠(超时重传)系统不可…...

闲聊人工智能对媒体的影响

技术总是不断地改变信息的传播方式。互联网促进了社交媒体的蓬勃发展。 网络媒体成为主流。大语言模型为代表的人工智能的出现,又会对媒体传播带来怎样的改变呢?媒体的演变反映了社会和技术的演变。 人工智能(AI) 将继续对整个媒体行业产生变革性的影响。…...

卷积神经网络--手写数字识别

本文我们通过搭建卷积神经网络模型,实现手写数字识别。 pytorch中提供了手写数字的数据集 ,我们可以直接从pytorch中下载 MNIST中包含70000张手写数字图像:60000张用于训练,10000张用于测试 图像是灰度的,28x28像素 …...

Pandas 数据导出:如何将 DataFrame 追加到 Excel 的不同工作表

在数据分析和数据处理过程中,将数据导出到 Excel 文件是一个常见的需求。Pandas 提供了强大的功能来实现这一需求,尤其是将数据追加到同一个 Excel 文件的不同工作表(Sheet)中。本文将详细介绍如何使用 Pandas 实现这一功能&#…...

Unity中数据和资源加密(异或加密,AES加密,MD5加密)

在项目开发中,始终会涉及到的一个问题,就是信息安全,在调用接口,或者加载的资源,都会涉及安全问题,因此就出现了各种各样的加密方式。 常见的也是目前用的最广的加密方式,分别是:DE…...

SQL Server 2019 安装与配置详细教程

一、写在最前的心里话 和 MySQL 对比,SQL Server 的安装和使用确实要处理很多细节: 需要选择配置项很多有“定义实例”的概念,同一机器可以运行多个数据库服务设置身份验证方式时,需要同时配置 Windows 和 SQL 登录要想 Spring …...

Qt 调试信息重定向到本地文件

1、在Qt软件开发过程中,我们经常使用qDebug()输出一些调试信息在QtCreator终端上。 但若将软件编译、生成、打包为一个完整的可运行的程序并安装在系统中后,系统中没有QtCreator和编译环境,那应用程序出现问题,如何输出信息排查…...

MyBatisPlus文档

一、MyBatis框架回顾 使用springboot整合Mybatis,实现Mybatis框架的搭建 1、创建示例项目 (1)、创建工程 新建工程 创建空工程 创建模块 创建springboot模块 选择SpringBoot版本 (2)、引入依赖 <dependencies><dependency><groupId>org.springframework.…...

Memcached 主主复制架构搭建与 Keepalived 高可用实现

实验目的 掌握基于 repcached 的 Memcached 主主复制配置 实现通过 Keepalived 的 VIP 高可用机制 验证数据双向同步及故障自动切换能力 实验环境 角色IP 地址主机名虚拟 IP (VIP)主节点10.1.1.78server-a10.1.1.80备节点10.1.1.79server-b10.1.1.80 操作系统: CentOS 7 软…...

Android 使用支付接口,需要进行的加密逻辑:MD5、HMAC-SHA256以及RSA

目录 前言MD5HMAC-SHA256RSA其他 前言 不使用加密​​&#xff1a;支付系统如同「裸奔」&#xff0c;面临数据泄露、资金被盗、法律追责等风险。 正确使用加密​​&#xff1a;构建「端到端安全防线」&#xff0c;确保交易合法可信&#xff0c;同时满足国际合规要求。 支付系…...

软件工程效率优化:一个分层解耦与熵减驱动的系统框架

软件工程效率优化&#xff1a;一个分层解耦与熵减驱动的系统框架** 摘要 (Abstract) 本报告构建了一个全面、深入、分层的软件工程效率优化框架&#xff0c;旨在超越简单的技术罗列&#xff0c;从根本的价值驱动和熵减原理出发&#xff0c;系统性地探讨提升效率的策略与实践。…...

鸿蒙ArkUI之相对布局容器(RelativeContainer)实战之狼人杀布局,详细介绍相对布局容器的用法,附上代码,以及效果图

在鸿蒙应用开发中&#xff0c;若是遇到布局相对复杂的场景&#xff0c;往往需要嵌套许多层组件&#xff0c;去还原UI图的效果&#xff0c;若是能够掌握相对布局容器的使用&#xff0c;对于复杂的布局场景&#xff0c;可直接减少组件嵌套&#xff0c;且随心所欲完成复杂场景的布…...

详解 Servlet 处理表单数据

Servlet 处理表单数据 1. 什么是 Servlet&#xff1f;2. 表单数据如何发送到 Servlet&#xff1f;2.1 GET 方法2.2 POST 方法 3. Servlet 如何接收表单数据&#xff1f;3.1 获取单个参数&#xff1a;getParameter()示例&#xff1a; 3.2 获取多个参数&#xff1a;getParameterV…...

Spring Cloud Gateway 如何将请求分发到各个服务

前言 在微服务架构中&#xff0c;API 网关&#xff08;API Gateway&#xff09;扮演着非常重要的角色。它负责接收客户端请求&#xff0c;并根据预定义的规则将请求路由到对应的后端服务。Spring Cloud Gateway 是 Spring 官方推出的一款高性能网关&#xff0c;支持动态路由、…...

解释器体系结构风格-笔记

解释器&#xff08;Interpreter&#xff09;是一种软件设计模式或体系结构风格&#xff0c;主要用于为语言&#xff08;或表达式&#xff09;定义其语法、语义&#xff0c;并通过解释器来解析和执行语言中的表达式。解释器体系结构风格广泛应用于编程语言、脚本语言、规则引擎、…...

线程函数库

pthread_create函数 pthread_create 是 POSIX 线程库&#xff08;pthread&#xff09;中的一个函数&#xff0c;用于创建一个新的线程。 头文件 #include <pthread.h> 函数原型 int pthread_create(pthread_t *thread, const pthread_attr_t *attr,void *(*s…...

[C]基础13.深入理解指针(5)

博客主页&#xff1a;向不悔本篇专栏&#xff1a;[C]您的支持&#xff0c;是我的创作动力。 文章目录 0、总结1、sizeof和strlen的对比1.1 sizeof1.2 strlen1.3 sizeof和strlen的对比 2、数组和指针笔试题解析2.1 一维数组2.2 字符数组2.2.1 代码12.2.2 代码22.2.3 代码32.2.4 …...

OpenCV 图形API(60)颜色空间转换-----将图像从 YUV 色彩空间转换为 RGB 色彩空间函数YUV2RGB()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 将图像从 YUV 色彩空间转换为 RGB。 该函数将输入图像从 YUV 色彩空间转换为 RGB。Y、U 和 V 通道值的常规范围是 0 到 255。 输出图像必须是 8…...

11.原型模式:思考与解读

原文地址:原型模式&#xff1a;思考与解读 更多内容请关注&#xff1a;7.深入思考与解读设计模式 引言 在软件开发中&#xff0c;尤其是当需要创建大量相似对象时&#xff0c;你是否遇到过这样的情况&#xff1a;每次创建新对象时&#xff0c;是否都需要重新初始化一些复杂的…...

深度解析 Java 泛型通配符 `<? super T>` 和 `<? extends T>`

Java 泛型中的通配符 ? 与 super、extends 关键字组合形成的 <? super T> 和 <? extends T> 是泛型系统中最重要的概念之一&#xff0c;也是许多开发者感到困惑的地方。本文将全面剖析它们的语义、使用场景和设计原理。 一、基础概念回顾 1. 泛型通配符 ? ?…...

hbuilderx云打包生成的ipa文件如何上架

使用hbuilderx打包&#xff0c;会遇到一个问题。开发的ios应用&#xff0c;需要上架到app store&#xff0c;因此&#xff0c;就需要APP store的签名证书&#xff0c;并且还需要一个像xcode那样的工具来上架app store。 我们这篇文章说明下&#xff0c;如何在windows电脑&…...