当前位置: 首页 > article >正文

多模态大语言模型arxiv论文略读(九十八)

在这里插入图片描述

Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight

➡️ 论文标题:Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight
➡️ 论文作者:Ziyuan Huang, Kaixiang Ji, Biao Gong, Zhiwu Qing, Qinglong Zhang, Kecheng Zheng, Jian Wang, Jingdong Chen, Ming Yang
➡️ 研究机构: Ant Group、Huazhong University of Science and Technology
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言任务中展现了卓越的能力,如图像描述、视觉问答和视觉定位。然而,随着数据量的增加,模型的预训练时间显著延长,成为进一步研究和应用的主要障碍。传统的MLLMs在预训练阶段处理大量的视觉token,导致计算成本高昂,且预训练时间过长。
➡️ 研究动机:为了减少预训练时间,同时不牺牲模型性能,研究团队提出了Chain-of-Sight,一种视觉-语言桥接模块。该模块通过多尺度视觉重采样器和复合token扩展策略,显著减少了预训练阶段所需的视觉token数量,从而加速预训练过程。
➡️ 方法简介:Chain-of-Sight的核心机制是多尺度视觉重采样器,该重采样器能够生成多尺度的视觉token。通过在预训练阶段减少视觉token的数量,并在微调阶段扩展token数量,Chain-of-Sight能够在保持或提升模型性能的同时,显著加速预训练过程。具体来说,该方法在预训练阶段使用少量的视觉token,而在微调阶段通过分辨率扩展和窗口扩展策略,将token数量增加到原来的16倍。
➡️ 实验设计:研究团队在多个视觉-语言基准数据集上进行了实验,包括图像描述、视觉问答和文本识别任务。实验结果表明,Chain-of-Sight不仅能够将预训练时间减少约73%,而且在多个任务上达到了与使用全部视觉token的模型相当或更好的性能。此外,通过进一步扩展token数量,模型的性能还可以进一步提升。

UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models

➡️ 论文标题:UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models
➡️ 论文作者:Liu Qi, He Yongyi, Lian Defu, Zheng Zhi, Xu Tong, Liu Che, Chen Enhong
➡️ 研究机构: 中国科学技术大学 & 国家认知智能重点实验室
➡️ 问题背景:多模态实体链接(Multimodal Entity Linking, MEL)是一项关键任务,旨在将多模态上下文中的模糊提及链接到多模态知识库中的实体。现有的方法过于复杂,且忽视了视觉语义信息,导致在处理文本模糊性、冗余和噪声图像等问题时性能严重下降。大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的出现为解决这些问题提供了新的思路。
➡️ 研究动机:尽管LLMs在许多数据任务中表现出色,但它们在处理多模态实体链接任务时仍面临挑战,如有效融合视觉和文本上下文、缺乏领域特定知识等。为了克服这些挑战,研究团队提出了一个统一的框架UniMEL,旨在利用LLMs和MLLMs处理多模态实体链接任务。
➡️ 方法简介:UniMEL框架通过以下方式增强实体链接任务:1) 使用MLLMs处理提及的图像和上下文信息,提取更深层次的语义关系;2) 使用LLMs的总结能力生成简洁的实体描述;3) 使用嵌入模型检索和重新排序候选实体;4) 通过微调LLMs的少量参数来选择最终的实体。
➡️ 实验设计:在三个公开的多模态实体链接数据集上进行了实验,包括Richpedia、WikiMEL和Wikidiverse。实验设计了不同的模块,如LLMs和MLLMs的增强、检索增强和多选选择,以全面评估UniMEL在不同条件下的表现。实验结果表明,UniMEL在这些数据集上取得了最先进的性能。

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

➡️ 论文标题:INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model
➡️ 论文作者:Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
➡️ 研究机构: Xiamen University (XMU)
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在各种任务中展现了卓越的能力,但其视觉编码器的二次复杂度限制了输入图像的分辨率。现有的方法通过将高分辨率图像裁剪为较小的子图像来处理这一问题,但这些方法在捕捉全局上下文和局部细节方面存在不足。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种新的MLLM框架——INF-LLaVA,旨在有效处理高分辨率图像,同时保持全局和局部信息的完整性。
➡️ 方法简介:INF-LLaVA引入了两个创新组件:双视角裁剪模块(Dual-perspective Cropping Module, DCM)和双视角增强模块(Dual-perspective Enhancement Module, DEM)。DCM确保每个子图像从局部和全局视角包含连续的详细信息和全面的信息。DEM通过局部和全局特征的相互增强,使模型能够有效处理高分辨率图像。
➡️ 实验设计:研究团队在多个基准数据集上进行了广泛的消融研究和实验,验证了DCM和DEM的有效性。实验结果表明,INF-LLaVA在处理高分辨率图像时不仅性能优越,而且显著优化了计算效率。

Harmonizing Visual Text Comprehension and Generation

➡️ 论文标题:Harmonizing Visual Text Comprehension and Generation
➡️ 论文作者:Zhen Zhao, Jingqun Tang, Binghong Wu, Chunhui Lin, Shu Wei, Hao Liu, Xin Tan, Zhizhong Zhang, Can Huang, Yuan Xie
➡️ 研究机构: East China Normal University, ByteDance
➡️ 问题背景:当前的多模态生成模型在视觉文本理解与生成任务中表现出色,但同时生成图像和文本时,由于视觉和语言模态之间的固有不一致性,通常会导致性能下降。现有的方法通过模态特定的数据进行监督微调,需要不同的模型实例,这限制了模型的通用性和效率。
➡️ 研究动机:为了克服多模态生成中的模态不一致性问题,并实现单一模型实例中视觉和语言生成的统一,研究团队提出了Slide-LoRA方法。该方法通过动态聚合模态特定和模态无关的LoRA专家,部分解耦多模态生成空间,从而在不显著增加参数的情况下,提升模型的多模态生成能力。
➡️ 方法简介:研究团队提出了TextHarmony,一个统一且多功能的多模态生成模型,擅长理解和生成视觉文本。TextHarmony通过集成视觉编码器、LLM和图像解码器,实现了文本和图像的同步生成。为了缓解视觉和语言模态之间的不一致性,研究团队提出了Slide-LoRA,该方法通过动态调整不同模态生成任务的参数空间,部分解耦多模态生成空间。此外,研究团队还构建了一个高质量的图像字幕数据集DetailedTextCaps-100K,以进一步提升视觉文本生成能力。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括视觉文本理解任务(如DocVQA、TabFact、TextVQA等)和视觉文本生成任务(如AnyText-benchmark-EN、MARIOEval等)。实验结果表明,TextHarmony在视觉文本理解任务上达到了与专门的文本理解模型相当的性能,在视觉文本生成任务上也表现出色。具体来说,TextHarmony在视觉文本理解任务上平均提升了2.5%,在视觉文本生成任务上平均提升了4.0%。

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues

➡️ 论文标题:MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
➡️ 论文作者:Liyun Zhang
➡️ 研究机构: Osaka University
➡️ 问题背景:现有的多模态大语言模型(MLLMs)在多模态情感识别任务中表现出色,能够整合视觉、声学和语言模态的信息来识别人类的情感状态。然而,这些模型在捕捉微表情的时间动态和话语感知的时间段的上下文依赖性方面存在不足,限制了其在多模态情感识别任务中的有效性。
➡️ 研究动机:为了提高多模态情感识别的准确性和细致度,研究团队提出了MicroEmo,一个时间敏感的MLLM,旨在关注面部微表情的时间动态和话语感知视频片段的上下文依赖性。通过引入全局-局部注意力视觉编码器和话语感知视频Q-Former,MicroEmo能够捕捉更细微和深层次的情感信息,提供更丰富和可靠的情感识别结果。
➡️ 方法简介:研究团队提出了两个关键模块:1) 全局-局部注意力视觉编码器,整合全局帧级时间戳绑定图像特征与局部面部特征的时间动态;2) 话语感知视频Q-Former,通过生成每个话语段和整个视频的视觉令牌序列来捕捉多尺度和上下文依赖性。
➡️ 实验设计:研究团队在新的Explainable Multimodal Emotion Recognition (EMER)任务上进行了初步的定性实验,该任务利用多模态和多方面的线索以开放词汇的方式预测情感。实验结果表明,MicroEmo在捕捉细微情感变化方面优于现有方法,同时保持了上下文的准确性。

相关文章:

多模态大语言模型arxiv论文略读(九十八)

Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight ➡️ 论文标题:Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight ➡️ 论文作者:Ziyuan Huang, Kaixiang Ji, Biao Gong, Zhiwu Qing, Qinglong Zhang, Kecheng Zhe…...

EXCEL--累加,获取大于某个值的第一个数

一、函数 LET(data,A1:A5,cumSum,SCAN(0,data,LAMBDA(a,b,ab)),idx,MATCH(TRUE,cumSum>C1,0),INDEX(data,idx)) 二、函数拆解 1、LET函数:LET(name1, value1, [name2, value2, ...], calculation) name1, name2...:自定义的变量名(需以字…...

【vscode】切换英文字母大小写快捷键如何配置

按 ⌘(Command) Shift P 打开命令面板搜索 "Transform to Uppercase" 或 "Transform to Lowercase" 点击Transform to Uppercase 命令后的齿轮图标 进入设置页面 然后就可以进行配置了 比如我是mac电脑, 切换大写可以配置为 shift alt…...

vue笔记-路由

文章目录 createWebHistory的使用router-linkrouter-link颜色是黑色,正常应该是蓝色router-link 跳转了但是不展示 其他 vue这个题目还是太大,路由单独拆出来。 createWebHistory的使用 推荐在vue-router4中使用。 1、导入。 import { createRouter, c…...

本地部署 DeepSeek R1(最新)【从下载、安装、使用和调用一条龙服务】

文章目录 一、安装 Ollama1.1 下载1.2 安装 二、下载 DeepSeek 模型三、使用 DeepSeek3.1 在命令行环境中使用3.2 在第三方软件中使用 一、安装 Ollama 1.1 下载 官方网址:Ollama 官网下载很慢,甚至出现了下载完显示 无法下载,需要授权 目…...

域名解析怎么查询?有哪些域名解析查询方式?

在互联网的世界里,域名就像是我们日常生活中的门牌号,帮助我们快速定位到想要访问的网站。而域名解析则是将这个易记的域名转换为计算机能够识别的IP地址的关键过程。当我们想要了解一个网站的域名解析情况,或者排查网络问题时,掌…...

win主机如何结束正在执行的任务进程并重启

最近遇到一个问题,一个java入库程序经常在运行了几个小时之后消息无法入库,由于已经没有研发人员来维护这个程序了,故此只能每隔一段时间来重启这个程序以保证一直有消息入库。 但是谁也不能保证一直有人去看这个程序,并且晚上也不…...

maven中的maven-resources-plugin插件详解

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站 一、插件定位与核心功能 maven-resources-plugin是Maven构建工具的核心插件之一,主要用于处理项目中的资源文件(如…...

ROS云课基础篇-01-Linux-250529

ROS云课基础篇收到了很多反馈,正面评价比例高,还有很多朋友反馈需要写更具体一点。 ROS云课基础篇极简复习-C、工具、导航、巡逻一次走完-CSDN博客 于是,有了这篇以及之后的案例,案例均已经测试过8年,但没有在博客公…...

通俗易懂解析:@ComponentScan 与 @MapperScan 的异同与用法

在 Spring 和 MyBatis 集成开发中,ComponentScan 和 MapperScan 是两个核心注解,但它们的用途和工作机制截然不同。本文将通过通俗的语言和示例代码,带您轻松掌握它们的区别和使用方法。 一、基础概念 ComponentScan:Spring 的“通…...

深入了解 C# 异步编程库 AsyncEx

在现代应用程序开发中,异步编程已经成为提升性能和响应能力的关键,尤其在处理网络请求、I/O 操作和其他耗时任务时,异步编程可以有效避免阻塞主线程,提升程序的响应速度和并发处理能力。C# 提供了内建的异步编程支持(通…...

NodeJS全栈开发面试题讲解——P1Node.js 基础与核心机制

✅ 1.1 Node.js 的事件循环原理?如何处理异步操作? 面试官您好,我理解事件循环是 Node.js 的异步非阻塞编程核心。 Node.js 构建在 V8 引擎与 libuv 库之上。虽然 Node.js 是单线程模型,但它通过事件循环(event loop&a…...

Vulhub靶场搭建(Ubuntu)

前言:Vulhub 是一个开源的漏洞靶场平台,全称是 Vulhub: Vulnerable Web Application Environments,主要用于学习和复现各类 Web 安全漏洞。它的核心特征是通过 Docker 环境快速搭建出带有特定漏洞的靶场系统,适合渗透测试学习者、…...

C++:参数传递方法(Parameter Passing Methods)

目录 1. 值传递(Pass by Value) 2. 地址传递(Pass by Address) 3. 引用传递(Pass by Reference) 数组作为函数参数(Array as Parameter) 数组作为函数返回值 什么是函数&#xff…...

大语言模型的推理能力

2025年,各种会推理的AI模型如雨后春笋般涌现,比如ChatGPT o1/o3/o4、DeepSeek r1、Gemini 2 Flash Thinking、Claude 3.7 Sonnet (Extended Thinking)。 对于工程上一些问题比如复杂的自然语言转sql,我们可能忍受模型的得到正确答案需要更多…...

基于BERT和GPT2的实现来理解Transformer的结构和原理

Transformer 核心就是编码器和解码器,简单理解:编码器就是特征提取,解码器就是特征还原。 Transformer 完整架构 Transformer最初是一个Encoder-Decoder架构,用于机器翻译任务: 输入序列 → [Encoder] → 编码表示…...

.net consul服务注册与发现

.NET中Consul服务注册与发现的技术实践 在微服务架构中,服务的注册与发现是至关重要的环节,它能帮助各个服务之间实现高效的通信和协作。Consul作为一款功能强大的工具,为我们提供了优秀的服务注册与发现解决方案。今天,我们就来…...

WifiEspNow库函数详解

WifiEspNow库 项目地址https://github.com/yoursunny/WifiEspNow WifiEspNow 是 ESP-NOW 的 Arduino 库,ESP-NOW 是乐鑫定义的无连接 WiFi 通信协议。 有关 ESP-NOW 工作原理及其限制的更多信息,请参阅 ESP-NOW 参考。 WifiEspNow是 ESP-IDF 中 ESP-N…...

rsync使用守护进程启动服务

rsync 本身通常使用 SSH(Secure Shell)协议来进行数据传输,因此它默认使用 SSH 的端口 22。如果使用 rsync 进行通过 SSH 的数据同步,它会通过端口 22 来建立连接。 然而,如果你使用 rsync 作为一个守护进程进行文件同步(即不通过 SSH),则可以配置它使用 TCP 端口 873…...

React 核心概念与生态系统

1. React 简介 React 是由 Facebook 开发并开源的一个用于构建用户界面的 JavaScript 库。它主要用于构建单页应用(SPA),其核心理念是组件化和声明式编程,即 ui render(data)。 2. 核心特点 2.1. 声明式编程 React 使用声明式…...

使用React Native开发新闻资讯类鸿蒙应用的准备工作

以下是一篇关于使用React Native开发新闻资讯类鸿蒙应用的准备工作指南,结合鸿蒙生态特性与React Native技术栈整合要点: ​​一、环境搭建与工具链配置​​ ​​基础依赖安装​​ ​​Node.js 18​​:需支持ES2020语法(如可选链操…...

node-sass 报错

背景:一些老项目使用"node-sass": “^4.14.1” ,node版本要求 14.x,高版本不兼容 解决方案如下: 方案一:替换安装sass (无须降级Node版本) 卸载node-sass npm uninstall node-sass安装sass(Dart…...

Redis的安装与使用

网址:Spring Data Redis 安装包:Releases tporadowski/redis GitHub 解压后 在安装目录中打开cmd 打开服务(注意:每次客户端连接都有先打开服务!!!) 按ctrlC退出服务 客户端连接…...

Linux服务器运维10个基础命令

结合多篇权威资料,以下是运维工程师必须掌握的10个核心命令,涵盖文件管理、系统监控、网络操作等高频场景 1. "ls" 代码分析 "ls" 用于列出目录内容,通过参数组合可增强展示效果: "-l" 显示文件…...

2024年数维杯国际大学生数学建模挑战赛C题时间信号脉冲定时噪声抑制与大气时延抑制模型解题全过程论文及程序

2024年数维杯国际大学生数学建模挑战赛 C题 时间信号脉冲定时噪声抑制与大气时延抑制模型 原题再现: 脉冲星是一种快速旋转的中子星,具有连续稳定的旋转,因此被称为“宇宙灯塔”。脉冲星的空间观测在深空航天器导航和时间标准维护中发挥着至…...

C# 控制台程序获取用户输入数据验证 不合规返回重新提示输入

在 C# 控制台程序中实现输入验证并循环重试&#xff0c;可以通过以下方式实现高效且用户友好的交互。以下是包含多种验证场景的完整解决方案&#xff1a; 一、通用输入验证框架 public static T GetValidInput<T>(string prompt, Func<string, (bool IsValid, T Val…...

【大模型面试每日一题】Day 31:LoRA微调方法中低秩矩阵的秩r如何选取?

【大模型面试每日一题】Day 31&#xff1a;LoRA微调方法中低秩矩阵的秩r如何选取&#xff1f; &#x1f4cc; 题目重现 &#x1f31f;&#x1f31f; 面试官:LoRA微调方法中低秩矩阵的秩r如何选取&#xff1f;&#xff1a; #mermaid-svg-g5hxSxV8epzWyP98 {font-family:"…...

使用source ~/.bashrc修改环境变量之后,关闭服务器,在重启,环境变量还有吗?

环境变量在服务器重启后的留存性分析 1. 环境变量的存储机制 临时环境变量&#xff1a; 通过命令直接设置的环境变量&#xff08;如 export MY_VARvalue&#xff09;仅存在于当前 shell 会话中&#xff0c;服务器重启后会丢失。永久环境变量&#xff1a; 写入 配置文件&#…...

SQL 窗口函数深度解析:ROW_NUMBER 实战指南

SQL 窗口函数深度解析:ROW_NUMBER 实战指南 一、窗口函数核心概念 窗口函数(Window Function)是SQL中用于在结果集的"窗口"(即特定行集合)上执行计算的高级功能。与聚合函数不同,窗口函数不会将多行合并为单行,而是为每行返回一个计算值。 关键特性:窗口函数通…...

React从基础入门到高级实战:React 生态与工具 - React 国际化(i18n)

React 国际化&#xff08;i18n&#xff09; 引言 随着全球化的加速&#xff0c;开发支持多语言的应用已成为现代Web开发的重要需求。无论是面向国际市场的电商平台&#xff0c;还是提供多语言服务的SaaS应用&#xff0c;国际化&#xff08;i18n&#xff09;功能都是提升用户体…...