多模态大语言模型arxiv论文略读(十九)

MLLMs-Augmented Visual-Language Representation Learning
➡️ 论文标题:MLLMs-Augmented Visual-Language Representation Learning
➡️ 论文作者:Yanqing Liu, Kai Wang, Wenqi Shao, Ping Luo, Yu Qiao, Mike Zheng Shou, Kaipeng Zhang, Yang You
➡️ 研究机构: National University of Singapore、OpenGVLab (Shanghai AI Laboratory)、The University of Hong Kong
➡️ 问题背景:视觉-语言预训练在图像-文本检索、图像分类、视觉问答和图像标题生成等多模态任务中取得了显著成功,这主要归功于大规模图像-文本数据集的可用性。然而,这些数据集中存在大量噪声和不匹配的图像-文本对,严重影响了视觉-语言表示学习的效果。尽管有研究尝试通过预训练模型识别和移除不匹配的对,但这种方法会减少训练对的数量,从而影响模型性能。
➡️ 研究动机:现有的方法在移除不匹配的图像-文本对时,虽然减少了噪声,但也减少了训练数据量,导致性能下降。最近的研究表明,可以利用大型语言模型(LLMs)和多模态大型语言模型(MLLMs)来重写和增强图像标题,以提高数据质量,但这些方法引入了模型的固有偏差。因此,研究团队提出了一种利用多个MLLMs生成多样化标题的方法,旨在提高视觉-语言表示学习的性能,同时减少模型的固有偏差。
➡️ 方法简介:研究团队提出了一种利用多个MLLMs生成多样化标题的方法,通过“文本剪切”技术来控制生成标题的长度,减少模型幻觉和单调语言风格的影响。具体来说,团队首先使用多个MLLMs为每个图像生成多个标题,然后通过“文本剪切”技术将生成的标题长度调整为与原始标题相同,最后将原始标题和生成的标题一起用于标准的视觉-语言预训练。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括CC3M、CC12M和YFCC15M。实验评估了在零样本和微调设置下,使用CLIP和BLIP模型进行图像-文本检索和图像分类的性能。实验结果表明,该方法在零样本和微调设置下均显著提高了模型的性能,特别是在图像-文本检索任务中,零样本设置下的R@1指标提高了16.8%至46.1%。此外,该方法在图像分类任务中也取得了显著的性能提升,平均提高了13.4%。
CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation
➡️ 论文标题:CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation
➡️ 论文作者:Zineng Tang, Ziyi Yang, Mahmoud Khademi, Yang Liu, Chenguang Zhu, Mohit Bansal
➡️ 研究机构: UC Berkeley、Microsoft Azure AI、Zoom、UNC Chapel Hill
➡️ 问题背景:多模态生成领域近年来取得了显著进展,如从用户提供的提示生成高保真图像、视频、音频和音乐样本。然而,当前的多模态生成模型(MGM)在零样本细粒度和复杂用户控制、多轮指令跟随以及多模态输入理解方面仍面临挑战。这些问题限制了模型在特定任务上的表现,如通过“类比”设置复制或转移编辑效果,以及主题驱动的生成。
➡️ 研究动机:为了克服上述挑战,研究团队提出了CoDi-2,一个能够处理任意模态输入并生成任意模态输出的多模态大型语言模型(MLLM)。CoDi-2不仅能够理解复杂的多模态交错指令,还能在多轮对话中保持响应的一致性和忠实性,从而实现编辑、推理和组合任务等。
➡️ 方法简介:CoDi-2通过将所有模态映射到语言空间,并通过编码器和同步解码器将这些模态连接到大型语言模型(LLM),从而处理多模态输入。在生成过程中,MLLM自回归地预测输出模态的特征,这些特征随后被输入到(同步的)扩散模型中。这种端到端的任意模态生成框架使CoDi-2能够进行复杂的推理,理解并生成多种模态,支持多样化的任务,如模仿、编辑、组合创作等。
➡️ 实验设计:研究团队构建了一个大规模的生成数据集,涵盖了文本、视觉和音频的在上下文中的多模态指令。实验设计了多种任务,包括音频融合和编辑、图像生成与复杂组合、使用上下文示例、复杂推理以及理解和生成视频。这些任务在零样本和少样本提示设置下展示了强大的能力,证明了系统的适应性和在不同场景下的稳健性能。
Merlin:Empowering Multimodal LLMs with Foresight Minds
➡️ 论文标题:Merlin:Empowering Multimodal LLMs with Foresight Minds
➡️ 论文作者:En Yu, Liang Zhao, Yana Wei, Jinrong Yang, Dongming Wu, Lingyu Kong, Haoran Wei, Tiancai Wang, Zheng Ge, Xiangyu Zhang, Wenbing Tao
➡️ 研究机构: 华中科技大学、北京理工大学、中国科学院大学、上海科技大学、MEGVII Technology
➡️ 问题背景:现有的多模态大语言模型(Multimodal Large Language Models, MLLMs)在图像理解和逻辑推理方面表现出显著潜力,但它们在基于当前图像观察预测未来事件方面存在不足。即使提供了额外的观察,如多帧序列,这些模型仍然难以充分分析和推断特定目标的行为,如预测物体运动或交互。
➡️ 研究动机:为了弥补现有MLLMs在预测未来事件方面的不足,研究团队提出了一种新的方法,通过建模未来来赋予MLLMs“预见能力”。该方法旨在通过轨迹建模,使模型能够理解时空动态,并基于当前观察进行复杂的未来推理。
➡️ 方法简介:研究团队提出了两种训练方法:1) Foresight Pre-Training (FPT),通过因果建模多帧图像中的轨迹,使模型能够从初始观察预测整个轨迹;2) Foresight Instruction-Tuning (FIT),通过结合轨迹建模,使模型能够基于预测的轨迹进行未来事件的推理。这两种方法共同构建了一个统一的MLLM,称为Merlin,能够处理单张图像或多帧视频的输入,并进行复杂的未来推理。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括物体检测、物体跟踪、视觉关系理解等任务。实验设计了多种任务,如多帧图像的轨迹预测和未来事件的推理,以全面评估Merlin的性能。实验结果表明,Merlin在未来的推理和视觉理解任务中表现出色,显著超越了现有的基线模型。
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
➡️ 论文标题:RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
➡️ 论文作者:Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, Tat-Seng Chua
➡️ 研究机构: Tsinghua University、National University of Singapore
➡️ 问题背景:多模态大语言模型(MLLMs)在多模态理解、推理和交互方面展现了显著的能力。然而,这些模型普遍存在严重的幻觉问题,即生成与关联图像事实不符的文本,这使得MLLMs在现实世界中(尤其是在高风险应用中)不可信赖。
➡️ 研究动机:研究团队提出RLHF-V框架,通过从细粒度校正的人类反馈中对MLLMs的行为进行对齐,以增强模型的可信度。该框架旨在解决现有MLLMs行为与人类偏好不一致的问题,特别是减少模型生成的幻觉。
➡️ 方法简介:RLHF-V框架包括两个关键创新:(1)在数据层面,收集以细粒度段落级校正形式的人类反馈,直接纠正模型输出中的幻觉部分,提供清晰、密集和细粒度的人类偏好,以及最优响应。(2)在方法层面,提出密集直接偏好优化(DDPO),这是一种新的DPO变体,通过监督学习方式直接优化策略模型,以减少幻觉。
➡️ 实验设计:研究团队在五个基准数据集上进行了实验,评估了RLHF-V在减少幻觉和提高模型可信度方面的效果。实验结果表明,使用1.4k偏好数据,RLHF-V显著降低了基础MLLM的物体幻觉率34.8%,优于使用10k偏好数据训练的LLaVA-RLHF。此外,RLHF-V在防止由过度泛化引起的幻觉方面表现出比GPT-4V更好的鲁棒性。
CLAMP: Contrastive LAnguage Model Prompt-tuning
➡️ 论文标题:CLAMP: Contrastive LAnguage Model Prompt-tuning
➡️ 论文作者:Piotr Teterwak, Ximeng Sun, Bryan A. Plummer, Kate Saenko, Ser-Nam Lim
➡️ 研究机构: Boston University、University of Central Florida
➡️ 问题背景:大型语言模型(LLMs)在多种机器学习任务中展现出强大的通用接口能力。最近的研究通过少量的指令调优数据,将LLMs适应于视觉任务,如图像描述、视觉问答和视觉聊天。然而,这些多模态LLMs(mLLMs)在图像分类任务中的表现却远不如专门的模型,如CLIP。尽管LLMs拥有丰富的世界知识,但在零样本图像分类任务中的表现却令人失望。
➡️ 研究动机:研究团队旨在探索现代LLMs是否可以通过适应来执行基本的视觉任务,如图像分类。研究发现,生成式训练目标(如生成式描述和指令调优)不足以支持有效的分类任务。因此,研究团队提出了一种新的方法,通过对比学习目标对LLMs进行参数高效的微调,以增强其分类能力。
➡️ 方法简介:研究团队提出了Contrastive LAnguage Model Prompt-tuning (CLAMP)方法,通过使用对比学习目标对LLMs进行微调,以替代对比视觉-语言模型中的文本编码器。CLAMP通过学习输出注意力池化、只读提示和低秩更新(LoRA)来对LLM进行微调,从而在保持生成能力的同时提高分类性能。
➡️ 实验设计:研究团队在24个零样本图像分类数据集上进行了实验,包括细粒度数据集(如Stanford Cars和Aircraft)、自然但具有挑战性的数据集(如EuroSAT和ImageNet)以及合成数据(如Kitti)。实验结果表明,CLAMP在零样本分类任务上显著优于现有的mLLMs和对比视觉-语言模型(LiT),尤其是在概念覆盖率较低的数据集上。此外,CLAMP还保留了LLMs的生成能力,展示了其作为通用模型的潜力。
相关文章:
多模态大语言模型arxiv论文略读(十九)
MLLMs-Augmented Visual-Language Representation Learning ➡️ 论文标题:MLLMs-Augmented Visual-Language Representation Learning ➡️ 论文作者:Yanqing Liu, Kai Wang, Wenqi Shao, Ping Luo, Yu Qiao, Mike Zheng Shou, Kaipeng Zhang, Yang Yo…...
【蓝桥杯选拔赛真题101】Scratch吐丝的蜘蛛 第十五届蓝桥杯scratch图形化编程 少儿编程创意编程选拔赛真题解析
目录 scratch吐丝的蜘蛛 一、题目要求 1、准备工作 2、功能实现 二、案例分析 1、角色分析 2、背景分析 3、前期准备 三、解题思路 四、程序编写 五、考点分析 六、推荐资料 1、scratch资料 2、python资料 3、C++资料 scratch吐丝的蜘蛛 第十五届青少年蓝桥杯s…...
springboot集成spring-cloud-context手动刷新并读取更新后的配置文件
背景 springboot单体项目在运行过程需要刷新springboot配置文件值,比如某个接口限流阈值,新增某个账户等场景。分布式设计的可以直接引入一些持久化中间件比如redis等,也可以用相关配置中心中间件如nacos等。处于成本等场景单体项目可以考虑①…...
游戏引擎学习第221天:(实现多层次过场动画)
资产: intro_art.hha 已发布 在下载页面,你会看到一个新的艺术包。你将需要这个艺术包来进行接下来的开发工作。这个艺术包是由一位艺术家精心制作并打包成我们设计的格式,旨在将这些艺术资源直接应用到游戏中。它包含了许多我们会在接下来的直播中使用…...
贪心算法(19)(java)重构字符串
题目:给定一个字符串 s ,检查是否能重新排布其中的字母,使得两相邻的字符不同。 返回 s 的任意可能的重新排列。若不可行,返回空字符串 "" 。 示例 1: 输入: s "aab" 输出: "aba"示例 2: 输入:…...
前端基础之《Vue(4)—响应式原理》
一、什么是响应式 1、响应式英文reactive 当你get/set一个变量时,你有办法可以“捕获到”这种行为。 2、一个普通对象和一个响应式对象对比 (1)普通对象 <script>// 这种普通对象不具备响应式var obj1 {a: 1,b: 2} </script>…...
Go学习系列文章声明
本次学习是基于B站的视频,【Udemy高分热门付费课程】Golang:完整开发者指南(基础知识和高级特性)中英文字幕_哔哩哔哩_bilibili 本人会尝试输出视频中的内容,如有错误欢迎指出 next page: Go installation process...
Go:程序结构
文章目录 名称声明变量短变量声明指针new 函数变量的生命周期 赋值多重赋值可赋值性 类型声明包和文件导入包初始化 作用域 名称 命名规则: 通用规则:函数、变量、常量、类型、语句标签和包的名称,开头须是字母(Unicode 字符 &a…...
【GitHub探索】mcp-go,MCP协议的Golang-SDK
近期大模型Agent应用开发方面,MCP的概念比较流行,基于MCP的ToolServer能力开发也逐渐成为主流趋势。由于笔者工作原因,主力是Go语言,为了调研大模型应用开发,也接触到了mcp-go这套MCP的SDK实现。 对于企业内部而言&am…...
Python 二分查找(bisect):排序数据的高效检索
二分查找:排序数据的高效检索 第二天清晨,李明早早来到了图书馆。今天他的研究目标是bisect模块,特别是其中的bisect_left和bisect_right函数。这些函数实现了二分查找算法,用于在已排序的序列中高效地查找元素或确定插入位置。 …...
【数据结构】堆排序详细图解
堆排序目录 1、什么是堆?1.1、什么是大顶堆1.2、什么是小顶堆 2、堆排序的过程3、堆排序的图解3.1、将数组映射成一个完全二叉树3.2、将数组转变为一个大顶堆3.3、开始进行堆排序 4、堆排序代码 1、什么是堆? 堆的定义:在一棵完全二叉树中&a…...
Dubbo(45)如何排查Dubbo的序列化问题?
排查Dubbo的序列化问题需要从多个角度进行分析,包括序列化协议的配置、序列化对象的定义、序列化框架的兼容性等。以下是详细的排查步骤及相关代码示例: 1. 检查序列化协议配置 Dubbo支持多种序列化协议(如Hessian、Kryo、FST等)…...
有哪些基于solidity的应用
🔥 Solidity 常见应用分类(附例子) 🏦 1. DeFi(去中心化金融) Solidity 的最大应用场景之一。 项目功能示例合约逻辑Uniswap去中心化交易所(AMM)流动性池、定价算法、swap函数Aave /…...
CST1016.基于Spring Boot+Vue高校竞赛管理系统
计算机/JAVA毕业设计 【CST1016.基于Spring BootVue高校竞赛管理系统】 【项目介绍】 高校竞赛管理系统,基于 DeepSeek Spring AI Spring Boot Vue 实现,功能丰富、界面精美 【业务模块】 系统共有两类用户,分别是学生用户和管理员用户&a…...
安卓性能调优之-掉帧测试
掉帧指的是某一帧没有在规定时间内完成渲染,导致 UI 画面不流畅,产生视觉上的卡顿、跳帧现象。 Android目标帧率: 一般情况下,Android设备的屏幕刷新率是60Hz,即每秒需要渲染60帧(Frame Per Second, FPS&a…...
GPT-SoVITS:5 步实现 AI 语音克隆
在 AI 技术高速迭代的今天,语音合成早已突破”机械朗读“的局限 —— 从短视频创作者的虚拟配音、游戏角色的个性化声线,到智能客服的自然交互,GPT-SoVITS正凭借其强大的多模态融合能力,成为实现”AI 声音克隆“与“情感化语音生成…...
记录:安装 Docker Desktop 时直接设置安装路径及容器存储路径
近期学用 deepseek 本地知识库的构建,准备尝试几个不同的 RAG 工具,结果基本都需要 Docker 支持,故又重新拾起 Docker 来安装,刚好看到个不用目录链接就可以直接设置安装路径的方法,就记录一下,以免以后忘…...
AI IDE 提示词
好的,这就将之前的分析内容整理成一篇适合发布在 CSDN 上的博客文章。 告别代码生成混乱:AI IDE 提示词模式权威指南 作者: (你的名字/昵称) 日期: 2025年4月14日 前言 随着人工智能技术的飞速发展,AI 助手(如 GitHub Copilot…...
Vue使用axios实现:上传文件、下载文件
Vue 使用 axios 框架,系列文章: 《Vue使用axios实现Ajax请求》 《Vue使用axios二次封装、解决跨域问题》 《Vue使用axios实现:上传文件、下载文件》 在实际开发过程中,浏览器通常需要和服务器端进行数据交互。而 Vue.js 并未提供与服务器端通信的接口。Axios 提供了一些方便…...
QPS是什么??
QPS QPS 是 Queries Per Second 的缩写,指每秒处理的查询请求数量,是衡量系统性能和吞吐量的重要指标,尤其在以下场景中广泛应用: 1. 数据库系统 QPS表示数据库每秒能够处理的查询次数,反映数据库的查询处理能力。 …...
算法训练之贪心
♥♥♥~~~~~~欢迎光临知星小度博客空间~~~~~~♥♥♥ ♥♥♥零星地变得优秀~也能拼凑出星河~♥♥♥ ♥♥♥我们一起努力成为更好的自己~♥♥♥ ♥♥♥如果这一篇博客对你有帮助~别忘了点赞分享哦~♥♥♥ ♥♥♥如果有什么问题可以评论区留言或者私信我哦~♥♥♥ ✨✨✨✨✨✨ 个…...
Vagrant 安装指南:从零开始搭建开发环境
Vagrant 是一款强大的虚拟化工具,能够帮助开发者快速创建和管理轻量级的、可复制的开发环境。它通过与 VirtualBox、VMware 或 Hyper-V 等虚拟机提供程序结合使用,让你在本地轻松运行虚拟机。本文将详细介绍如何在 Windows、macOS 和 Linux 系统上安装 V…...
APIGen-MT:高效生成多轮人机交互Agent数据的两阶段框架
APIGen-MT:高效生成多轮人机交互数据的两阶段框架 引言 随着人工智能技术的飞速发展,AI代理(Agent)已从简单的聊天机器人发展为能够执行复杂现实任务的系统,例如管理金融交易、安排预约和处理客户服务等。然而&#x…...
【NLP】 21. Transformer整体流程概述 Encoder 与 Decoder架构对比
1. Transformer 整体流程概述 Transformer 模型的整个处理流程可以概括为从自注意力(Self-Attention)到多头注意力,再加上残差连接、层归一化、堆叠多层的结构。其核心思想是利用注意力机制对输入进行并行计算,从而避免传统 RNN …...
《Vue Router实战教程》21.扩展 RouterLink
欢迎观看《Vue Router 实战(第4版)》视频课程 扩展 RouterLink RouterLink 组件提供了足够的 props 来满足大多数基本应用程序的需求,但它并未尝试涵盖所有可能的用例,在某些高级情况下,你可能会发现自己使用了 v-sl…...
开发一个答题pk小程序的大致成本是多少
答题 PK 小程序通常指的是一种允许用户之间进行实时或异步答题竞赛的应用程序,可能结合PK答题、积分系统、排行榜等功能。 一、首先,确定答题 PK 小程序的基本功能模块。这可能包括用户注册登录、题库管理、题目类型(单选、多选、判断等&am…...
Android 应用蓝牙连接通信实现
Android 应用蓝牙连接通信实现,主要包括如下步骤: 一.打开蓝牙 // 获取蓝牙适配器 BluetoothAdapter bluetoothAdapter BluetoothAdapter.getDefaultAdapter() 1.判断蓝牙是否打开, bluetoothAdapter.isEnabled() 2. 如果未打开,执行打开蓝牙…...
GPT-2 语言模型 - 模型训练
本节代码是一个完整的机器学习工作流程,用于训练一个基于GPT-2的语言模型。下面是对这段代码的详细解释: 文件目录如下 1. 初始化和数据准备 设置随机种子 random.seed(1002) 确保结果的可重复性。 定义参数 test_rate 0.2 context_length 128 tes…...
科技项目验收测试包括哪些内容?有什么作用?
在现代科技快速发展的背景下,科技项目的验收测试已成为项目管理中的重要环节。科技项目验收测试是一种系统性的方法,旨在评估一个科技项目是否达到预定的技术指标和要求,确认项目的完成质量。该测试通常在项目实施完成后进行,通过…...
Java 设计模式:组合模式详解
Java 设计模式:组合模式详解 组合模式(Composite Pattern)是一种结构型设计模式,它允许将对象组织成树形结构,以统一的方式处理单个对象和对象集合。组合模式适用于需要表示“部分-整体”层次结构的场景,例…...
