多模态大语言模型arxiv论文略读(二十六)

Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models
➡️ 论文标题:Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models
➡️ 论文作者:Xinpeng Ding, Jinahua Han, Hang Xu, Xiaodan Liang, Wei Zhang, Xiaomeng Li
➡️ 研究机构: Hong Kong University of Science and Technology (HKUST)、Huawei Noah’s Ark Lab、Sun Yat-Sen University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在语言驱动的驾驶任务中展现出巨大潜力。然而,现有的研究和数据集通常仅涵盖有限的任务,并且往往忽略了多视角和时间信息,这些信息对于稳健的自动驾驶至关重要。为了弥补这些不足,研究团队提出了NuInstruct,这是一个包含91K多视角视频-问答对的新型数据集,涵盖了17个子任务,每个任务都需要综合信息(如时间、多视角、距离等),显著提高了任务的挑战性。
➡️ 研究动机:现有的语言驱动驾驶研究存在两个主要问题:(1)任务部分覆盖,即现有基准仅涵盖自动驾驶任务的一部分;(2)信息不完整,即现有方法在执行任务时使用的数据往往不完整,通常仅基于单视角图像,缺乏时间和多视角信息。为了解决这些问题,研究团队创建了NuInstruct数据集,并提出了BEV-InMLLM模型,以增强MLLMs在处理多视角、时间和空间信息方面的能力。
➡️ 方法简介:研究团队提出了一种基于SQL的方法,自动生成指令-响应对,构建了NuInstruct数据集。该数据集涵盖了感知、预测、风险评估和规划等任务,每个任务都需要综合信息。此外,研究团队还提出了BEV-InMLLM模型,通过注入鸟瞰图(BEV)表示,增强MLLMs在自动驾驶任务中的全景理解能力。
➡️ 实验设计:研究团队在NuInstruct数据集上进行了实验,评估了BEV-InMLLM模型在感知、预测、风险评估和规划等任务上的性能。实验结果表明,BEV-InMLLM模型在各种任务上显著优于现有的MLLMs,性能提升高达9%。此外,消融研究表明,MV-MLLM在多视角任务上表现出色,而BEV-InMLLM在大多数任务中都至关重要,突显了空间信息的重要性。
Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study
➡️ 论文标题:Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study
➡️ 论文作者:Ziqiang Zheng, Yiwei Chen, Jipeng Zhang, Tuan-Anh Vu, Huimin Zeng, Yue Him Wong Tim, Sai-Kit Yeung
➡️ 研究机构: The Hong Kong University of Science and Technology, University of Science and Technology of China, Shenzhen University
➡️ 问题背景:大型语言模型(LLMs)展示了处理各种查询的强大能力,作为通用助手。多模态大型语言模型(MLLMs)赋予LLMs感知视觉信号的能力。GPT-4V(视觉版)在学术和工业领域都表现出显著的影响力,成为新一代人工智能的焦点。然而,尽管GPT-4V取得了显著成功,但在特定领域分析(如海洋分析)中,需要特定领域的知识和专业知识,这方面的研究较少受到关注。
➡️ 研究动机:为了填补这一空白,研究团队进行了初步的全面案例研究,利用GPT-4V进行海洋分析。研究旨在系统评估GPT-4V在海洋研究中的表现,并为未来MLLMs的发展设定新的标准。研究发现,GPT-4V在生成的响应中仍远未满足海洋专业领域的要求。
➡️ 方法简介:研究团队构建了一系列定性测试样本,涵盖海洋分析的多个目的,并使用这些样本评估GPT-4V生成响应的质量。测试样本包括不可在线获取的图像和私人数据,结合手动设计的提示构建。评估方面包括感知、统计、特定领域问答、海洋文化理解、高级功能和提示工程。
➡️ 实验设计:实验数据来自不同来源,包括海洋生物学家的私人数据、YouTube视频的手动裁剪帧、GPT-4V API发布后的互联网图像、研究文章和书籍中的框架和流程图图像,以及公共数据集和新创建的图像。每个案例至少有10个测试样本,以确保研究的一致性和可靠性。实验设计了多种提示,以评估GPT-4V在不同任务中的表现,包括物体识别、细粒度物体识别、鲁棒性分析、物理世界知识理解等。评估指标包括准确率、专家标注的对比和人类判断的评分。
Object-Centric Instruction Augmentation for Robotic Manipulation
➡️ 论文标题:Object-Centric Instruction Augmentation for Robotic Manipulation
➡️ 论文作者:Junjie Wen, Yichen Zhu, Minjie Zhu, Jinming Li, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang
➡️ 研究机构: 东华师范大学计算机科学学院、美的集团、上海大学理学院数学系
➡️ 问题背景:在机器人操作任务中,理解物体的位置信息对于完成任务至关重要。尽管大型语言模型(LLM)在增强文本描述方面取得了显著进展,但这些模型主要关注于增强任务规划等文本描述,而对物体位置信息的处理相对较少。本文提出了一种新的框架,通过多模态大型语言模型(MLLM)将物体的位置信息融入自然语言指令中,以提高机器人操作任务的成功率。
➡️ 研究动机:现有的研究主要集中在通过LLM增强任务规划等文本描述,但对物体位置信息的处理不足。本文旨在通过引入物体位置信息,增强语言指令,从而提高机器人操作任务的泛化能力和成功率。
➡️ 方法简介:研究团队提出了Object-Centric Instruction Augmentation (OCI) 框架,该框架通过MLLM将物体的位置信息(包括绝对位置和相对位置)融入自然语言指令中。此外,还引入了一种特征重用机制,将MLLM的视觉-语言特征嵌入到策略网络中,以提高策略学习的效率和泛化能力。
➡️ 实验设计:研究团队在模拟环境和真实世界中进行了实验,包括Franka Kitchen基准测试中的多个任务,如滑动开门、打开柜子、打开灯光、转动炉灶旋钮和打开微波炉。实验设计了不同数量的演示(10次和25次),并通过消融研究验证了不同组件(如绝对位置、相对位置和特征重用机制)对模型性能的影响。
➡️ 实验结果:实验结果表明,OCI框架在所有子任务中均优于现有的方法,特别是在某些任务上表现出了显著的优势。消融研究进一步验证了物体位置信息和特征重用机制对模型性能的提升作用。
MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance
➡️ 论文标题:MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance
➡️ 论文作者:Renjie Pi, Tianyang Han, Jianshu Zhang, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong, Jipeng Zhang, Tong Zhang
➡️ 研究机构: The Hong Kong University of Science and Technology, University of Illinois at Urbana-Champaign, The Hong Kong Polytechnic University
➡️ 问题背景:多模态大语言模型(MLLMs)的部署带来了一个独特的漏洞:通过视觉输入进行恶意攻击的易感性。与仅基于文本的大语言模型(LLMs)相比,MLLMs增加了图像模态,但这些图像在安全对齐过程中未被充分考虑,导致MLLMs更容易产生有害响应。此外,MLLMs在有限的图像-文本对上进行微调,远少于广泛的文本预训练语料库,这使得MLLMs在安全微调过程中更容易遗忘其原始能力。
➡️ 研究动机:现有的研究和防御策略主要集中在文本输入的LLMs上,而针对MLLMs的防御策略仍不成熟。研究团队发现,图像可以作为“外语”诱导MLLMs生成有害内容,这可能导致严重的后果。因此,研究团队旨在通过引入MLLM-Protector来解决这一问题,以减轻恶意图像输入对MLLMs的影响,同时不损害模型的原始性能。
➡️ 方法简介:研究团队提出了MLLM-Protector,这是一种即插即用的策略,通过两个子任务来解决对齐任务:1)通过轻量级的有害检测器识别有害响应;2)通过解毒器将有害响应转换为无害响应。这种方法可以有效地检测和纠正有害内容,确保模型的安全性。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括多模态安全基准(MM-SafetyBench)。实验设计了不同的攻击场景(如非法活动、仇恨言论、恶意软件生成等),以评估MLLM-Protector在不同条件下的表现。实验结果表明,MLLM-Protector能够显著降低攻击成功率(ASR),尤其是在非法活动和仇恨言论等场景中,几乎完全防止了有害内容的生成。
Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models
➡️ 论文标题:Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models
➡️ 论文作者:Xin He, Longhui Wei, Lingxi Xie, Qi Tian
➡️ 研究机构: Huawei Inc.
➡️ 问题背景:多模态大型语言模型(MLLMs)在多种任务中展现了显著的贡献,但这些模型在视觉感知能力方面存在局限性,尤其是CLIP类编码器在提取视觉信息时面临信息丢失的问题。尽管这些编码器经过数十亿图像-文本对的预训练,但文本标题只能部分捕捉图像内容,导致模型在处理查询时的响应质量受限。
➡️ 研究动机:为了克服现有模型在视觉感知能力上的局限,研究团队提出了一种新的方法,通过整合多种视觉专家(Visual Experts)来增强MLLMs的视觉感知能力,旨在提供更全面和准确的视觉输入描述。
➡️ 方法简介:研究团队提出了一种名为Incorporating Visual Experts (IVE)的框架,通过引入多任务编码器和结构知识增强模块,来全面描述视觉输入。多任务编码器整合了语义信息编码器、低级信息编码器和文档相关信息编码器,以提供更丰富的视觉信息描述。结构知识增强模块则利用OCR工具和对象检测器提取图像中的结构化数据,作为硬提示与融合的潜在嵌入一起输入到大型语言模型中。
➡️ 实验设计:IVE框架在多个多模态任务中进行了实验,包括通用多模态对话场景和特定任务如DocVQA。实验结果表明,IVE在识别输入图像的内在内容方面表现出色,能够生成更准确的响应,显著提升了模型的视觉感知能力。
相关文章:
多模态大语言模型arxiv论文略读(二十六)
Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models ➡️ 论文标题:Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models ➡️ 论文作者:Xinpeng Ding,…...
Java虚拟机(JVM)平台无关?相关?
计算机的概念模型 计算机实际上就是实现了一个图灵机模型。即,输入参数,根据程序计算,输出结果。图灵机模型如图。 Tape是输入数据,Program是针对这些数据进行计算的程序,中间横着的方块表示的是机器的状态。 目前使…...
Ubuntu 安装 Docker 教程(官方推荐方式)
✅ 步骤 1:卸载旧版本(如果有) for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done---### ✅ 步骤 2:更新 APT 索引并安装依赖项bash sudo a…...
Win10 C盘空间不足清理方法
当Windows 10系统的C盘空间不足时,可以采取以下方法进行清理: 1. 清理临时文件 打开“设置” > “系统” > “存储”。 点击“临时文件”,勾选要删除的临时文件、系统缓存等,然后点击“删除文件”。 2. 使用磁盘清理工具…...
cloudstudio学习笔记之openwebui
代码获取 git clone 参考资料 openwebui官网 https://docs.openwebui.com/getting-started/advanced-topics/development 后端启动 cd backend pip install -r requirements.txt -U sh dev.sh后端启动成功后的界面 在cloudstudio提供的vscode弹出的提示中打开浏览器并在末…...
7.QT-常用控件-QWidget|font|toolTip|focusPolicy|styleSheet(C++)
font API说明font()获取当前widget的字体信息.返回QFont对象.setFont(const QFont& font)设置当前widget的字体信息. 属性说明family字体家族.⽐如"楷体",“宋体”,"微软雅⿊"等.pointSize字体⼤⼩weight字体粗细.以数值⽅式表⽰粗细程度取值范围为[…...
机器学习核心算法全解析:从基础到进阶的 18 大算法模型
在机器学习领域,算法模型是解决实际问题的核心工具。 不同的算法适用于不同的数据场景和任务需求,理解它们的原理与应用是掌握机器学习的关键。 以下将详细解析 18 个核心算法模型,涵盖监督学习、无监督学习、集成学习和深度学习等多个领域…...
线性代数 | 知识点整理 Ref 1
注:本文为 “线性代数 | 知识点整理” 相关文章合辑。 因 csdn 篇幅合并超限分篇连载,本篇为 Ref 1。 略作重排,未整理去重。 图片清晰度限于引文原状。 如有内容异常,请看原文。 线性代数知识汇总 Arrow 于 2016-11-27 16:27:5…...
【深度学习入门_NLP自然语言处理】序章
本部分开始深度学习第二大部分NLP章节学习,找了好多资料,终于明确NLP的学习目标了,介于工作之余学习综合考量,还是决定以视频学习为主后期自主实践为主吧。 分享一个总图,其实在定位的时候很迷茫,单各章节…...
Windows常用维护命令
系统信息查询 systeminfo:查看系统详细信息,如操作系统版本、处理器信息、内存配置等。hostname:显示计算机名称。ver:显示 Windows 版本。 网络诊断 ipconfig:查看 IP 配置,如 IP 地址、子网掩码、网关等。…...
Java 2025:解锁未来5大技术趋势,Kotlin融合AI新篇
各位Java开发者们好!🚀 2025年的Java世界正在经历一场前所未有的技术变革。作为深耕Java领域多年的技术博主,今天我将带大家深入探索Java生态即将迎来的5大技术趋势,特别是Kotlin的深度融合和AI技术的新篇章。准备好了吗ÿ…...
IcePlayer音乐播放器项目分析及学习指南
IcePlayer音乐播放器项目分析及学习指南 项目概述 IcePlayer是一个基于Qt5框架开发的音乐播放器应用程序,使用Visual Studio 2013作为开发环境。该项目实现了音乐播放、歌词显示、专辑图片获取等功能,展现了桌面应用程序开发的核心技术和设计思想。 技…...
蓝桥杯 二进制问题 刷题笔记
8.二进制问题 - 蓝桥云课 存入N的二进制每一位作为基准数组 算出方案数 从高位往低位用dfs枚举每一位是放1还是放0 #include<iostream> #include<vector> #define ll long long using namespace std;ll dp[65][65]; ll num; ll k; vector<ll> vec;ll cal(l…...
20. git diff
基本概述 git diff的作用是:比较代码差异 基本用法 1.工作区 VS 暂存区 git diff [file]2.暂存区 VS 最新提交 git diff --staged [file] # 或 git diff --cached [file]3.工作区 VS 最新提交 git diff HEAD [file]高级用法 1.比较两个提交间的差异 git dif…...
深入剖析 MySQL 中用户授权机制及操作
在数据库管理的庞大体系中,MySQL 作为一款广泛应用的开源关系型数据库管理系统,其用户授权机制对于保障数据安全、确保数据库稳定运行以及满足多样化的业务需求起着举足轻重的作用。当我们遭遇 “Access denied for user icoolkj% to database icoolkj-a…...
mapbox基础,加载视频到地图
👨⚕️ 主页: gis分享者 👨⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨⚕️ 收录于专栏:mapbox 从入门到精通 文章目录 一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️raster 栅格图层 api二、🍀加载视频到…...
synchronized 与分布式锁
1. synchronized 关键字 定义: synchronized 是 Java 提供的一个内置锁机制,用于控制多线程对共享资源的并发访问。 它可以修饰方法或代码块,确保同一时刻只有一个线程可以执行被 synchronized 修饰的代码。作用范围: 只能用于单…...
获取视频封面
目录 实现方式注意事项代码实现 实现方式 通过 video 元素canvas 元素的方式实现 生成 video 和 canvas 元素当 video 元素资源加载完成时,将 video 元素绘制到 canvas 画布上,然后通过 toBlob 或则 toDataURL 获取到对应的封面图片资源 注意事项 vid…...
RNN - 循环神经网络(实现)
写在前面 在RNN - 循环神经网络(概念介绍)中,介绍了一下 RNN 的相关概念,下面就基于概念对 RNN 进行两种实现。从零开始实现和简洁实现。 从 0 开始实现 首先导入必要的环境,使用 H.G.Wells 的时光机器数据集上训练…...
【FAQ】HarmonyOS SDK 闭源开放能力 —Health Service Kit
1.问题描述: 按照官方文档调用healthStore API申请用户授权;有拉起授权弹窗,但是无回调,检查权限接口也无回调。 解决方案: 1、接口调用前,需先使用init方法进行初始化,没有回调的问题请确认…...
【unity游戏开发入门到精通——UGUI】RectTransform矩形变换组件
注意:考虑到UGUI的内容比较多,我将UGUI的内容分开,并全部整合放在【unity游戏开发——UGUI】专栏里,感兴趣的小伙伴可以前往逐一查看学习。 文章目录 一、RectTransform组件介绍二、RectTransform组件参数1、Pivot 轴心点2、Ancho…...
【Rust 精进之路之第4篇-数据基石·上】标量类型:整数、浮点数、布尔与字符的精妙之处
系列: Rust 精进之路:构建可靠、高效软件的底层逻辑 作者: 码觉客 发布日期: 2025-04-20 引言:构成万物的“原子”——标量类型 在上一篇文章【变量观】中,我们深入探讨了 Rust 如何通过 let、mut、const…...
C语言复习笔记--字符函数和字符串函数(上)
在编程的过程中,我们经常要处理字符和字符串,为了⽅便操作字符和字符串,C语⾔标准库中提供了 ⼀系列库函数,接下来我们就学习⼀下这些函数。 首先来看下字符函数. 字符分类函数 C语⾔中有⼀系列的函数是专⻔做字符分类的…...
Apipost,前端后端测试都在用的接口设计调试工具
大家好,我是袁庭新。给大家介绍一个后端、前端、测试都在用的接口测试工具——Apipost。Apipost主要分为5个大模块,贯穿一个API从设计到测试完成上线的研发全周期。 1.Apipost介绍 Apipost官方地址:https://www.apipost.cn。如下图所示。 A…...
十倍开发效率 - IDEA 插件之RestfulBox - API
提高效率不是为了完成更多的任务,而是有充足的时间摸鱼。 快速体验 RestfulBox - API 是 IDEA 的插件,适合本地测试接口,完全不需要对项目进行任何以来。 接口管理:支持接口扫描、浏览、搜索、跳转、导入和导出。支持接口请求&a…...
2025 年网络安全的挑战与机遇
2024 年是网络安全领域风云变幻的一年。从备受瞩目的勒索软件攻击所带来的影响,到人工智能工具日益商品化,挑战不断增加。 关键基础设施的漏洞变得极为明显,身份盗窃次数也达到了前所未有的程度。然而,在这一片混乱之中ÿ…...
Linux 常用指令用户手册
Linux 常用指令用户手册 适合新手入门 & 日常速查 目录 基础操作文件与目录管理权限与所有权文本处理压缩与解压系统监控网络操作进程管理实用小技巧 1. 基础操作 1.1 查看系统信息 # 查看内核版本 uname -a# 查看系统发行版信息(适用于 Debian/Ubuntu&…...
IP数据报
IP数据报组成 IP数据报(IP Datagram)是网络中传输数据的基本单位。 IP数据报头部 版本(Version) 4bit 告诉我们使用的是哪种IP协议。IPv4版本是“4”,IPv6版本是“6”。 头部长度(IHL,Intern…...
android PackageName ClassName
目录 系统应用: 设置 蓝牙 时钟 计算机 录音机 图库 视频 文件管理 FM 日历 谷歌浏览器 谷歌商店 热门商店 国外应用: amazon spotify deezer pandora audible applemusic omnia mxtech youtubemusic facebook familylink tidal tiktok kindle mxtechvideoplayer vlc 系统应…...
【Lua语言】Lua语言快速入门
初始Lua Lua是一种轻量小巧的脚本语言,他使用标准C语言编写并以源代码形式开放。这意味着Lua虚拟机可以很方便的嵌入别的程序中,从而为应用程序提供灵活的扩展和定制功能。同时,在目前脚本引擎中,Lua的运行速度占有绝对优势。 变…...
