多模态大语言模型arxiv论文略读(四十)
The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative
➡️ 论文标题:The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative
➡️ 论文作者:Zhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Yu Kong, Tianlong Chen, Huan Liu
➡️ 研究机构: Arizona State University, Michigan State University, University of North Carolina at Chapel Hill, MIT, Harvard University
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)因其处理和响应各种类型数据的卓越能力,正在不断定义人工智能(AI)的新边界。随着这些高级生成模型越来越多地形成协作网络以完成复杂任务,确保这些系统的完整性和安全性变得至关重要。然而,研究发现,MLLM社会中存在一种新的隐蔽漏洞——恶意内容的间接传播。这种威胁不同于直接生成有害输出,而是通过一个MLLM代理被微妙地影响,生成能够诱导其他MLLM代理输出恶意内容的提示。
➡️ 研究动机:现有的研究主要集中在直接操纵MLLMs以产生有害输出,而本研究揭示了通过一个MLLM代理间接影响其他代理生成恶意内容的可能性。这种间接影响可以导致危险指令或虚假信息在整个MLLM社会中生成和传播。研究团队通过实验展示了这种间接生成的提示的可转移性,强调了其通过代理间通信传播恶意内容的可能性。这项研究揭示了MLLMs带来的新的威胁维度,即一个代理可以作为催化剂,引发广泛的恶意影响。研究强调了开发强大的检测和缓解机制以对抗MLLM社会中的这种隐蔽操纵的紧迫性。
➡️ 方法简介:研究团队提出了一种新的攻击设置,假设攻击者对MLLMs有白盒访问权限,如模型的梯度信息。通过在图像输入中注入可学习的噪声,引导“狼”代理生成恶意提示,进而诱导“羊”代理输出有害内容。研究使用了投影梯度下降(PGD)方法优化噪声,以最小化生成的输出与目标恶意内容之间的差异。此外,研究还探讨了这种攻击的可转移性,即优化后的噪声和恶意提示可以直接用于攻击其他未参与优化的MLLM代理。
➡️ 实验设计:研究在两个开源多模态LLM上进行了实验,分别是LLaVA(用于图像-文本输入)和PandaGPT(用于音频-文本输入)。实验设计了14种禁止场景,包括非法活动、儿童伤害、仇恨/骚扰/暴力、恶意软件、身体伤害、经济损失、欺诈/欺骗、成人内容、政治竞选、隐私侵犯、未经授权的法律实践、定制财务建议、未经授权的医疗建议和高风险政府决策。实验结果表明,“狼”代理能够以接近100%的成功率在图像攻击场景中生成和部署恶意内容。研究还通过案例研究展示了图像和音频提示的注入如何促使“狼”代理生成诱导“羊”代理生成有害内容的输出。此外,研究验证了这些攻击的可转移性,即针对特定“羊”代理训练的恶意输出可以适应并攻击网络中的其他代理。
Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image
➡️ 论文标题:Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image
➡️ 论文作者:Zefeng Wang, Zhen Han, Shuo Chen, Fan Xue, Zifeng Ding, Xun Xiao, Volker Tresp, Philip Torr, Jindong Gu
➡️ 研究机构: Technical University of Munich、LMU Munich、Huawei Technologies、University of Oxford
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在文本和图像理解方面表现出强大的能力,引起了广泛关注。为了提高MLLMs在理解复杂内容图像时的性能,链式思维(Chain-of-Thought, CoT)推理被广泛探索,通过生成中间推理步骤(即理由)来提高模型的解释性和推理能力。然而,最近的研究表明,MLLMs在面对对抗性图像时仍然表现出脆弱性,这引发了关于CoT是否能增强MLLMs对抗性鲁棒性的疑问。
➡️ 研究动机:尽管CoT推理在提高MLLMs的解释性和推理能力方面表现出色,但其在对抗性攻击下的表现尚未得到充分研究。为了回答CoT是否能增强MLLMs的对抗性鲁棒性,以及CoT的中间推理步骤在对抗性攻击下意味着什么,研究团队对MLLMs的两个核心组件(即理由和答案)进行了攻击实验,旨在评估CoT在对抗性攻击下的表现,并探索新的攻击方法。
➡️ 方法简介:研究团队首先将现有的攻击方法(即答案攻击和理由攻击)推广到具有CoT推理的MLLMs上,评估了这些模型在攻击下的表现。基于观察,研究团队进一步提出了一种新的攻击方法——停止推理攻击(Stop-Reasoning Attack),该方法旨在中断模型的推理过程,迫使模型直接输出答案,即使在明确要求使用CoT的情况下也是如此。
➡️ 实验设计:研究团队在三个MLLMs(MiniGPT4、OpenFlamingo、LLaVA)和两个视觉问答数据集(A-OKVQA和ScienceQA)上进行了实验。实验设计了不同的攻击方法(如答案攻击、理由攻击和停止推理攻击),以评估模型在不同攻击下的表现。实验结果表明,CoT在一定程度上提高了MLLMs的对抗性鲁棒性,但停止推理攻击能够显著降低这种鲁棒性,导致模型输出错误答案。
CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora
➡️ 论文标题:CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora
➡️ 论文作者:Zijun Long, Xuri Ge, Richard Mccreadie, Joemon Jose
➡️ 研究机构: University of Glasgow
➡️ 问题背景:文本到图像检索(Text-to-Image Retrieval)旨在根据文本查询找到相关的图像,这一技术在数字图书馆、电子商务和多媒体数据库等多种应用场景中具有重要意义。尽管多模态大型语言模型(MLLMs)在这一任务上表现出色,但它们在处理大规模、多样性和模糊性的现实需求时存在局限性,主要体现在计算成本高和注入式嵌入(injective embeddings)的问题上。
➡️ 研究动机:现有的MLLMs方法在处理大规模、多样性和模糊性的数据时,尤其是在涉及长文本查询和多对象图像的复杂查询时,面临效率和效果的双重挑战。为了克服这些挑战,研究团队提出了一种新的两阶段粗到精索引共享检索(Coarse-to-Fine Index-shared Retrieval, CFIR)框架,旨在提高检索的效率和效果。
➡️ 方法简介:研究团队提出了CFIR框架,该框架包括两个核心阶段:基于实体的排名(Entity-based Ranking, ER)和基于摘要的重新排名(Summary-based Re-ranking, SR)。ER阶段通过将长文本查询转换为多个实体查询,从而缓解模糊性和部分关联问题,并有效过滤掉无关的图像候选。SR阶段则通过生成文档摘要并使用这些摘要来重新排名之前识别的实体基础图像候选,进一步提高检索的精确度。
➡️ 实验设计:研究团队在AToMiC数据集上进行了实验,该数据集包含超过2100万张图像和文本文档,提供了两个不同的评估设置:基础设置和大规模设置。实验结果表明,CFIR框架在Recall@1000指标上比现有的MLLMs方法提高了11.06%,同时在训练和检索时间上分别减少了68.75%和99.79%。此外,研究团队还引入了一种专门的Decoupling-BEiT-3编码器,优化了ER和SR阶段的性能,通过解耦视觉和文本输入的编码,显著提高了计算效率。
PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain
➡️ 论文标题:PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain
➡️ 论文作者:Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai, Yuchi Wang, Peiyi Wang, Xiangdi Meng, Tianyu Liu, Baobao Chang
➡️ 研究机构: 北京大学国家多媒体信息处理重点实验室、阿里巴巴集团
➡️ 问题背景:多模态大语言模型(MLLMs)在处理需要感知、认知和行动等综合技能的复杂任务中展现出了显著的能力。然而,当前的MLLM基准测试往往单独评估这些能力,忽视了大型语言模型(LLMs)对多模态模型的综合贡献。此外,这些基准测试缺乏错误定位技术,使得难以确定模型在决策错误时是视觉部分还是语言部分出现了问题。
➡️ 研究动机:为了解决现有基准测试在综合评估和错误定位上的不足,研究团队引入了PCA-Bench,这是一个多模态决策基准,旨在评估MLLMs在感知-认知-行动链中的综合能力。PCA-Bench涵盖了自动驾驶、家庭机器人和开放世界游戏三个复杂场景,通过提供任务指令和多样化的上下文,要求模型无缝集成多种能力以做出准确的决策。此外,PCA-Bench还具备错误定位能力,能够细致地审查模型在感知、知识或推理方面的不准确性,从而增强MLLMs部署的可靠性。
➡️ 方法简介:研究团队提出了PCA-Eval,一种基于锚点的自动评估协议,利用强大的语义解析能力的LLMs和数据注释中的锚点信息,自动进行错误定位。此外,为了扩大PCA-Bench的规模,研究团队还提出了Embodied Instruction Evolution (EIE),这是一种自动框架,用于在多模态具身环境中合成指令调优示例。EIE生成了7,510个训练示例,显著提升了开源MLLMs的性能,有时甚至超过了GPT-4 Vision。
➡️ 实验设计:研究团队在PCA-Bench的三个领域(自动驾驶、家庭机器人和开放世界游戏)进行了全面的实验和分析。实验结果表明,GPT4-Vision在感知和基于世界知识的推理方面表现出色,其零样本跨模态推理能力超过了开源MLLMs。EIE生成的训练样本显著提升了开源MLLMs的性能,有时甚至超过了GPT-4 Vision。PCA-Eval在与人类评估结果的高度一致性(平均Kappa系数为0.8+)方面表现良好,能够有效区分模型的正确决策是偶然的还是基于真正的理解。
Multimodal Instruction Tuning with Conditional Mixture of LoRA
➡️ 论文标题:Multimodal Instruction Tuning with Conditional Mixture of LoRA
➡️ 论文作者:Ying Shen, Zhiyang Xu, Qifan Wang, Yu Cheng, Wenpeng Yin, Lifu Huang
➡️ 研究机构: Virginia Tech、Meta AI、The Chinese University of Hong Kong、The Pennsylvania State University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理和整合来自不同模态的信息方面表现出色,尤其是在文本和图像处理上。然而,随着MLLMs的复杂性和规模的增加,参数高效的微调方法(如低秩适应,LoRA)变得至关重要。然而,LoRA在多模态指令调优中面临任务干扰问题,导致性能下降。
➡️ 研究动机:现有的多模态指令调优方法在处理多样化的多模态任务时,由于任务干扰问题,性能会显著下降。为了缓解这一问题,研究团队提出了一种新的方法——条件混合低秩适应(Conditional Mixture-of-LoRA, MixLoRA),旨在通过动态构建低秩适应矩阵来减轻任务干扰,从而提高模型在不同多模态任务中的鲁棒性和适应性。
➡️ 方法简介:研究团队提出了一种系统的方法,通过动态选择低秩分解因子来构建适应矩阵,从而为每个输入实例生成特定的低秩适应矩阵。MixLoRA引入了两个独立因子选择路由器(IFS)和一个条件因子选择路由器(CFS),以确保选择的因子不仅适应输入,而且在A和B矩阵之间保持一致性。
➡️ 实验设计:研究团队在Vision-Flan数据集上进行了多模态指令调优实验,并在MME和其他七个多模态评估数据集上进行了评估。实验设计了不同的任务类型,包括视觉感知、认知能力、光学字符识别、视觉空间推理等,以全面评估MixLoRA在不同任务中的表现。实验结果表明,MixLoRA在相同或更高秩的情况下,始终优于传统的LoRA方法。
相关文章:

多模态大语言模型arxiv论文略读(四十)
The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative ➡️ 论文标题:The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative ➡️ 论文作者:Zhen Tan, Chengshuai Zhao, Raha M…...

【蓝桥杯选拔赛真题104】Scratch回文数 第十五届蓝桥杯scratch图形化编程 少儿编程创意编程选拔赛真题解析
目录 scratch回文数 一、题目要求 1、准备工作 2、功能实现 二、案例分析 1、角色分析 2、背景分析 3、前期准备 三、解题思路 四、程序编写 五、考点分析 六、推荐资料 1、scratch资料 2、python资料 3、C++资料 scratch回文数 第十五届青少年蓝桥杯scratch编…...

OpenWrt 与 Docker:打造轻量级容器化应用平台技术分享
文章目录 前言一、OpenWrt 与 Docker 的集成前提1.1 硬件与内核要求1.2 软件依赖 二、Docker 环境部署与验证2.1 基础服务配置2.2 存储驱动适配 三、容器化应用部署实践3.1 资源限制策略3.2 Docker Compose 适配 四、性能优化与监控4.1 容器资源监控4.2 镜像精简策略 五、典型问…...
tkinter的文件对话框:filedialog
诸神缄默不语-个人技术博文与视频目录 文章目录 一、前言二、tkinter.filedialog模块详解2.1 模块导入方式2.2 通用参数说明 三、五大核心函数实战3.1 选择单个文件 - askopenfilename()3.2 多文件选择 - askopenfilenames()3.3 保存文件对话框 - asksaveasfilename()3.4 选择目…...

C++初阶----模板初阶
引言 什么是模板 模板是泛型编程的基础,泛型编程是以一种独立于任何特定类型的方式编写代码。 模板也是创建泛型类或者函数的蓝图。 如:库容器,迭代器和算法,都是泛型编程的例子 1. 泛型编程 首先,我们应该了解什么是…...

网络流量分析 | 流量分析基础
流量分析是网络安全领域的一个子领域,其主要重点是调查网络数据,以发现问题和异常情况。本文将涵盖网络安全和流量分析的基础知识。 网络安全与网络中的数据 网络安全的两个最关键概念就是:认证(Authentication)和授…...
幻读是什么项目中是怎么保证不会出现幻读
幻读(Phantom Read)是数据库并发控制中的一种现象,指的是在事务处理中,一个事务在读取某个数据范围时,另一个事务插入、删除或者修改了该数据范围,导致第一个事务再次读取数据时,看到的数据发生…...
C语言实现对哈希表的操作:创建哈希表与扩容哈希表
一. 简介 前面文章简单了解了哈希表 这种数据结构,文章如下: 什么是哈希表-CSDN博客 本文来学习一下哈希表,具体学习一下C语言实现对哈希表的简单实现。 二. C语言实现对哈希表的操作 1. 哈希表 哈希表(Hash Tableÿ…...
MYSQL 常用字符串函数 和 时间函数详解
一、字符串函数 1、CONCAT(str1, str2, …) 拼接多个字符串。 SELECT CONCAT(Hello, , World); -- 输出 Hello World2、SUBSTRING(str, start, length) 或 SUBSTR() 截取字符串。 SELECT SUBSTRING(MySQL, 3, 2); -- 输出 SQ3、LENGTH(str) 与 CHAR_LENGTH…...
通过API接口在自己的独立站系统上架商品信息。(实战案例)
以下是一个通过API接口在独立站系统上架商品信息的实战案例,以某跨境电商独立站集成亚马逊产品数据为例,详细说明技术实现流程和关键代码逻辑: 案例背景 某跨境电商独立站需要从亚马逊平台同步商品数据(标题、价格、库存、图片、…...

C语言文件操作完全手册:读写·定位·实战
1.什么是文件 1.1文件的概念 文件(File)是计算机中用于持久化存储数据的基本单位。它可以存储文本、图片、音频、程序代码等各种信息,并在程序运行结束后仍然保留数据。 1.2文件名 一个文件要有一个唯一的文件标识,以便用户识别…...

多模态大语言模型arxiv论文略读(三十七)
A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models ➡️ 论文标题:A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models ➡️ 论文作者:Jie Liu, Wenxuan Wang, Yihang Su, Jingyuan Huan, …...
IDEA创建Gradle项目然后删除报错解决方法
根据错误信息,你的项目目录中缺少Gradle构建必需的核心文件(如settings.gradle/build.gradle),且IDEA可能残留了Gradle的配置。以下是具体解决方案: 一、问题根源分析 残留Gradle配置 你通过IDEA先创建了Gradle子模块…...

SpringBoot 学习
什么是 SpringBoot SpringBoot 是基于 Spring 生态的开源框架,旨在简化 Spring 应用的初始化搭建和开发配置。它通过约定大于配置的理念,提供快速构建生产级应用的解决方案,显著降低开发者对 XML 配置和依赖管理的负担。 特点: …...
MoE架构解析:如何用“分治”思想打造高效大模型?
在人工智能领域,模型规模的扩大似乎永无止境。从GPT-3的1750亿参数到传闻中的GPT-4万亿级规模,每一次突破都伴随着惊人的算力消耗。但当我们为这些成就欢呼时,一个根本性问题愈发尖锐:如何在提升模型能力的同时控制计算成本&#…...
云服务器和独立服务器的区别在哪
在当今数字化的时代,服务器成为了支撑各种业务和应用的重要基石。而在服务器的领域中,云服务器和独立服务器是两个备受关注的选项。那么,它们到底有何区别呢? 首先,让我们来聊聊成本。云服务器通常采用按需付费的模式…...
使用 Pandas 进行多格式数据整合:从 Excel、JSON 到 HTML 的处理实战
前言 在数据处理与分析的实际场景中,我们经常需要整合不同格式的数据,例如 Excel 表格、JSON 配置文件、HTML 报表等。本文以一个具体任务(蓝桥杯模拟练习题)为例,详细讲解如何使用 Python 的 Pandas 库结合其他工具&…...
深入解析 Linux 中动静态库的加载机制:从原理到实践
引言 在 Linux 开发中,动静态库是代码复用的核心工具。静态库(.a)和动态库(.so)的加载方式差异显著,直接影响程序的性能、灵活性和维护性。本文将深入剖析两者的加载机制,结合实例演示和底层原…...

VuePress 使用教程:从入门到精通
VuePress 使用教程:从入门到精通 VuePress 是一个以 Vue 驱动的静态网站生成器,它为技术文档和技术博客的编写提供了优雅而高效的解决方案。无论你是个人开发者、团队负责人还是开源项目维护者,VuePress 都能帮助你轻松地创建和管理你的文档…...
Kafka与Spark-Streaming
大数据处理的得力助手:Kafka与Spark-Streaming 在大数据处理的领域中,Kafka和Spark-Streaming都是极为重要的工具。今天,咱们就来深入了解一下它们,看看这些技术是如何让数据处理变得高效又强大的。先来说说Kafka,它是…...
【设计】接口幂等性设计
1. 幂等性定义 接口幂等性: 无论调用次数多少,对系统状态的影响与单次调用相同。 比如用户支付接口因网络延迟重复提交了三次。 导致原因: 用户不可靠(手抖多点)网络不可靠(超时重传)系统不可…...
闲聊人工智能对媒体的影响
技术总是不断地改变信息的传播方式。互联网促进了社交媒体的蓬勃发展。 网络媒体成为主流。大语言模型为代表的人工智能的出现,又会对媒体传播带来怎样的改变呢?媒体的演变反映了社会和技术的演变。 人工智能(AI) 将继续对整个媒体行业产生变革性的影响。…...

卷积神经网络--手写数字识别
本文我们通过搭建卷积神经网络模型,实现手写数字识别。 pytorch中提供了手写数字的数据集 ,我们可以直接从pytorch中下载 MNIST中包含70000张手写数字图像:60000张用于训练,10000张用于测试 图像是灰度的,28x28像素 …...
Pandas 数据导出:如何将 DataFrame 追加到 Excel 的不同工作表
在数据分析和数据处理过程中,将数据导出到 Excel 文件是一个常见的需求。Pandas 提供了强大的功能来实现这一需求,尤其是将数据追加到同一个 Excel 文件的不同工作表(Sheet)中。本文将详细介绍如何使用 Pandas 实现这一功能&#…...
Unity中数据和资源加密(异或加密,AES加密,MD5加密)
在项目开发中,始终会涉及到的一个问题,就是信息安全,在调用接口,或者加载的资源,都会涉及安全问题,因此就出现了各种各样的加密方式。 常见的也是目前用的最广的加密方式,分别是:DE…...

SQL Server 2019 安装与配置详细教程
一、写在最前的心里话 和 MySQL 对比,SQL Server 的安装和使用确实要处理很多细节: 需要选择配置项很多有“定义实例”的概念,同一机器可以运行多个数据库服务设置身份验证方式时,需要同时配置 Windows 和 SQL 登录要想 Spring …...
Qt 调试信息重定向到本地文件
1、在Qt软件开发过程中,我们经常使用qDebug()输出一些调试信息在QtCreator终端上。 但若将软件编译、生成、打包为一个完整的可运行的程序并安装在系统中后,系统中没有QtCreator和编译环境,那应用程序出现问题,如何输出信息排查…...

MyBatisPlus文档
一、MyBatis框架回顾 使用springboot整合Mybatis,实现Mybatis框架的搭建 1、创建示例项目 (1)、创建工程 新建工程 创建空工程 创建模块 创建springboot模块 选择SpringBoot版本 (2)、引入依赖 <dependencies><dependency><groupId>org.springframework.…...

Memcached 主主复制架构搭建与 Keepalived 高可用实现
实验目的 掌握基于 repcached 的 Memcached 主主复制配置 实现通过 Keepalived 的 VIP 高可用机制 验证数据双向同步及故障自动切换能力 实验环境 角色IP 地址主机名虚拟 IP (VIP)主节点10.1.1.78server-a10.1.1.80备节点10.1.1.79server-b10.1.1.80 操作系统: CentOS 7 软…...
Android 使用支付接口,需要进行的加密逻辑:MD5、HMAC-SHA256以及RSA
目录 前言MD5HMAC-SHA256RSA其他 前言 不使用加密:支付系统如同「裸奔」,面临数据泄露、资金被盗、法律追责等风险。 正确使用加密:构建「端到端安全防线」,确保交易合法可信,同时满足国际合规要求。 支付系…...