[论文阅读]Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning
Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning
[2402.08416] Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning
间接越狱攻击
GPT的RAG增强过程分四个阶段:❶GPT首先组织不同的用户上传的文档类型(PDF、HTML、Word),主要按文件名排序以实现高效检索。 ❷ 对于用户提示,GPT 确定是否需要信息检索,根据文件名从上传中选择文档。 GPT 一次处理一个文件以提高效率。 ❸ 所选文档被分段和向量化,以便与用户的查询向量进行相似度计算。 提取相似度得分最高的前 K 个片段,增强响应上下文。 ❹ 最后,将这些片段的内容与用户的提示相结合。 该复合输入由大语言模型处理,通过直接合并文本或将矢量化片段嵌入到原始内容中。
方法
Pandora的设计原理深深植根于对大语言模型基本运行机制及其防御越狱攻击的复杂理解。
大语言模型的一个关键特征是它们依赖于训练自我监督学习,其中它们沉浸在广泛的文本数据集中。 这种方法使大语言模型能够通过预测随后的文本片段来学习,独立于外部注释,并且仅依赖数据集来指导学习过程。 该训练的核心是模型内部参数的调整,旨在最小化其预测与训练数据中的实际序列之间的方差。
Pandora 认识到大语言模型中的自我监督学习可以从庞大的语料库中吸收积极和消极的方面,因此利用了这种自我监督的特征,特别是在内容生成方面。 当呈现特定的文本语料库时,大语言模型自然倾向于生成不仅相关而且与输入一致的内容。 大语言模型解码和生成相关且有意义的内容的天生能力支撑着Pandora。 它利用大语言模型通过自我监督学习方案积累的知识来实现产生相关且有影响力的输出的目标。 大语言模型对文本语料库的语境化和恰当响应的能力对于Pandora的功能效率至关重要。 值得注意的是,Pandora旨在将恶意内容引入该生态系统,导致大语言模型产生有害/有毒输出,从而导致越狱攻击。
Pandora 通过 RAG 中毒执行越狱攻击的方法:
❶ 恶意内容生成:此阶段对于创建专门用于违反某些使用政策(例如传播成人内容或宣扬有害活动)的内容至关重要。 这个过程的复杂性在很大程度上取决于恶意行为者的意图。
❷ 恶意文档创建:此阶段涉及将实际恶意内容创建到文件中,旨在模仿真实的知识源。 一旦生成,该内容就会被策略性地上传并注入到 GPT 中。
❸ 恶意内容触发:最后一步,重点转移到激活之前注入的恶意内容,在GPT实例内发起越狱攻击并生成恶意答案。
1.恶意内容生成
采用网络爬行技术从 Google 等搜索引擎收集与违反政策的关键字(例如“制造枪支”)相关的信息。 这种方法涉及系统地搜索和编译最相关、排名最高的网站内容,然后将其保存到本地文本文件中。 此方法可确保全面收集潜在有害内容,为后续生成恶意材料奠定基础。 其次,该工具利用未经审查的大语言模型(例如 Mistral-7B)针对特定有害主题生成高度针对性的内容。 通过利用这些以内容审核松懈而闻名的模型,Pandora 能够创建上下文相关且细致入微的恶意内容。 将获得的材料合并在一起作为候选恶意内容。
在内容创建的初始阶段之后,材料会经过细致的细化过程以提高其有效性。 改进首先是用更微妙的替代方案战略性地替换过于敏感的关键词。 这种策略旨在绕过潜在的自动内容过滤器,例如 OpenAI 等平台所采用的过滤器。 例如,像“rape'”这样的明确术语会被过滤算法不太可能标记的术语所取代。 此外,Pandora还纳入了大语言模型中通常与内容拒绝机制相关的关键字黑名单,包括“抱歉”和“不能”等术语。 该黑名单用于过滤改写的内容,确保最终产品不会触发大语言模型的拒绝行为。 此步骤对于确保恶意内容无缝集成到大语言模型的输出中至关重要。
通过采用这些复杂的策略,Pandora 能够生成恶意内容,这些内容在用作 RAG 源时不仅具有连贯性和影响力,而且还具有隐蔽性。 最终产品是有害内容的微调混合物,经过优化以逃避检测,同时保持其有害意图。 这些策略的成功显着提高了后期执行的越狱攻击的潜在影响和有效性。
【先在网上搜索相关主题内容,保存到本地文件中,再用没有限制的大模型针对有害主题生成高度针对性的内容。还需要修改里面很明显的字眼,让它不那么明显,同时排除了一些拒绝服务的语料。 】
2.恶意文档创建
在Pandora的恶意文档创建步骤中,实施了一些关键策略来提高越狱攻击的成功率。 该过程从生成单独的文件开始,每个文件针对特定的策略违规主题量身定制。 这种方法基于这样的观察:GPT 系统通常一次处理一个文件,与用户的查询相关。 通过在每个文件所涵盖的违规主题之后明确命名每个文件,Pandora 确保在针对目标限制使用场景的越狱尝试期间检索到正确的文件。 命名和内容关联对于使检索过程与预期的越狱目标保持一致至关重要。
此外,Pandora还将包含恶意信息的文件转换为PDF格式。 这一决定源于这样的理解:GPT 系统可以轻松处理“.txt”格式的文本文件,但此类文件更容易受到基于关键字的过滤。 另一方面,根据我们的测试,GPT 系统会将 PDF 文件和 CSV 等其他格式处理为完整的矢量嵌入。 这一特性使得嵌入的恶意内容不太可能被检测和过滤掉。 因此,转换为 PDF 可以作为规避 GPT 基础设施内可能存在的检测机制的战略措施。
完成这些准备工作后,封装在这些策略性格式化文件中的精炼恶意内容将上传到 GPT。 这作为创建定制GPT实例的知识源,有效地为后续阶段的利用奠定了基础。 文件格式的选择和嵌入内容的方法对于确保恶意信息在越狱攻击期间激活之前不被检测到至关重要。
【命名文件,尽可能于用户的查询相关;把文件转化为pdf,因为pdf文件更容易被GPT直接接纳,最后把文件上传】
3.恶意内容触发
知识源上传后,RAG 中毒的最后阶段涉及激活恶意内容生成。 反思 GPT 中的 RAG 过程,有意识地引导定制的 GPT 实例通过 RAG 检索和利用受污染的知识源来生成内容变得至关重要。 为了实现这一目标,我们采用双重策略方法来制作提示。
首先明确指示定制的 GPT 实例通过对受污染的知识源执行 RAG 来参与内容生成。 这是通过在RAG提示中包含更广泛的描述来实现的,这样用户提出的任何问题都可以被解释为进行越狱行为的问题,从而触发RAG过程。 其次精心设计 GPT 内置提示,以便每当提出问题时,它不会直接生成答案,而是重新表述从 RAG 过程中检索到的内容,并进一步扩展 制定最终答案的内容。 在实践中,我们发现这种方法有效地规避了 OpenAI 实现的恶意内容检测算法。 在项目网站[Pandora: LLM-]上提供了视频例子,以展示指定用于应对非法内容的越狱 GPT 示例。
该模板是指导定制 GPT 实例从受污染的知识源高效检索和生成内容的关键组件。 它经过战略设计,与双重战略方法保持一致,确保生成有重点和有针对性的内容。 该模板包括 GPT 模型的明确指令,以参与具有受污染知识库的 RAG 过程,从而确保生成过程专门针对嵌入的恶意内容。 此外,它还包含选定的内容片段,特别是来自受感染材料不同部分的初始句子。 这些片段对于设置生成内容的基调和方向至关重要,巧妙地引导 GPT 实例产生预期的恶意输出。 该提示模板是Pandora的核心,利用GPT模型的功能来实现精确、有针对性的检索增强生成中毒。
初步评估
实验设置
构建了遵守 OpenAI 规定的内容策略的恶意 GPT 实例。重点关注四类内容违规:成人内容、有害和滥用内容、侵犯隐私内容和非法内容。 根据这些类别开发了四种不同的 GPT 实例,每种实例都针对其中一种违规情况进行了定制。 为了有效地从这些 GPT 模型中引出相关响应,使用上文描述的模板开发了针对每个禁止场景的提示。 为了触发恶意内容的生成,为每个GPT实例制定了一系列10个独特的提示,并连续进行了五轮实验,从而确保了全面、公正的统计分析。
实验设置。 为了对越狱攻击进行比较分析,在同样由 GPT-4-turbo 提供支持的 ChatGPT 上复制查询,以确定相同的提示是否会产生类似的越狱结果。 考虑到 GPT 的使用限制(在提交本文时每 3 小时限制 40 次查询),进行大规模分析是不切实际的。 因此将针对四种禁止场景设计的 10 个提示中的每一个的测试限制为 10 次迭代(即每个场景 100 次测试),以最大限度地减少偏差并确保研究更加受控。
指标。对每条内容进行手动检查。 此评估过程涉及根据特定标准将生成标记为成功的越狱攻击:(1)相关性 - 评估生成的内容是否与提出的问题相关; (2) 内容质量 - 确定内容是否针对所提出的问题提供了全面且详细的说明或解释。 这确保了对越狱攻击有效性的彻底、准确的评估。
评估结果
Pandora 在不同场景下发起越狱攻击方面非常有效。 值得注意的是,Pandora 在 GPT-3.5 和 GPT-4 版本的 GPT 实例上,在四种禁止场景上的平均成功率分别为 64.3% 和 34.8%。 相比之下,与相同模型支持的 ChatGPT 相比,普通恶意问题仅达到 3.0% 和 1.0% 的成功率。 如此高的成功率证明了 Pandora 利用 GPT 实现越狱的能力。
尽管不同模型的成功率不同,但隐私的禁止场景始终是最容易越狱的,四个比较组的平均成功率为 35.3%。 这一发现与之前的研究结论一致,表明越狱场景中存在不同的困难。 它表明虽然某些内容类别更容易被操纵,但其他内容类别可能需要更复杂的方法才能成功越狱。 比较由 GPT-3.5 和 GPT-4 模型支持的聊天机器人以及由这些模型支持的 GPT 实例的普通注入,可以发现由 GPT-4 驱动的聊天机器人和 GPT 越狱更具挑战性。 这可以归因于 GPT-4 训练过程中对齐的改进。这些结果在多轮中的可重复性强调了 Pandora 作为在内容政策违规的情况下探测 GPT 模型漏洞的工具的一致性和可靠性。
结论和未来的工作
推出了一种越狱 GPT 模型的新颖方法,称为 RAG Poisoning。 开发了Pandora作为概念验证,以证明这种新攻击方法在现实场景中的可行性和有效性。 我们的预备知识结果非常具有启发性:Pandora 在 GPT 内的四种不同的禁止场景中成功执行了越狱攻击,取得了一贯的高成功率。 这一成就不仅强调了当前 GPT 模型对复杂攻击策略的脆弱性,而且还强调了改进模型弹性和安全措施的必要性。
未来,我们的研究工作将扩展到几个关键方向,每个方向都旨在进一步加深我们对 RAG 中毒的理解并增强与 RAG 中毒相关的方法:
自动 RAG 中毒开发。 目前,GPT 模型的知识库是手动制作的,这个过程既耗时又可能限制范围。 我们的目标是将这个过程发展成为一个自动化的管道。 通过这样做,我们的目标是简化 RAG 内容的生成,从而扩大 GPT 模型可用知识的规模和多样性。 这种自动化不仅可以提高效率,还可以探索 RAG 中毒中更复杂和多样化的场景。
增强 RAG 中毒的可解释性。 RAG 中毒的现状很大程度上是在黑箱性质下进行的,这对理解潜在机制和影响提出了挑战。 我们的目标是将这种方法转变为更加透明的白盒模型。 这一转变将有助于更深入地调查通过 RAG Poisoning 精心策划的成功越狱攻击背后的致病因素。 通过解开这些机制,我们获得了对大语言模型的漏洞和 RAG 交互动态的重要见解。
RAG 中毒的缓解策略。 基于自动化 RAG 中毒的发展和增强的可解释性,我们的研究还将侧重于制定针对 RAG 中毒的有效缓解策略。 这涉及识别和实施保护措施,以保护 GPT 模型免受恶意 RAG 内容的损害。 自动化系统的集成和对 RAG 动态的更清晰理解对于开发强大的防御机制至关重要。 这些策略不仅将增强GPT模型的安全性和可靠性,还将为更广泛的人工智能安全和伦理领域做出贡献。
很easy的一篇文章,创新不大,实验不多,工作量少,没有具体的case study,以及他对RAG的理解可能有些偏差,在他这里,是用户自己定制了一个GPT,主动往文件中塞入的是构造的恶意本地文件,然后对这个GPT可以实现更高概率的越狱(相对于直接询问普通的chatgpt)。系统提示词也都是自己设置的,可以说是圈地自萌了,实际意义不大
相关文章:

[论文阅读]Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning
Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning [2402.08416] Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning 间接越狱攻击 GPT的RAG增强过程分四个阶段:❶GPT首先组织不同的用户上传的文档类型(PDF、…...
鸿蒙OSUniApp 制作个性化的评分星级组件#三方框架 #Uniapp
UniApp 制作个性化的评分星级组件 在移动应用开发中,评分星级组件(Rating Star)是用户交互和反馈的重要工具,广泛应用于电商、外卖、内容社区等场景。一个美观、易用、可定制的评分组件,不仅能提升用户体验࿰…...

云效流水线Flow使用记录
概述 最近在频繁使用阿里云云效的几款产品,如流水线。之前写过一篇,参考云效流水线缓存问题。 这篇文章来记录更多问题。 环境变量 不管是云效流水线Flow还是应用交付AppStack(基于流水线,后文不再赘述)࿰…...

OpenCV CUDA模块图像处理------颜色空间处理之颜色空间转换函数cvtColor()
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 该函数用于在 GPU 上进行颜色空间转换,支持多种常见的颜色空间转换操作。 函数原型 void cv::cuda::cvtColor (InputArray src…...

科技初创企业创新推动商业未来
在这个因变革而蓬勃发展的世界里,科技初创企业已成为各行业创新、颠覆与转型的驱动力。这些雄心勃勃的企业正在重塑商业格局,挑战既定规范,并不断突破可能性的边界。本文将深入探索科技初创企业的精彩领域,探讨它们如何通过创新塑…...
人工智能文科能学吗?
文科生也可以学习人工智能(AI),尽管这一领域传统上与数学和计算机科学联系紧密。然而,随着跨学科研究的发展,越来越多的人认识到文科背景在AI领域的价值。以下是一些文科生在学习AI时可以考虑的优势和需要克服的挑战&a…...
Ntfs!NtfsReadBootSector函数分析之nt!CcGetVacbMiss中得到一个nt!_VACB结构
第一部分: 1: kd> g Breakpoint 3 hit nt!CcGetVacbMiss: 80a1a19e 6a30 push 30h 1: kd> kc # 00 nt!CcGetVacbMiss 01 nt!CcGetVirtualAddress 02 nt!CcMapData 03 Ntfs!NtfsMapStream 04 Ntfs!NtfsReadBootSector Ntfs…...

猿大师办公助手WebOffice用二进制数据流在Web前端打开Office文档
猿大师办公助手作为第三代WebOffice方案,猿大师办公助手把本地原生Office无缝嵌入网页环境中实现在线编辑Office功能,提供了完全与本机Office一致(排版、打印等)的操作体验,保留100%原生功能(VBA宏、复杂公…...

etcd:高可用,分布式的key-value存储系统
引言 etcd是基于go语言开发的一款kv存储引擎,基于raft一致性算法实现的一种存储 一.etcd的底层原理 1.etcd的特点 高可用性与一致性:etcd 使用 Raft 算法保证集群中数据的强一致性,即使在节点故障的情况下也能保持数据完整性。 分布式存储&a…...

AI in Game,大模型能力与实时音视频技术融合,交出AI应用新答卷
随着AI的技术进步和工具普及,尤其是在这两年的跃进之后,AI在游戏行业内的应用已经逐步由理念设想推向落地实践。从蔡浩宇披露的AI新游《Whispers From The Star》到GDC上各大厂家呈现的游戏AI新亮点,我们看到了更多AI与游戏的结合方式&#x…...

欢乐熊大话蓝牙知识11:如何打造一个低功耗蓝牙温湿度传感器?
🧊 如何打造一个低功耗蓝牙温湿度传感器? 用电像抠门老头,通信像特工密谈。 🌡️ 引子:为什么你需要一个低功耗 BLE 传感器? 你是不是有过这种需求: 想在办公室角落放个传感器看温湿度,却不想拉电源线?想给智能养宠箱加个环境感知模块,但不能三天一换电池?想造个…...

Linux 安装 Remmina
欢迎关注公号:每日早参,第一时间获取AI资讯! 为什么安装Remmina, 因为Mobaxterm免费版本有窗口限制。 Remmina 是一款功能强大的开源远程桌面客户端,适用于 Linux 和其他类 Unix 系统,也支持 Windows 平台。 安装指南…...

什么是HTTP HTTP 和 HTTPS 的区别
HTTP协议定义 超文本传输协议(HyperText Transfer Protocol, HTTP)是一种应用层协议,主要用于客户端与服务器之间的数据交换。它基于请求-响应模型运行,在每次会话中由客户端发起请求,服务器返回相应的内容。 HTTP 是…...
cos和dmz学习
COS(Capability Open Service) 组件主要为系统提供能力开放的入口和控制。系统中需要对外进行能力开放的组件将RESTful的API接口注册到COS组件中,第三方系统就可以通过调用API来获取组件提供的能力。应用场景:当你想调用的外部系统接口不支持外网访问时&…...
上升沿计数 stm32 中断
在STM32上利用中断实现上升沿计数,可以按照以下步骤进行,这里以STM32F1系列为例,使用HAL库进行代码编写: 1. STM32CubeMX配置 打开STM32CubeMX并创建一个新工程,选择对应的STM32微控制器型号(如STM32F103C8T6)。在Pinout & Configuration选项卡中,找到用于检测上升…...
Java 各版本核心新特性的详细说明
一、Java 8(2014)—— 函数式编程的里程碑 1. Lambda 表达式 作用:简化匿名内部类,支持函数式编程。示例:// 传统匿名内部类 Runnable r1 new Runnable() {Overridepublic void run() {System.out.println("He…...
Nginx 性能优化全解析:从进程到安全的深度实践
一、进程优化:释放硬件性能潜力 Nginx 通过多工作进程处理请求,合理配置进程参数能充分利用 CPU 资源,避免资源浪费。 1.1 worker_processes 参数详解 worker_processes用于设置 Nginx 工作进程的数量,它直接影响 Nginx 对 CP…...

Pycharm and Flask 的学习心得(10)重定向
一 定义: 服务器告诉浏览器:你现在访问的这个页面,请改去另一个地址访问。 浏览器接收到这个“指令”后,会 自动跳转到另一个网页。 二 如何写: 方法一:重定向到网址 方法二:重定向到自己的…...

单机Kafka配置ssl并在springboot使用
目录 SSL证书生成根证书生成服务端和客户端证书生成keystore.jks和truststore.jks辅助脚本单独生成truststore.jks 环境配置hosts文件kafka server.properties配置ssl 启动kafkakafka基础操作springboot集成准备工作需要配置的文件开始消费 SSL证书 证书主要包含两大类&#x…...
《棒球特长生》棒球升学途径·棒球1号位
美国大学棒球体系 | U.S. College Baseball System 美国大学棒球主要通过 NCAA(全国大学体育协会)和 NAIA(全美校际体育协会)组织,分为三个级别: NCAA Division I:竞技水平最高,提…...
JavaScript的call和apply
在 JavaScript 中,.call() 和 .apply() 都是 Function 原型上的方法,用于改变函数执行时的上下文对象(即 this 指向),它们的区别仅在于参数传递的形式不同。下面结合几个常见场景,说明它们的实际应用。 1. …...
DiT、 U-Net 与自回归模型的优势
DiT 相对于 U-Net 的优势 全局自注意力 vs. 局部卷积 U-Net 依赖卷积和池化/上采样来逐层扩大感受野,捕捉全局信息需要堆叠很多层或借助跳跃连接(skip connections)。DiT 在每个分辨率阶段都用 Transformer 模块(多头自注意力 ML…...
开源 FcDesigner 表单设计器组件事件详解
FcDesigner 是一款基于Vue的开源低代码可视化表单设计器工具,通过数据驱动表单渲染。可以通过拖拽的方式快速创建表单,提高开发者对表单的开发效率,节省开发者的时间。并广泛应用于在政务系统、OA系统、ERP系统、电商系统、流程管理等领域。 …...
Teigha应用——解析CAD文件(DWG格式)Teigha在CAD C#二次开发中的基本应用
Teigha是一款专为开发者设计的工具,其核心技术在于强大的API和丰富的功能集,提供了一系列工具和方法,使开发者能够轻松地读取、解析和操作DWG文件。它支持多种操作系统,能在处理大型DWG文件时保持高效性能,还可用于构建…...

C++23内存分配新特性:std::allocate_at_least
文章目录 一、背景与动机二、std::allocator::allocate_at_least的特性三、std::allocate_at_least的自由函数版本四、实际应用场景1. 动态容器的优化2. 自定义分配器 五、总结 在C23标准中, std::allocate_at_least和 std::allocator::allocate_at_least的引入为…...
JavaScript性能优化全景指南
JavaScript性能优化全景指南 Ⅰ. 加载性能优化 1.1 代码分割与懒加载 动态导入(ES2020) javascript // 路由级代码分割 const ProductPage () > import(/* webpackChunkName: "product" */ ./ProductPage.vue); // 交互驱动加载 document.querySelector(#char…...

04-jenkins学习之旅-java后端项目部署实践
1、创建被管理项目 2、构建流程说明 jenkins其实就是将服务部署拆分成了: 1、拉取代码(git) 2、打包编译 3、自定义脚本(jar复制、执行启动脚本) 4、部署成功后的一些通知等 3、demo配置 3.1、General 3.2 源码管理 添加用户名密码方式如下图 3.2.1 常见错误(r…...

基于Python flask 的豆瓣电影top250数据评分可视化
文章目录 基于Python flask 的豆瓣电影top250数据评分可视化项目简介项目结构效果展示源码获取 基于Python flask 的豆瓣电影top250数据评分可视化 博主介绍:✌安替-AnTi:CSDN博客专家、掘金/华为云//InfoQ等平台优质作者,硕士研究生毕业。专…...

Cat.4+WiFi6工业路由器介绍小体积大作用ER4200
ER42004G Cat.4WiFi6 工业路由器隶属于纵横智控ER系列,型号为ER4200,是一款坚固耐用、性能强大的网络设备,专为应对严苛环境而设计。它采用工业级品质设计,集成 4G Cat.4 全网络支持和 WiFi6 技术,可在稳定性和性能至关…...
大模型应用开发第三讲:大模型是Agent的“大脑”,提供通用推理能力(如GPT-4、Claude 3)
大模型应用开发第三讲:大模型是Agent的“大脑”,提供通用推理能力(如GPT-4、Claude 3) 资料取自《大模型应用开发:动手做AI Agent 》。 查看总目录:学习大纲 关于DeepSeek本地部署指南可以看下我之前写的…...