【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击
基本信息
原文标题:RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking
原文作者:Yifan Jiang, Kriti Aggarwal, Tanmay Laud, Kashif Munir, Jay Pujara, Subhabrata Mukherjee
作者单位:Hippocratic AI,南加州大学信息科学研究所
关键词:RED QUEEN 攻击,多轮次越狱攻击,大语言模型(LLM),安全防护
原文链接:https://arxiv.org/pdf/2409.17458v1
开源代码:https://github.com/kriti-hippo/red_queen
论文要点
论文简介: 本文提出了一种新的越狱攻击方法“RED QUEEN 攻击”,这种方法通过构建多轮次对话场景,将恶意意图隐蔽在看似为保护安全的请求之下。研究表明,现有的大语言模型(LLMs)在面对复杂的多轮次对话时,容易暴露出安全漏洞,尤其是恶意意图被巧妙伪装时。本文通过实验展示了 RED QUEEN 攻击的有效性,并揭示了在面对不同模型大小时,这种攻击的成功率差异。为了应对此类攻击,研究团队提出了名为“RED QUEEN GUARD”的防护策略,大大降低了攻击成功率,同时保持了模型的通用性能。
研究目的: 随着大语言模型(LLM)在各个领域的广泛应用,它们的安全性问题变得愈加重要。尽管已有的越狱攻击方法大多基于单轮次对话且明确表达恶意意图,但这些方法并未完全反映现实世界的复杂性。在现实中,攻击者可能会通过多轮次对话逐步隐蔽其真实意图,使得模型难以检测并防护。本文的主要目标是提出一种能够隐蔽恶意意图的多轮次越狱攻击方法,并探索模型在此类攻击下的脆弱性。同时,研究团队还旨在设计一种简单有效的防护策略,帮助模型在面对此类攻击时保持安全。
研究贡献:
1. 提出了 RED QUEEN 攻击,这是首个构建多轮次场景并隐蔽恶意意图的越狱攻击方法,成功率较高。
2. 创建了一个包含56,000条多轮次攻击数据点的大规模数据集,涵盖14种有害类别和40种不同场景。
3. 对不同大小的四个代表性LLM模型家族进行了全面评估,并分析了不同轮次、场景和类别下攻击的有效性。
4. 提出了名为 RED QUEEN GUARD 的防护策略,通过对模型进行对抗性训练,使攻击成功率降至1%以下,同时保持模型在通用基准上的表现。
引言
在大语言模型(LLM)的快速发展中,如何确保其安全性已成为关键问题。现有的越狱攻击大多依赖于单轮次的对话场景,通过明确表达恶意意图来诱导模型生成有害内容。然而,现实中的攻击者可能会采用更加隐蔽的方式,例如通过多轮次对话逐步暴露其恶意意图。
为了解决这一问题,本文提出了一种新的越狱攻击方法——RED QUEEN 攻击,该方法通过在多轮次对话中伪装善意请求,隐藏恶意意图,从而绕过模型的安全防护。本文还提出了一种防护策略 RED QUEEN GUARD,通过优化模型的防御能力,显著降低了攻击成功率。
目前的越狱攻击大多是通过精心设计的单轮次提示来引导模型产生有害内容,但这并不能完全反映真实世界中的复杂交互场景。例如,用户可能会通过多轮次的对话逐步暴露其恶意意图,而不是在对话开始时直接提出恶意请求。RED QUEEN 攻击通过多轮次对话场景的构建,能够有效隐蔽恶意意图,使得模型难以检测。
相关工作
在 LLM 安全研究领域,红队测试(Red Teaming)是一种常见的安全评估方法,旨在通过模拟攻击者的视角,发现模型的潜在漏洞。现有的研究主要集中在单轮次越狱攻击上,设计各种提示来诱导模型产生有害内容。然而,这些攻击方法存在显著的局限性,因为它们无法捕捉到现实世界中的多轮次交互场景。为了解决这一问题,本文提出了 RED QUEEN 攻击,这是一种多轮次对话攻击方法,能够在伪装善意请求的同时隐藏恶意意图。
RED QUEEN攻击
RED QUEEN 攻击通过在多轮次对话中隐藏恶意意图,诱导模型产生有害内容。攻击者通常会以“阻止他人进行有害行为”的名义提出请求,但实际上,他们是在寻求帮助完成恶意行动。通过这种方式,攻击者可以逐步获取模型的信任,并在对话后期引导模型生成详细的恶意计划。
RED QUEEN 攻击的关键在于多轮次的对话结构和恶意意图的隐蔽性。攻击者通过构建虚拟的多轮次对话场景,使得模型难以察觉恶意请求的真实目的。此外,研究表明,模型越大,越容易受到此类攻击的影响。实验结果显示,GPT-4 在此类攻击下的成功率高达87.62%。
实验设置
在实验设置中,研究团队选用了四个代表性的大语言模型(LLM)家族的十个不同大小的模型进行评估,包括 GPT-4、Llama3、Qwen2 和 Mixtral,模型规模从 7B 到 405B 不等。实验主要测试了这些模型在面对 RED QUEEN 攻击时的表现。为了构建多轮次攻击场景,研究团队设计了 40 种不同的对话情境,涵盖了多个职业和关系背景,例如警察、律师、朋友和亲属等。在每个情境中,用户通过多轮次对话逐步隐藏恶意意图,诱导模型生成有害内容。
实验中,攻击数据集包含 56,000 条多轮次攻击数据点,涵盖 14 个有害类别,模型的响应被用来评估攻击成功率。同时,实验还通过不同轮次的对话结构(如单轮次、三轮次和五轮次)来分析多轮次结构对攻击成功率的影响。
实验结果
实验结果表明,RED QUEEN 攻击在所有测试的大语言模型(LLM)上都表现出显著的有效性,尤其是在多轮次对话的隐蔽攻击场景中。GPT-4 的攻击成功率达到 87.62%,Llama3-70B 的成功率为 75.4%,显示出大模型在处理复杂对话时更容易受到攻击。这表明,模型规模越大,其推理和语言理解能力越强,反而更容易生成有害内容。
实验还发现,随着对话轮次的增加,攻击成功率显著上升。例如,Llama3-70B 在五轮对话中的攻击成功率高达 77.11%,而在三轮对话中仅为 52.41%。此外,不同的攻击场景对成功率也有影响,职业背景(如警察、侦探)的场景中,模型更容易生成详细的恶意计划,而亲密关系场景(如朋友、亲属)下的攻击成功率相对较低。
防护策略
为了解决 RED QUEEN 攻击带来的安全风险,研究团队提出了名为 RED QUEEN GUARD 的防护策略。该策略通过对抗性训练,使得模型能够更有效地识别并拒绝多轮次攻击中的恶意请求。在实验中,RED QUEEN GUARD 将攻击成功率降低到了1%以下,同时保持了模型在通用任务中的性能。
论文结论
本文提出了一种全新的多轮次越狱攻击方法 RED QUEEN 攻击,揭示了当前主流大语言模型在面对隐蔽恶意请求时的脆弱性。通过实验验证,RED QUEEN 攻击在多个模型上表现出了较高的成功率,尤其是在大规模模型上更为明显。为了应对这一威胁,研究团队提出了 RED QUEEN GUARD 防护策略,大大降低了攻击成功率,为 LLM 的安全性提升提供了新的思路。
原作者:论文解读智能体
校对:小椰风
相关文章:

【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击
基本信息 原文标题:RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking 原文作者:Yifan Jiang, Kriti Aggarwal, Tanmay Laud, Kashif Munir, Jay Pujara, Subhabrata Mukherjee 作者单位:Hippocr…...

39.第二阶段x86游戏实战2-HOOK实现主线程调用
免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 本人写的内容纯属胡编乱造,全都是合成造假,仅仅只是为了娱乐,请不要…...
wordpress argon主题美化方面
1、页面前端额外CSS: /*字体*/ font-face {font-family: myFont1; src:url(https://blog.yangmumu.com/css/fonts/Dancing.ttf) ;font-display: swap; } font-face {font-family: myFont2; src:url(https://blog.yangmumu.com/css/fonts/Regular.ttf) ;font-displa…...

qt QRadioButton详解
QRadioButton 是一个可以切换选中(checked)或未选中(unchecked)状态的选项按钮。单选按钮通常呈现给用户一个“多选一”的选择,即在一组单选按钮中,一次只能选中一个按钮。 重要方法 QRadioButton(QWidget…...
Qt 最小化,最大化,关闭窗口
Qt 最小化,最大化 在Qt中,你可以使用QWidget类提供的方法来实现窗口的最小化、最大化等操作。 最小化窗口 你可以使用QWidget的showMinimized()方法来最小化窗口。这将隐藏窗口并将其显示为系统托盘区域的图标。 connect(ui->btnMin,&QPushButton::click…...

【vue项目中添加告警音频提示音】
一、前提: 由于浏览器限制不能自动触发音频文件播放,所以实现此类功能时,需要添加触发事件,举例如下: 1、页面添加打开告警声音开关按钮 2、首次进入页面时添加交互弹窗提示:是否允许播放音频 以上两种方…...

百度SEO分析实用指南 提升网站搜索排名的有效策略
内容概要 在数字化时代,搜索引擎优化(SEO)已经成为提升网站曝光度的关键工具。本指南将带您了解SEO的基本知识,帮助您在复杂的网络环境中立足。我们将从关键词优化开始,重点讲解如何选择合适的关键词来提高搜索引擎排…...

高并发场景下的性能测试方法!
在现代互联网应用中,高并发场景下的性能测试显得尤为重要。无论是电商平台的秒杀活动,还是社交应用的突发流量,都需要确保系统能够在高并发情况下稳定运行。本文将详细介绍高并发场景下的性能测试方法,并提供具体的方案和实战演练…...

杂项——USB键盘与鼠标流量分析——BUUCTF——流量分析
第一次做USB键盘与鼠标流量分析的题目,现在来好好做一个总结 1. 基础知识 USB流量指的是USB设备接口的流量,攻击者能够通过监听usb接口流量获取键盘敲击键、鼠标移动与点击、存储设备的铭文传输通信、USB无线网卡网络传输内容等等。 在正式介绍 USB H…...
Java如何实现企业微信审批流程
大家好,我是 V 哥。最近的一个项目中,用到企业微信的审批流程,整理出来分享给大家。在企业微信中实现审批流程可以通过调用企业微信的开放API完成,企业微信提供了审批应用接口,用于创建审批模板、发起审批流程以及获取…...
GEE app:在地图上构建一个可以查看局部的小窗
目录 简介 函数 ee.Geometry.MultiLineString(coords, proj, geodesic, maxError) Arguments: Returns: Geometry.MultiLineString getBounds(asGeoJSON) Arguments: Returns: GeoJSONGeometry|List|String setControlVisibility(all, layerList, zoomControl, scaleC…...

leetcode71:简化路径
给你一个字符串 path ,表示指向某一文件或目录的 Unix 风格 绝对路径 (以 / 开头),请你将其转化为 更加简洁的规范路径。 在 Unix 风格的文件系统中规则如下: 一个点 . 表示当前目录本身。此外,两个点 ..…...
nodejs入门教程4:nodejs创建第一个应用
1. 安装 Node.js 首先,确保你的计算机上已经安装了 Node.js。如果还没有安装,可以从官方网站(https://nodejs.org)下载并安装最新的 LTS 版本。安装完成后,你可以在命令行或终端中运行以下命令来验证安装:…...

启用 iPhone 原生的五笔输入
聊聊如何在 iOS 中使用原生的五笔输入法 本文虽然介绍的是如何添加五笔键盘,其实其他键盘(双拼,外语键盘、第三方输入法)也是类似的添加方式。 使用原生的理由 虽然之前的文章列了不少第三方的五笔输入法,但其实…...

这个工具让你轻松开发一个带AI功能的Notion
这个工具让你轻松开发一个带AI功能的Notion Plate 是一款由 AI 加持的富文本编辑器,旨在帮助开发者创建功能强大的 WYSIWYG 文本编辑工具。本文将介绍 Plate 的基本信息、特点、以及如何快速上手使用。 软件简介 Plate 由 udecode 开发,基于 React 和 S…...

光耦合器的关键作用和创新---腾恩科技
光耦合器或光隔离器已成为电路中必不可少的器件,它允许信号在无需直接电接触的情况下跨不同电压域传输。这种隔离能力对于保护低压元件免受高压电路的潜在损坏至关重要。本文将仔细研究光耦合器在当今技术中发挥的独特作用,并探讨其在各种应用中不断扩展…...

穿越死锁的迷雾:pthread_mutex_lock的终极挑战与破解策略
穿越死锁的迷雾:pthread_mutex_lock的终极挑战与破解策略 一、死锁的基本概念二、pthread_mutex_lock 出现死锁的原因三、pthread_mutex_lock 出现死锁的表现四、处理pthread_mutex_lock 出现死锁的方法1. 避免死锁1.1 遵循锁的顺序原则1.2 使用定时锁1.3 使用尝试锁1.4 使用递…...
Dockerfile制作Oracle19c镜像
Dockerfile文件 cat > Dockerfile << EOF # 使用 Oracle Linux 8 作为基础镜像 FROM oraclelinux:8# 复制 Oracle 19c 安装包 COPY oracle-database-ee-19c-1.0-1.x86_64.rpm /tmp/# 安装 Oracle 19c 数据库和依赖 RUN yum localinstall -y /tmp/oracle-database-ee-…...

【时间之外】IT人求职和创业应知【23】
目录 新闻一:央行发布首个买断式逆回购交易公告 新闻二:2024CCF科技创业大赛报名截止 新闻三:BNB Chain将在迪拜主办第四届BNB孵化联盟(BIA) 认知决定你的赚钱能力。以下是今天可能影响你求职和创业的热点新闻: 今日关键字:TCL两连扳,已经跑了,我的认知就到此了 新…...

后端:Spring-1
文章目录 1. 了解 spring(Spring Framework)2. 基于maven搭建Spring框架2.1 纯xml配置方式来实现Spring2.2 注解方式来实现Spring3. Java Config类来实现Spring 2.4 总结 1. 了解 spring(Spring Framework) 传统方式构建spring(指的是Spring Framework)项目,导入依…...
Leetcode 3576. Transform Array to All Equal Elements
Leetcode 3576. Transform Array to All Equal Elements 1. 解题思路2. 代码实现 题目链接:3576. Transform Array to All Equal Elements 1. 解题思路 这一题思路上就是分别考察一下是否能将其转化为全1或者全-1数组即可。 至于每一种情况是否可以达到…...
从零实现富文本编辑器#5-编辑器选区模型的状态结构表达
先前我们总结了浏览器选区模型的交互策略,并且实现了基本的选区操作,还调研了自绘选区的实现。那么相对的,我们还需要设计编辑器的选区表达,也可以称为模型选区。编辑器中应用变更时的操作范围,就是以模型选区为基准来…...

(二)TensorRT-LLM | 模型导出(v0.20.0rc3)
0. 概述 上一节 对安装和使用有个基本介绍。根据这个 issue 的描述,后续 TensorRT-LLM 团队可能更专注于更新和维护 pytorch backend。但 tensorrt backend 作为先前一直开发的工作,其中包含了大量可以学习的地方。本文主要看看它导出模型的部分&#x…...
服务器硬防的应用场景都有哪些?
服务器硬防是指一种通过硬件设备层面的安全措施来防御服务器系统受到网络攻击的方式,避免服务器受到各种恶意攻击和网络威胁,那么,服务器硬防通常都会应用在哪些场景当中呢? 硬防服务器中一般会配备入侵检测系统和预防系统&#x…...

高危文件识别的常用算法:原理、应用与企业场景
高危文件识别的常用算法:原理、应用与企业场景 高危文件识别旨在检测可能导致安全威胁的文件,如包含恶意代码、敏感数据或欺诈内容的文档,在企业协同办公环境中(如Teams、Google Workspace)尤为重要。结合大模型技术&…...
Rapidio门铃消息FIFO溢出机制
关于RapidIO门铃消息FIFO的溢出机制及其与中断抖动的关系,以下是深入解析: 门铃FIFO溢出的本质 在RapidIO系统中,门铃消息FIFO是硬件控制器内部的缓冲区,用于临时存储接收到的门铃消息(Doorbell Message)。…...

算法笔记2
1.字符串拼接最好用StringBuilder,不用String 2.创建List<>类型的数组并创建内存 List arr[] new ArrayList[26]; Arrays.setAll(arr, i -> new ArrayList<>()); 3.去掉首尾空格...
Angular微前端架构:Module Federation + ngx-build-plus (Webpack)
以下是一个完整的 Angular 微前端示例,其中使用的是 Module Federation 和 npx-build-plus 实现了主应用(Shell)与子应用(Remote)的集成。 🛠️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...

推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材)
推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理 简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...

Qt的学习(一)
1.什么是Qt Qt特指用来进行桌面应用开发(电脑上写的程序)涉及到的一套技术Qt无法开发网页前端,也不能开发移动应用。 客户端开发的重要任务:编写和用户交互的界面。一般来说和用户交互的界面,有两种典型风格&…...