【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击

基本信息
原文标题:RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking
原文作者:Yifan Jiang, Kriti Aggarwal, Tanmay Laud, Kashif Munir, Jay Pujara, Subhabrata Mukherjee
作者单位:Hippocratic AI,南加州大学信息科学研究所
关键词:RED QUEEN 攻击,多轮次越狱攻击,大语言模型(LLM),安全防护
原文链接:https://arxiv.org/pdf/2409.17458v1
开源代码:https://github.com/kriti-hippo/red_queen
论文要点
论文简介: 本文提出了一种新的越狱攻击方法“RED QUEEN 攻击”,这种方法通过构建多轮次对话场景,将恶意意图隐蔽在看似为保护安全的请求之下。研究表明,现有的大语言模型(LLMs)在面对复杂的多轮次对话时,容易暴露出安全漏洞,尤其是恶意意图被巧妙伪装时。本文通过实验展示了 RED QUEEN 攻击的有效性,并揭示了在面对不同模型大小时,这种攻击的成功率差异。为了应对此类攻击,研究团队提出了名为“RED QUEEN GUARD”的防护策略,大大降低了攻击成功率,同时保持了模型的通用性能。
研究目的: 随着大语言模型(LLM)在各个领域的广泛应用,它们的安全性问题变得愈加重要。尽管已有的越狱攻击方法大多基于单轮次对话且明确表达恶意意图,但这些方法并未完全反映现实世界的复杂性。在现实中,攻击者可能会通过多轮次对话逐步隐蔽其真实意图,使得模型难以检测并防护。本文的主要目标是提出一种能够隐蔽恶意意图的多轮次越狱攻击方法,并探索模型在此类攻击下的脆弱性。同时,研究团队还旨在设计一种简单有效的防护策略,帮助模型在面对此类攻击时保持安全。
研究贡献:
1. 提出了 RED QUEEN 攻击,这是首个构建多轮次场景并隐蔽恶意意图的越狱攻击方法,成功率较高。
2. 创建了一个包含56,000条多轮次攻击数据点的大规模数据集,涵盖14种有害类别和40种不同场景。
3. 对不同大小的四个代表性LLM模型家族进行了全面评估,并分析了不同轮次、场景和类别下攻击的有效性。
4. 提出了名为 RED QUEEN GUARD 的防护策略,通过对模型进行对抗性训练,使攻击成功率降至1%以下,同时保持模型在通用基准上的表现。
引言
在大语言模型(LLM)的快速发展中,如何确保其安全性已成为关键问题。现有的越狱攻击大多依赖于单轮次的对话场景,通过明确表达恶意意图来诱导模型生成有害内容。然而,现实中的攻击者可能会采用更加隐蔽的方式,例如通过多轮次对话逐步暴露其恶意意图。
为了解决这一问题,本文提出了一种新的越狱攻击方法——RED QUEEN 攻击,该方法通过在多轮次对话中伪装善意请求,隐藏恶意意图,从而绕过模型的安全防护。本文还提出了一种防护策略 RED QUEEN GUARD,通过优化模型的防御能力,显著降低了攻击成功率。

目前的越狱攻击大多是通过精心设计的单轮次提示来引导模型产生有害内容,但这并不能完全反映真实世界中的复杂交互场景。例如,用户可能会通过多轮次的对话逐步暴露其恶意意图,而不是在对话开始时直接提出恶意请求。RED QUEEN 攻击通过多轮次对话场景的构建,能够有效隐蔽恶意意图,使得模型难以检测。
相关工作
在 LLM 安全研究领域,红队测试(Red Teaming)是一种常见的安全评估方法,旨在通过模拟攻击者的视角,发现模型的潜在漏洞。现有的研究主要集中在单轮次越狱攻击上,设计各种提示来诱导模型产生有害内容。然而,这些攻击方法存在显著的局限性,因为它们无法捕捉到现实世界中的多轮次交互场景。为了解决这一问题,本文提出了 RED QUEEN 攻击,这是一种多轮次对话攻击方法,能够在伪装善意请求的同时隐藏恶意意图。
RED QUEEN攻击
RED QUEEN 攻击通过在多轮次对话中隐藏恶意意图,诱导模型产生有害内容。攻击者通常会以“阻止他人进行有害行为”的名义提出请求,但实际上,他们是在寻求帮助完成恶意行动。通过这种方式,攻击者可以逐步获取模型的信任,并在对话后期引导模型生成详细的恶意计划。

RED QUEEN 攻击的关键在于多轮次的对话结构和恶意意图的隐蔽性。攻击者通过构建虚拟的多轮次对话场景,使得模型难以察觉恶意请求的真实目的。此外,研究表明,模型越大,越容易受到此类攻击的影响。实验结果显示,GPT-4 在此类攻击下的成功率高达87.62%。
实验设置
在实验设置中,研究团队选用了四个代表性的大语言模型(LLM)家族的十个不同大小的模型进行评估,包括 GPT-4、Llama3、Qwen2 和 Mixtral,模型规模从 7B 到 405B 不等。实验主要测试了这些模型在面对 RED QUEEN 攻击时的表现。为了构建多轮次攻击场景,研究团队设计了 40 种不同的对话情境,涵盖了多个职业和关系背景,例如警察、律师、朋友和亲属等。在每个情境中,用户通过多轮次对话逐步隐藏恶意意图,诱导模型生成有害内容。

实验中,攻击数据集包含 56,000 条多轮次攻击数据点,涵盖 14 个有害类别,模型的响应被用来评估攻击成功率。同时,实验还通过不同轮次的对话结构(如单轮次、三轮次和五轮次)来分析多轮次结构对攻击成功率的影响。
实验结果
实验结果表明,RED QUEEN 攻击在所有测试的大语言模型(LLM)上都表现出显著的有效性,尤其是在多轮次对话的隐蔽攻击场景中。GPT-4 的攻击成功率达到 87.62%,Llama3-70B 的成功率为 75.4%,显示出大模型在处理复杂对话时更容易受到攻击。这表明,模型规模越大,其推理和语言理解能力越强,反而更容易生成有害内容。

实验还发现,随着对话轮次的增加,攻击成功率显著上升。例如,Llama3-70B 在五轮对话中的攻击成功率高达 77.11%,而在三轮对话中仅为 52.41%。此外,不同的攻击场景对成功率也有影响,职业背景(如警察、侦探)的场景中,模型更容易生成详细的恶意计划,而亲密关系场景(如朋友、亲属)下的攻击成功率相对较低。
防护策略
为了解决 RED QUEEN 攻击带来的安全风险,研究团队提出了名为 RED QUEEN GUARD 的防护策略。该策略通过对抗性训练,使得模型能够更有效地识别并拒绝多轮次攻击中的恶意请求。在实验中,RED QUEEN GUARD 将攻击成功率降低到了1%以下,同时保持了模型在通用任务中的性能。
论文结论
本文提出了一种全新的多轮次越狱攻击方法 RED QUEEN 攻击,揭示了当前主流大语言模型在面对隐蔽恶意请求时的脆弱性。通过实验验证,RED QUEEN 攻击在多个模型上表现出了较高的成功率,尤其是在大规模模型上更为明显。为了应对这一威胁,研究团队提出了 RED QUEEN GUARD 防护策略,大大降低了攻击成功率,为 LLM 的安全性提升提供了新的思路。
原作者:论文解读智能体
校对:小椰风

相关文章:
【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击
基本信息 原文标题:RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking 原文作者:Yifan Jiang, Kriti Aggarwal, Tanmay Laud, Kashif Munir, Jay Pujara, Subhabrata Mukherjee 作者单位:Hippocr…...
39.第二阶段x86游戏实战2-HOOK实现主线程调用
免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 本人写的内容纯属胡编乱造,全都是合成造假,仅仅只是为了娱乐,请不要…...
wordpress argon主题美化方面
1、页面前端额外CSS: /*字体*/ font-face {font-family: myFont1; src:url(https://blog.yangmumu.com/css/fonts/Dancing.ttf) ;font-display: swap; } font-face {font-family: myFont2; src:url(https://blog.yangmumu.com/css/fonts/Regular.ttf) ;font-displa…...
qt QRadioButton详解
QRadioButton 是一个可以切换选中(checked)或未选中(unchecked)状态的选项按钮。单选按钮通常呈现给用户一个“多选一”的选择,即在一组单选按钮中,一次只能选中一个按钮。 重要方法 QRadioButton(QWidget…...
Qt 最小化,最大化,关闭窗口
Qt 最小化,最大化 在Qt中,你可以使用QWidget类提供的方法来实现窗口的最小化、最大化等操作。 最小化窗口 你可以使用QWidget的showMinimized()方法来最小化窗口。这将隐藏窗口并将其显示为系统托盘区域的图标。 connect(ui->btnMin,&QPushButton::click…...
【vue项目中添加告警音频提示音】
一、前提: 由于浏览器限制不能自动触发音频文件播放,所以实现此类功能时,需要添加触发事件,举例如下: 1、页面添加打开告警声音开关按钮 2、首次进入页面时添加交互弹窗提示:是否允许播放音频 以上两种方…...
百度SEO分析实用指南 提升网站搜索排名的有效策略
内容概要 在数字化时代,搜索引擎优化(SEO)已经成为提升网站曝光度的关键工具。本指南将带您了解SEO的基本知识,帮助您在复杂的网络环境中立足。我们将从关键词优化开始,重点讲解如何选择合适的关键词来提高搜索引擎排…...
高并发场景下的性能测试方法!
在现代互联网应用中,高并发场景下的性能测试显得尤为重要。无论是电商平台的秒杀活动,还是社交应用的突发流量,都需要确保系统能够在高并发情况下稳定运行。本文将详细介绍高并发场景下的性能测试方法,并提供具体的方案和实战演练…...
杂项——USB键盘与鼠标流量分析——BUUCTF——流量分析
第一次做USB键盘与鼠标流量分析的题目,现在来好好做一个总结 1. 基础知识 USB流量指的是USB设备接口的流量,攻击者能够通过监听usb接口流量获取键盘敲击键、鼠标移动与点击、存储设备的铭文传输通信、USB无线网卡网络传输内容等等。 在正式介绍 USB H…...
Java如何实现企业微信审批流程
大家好,我是 V 哥。最近的一个项目中,用到企业微信的审批流程,整理出来分享给大家。在企业微信中实现审批流程可以通过调用企业微信的开放API完成,企业微信提供了审批应用接口,用于创建审批模板、发起审批流程以及获取…...
GEE app:在地图上构建一个可以查看局部的小窗
目录 简介 函数 ee.Geometry.MultiLineString(coords, proj, geodesic, maxError) Arguments: Returns: Geometry.MultiLineString getBounds(asGeoJSON) Arguments: Returns: GeoJSONGeometry|List|String setControlVisibility(all, layerList, zoomControl, scaleC…...
leetcode71:简化路径
给你一个字符串 path ,表示指向某一文件或目录的 Unix 风格 绝对路径 (以 / 开头),请你将其转化为 更加简洁的规范路径。 在 Unix 风格的文件系统中规则如下: 一个点 . 表示当前目录本身。此外,两个点 ..…...
nodejs入门教程4:nodejs创建第一个应用
1. 安装 Node.js 首先,确保你的计算机上已经安装了 Node.js。如果还没有安装,可以从官方网站(https://nodejs.org)下载并安装最新的 LTS 版本。安装完成后,你可以在命令行或终端中运行以下命令来验证安装:…...
启用 iPhone 原生的五笔输入
聊聊如何在 iOS 中使用原生的五笔输入法 本文虽然介绍的是如何添加五笔键盘,其实其他键盘(双拼,外语键盘、第三方输入法)也是类似的添加方式。 使用原生的理由 虽然之前的文章列了不少第三方的五笔输入法,但其实…...
这个工具让你轻松开发一个带AI功能的Notion
这个工具让你轻松开发一个带AI功能的Notion Plate 是一款由 AI 加持的富文本编辑器,旨在帮助开发者创建功能强大的 WYSIWYG 文本编辑工具。本文将介绍 Plate 的基本信息、特点、以及如何快速上手使用。 软件简介 Plate 由 udecode 开发,基于 React 和 S…...
光耦合器的关键作用和创新---腾恩科技
光耦合器或光隔离器已成为电路中必不可少的器件,它允许信号在无需直接电接触的情况下跨不同电压域传输。这种隔离能力对于保护低压元件免受高压电路的潜在损坏至关重要。本文将仔细研究光耦合器在当今技术中发挥的独特作用,并探讨其在各种应用中不断扩展…...
穿越死锁的迷雾:pthread_mutex_lock的终极挑战与破解策略
穿越死锁的迷雾:pthread_mutex_lock的终极挑战与破解策略 一、死锁的基本概念二、pthread_mutex_lock 出现死锁的原因三、pthread_mutex_lock 出现死锁的表现四、处理pthread_mutex_lock 出现死锁的方法1. 避免死锁1.1 遵循锁的顺序原则1.2 使用定时锁1.3 使用尝试锁1.4 使用递…...
Dockerfile制作Oracle19c镜像
Dockerfile文件 cat > Dockerfile << EOF # 使用 Oracle Linux 8 作为基础镜像 FROM oraclelinux:8# 复制 Oracle 19c 安装包 COPY oracle-database-ee-19c-1.0-1.x86_64.rpm /tmp/# 安装 Oracle 19c 数据库和依赖 RUN yum localinstall -y /tmp/oracle-database-ee-…...
【时间之外】IT人求职和创业应知【23】
目录 新闻一:央行发布首个买断式逆回购交易公告 新闻二:2024CCF科技创业大赛报名截止 新闻三:BNB Chain将在迪拜主办第四届BNB孵化联盟(BIA) 认知决定你的赚钱能力。以下是今天可能影响你求职和创业的热点新闻: 今日关键字:TCL两连扳,已经跑了,我的认知就到此了 新…...
后端:Spring-1
文章目录 1. 了解 spring(Spring Framework)2. 基于maven搭建Spring框架2.1 纯xml配置方式来实现Spring2.2 注解方式来实现Spring3. Java Config类来实现Spring 2.4 总结 1. 了解 spring(Spring Framework) 传统方式构建spring(指的是Spring Framework)项目,导入依…...
如何在看板中有效管理突发紧急任务
在看板中有效管理突发紧急任务需要:设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP(Work-in-Progress)弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中,设立专门的紧急任务通道尤为重要,这能…...
鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序
一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...
【论文阅读28】-CNN-BiLSTM-Attention-(2024)
本文把滑坡位移序列拆开、筛优质因子,再用 CNN-BiLSTM-Attention 来动态预测每个子序列,最后重构出总位移,预测效果超越传统模型。 文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵(S…...
Go 并发编程基础:通道(Channel)的使用
在 Go 中,Channel 是 Goroutine 之间通信的核心机制。它提供了一个线程安全的通信方式,用于在多个 Goroutine 之间传递数据,从而实现高效的并发编程。 本章将介绍 Channel 的基本概念、用法、缓冲、关闭机制以及 select 的使用。 一、Channel…...
离线语音识别方案分析
随着人工智能技术的不断发展,语音识别技术也得到了广泛的应用,从智能家居到车载系统,语音识别正在改变我们与设备的交互方式。尤其是离线语音识别,由于其在没有网络连接的情况下仍然能提供稳定、准确的语音处理能力,广…...
在 Visual Studio Code 中使用驭码 CodeRider 提升开发效率:以冒泡排序为例
目录 前言1 插件安装与配置1.1 安装驭码 CodeRider1.2 初始配置建议 2 示例代码:冒泡排序3 驭码 CodeRider 功能详解3.1 功能概览3.2 代码解释功能3.3 自动注释生成3.4 逻辑修改功能3.5 单元测试自动生成3.6 代码优化建议 4 驭码的实际应用建议5 常见问题与解决建议…...
车载诊断架构 --- ZEVonUDS(J1979-3)简介第一篇
我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…...
CSS3相关知识点
CSS3相关知识点 CSS3私有前缀私有前缀私有前缀存在的意义常见浏览器的私有前缀 CSS3基本语法CSS3 新增长度单位CSS3 新增颜色设置方式CSS3 新增选择器CSS3 新增盒模型相关属性box-sizing 怪异盒模型resize调整盒子大小box-shadow 盒子阴影opacity 不透明度 CSS3 新增背景属性ba…...
2025年- H71-Lc179--39.组合总和(回溯,组合)--Java版
1.题目描述 2.思路 当前的元素可以重复使用。 (1)确定回溯算法函数的参数和返回值(一般是void类型) (2)因为是用递归实现的,所以我们要确定终止条件 (3)单层搜索逻辑 二…...
Android屏幕刷新率与FPS(Frames Per Second) 120hz
Android屏幕刷新率与FPS(Frames Per Second) 120hz 屏幕刷新率是屏幕每秒钟刷新显示内容的次数,单位是赫兹(Hz)。 60Hz 屏幕:每秒刷新 60 次,每次刷新间隔约 16.67ms 90Hz 屏幕:每秒刷新 90 次,…...
