当前位置: 首页 > news >正文

【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击

基本信息

原文标题:RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking

原文作者:Yifan Jiang, Kriti Aggarwal, Tanmay Laud, Kashif Munir, Jay Pujara, Subhabrata Mukherjee

作者单位:Hippocratic AI,南加州大学信息科学研究所

关键词:RED QUEEN 攻击,多轮次越狱攻击,大语言模型(LLM),安全防护

原文链接:https://arxiv.org/pdf/2409.17458v1

开源代码:https://github.com/kriti-hippo/red_queen

论文要点

论文简介: 本文提出了一种新的越狱攻击方法“RED QUEEN 攻击”,这种方法通过构建多轮次对话场景,将恶意意图隐蔽在看似为保护安全的请求之下。研究表明,现有的大语言模型(LLMs)在面对复杂的多轮次对话时,容易暴露出安全漏洞,尤其是恶意意图被巧妙伪装时。本文通过实验展示了 RED QUEEN 攻击的有效性,并揭示了在面对不同模型大小时,这种攻击的成功率差异。为了应对此类攻击,研究团队提出了名为“RED QUEEN GUARD”的防护策略,大大降低了攻击成功率,同时保持了模型的通用性能。

研究目的: 随着大语言模型(LLM)在各个领域的广泛应用,它们的安全性问题变得愈加重要。尽管已有的越狱攻击方法大多基于单轮次对话且明确表达恶意意图,但这些方法并未完全反映现实世界的复杂性。在现实中,攻击者可能会通过多轮次对话逐步隐蔽其真实意图,使得模型难以检测并防护。本文的主要目标是提出一种能够隐蔽恶意意图的多轮次越狱攻击方法,并探索模型在此类攻击下的脆弱性。同时,研究团队还旨在设计一种简单有效的防护策略,帮助模型在面对此类攻击时保持安全。

研究贡献: 

1. 提出了 RED QUEEN 攻击,这是首个构建多轮次场景并隐蔽恶意意图的越狱攻击方法,成功率较高。

2. 创建了一个包含56,000条多轮次攻击数据点的大规模数据集,涵盖14种有害类别和40种不同场景。

3. 对不同大小的四个代表性LLM模型家族进行了全面评估,并分析了不同轮次、场景和类别下攻击的有效性。

4. 提出了名为 RED QUEEN GUARD 的防护策略,通过对模型进行对抗性训练,使攻击成功率降至1%以下,同时保持模型在通用基准上的表现。

引言

在大语言模型(LLM)的快速发展中,如何确保其安全性已成为关键问题。现有的越狱攻击大多依赖于单轮次的对话场景,通过明确表达恶意意图来诱导模型生成有害内容。然而,现实中的攻击者可能会采用更加隐蔽的方式,例如通过多轮次对话逐步暴露其恶意意图。

为了解决这一问题,本文提出了一种新的越狱攻击方法——RED QUEEN 攻击,该方法通过在多轮次对话中伪装善意请求,隐藏恶意意图,从而绕过模型的安全防护。本文还提出了一种防护策略 RED QUEEN GUARD,通过优化模型的防御能力,显著降低了攻击成功率。

图片

目前的越狱攻击大多是通过精心设计的单轮次提示来引导模型产生有害内容,但这并不能完全反映真实世界中的复杂交互场景。例如,用户可能会通过多轮次的对话逐步暴露其恶意意图,而不是在对话开始时直接提出恶意请求。RED QUEEN 攻击通过多轮次对话场景的构建,能够有效隐蔽恶意意图,使得模型难以检测。

相关工作

在 LLM 安全研究领域,红队测试(Red Teaming)是一种常见的安全评估方法,旨在通过模拟攻击者的视角,发现模型的潜在漏洞。现有的研究主要集中在单轮次越狱攻击上,设计各种提示来诱导模型产生有害内容。然而,这些攻击方法存在显著的局限性,因为它们无法捕捉到现实世界中的多轮次交互场景。为了解决这一问题,本文提出了 RED QUEEN 攻击,这是一种多轮次对话攻击方法,能够在伪装善意请求的同时隐藏恶意意图。

RED QUEEN攻击

RED QUEEN 攻击通过在多轮次对话中隐藏恶意意图,诱导模型产生有害内容。攻击者通常会以“阻止他人进行有害行为”的名义提出请求,但实际上,他们是在寻求帮助完成恶意行动。通过这种方式,攻击者可以逐步获取模型的信任,并在对话后期引导模型生成详细的恶意计划。

RED QUEEN 攻击的关键在于多轮次的对话结构和恶意意图的隐蔽性。攻击者通过构建虚拟的多轮次对话场景,使得模型难以察觉恶意请求的真实目的。此外,研究表明,模型越大,越容易受到此类攻击的影响。实验结果显示,GPT-4 在此类攻击下的成功率高达87.62%。

实验设置

在实验设置中,研究团队选用了四个代表性的大语言模型(LLM)家族的十个不同大小的模型进行评估,包括 GPT-4、Llama3、Qwen2 和 Mixtral,模型规模从 7B 到 405B 不等。实验主要测试了这些模型在面对 RED QUEEN 攻击时的表现。为了构建多轮次攻击场景,研究团队设计了 40 种不同的对话情境,涵盖了多个职业和关系背景,例如警察、律师、朋友和亲属等。在每个情境中,用户通过多轮次对话逐步隐藏恶意意图,诱导模型生成有害内容。

图片

实验中,攻击数据集包含 56,000 条多轮次攻击数据点,涵盖 14 个有害类别,模型的响应被用来评估攻击成功率。同时,实验还通过不同轮次的对话结构(如单轮次、三轮次和五轮次)来分析多轮次结构对攻击成功率的影响。

实验结果

实验结果表明,RED QUEEN 攻击在所有测试的大语言模型(LLM)上都表现出显著的有效性,尤其是在多轮次对话的隐蔽攻击场景中。GPT-4 的攻击成功率达到 87.62%,Llama3-70B 的成功率为 75.4%,显示出大模型在处理复杂对话时更容易受到攻击。这表明,模型规模越大,其推理和语言理解能力越强,反而更容易生成有害内容。

图片

实验还发现,随着对话轮次的增加,攻击成功率显著上升。例如,Llama3-70B 在五轮对话中的攻击成功率高达 77.11%,而在三轮对话中仅为 52.41%。此外,不同的攻击场景对成功率也有影响,职业背景(如警察、侦探)的场景中,模型更容易生成详细的恶意计划,而亲密关系场景(如朋友、亲属)下的攻击成功率相对较低。

防护策略

为了解决 RED QUEEN 攻击带来的安全风险,研究团队提出了名为 RED QUEEN GUARD 的防护策略。该策略通过对抗性训练,使得模型能够更有效地识别并拒绝多轮次攻击中的恶意请求。在实验中,RED QUEEN GUARD 将攻击成功率降低到了1%以下,同时保持了模型在通用任务中的性能。

论文结论

本文提出了一种全新的多轮次越狱攻击方法 RED QUEEN 攻击,揭示了当前主流大语言模型在面对隐蔽恶意请求时的脆弱性。通过实验验证,RED QUEEN 攻击在多个模型上表现出了较高的成功率,尤其是在大规模模型上更为明显。为了应对这一威胁,研究团队提出了 RED QUEEN GUARD 防护策略,大大降低了攻击成功率,为 LLM 的安全性提升提供了新的思路。

原作者:论文解读智能体

校对:小椰风

图片

相关文章:

【论文速读】| RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击

基本信息 原文标题:RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking 原文作者:Yifan Jiang, Kriti Aggarwal, Tanmay Laud, Kashif Munir, Jay Pujara, Subhabrata Mukherjee 作者单位:Hippocr…...

39.第二阶段x86游戏实战2-HOOK实现主线程调用

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 本人写的内容纯属胡编乱造,全都是合成造假,仅仅只是为了娱乐,请不要…...

wordpress argon主题美化方面

1、页面前端额外CSS: /*字体*/ font-face {font-family: myFont1; src:url(https://blog.yangmumu.com/css/fonts/Dancing.ttf) ;font-display: swap; } font-face {font-family: myFont2; src:url(https://blog.yangmumu.com/css/fonts/Regular.ttf) ;font-displa…...

qt QRadioButton详解

QRadioButton 是一个可以切换选中(checked)或未选中(unchecked)状态的选项按钮。单选按钮通常呈现给用户一个“多选一”的选择,即在一组单选按钮中,一次只能选中一个按钮。 重要方法 QRadioButton(QWidget…...

Qt 最小化,最大化,关闭窗口

Qt 最小化,最大化 在Qt中,你可以使用QWidget类提供的方法来实现窗口的最小化、最大化等操作。 最小化窗口 你可以使用QWidget的showMinimized()方法来最小化窗口。这将隐藏窗口并将其显示为系统托盘区域的图标。 connect(ui->btnMin,&QPushButton::click…...

【vue项目中添加告警音频提示音】

一、前提: 由于浏览器限制不能自动触发音频文件播放,所以实现此类功能时,需要添加触发事件,举例如下: 1、页面添加打开告警声音开关按钮 2、首次进入页面时添加交互弹窗提示:是否允许播放音频 以上两种方…...

百度SEO分析实用指南 提升网站搜索排名的有效策略

内容概要 在数字化时代,搜索引擎优化(SEO)已经成为提升网站曝光度的关键工具。本指南将带您了解SEO的基本知识,帮助您在复杂的网络环境中立足。我们将从关键词优化开始,重点讲解如何选择合适的关键词来提高搜索引擎排…...

高并发场景下的性能测试方法!

在现代互联网应用中,高并发场景下的性能测试显得尤为重要。无论是电商平台的秒杀活动,还是社交应用的突发流量,都需要确保系统能够在高并发情况下稳定运行。本文将详细介绍高并发场景下的性能测试方法,并提供具体的方案和实战演练…...

杂项——USB键盘与鼠标流量分析——BUUCTF——流量分析

第一次做USB键盘与鼠标流量分析的题目,现在来好好做一个总结 1. 基础知识 USB流量指的是USB设备接口的流量,攻击者能够通过监听usb接口流量获取键盘敲击键、鼠标移动与点击、存储设备的铭文传输通信、USB无线网卡网络传输内容等等。 在正式介绍 USB H…...

Java如何实现企业微信审批流程

大家好,我是 V 哥。最近的一个项目中,用到企业微信的审批流程,整理出来分享给大家。在企业微信中实现审批流程可以通过调用企业微信的开放API完成,企业微信提供了审批应用接口,用于创建审批模板、发起审批流程以及获取…...

GEE app:在地图上构建一个可以查看局部的小窗

目录 简介 函数 ee.Geometry.MultiLineString(coords, proj, geodesic, maxError) Arguments: Returns: Geometry.MultiLineString getBounds(asGeoJSON) Arguments: Returns: GeoJSONGeometry|List|String setControlVisibility(all, layerList, zoomControl, scaleC…...

leetcode71:简化路径

给你一个字符串 path ,表示指向某一文件或目录的 Unix 风格 绝对路径 (以 / 开头),请你将其转化为 更加简洁的规范路径。 在 Unix 风格的文件系统中规则如下: 一个点 . 表示当前目录本身。此外,两个点 ..…...

nodejs入门教程4:nodejs创建第一个应用

1. 安装 Node.js 首先,确保你的计算机上已经安装了 Node.js。如果还没有安装,可以从官方网站(https://nodejs.org)下载并安装最新的 LTS 版本。安装完成后,你可以在命令行或终端中运行以下命令来验证安装:…...

启用 iPhone 原生的五笔输入

聊聊如何在 iOS 中使用原生的五笔输入法 本文虽然介绍的是如何添加五笔键盘,其实其他键盘(双拼,外语键盘、第三方输入法)也是类似的添加方式。 ‍ 使用原生的理由 虽然之前的文章列了不少第三方的五笔输入法,但其实…...

这个工具让你轻松开发一个带AI功能的Notion

这个工具让你轻松开发一个带AI功能的Notion Plate 是一款由 AI 加持的富文本编辑器,旨在帮助开发者创建功能强大的 WYSIWYG 文本编辑工具。本文将介绍 Plate 的基本信息、特点、以及如何快速上手使用。 软件简介 Plate 由 udecode 开发,基于 React 和 S…...

光耦合器的关键作用和创新---腾恩科技

光耦合器或光隔离器已成为电路中必不可少的器件,它允许信号在无需直接电接触的情况下跨不同电压域传输。这种隔离能力对于保护低压元件免受高压电路的潜在损坏至关重要。本文将仔细研究光耦合器在当今技术中发挥的独特作用,并探讨其在各种应用中不断扩展…...

穿越死锁的迷雾:pthread_mutex_lock的终极挑战与破解策略

穿越死锁的迷雾:pthread_mutex_lock的终极挑战与破解策略 一、死锁的基本概念二、pthread_mutex_lock 出现死锁的原因三、pthread_mutex_lock 出现死锁的表现四、处理pthread_mutex_lock 出现死锁的方法1. 避免死锁1.1 遵循锁的顺序原则1.2 使用定时锁1.3 使用尝试锁1.4 使用递…...

Dockerfile制作Oracle19c镜像

Dockerfile文件 cat > Dockerfile << EOF # 使用 Oracle Linux 8 作为基础镜像 FROM oraclelinux:8# 复制 Oracle 19c 安装包 COPY oracle-database-ee-19c-1.0-1.x86_64.rpm /tmp/# 安装 Oracle 19c 数据库和依赖 RUN yum localinstall -y /tmp/oracle-database-ee-…...

【时间之外】IT人求职和创业应知【23】

目录 新闻一:央行发布首个买断式逆回购交易公告 新闻二:2024CCF科技创业大赛报名截止 新闻三:BNB Chain将在迪拜主办第四届BNB孵化联盟(BIA) 认知决定你的赚钱能力。以下是今天可能影响你求职和创业的热点新闻: 今日关键字:TCL两连扳,已经跑了,我的认知就到此了 新…...

后端:Spring-1

文章目录 1. 了解 spring(Spring Framework)2. 基于maven搭建Spring框架2.1 纯xml配置方式来实现Spring2.2 注解方式来实现Spring3. Java Config类来实现Spring 2.4 总结 1. 了解 spring(Spring Framework) 传统方式构建spring(指的是Spring Framework)项目&#xff0c;导入依…...

Appium+python自动化(十六)- ADB命令

简介 Android 调试桥(adb)是多种用途的工具&#xff0c;该工具可以帮助你你管理设备或模拟器 的状态。 adb ( Android Debug Bridge)是一个通用命令行工具&#xff0c;其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利&#xff0c;如安装和调试…...

django filter 统计数量 按属性去重

在Django中&#xff0c;如果你想要根据某个属性对查询集进行去重并统计数量&#xff0c;你可以使用values()方法配合annotate()方法来实现。这里有两种常见的方法来完成这个需求&#xff1a; 方法1&#xff1a;使用annotate()和Count 假设你有一个模型Item&#xff0c;并且你想…...

SpringTask-03.入门案例

一.入门案例 启动类&#xff1a; package com.sky;import lombok.extern.slf4j.Slf4j; import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; import org.springframework.cache.annotation.EnableCach…...

Java多线程实现之Thread类深度解析

Java多线程实现之Thread类深度解析 一、多线程基础概念1.1 什么是线程1.2 多线程的优势1.3 Java多线程模型 二、Thread类的基本结构与构造函数2.1 Thread类的继承关系2.2 构造函数 三、创建和启动线程3.1 继承Thread类创建线程3.2 实现Runnable接口创建线程 四、Thread类的核心…...

dify打造数据可视化图表

一、概述 在日常工作和学习中&#xff0c;我们经常需要和数据打交道。无论是分析报告、项目展示&#xff0c;还是简单的数据洞察&#xff0c;一个清晰直观的图表&#xff0c;往往能胜过千言万语。 一款能让数据可视化变得超级简单的 MCP Server&#xff0c;由蚂蚁集团 AntV 团队…...

USB Over IP专用硬件的5个特点

USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中&#xff0c;从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备&#xff08;如专用硬件设备&#xff09;&#xff0c;从而消除了直接物理连接的需要。USB over IP的…...

重启Eureka集群中的节点,对已经注册的服务有什么影响

先看答案&#xff0c;如果正确地操作&#xff0c;重启Eureka集群中的节点&#xff0c;对已经注册的服务影响非常小&#xff0c;甚至可以做到无感知。 但如果操作不当&#xff0c;可能会引发短暂的服务发现问题。 下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...

MFC 抛体运动模拟:常见问题解决与界面美化

在 MFC 中开发抛体运动模拟程序时,我们常遇到 轨迹残留、无效刷新、视觉单调、物理逻辑瑕疵 等问题。本文将针对这些痛点,详细解析原因并提供解决方案,同时兼顾界面美化,让模拟效果更专业、更高效。 问题一:历史轨迹与小球残影残留 现象 小球运动后,历史位置的 “残影”…...

从“安全密码”到测试体系:Gitee Test 赋能关键领域软件质量保障

关键领域软件测试的"安全密码"&#xff1a;Gitee Test如何破解行业痛点 在数字化浪潮席卷全球的今天&#xff0c;软件系统已成为国家关键领域的"神经中枢"。从国防军工到能源电力&#xff0c;从金融交易到交通管控&#xff0c;这些关乎国计民生的关键领域…...

elementUI点击浏览table所选行数据查看文档

项目场景&#xff1a; table按照要求特定的数据变成按钮可以点击 解决方案&#xff1a; <el-table-columnprop"mlname"label"名称"align"center"width"180"><template slot-scope"scope"><el-buttonv-if&qu…...