【论文速读】| MASTERKEY:大语言模型聊天机器人的自动化越狱

本次分享论文为:MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots
基本信息
原文作者:Gelei Deng, Yi Liu, Yuekang Li, Kailong Wang, Ying Zhang, Zefeng Li, Haoyu Wang, Tianwei Zhang, Yang Liu
作者单位:南洋理工大学、新南威尔士大学、华中科技大学、弗吉尼亚理工大学
关键词:大语言模型,聊天机器人,自动化测试,安全性评估
原文链接:
https://arxiv.org/pdf/2307.08715.pdf
开源代码:暂无
论文要点
论文简介:本论文介绍了一个称为MASTERKEY的端到端的框架,其目标是探索越狱攻击和防御背后的整合机制。通过深入的实证分析,研究人员指出,对于当前流行的LLM聊天机器人,现有的安全越狱手段效果不佳。因此,他们提出了一个创新的基于时间特征分析的方法,用以识别并规避服务供应商实施的保护措施。MASTERKEY不仅成功揭示了LLM聊天机器人潜在的安全弱点,而且还能自动生成有效的越狱指令,即jailbreak prompts,从而显著提升了越狱操作的成功率。
研究背景:随着大语言模型(LLM)聊天机器人越来越多地被应用于多个领域,确保它们的安全性并防止敏感或有害信息泄露已迫在眉睫。研究人员通过进行所谓的“越狱”(jailbreaking)实验,旨在测试这些系统并揭示它们可能存在的安全隐患。
研究贡献:
1.逆向工程未公开的防御机制:本研究采用了一种创新方法来揭示大语言模型(LLM)聊天机器人的防御策略内部工作原理,为研究者提供了对其安全措施的深入理解。
2.绕过LLM防御:研究人员利用对LLM聊天机器人防御机制的新认识,通过策略性地调整对时间敏感的响应,成功地绕过了这些防御机制,并揭示了以前被忽视的安全漏洞。
3.自动化越狱生成:本文展示了一种创新且高效的策略,利用细致调校的LLM自动生成越狱提示,开辟了研究新路径。
4.越狱技术的模式和LLM通用化:提出了一种能够跨越不同模式和LLM聊天机器人的越狱技巧,强调了这些技术的通用性和对未来研究的潜在重大影响。
引言
在这个数字技术飞速进步的时代,大语言模型(LLM)聊天机器人已经成为人工智能界的焦点话题。这些机器人能够创造出类似人类的文本,被广泛用于客户服务、教育、娱乐等诸多领域。与此同时,如何确保这些聊天机器人的安全性、防止它们通过特定的输入被恶意用户“越狱”以泄露敏感或有害信息,成为了一个紧迫的问题。尽管之前的研究尝试了对特定LLM聊天机器人的安全防护进行测试,但缺少了一个既通用又能自动化进行测试的方法。MASTERKEY的开发正是为了解决这个问题,它通过自动化产生越狱性提示,能够高效且广泛地评估LLM聊天机器人的安全性。
背景知识
作为人工智能领域的一项创新,大语言模型(LLM)聊天机器人能够处理自然语言输入并提供类似人类的回复。它们大大便利了用户,但同时带来了一种名为“越狱攻击”的新型安全风险。这类攻击利用精心设计的输入提示(prompts)来诱导聊天机器人违背其使用政策,从而泄漏敏感或有害信息。为了防止这种攻击,各大服务提供商实施了多种防御机制。然而,这些机制的有效性及其具体的实施方式大多数情况下保持不公开。
论文方法
理论背景:MASTERKEY通过深入分析现有大语言模型(LLM)聊天机器人的安全测试成果,发现了时间特性作为一种关键因素,能够有效揭示聊天机器人的防御策略。
方法实现:基于对时间特性的洞察,MASTERKEY设计了一套独特的策略,能够准确预测聊天机器人的安全机制。利用这些洞见,它能够自动化地产生越狱性的提示,成功规避了聊天机器人的防御系统。
实验
实验设置:为了全面评估MASTERKEY的性能,研究团队精心挑选了包括CHATGPT、Bard和Bing Chat在内的几款领先的大语言模型(LLM)聊天机器人进行测试。这一系列实验旨在深入探究MASTERKEY框架的实际应用效果。

实验结果:相较于传统的手动设计越狱提示,MASTERKEY自动生成的提示成功率有了显著提升。尤其值得注意的是,对于Bard和Bing Chat这两个平台,MASTERKEY实现了前所未有的越狱成功,从而验证了其卓越的自动化测试能力和实用价值。

论文结论
在本研究中,研究者对当下领先的大语言模型(LLM)聊天机器人服务进行了细致的评价,揭露了它们在面对越狱攻击时的明显薄弱环节。他们引入了一个创新性的框架,名为MASTERKEY,它旨在加深越狱攻击与防御策略之间的技术较量。通过运用基于时间分析的方法,MASTERKEY能够逆向工程并揭示LLM聊天机器人当前采用的防御机制,提供了深刻的新洞见。此外,MASTERKEY还采用了一种自动化技术来生成能够普遍应用的越狱提示,使得在各大主流聊天机器人服务中的平均越狱成功率达到了21.58%。
原作者:论文解读智能体
润色:Fancy
校对:小椰风

相关文章:
【论文速读】| MASTERKEY:大语言模型聊天机器人的自动化越狱
本次分享论文为:MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots 基本信息 原文作者:Gelei Deng, Yi Liu, Yuekang Li, Kailong Wang, Ying Zhang, Zefeng Li, Haoyu Wang, Tianwei Zhang, Yang Liu 作者单位:南洋理工…...
jvm运行情况预估
相关系统 jvm优化原则-CSDN博客 执行下面指令 jstat gc -pid 能计算出一些关键数据,有了这些数据,先给JVM参数一些的初始的,比堆内存大小、年轻代大小 、Eden和Srivivor的比例,老年代的大小,大对象的阈值,…...
Day105:代码审计-PHP原生开发篇SQL注入数据库监控正则搜索文件定位静态分析
目录 代码审计-学前须知 Bluecms-CNVD-1Day-常规注入审计分析 emlog-CNVD-1Day-常规注入审计分析 emlog-CNVD-1Day-2次注入审计分析 知识点: 1、PHP审计-原生态开发-SQL注入&语句监控 2、PHP审计-原生态开发-SQL注入&正则搜索 3、PHP审计-原生态开发-SQ…...
Python:如何对FY3D TSHS的数据集进行重投影并输出为TIFF文件以及批量镶嵌插值?
完整代码见 Github:https://github.com/ChaoQiezi/read_fy3d_tshs,由于代码中注释较为详细,因此博客中部分操作一笔带过。 01 FY3D的HDF转TIFF 1.1 数据集说明 FY3D TSHS数据集是二级产品(TSHS即MWTS/MWHS 融合大气温湿度廓线/稳定度指数/…...
CentOS 镜像下载
CentOS 镜像下载:https://www.centos.org/download/ 选择合适的架构,博主选择x86_64,表示CentOS7 64位系统x86架构,如下: 或者直接访问以下网站下载 清华大学开源软件镜像站:https://mirrors.tuna.tsin…...
yum和配置yum源
yum 以及配置yum 源。 文章目录 一、Linux 软件包管理器yum二、使用yum安装软件三、配置yum源四、yum源仓库五、lrzse 实现linux远端和本地 互传文件 一、Linux 软件包管理器yum (1)什么是yum? yum 是一个软件下载安装管理的一个软件包管理器,它就相当于我们手机…...
jQuery笔记 02
目录 01 jq中预定义动画的使用 02 jq中的自定义动画 03 jq的动画的停止 04 jq节点的增删改 05 属性节点的操作 06 jq中的值和内容的操作 07 jq中宽高的操作 08 jq中坐标的操作 01 jq中预定义动画的使用 jq的预定义动画: 1.显示隐藏动画 显示 : jq对象.show() 不传参数 表…...
基于Java+SpringBoot+Vue文学名著分享系统(源码+文档+部署+讲解)
一.系统概述 随着世界经济信息化、全球化的到来和互联网的飞速发展,推动了各行业的改革。若想达到安全,快捷的目的,就需要拥有信息化的组织和管理模式,建立一套合理、动态的、交互友好的、高效的文学名著分享系统。当前的信息管理…...
C/S医学检验LIS实验室信息管理系统源码 医院LIS源码
LIS系统即实验室信息管理系统。LIS系统能实现临床检验信息化,检验科信息管理自动化。其主要功能是将检验科的实验仪器传出的检验数据经数据分析后,自动生成打印报告,通过网络存储在数据库中,使医生能够通过医生工作站方便、及时地…...
liunx环境变量学习总结
环境变量 在操作系统中,环境变量是一种特殊的变量,它们为运行的进程提供全局配置信息和系统环境设定。本文将介绍如何自定义、删除环境变量,特别是对重要环境变量PATH的管理和定制,以及与环境变量相关的函数使用。 自定义环境变…...
对于Redis,如何根据业务需求配置是否允许远程访问?
1、centos8 Redis安装的配置文件目录在哪里? 在 CentOS 8 中,默认情况下 Redis 的配置文件 redis.conf 通常位于 /etc/ 目录下。确切的完整路径是 /etc/redis.conf。 2、redis如何设置允许远程登录 修改redis.conf文件 # 继承默认注释掉的bind配置 # …...
深入分析Linux上下文与上下文切换
Linux 进程运行空间与特权等级 在 Linux 操作系统中,进程的运行空间被划分为内核空间和用户空间,这种划分是为了保护系统的稳定性和安全性。这两个空间对应着 CPU 的特权等级,分别为: Ring 0(内核态)Ring…...
Docker快速上手及常用命令速查
Docker快速上手 安装 在ubuntu上安装docker: sudo apt-get install docker docker -v #查看版本在centos7上安装docker:(docker在YUM源的Extras仓库中) yum install docker systemctl start dockerdocker常用命令速查 #查看docker信息 docker info #查看本地镜…...
学习笔记:解决拖延
1 解决拖延、减轻压力的关键心态和方法 1.1 要点梳理 拖延是因为自己一直在逃避,重点是要有效突破逃避圈,进入学习圈,扩展成长圈。 毒蛇曲线(见思维导图)中越是临近截止期限,拖延的焦虑越上升࿰…...
第一个Swift程序
要创建第一个Swift项目,请按照以下步骤操作: 打开Xcode。如果您没有安装Xcode,可以在App Store中下载并安装它。在Xcode的欢迎界面上,选择“Create a new Xcode project”(创建新Xcode项目)。在模板选择界面上,选择“App”(应用程序)。在应用模板选择界面上,选择“Si…...
Anthropic Claude 3 加入亚马逊云科技 AI“全家桶”
编辑 | 宋慧 出品 | CSDN AIGC 每天都有新动态发生。最新的消息是亚马逊在 3 月底完成了对 Anthropic 的 40 亿美元投资(也是亚马逊 30 年来最大一笔外部投资),以及 GPT-4 最强对手的 Anthropic Claude 3 已经在亚马逊云科技 Amazon Bedrock…...
学习基于pytorch的VGG图像分类 day3
注:本系列博客在于汇总CSDN的精华帖,类似自用笔记,不做学习交流,方便以后的复习回顾,博文中的引用都注明出处,并点赞收藏原博主. 目录 VGG模型训练 1.导入必要的库 2.主函数部分 2.1使用cpu或gpu 2.2对数据…...
Spring Boot统一功能处理之拦截器
本篇主要介绍Spring Boot的统一功能处理中的拦截器。 目录 一、拦截器的基本使用 二、拦截器实操 三、浅尝源码 初始化DispatcherServerlet 处理请求(doDispatch) 四、适配器模式 一、拦截器的基本使用 在一般的学校或者社区门口,通常会安排几个…...
stm32之基本定时器的使用
在上文我们使用到了HAL库的自带的延时函数,HAL_Delay();我们来看一下函数的原型 __weak void HAL_Delay(uint32_t Delay) {uint32_t tickstart HAL_GetTick();uint32_t wait Delay;/* Add a freq to guarantee minimum wait */…...
单片机为什么还在用C语言编程?
单片机产品的成本是非常敏感的。因此对于单片机开发来说,最重要的是在极其有限的ROM和RAM中实现最多产品的功能。或者反过来说,实现相同的产品功能,所需要的ROM和RAM越小越好,在开始前我有一些资料,是我根据网友给的问…...
本地部署音效生成器 Moodist 并实现外部访问
Moodist 是基于 MIT 许可的开源白噪音平台,提供了超过 75 种不同的环境声音,可以帮助用户集中注意力、保持冷静或进入放松状态。它还支持持久化声音选择,用户能够自定义声音预设,分享他们的音频配置给他人,并且集成睡眠…...
SMART-AM40玩转轻量桌面:Armbian下xfce4从安装到远程控制的完整指南
SMART-AM40轻量化桌面革命:Armbian系统下xfce4环境全流程部署与远程控制实战 在单板计算机领域,SMART-AM40凭借其Rockchip处理器和出色的能效比,正成为轻量化桌面解决方案的新宠。本文将带您完成从Armbian系统基础配置到xfce4桌面环境部署&am…...
Qwen-Ranker Pro实操手册:审计日志记录+敏感Query过滤中间件集成
Qwen-Ranker Pro实操手册:审计日志记录敏感Query过滤中间件集成 1. 引言:为什么你的搜索系统需要一个“质检员”? 想象一下这个场景:你搭建了一个智能客服系统,用户问“如何给猫洗澡”,系统却返回了一堆关…...
【C++ 面试突击 · 06】大厂高频面试题:从 decltype 类型推导到 volatile 内存屏障解析
目录 1. C中的 decltype 关键字是什么? 2. C中的 volatile 关键字是什么? 3. C中的友元函数是否破坏了封装性? 4. C中的 mutable 关键字是什么? 5. mutable 关键字有哪些实际用途? 6. 如何在 C 中避免内存碎片问…...
超图神经网络(HGNN)实战:从多模态数据构建到节点特征提取
超图神经网络实战:多模态数据融合与节点特征提取全流程解析 在电商推荐系统中,我们常常需要同时处理用户行为日志、商品图像和评论文本——这三种异构数据如何统一建模?传统图神经网络(GNN)在处理这类多模态关联时往往…...
解锁小米平板5的Windows潜能:从Android平板到完整PC体验的驱动革命
解锁小米平板5的Windows潜能:从Android平板到完整PC体验的驱动革命 【免费下载链接】MiPad5-Drivers Based on Surface Duo Drivers. 项目地址: https://gitcode.com/gh_mirrors/mi/MiPad5-Drivers 你是否曾想过,将手中的小米平板5从一台Android设…...
告别Delay!用STM32硬件定时器实现非阻塞软件IIC,实测F429/H743性能对比
告别Delay!用STM32硬件定时器实现非阻塞软件IIC,实测F429/H743性能对比 在嵌入式开发中,IIC总线因其简单的两线制设计和广泛的外设支持,成为连接各类传感器的首选方案。然而,当MCU缺乏硬件IIC外设或引脚被占用时&#…...
WebPageTest API完全手册:自动化网站性能监控与集成
WebPageTest API完全手册:自动化网站性能监控与集成 【免费下载链接】WebPageTest Official repository for WebPageTest 项目地址: https://gitcode.com/gh_mirrors/we/WebPageTest WebPageTest 是一款强大的网站性能测试工具,其提供的 API 功能…...
深耕.NET开发三载,我靠技术实力买下人生第一套房
作为一名深耕.NET领域的开发者,从刚毕业敲下第一行C#代码的青涩,到如今拿到属于自己的房产证,这一路,是技术能力的层层进阶,是职业道路的稳步前行,更是用代码筑造起现实生活的温暖港湾。在很多人眼里&#…...
基于SpringBoot + Vue的新农村信息平台建设(角色:企业村民村委会管理员)
文章目录前言一、详细操作演示视频二、具体实现截图三、技术栈1.前端-Vue.js2.后端-SpringBoot3.数据库-MySQL4.系统架构-B/S四、系统测试1.系统测试概述2.系统功能测试3.系统测试结论五、项目代码参考六、数据库代码参考七、项目论文示例结语前言 💛博主介绍&#…...
