当前位置: 首页 > news >正文

【论文速读】| MASTERKEY:大语言模型聊天机器人的自动化越狱

图片

本次分享论文为:MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots

基本信息

原文作者:Gelei Deng, Yi Liu, Yuekang Li, Kailong Wang, Ying Zhang, Zefeng Li, Haoyu Wang, Tianwei Zhang, Yang Liu

作者单位:南洋理工大学、新南威尔士大学、华中科技大学、弗吉尼亚理工大学

关键词:大语言模型,聊天机器人,自动化测试,安全性评估

原文链接:

https://arxiv.org/pdf/2307.08715.pdf

开源代码:暂无

论文要点

论文简介:本论文介绍了一个称为MASTERKEY的端到端的框架,其目标是探索越狱攻击和防御背后的整合机制。通过深入的实证分析,研究人员指出,对于当前流行的LLM聊天机器人,现有的安全越狱手段效果不佳。因此,他们提出了一个创新的基于时间特征分析的方法,用以识别并规避服务供应商实施的保护措施。MASTERKEY不仅成功揭示了LLM聊天机器人潜在的安全弱点,而且还能自动生成有效的越狱指令,即jailbreak prompts,从而显著提升了越狱操作的成功率。

研究背景:随着大语言模型(LLM)聊天机器人越来越多地被应用于多个领域,确保它们的安全性并防止敏感或有害信息泄露已迫在眉睫。研究人员通过进行所谓的“越狱”(jailbreaking)实验,旨在测试这些系统并揭示它们可能存在的安全隐患。

研究贡献:

1.逆向工程未公开的防御机制:本研究采用了一种创新方法来揭示大语言模型(LLM)聊天机器人的防御策略内部工作原理,为研究者提供了对其安全措施的深入理解。

2.绕过LLM防御:研究人员利用对LLM聊天机器人防御机制的新认识,通过策略性地调整对时间敏感的响应,成功地绕过了这些防御机制,并揭示了以前被忽视的安全漏洞。

3.自动化越狱生成:本文展示了一种创新且高效的策略,利用细致调校的LLM自动生成越狱提示,开辟了研究新路径。

4.越狱技术的模式和LLM通用化:提出了一种能够跨越不同模式和LLM聊天机器人的越狱技巧,强调了这些技术的通用性和对未来研究的潜在重大影响。

引言

在这个数字技术飞速进步的时代,大语言模型(LLM)聊天机器人已经成为人工智能界的焦点话题。这些机器人能够创造出类似人类的文本,被广泛用于客户服务、教育、娱乐等诸多领域。与此同时,如何确保这些聊天机器人的安全性、防止它们通过特定的输入被恶意用户“越狱”以泄露敏感或有害信息,成为了一个紧迫的问题。尽管之前的研究尝试了对特定LLM聊天机器人的安全防护进行测试,但缺少了一个既通用又能自动化进行测试的方法。MASTERKEY的开发正是为了解决这个问题,它通过自动化产生越狱性提示,能够高效且广泛地评估LLM聊天机器人的安全性。

背景知识

作为人工智能领域的一项创新,大语言模型(LLM)聊天机器人能够处理自然语言输入并提供类似人类的回复。它们大大便利了用户,但同时带来了一种名为“越狱攻击”的新型安全风险。这类攻击利用精心设计的输入提示(prompts)来诱导聊天机器人违背其使用政策,从而泄漏敏感或有害信息。为了防止这种攻击,各大服务提供商实施了多种防御机制。然而,这些机制的有效性及其具体的实施方式大多数情况下保持不公开。

论文方法

理论背景:MASTERKEY通过深入分析现有大语言模型(LLM)聊天机器人的安全测试成果,发现了时间特性作为一种关键因素,能够有效揭示聊天机器人的防御策略。

方法实现:基于对时间特性的洞察,MASTERKEY设计了一套独特的策略,能够准确预测聊天机器人的安全机制。利用这些洞见,它能够自动化地产生越狱性的提示,成功规避了聊天机器人的防御系统。

实验

实验设置:为了全面评估MASTERKEY的性能,研究团队精心挑选了包括CHATGPT、Bard和Bing Chat在内的几款领先的大语言模型(LLM)聊天机器人进行测试。这一系列实验旨在深入探究MASTERKEY框架的实际应用效果。

图片

实验结果:相较于传统的手动设计越狱提示,MASTERKEY自动生成的提示成功率有了显著提升。尤其值得注意的是,对于Bard和Bing Chat这两个平台,MASTERKEY实现了前所未有的越狱成功,从而验证了其卓越的自动化测试能力和实用价值。

图片

论文结论

在本研究中,研究者对当下领先的大语言模型(LLM)聊天机器人服务进行了细致的评价,揭露了它们在面对越狱攻击时的明显薄弱环节。他们引入了一个创新性的框架,名为MASTERKEY,它旨在加深越狱攻击与防御策略之间的技术较量。通过运用基于时间分析的方法,MASTERKEY能够逆向工程并揭示LLM聊天机器人当前采用的防御机制,提供了深刻的新洞见。此外,MASTERKEY还采用了一种自动化技术来生成能够普遍应用的越狱提示,使得在各大主流聊天机器人服务中的平均越狱成功率达到了21.58%。

原作者:论文解读智能体

润色:Fancy

校对:小椰风

图片

相关文章:

【论文速读】| MASTERKEY:大语言模型聊天机器人的自动化越狱

本次分享论文为:MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots 基本信息 原文作者:Gelei Deng, Yi Liu, Yuekang Li, Kailong Wang, Ying Zhang, Zefeng Li, Haoyu Wang, Tianwei Zhang, Yang Liu 作者单位:南洋理工…...

jvm运行情况预估

相关系统 jvm优化原则-CSDN博客 执行下面指令 jstat gc -pid 能计算出一些关键数据,有了这些数据,先给JVM参数一些的初始的,比堆内存大小、年轻代大小 、Eden和Srivivor的比例,老年代的大小,大对象的阈值,…...

Day105:代码审计-PHP原生开发篇SQL注入数据库监控正则搜索文件定位静态分析

目录 代码审计-学前须知 Bluecms-CNVD-1Day-常规注入审计分析 emlog-CNVD-1Day-常规注入审计分析 emlog-CNVD-1Day-2次注入审计分析 知识点: 1、PHP审计-原生态开发-SQL注入&语句监控 2、PHP审计-原生态开发-SQL注入&正则搜索 3、PHP审计-原生态开发-SQ…...

Python:如何对FY3D TSHS的数据集进行重投影并输出为TIFF文件以及批量镶嵌插值?

完整代码见 Github:https://github.com/ChaoQiezi/read_fy3d_tshs,由于代码中注释较为详细,因此博客中部分操作一笔带过。 01 FY3D的HDF转TIFF 1.1 数据集说明 FY3D TSHS数据集是二级产品(TSHS即MWTS/MWHS 融合大气温湿度廓线/稳定度指数/…...

CentOS 镜像下载

CentOS 镜像下载:https://www.centos.org/download/ 选择合适的架构,博主选择x86_64,表示CentOS7 64位系统x86架构,如下: 或者直接访问以下网站下载 清华大学开源软件镜像站:https://mirrors.tuna.tsin…...

yum和配置yum源

yum 以及配置yum 源。 文章目录 一、Linux 软件包管理器yum二、使用yum安装软件三、配置yum源四、yum源仓库五、lrzse 实现linux远端和本地 互传文件 一、Linux 软件包管理器yum (1)什么是yum? yum 是一个软件下载安装管理的一个软件包管理器,它就相当于我们手机…...

jQuery笔记 02

目录 01 jq中预定义动画的使用 02 jq中的自定义动画 03 jq的动画的停止 04 jq节点的增删改 05 属性节点的操作 06 jq中的值和内容的操作 07 jq中宽高的操作 08 jq中坐标的操作 01 jq中预定义动画的使用 jq的预定义动画: 1.显示隐藏动画 显示 : jq对象.show() 不传参数 表…...

基于Java+SpringBoot+Vue文学名著分享系统(源码+文档+部署+讲解)

一.系统概述 随着世界经济信息化、全球化的到来和互联网的飞速发展,推动了各行业的改革。若想达到安全,快捷的目的,就需要拥有信息化的组织和管理模式,建立一套合理、动态的、交互友好的、高效的文学名著分享系统。当前的信息管理…...

C/S医学检验LIS实验室信息管理系统源码 医院LIS源码

LIS系统即实验室信息管理系统。LIS系统能实现临床检验信息化,检验科信息管理自动化。其主要功能是将检验科的实验仪器传出的检验数据经数据分析后,自动生成打印报告,通过网络存储在数据库中,使医生能够通过医生工作站方便、及时地…...

liunx环境变量学习总结

环境变量 在操作系统中,环境变量是一种特殊的变量,它们为运行的进程提供全局配置信息和系统环境设定。本文将介绍如何自定义、删除环境变量,特别是对重要环境变量PATH的管理和定制,以及与环境变量相关的函数使用。 自定义环境变…...

对于Redis,如何根据业务需求配置是否允许远程访问?

1、centos8 Redis安装的配置文件目录在哪里? 在 CentOS 8 中,默认情况下 Redis 的配置文件 redis.conf 通常位于 /etc/ 目录下。确切的完整路径是 /etc/redis.conf。 2、redis如何设置允许远程登录 修改redis.conf文件 # 继承默认注释掉的bind配置 # …...

深入分析Linux上下文与上下文切换

Linux 进程运行空间与特权等级 在 Linux 操作系统中,进程的运行空间被划分为内核空间和用户空间,这种划分是为了保护系统的稳定性和安全性。这两个空间对应着 CPU 的特权等级,分别为: Ring 0(内核态)Ring…...

Docker快速上手及常用命令速查

Docker快速上手 安装 在ubuntu上安装docker: sudo apt-get install docker docker -v #查看版本在centos7上安装docker:(docker在YUM源的Extras仓库中) yum install docker systemctl start dockerdocker常用命令速查 #查看docker信息 docker info #查看本地镜…...

学习笔记:解决拖延

1 解决拖延、减轻压力的关键心态和方法 1.1 要点梳理 拖延是因为自己一直在逃避,重点是要有效突破逃避圈,进入学习圈,扩展成长圈。 毒蛇曲线(见思维导图)中越是临近截止期限,拖延的焦虑越上升&#xff0…...

第一个Swift程序

要创建第一个Swift项目,请按照以下步骤操作: 打开Xcode。如果您没有安装Xcode,可以在App Store中下载并安装它。在Xcode的欢迎界面上,选择“Create a new Xcode project”(创建新Xcode项目)。在模板选择界面上,选择“App”(应用程序)。在应用模板选择界面上,选择“Si…...

Anthropic Claude 3 加入亚马逊云科技 AI“全家桶”

编辑 | 宋慧 出品 | CSDN AIGC 每天都有新动态发生。最新的消息是亚马逊在 3 月底完成了对 Anthropic 的 40 亿美元投资(也是亚马逊 30 年来最大一笔外部投资),以及 GPT-4 最强对手的 Anthropic Claude 3 已经在亚马逊云科技 Amazon Bedrock…...

学习基于pytorch的VGG图像分类 day3

注:本系列博客在于汇总CSDN的精华帖,类似自用笔记,不做学习交流,方便以后的复习回顾,博文中的引用都注明出处,并点赞收藏原博主. 目录 VGG模型训练 1.导入必要的库 2.主函数部分 2.1使用cpu或gpu 2.2对数据…...

Spring Boot统一功能处理之拦截器

本篇主要介绍Spring Boot的统一功能处理中的拦截器。 目录 一、拦截器的基本使用 二、拦截器实操 三、浅尝源码 初始化DispatcherServerlet 处理请求(doDispatch) 四、适配器模式 一、拦截器的基本使用 在一般的学校或者社区门口,通常会安排几个…...

stm32之基本定时器的使用

在上文我们使用到了HAL库的自带的延时函数,HAL_Delay();我们来看一下函数的原型 __weak void HAL_Delay(uint32_t Delay) {uint32_t tickstart HAL_GetTick();uint32_t wait Delay;/* Add a freq to guarantee minimum wait */…...

单片机为什么还在用C语言编程?

单片机产品的成本是非常敏感的。因此对于单片机开发来说,最重要的是在极其有限的ROM和RAM中实现最多产品的功能。或者反过来说,实现相同的产品功能,所需要的ROM和RAM越小越好,在开始前我有一些资料,是我根据网友给的问…...

HTML 语义化

目录 HTML 语义化HTML5 新特性HTML 语义化的好处语义化标签的使用场景最佳实践 HTML 语义化 HTML5 新特性 标准答案&#xff1a; 语义化标签&#xff1a; <header>&#xff1a;页头<nav>&#xff1a;导航<main>&#xff1a;主要内容<article>&#x…...

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

CVPR 2025 | MIMO&#xff1a;支持视觉指代和像素对齐的医学视觉语言模型 论文信息 标题&#xff1a;MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者&#xff1a;Yanyuan Chen, Dexuan Xu, Yu Hu…...

OkHttp 中实现断点续传 demo

在 OkHttp 中实现断点续传主要通过以下步骤完成&#xff0c;核心是利用 HTTP 协议的 Range 请求头指定下载范围&#xff1a; 实现原理 Range 请求头&#xff1a;向服务器请求文件的特定字节范围&#xff08;如 Range: bytes1024-&#xff09; 本地文件记录&#xff1a;保存已…...

镜像里切换为普通用户

如果你登录远程虚拟机默认就是 root 用户&#xff0c;但你不希望用 root 权限运行 ns-3&#xff08;这是对的&#xff0c;ns3 工具会拒绝 root&#xff09;&#xff0c;你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案&#xff1a;创建非 roo…...

python爬虫:Newspaper3k 的详细使用(好用的新闻网站文章抓取和解析的Python库)

更多内容请见: 爬虫和逆向教程-专栏介绍和目录 文章目录 一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

新能源汽车智慧充电桩管理方案:新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及&#xff0c;充电桩作为核心配套设施&#xff0c;其安全性与可靠性备受关注。然而&#xff0c;在高温、高负荷运行环境下&#xff0c;充电桩的散热问题与消防安全隐患日益凸显&#xff0c;成为制约行业发展的关键瓶颈。 如何通过智慧化管理手段优化散…...

关于 WASM:1. WASM 基础原理

一、WASM 简介 1.1 WebAssembly 是什么&#xff1f; WebAssembly&#xff08;WASM&#xff09; 是一种能在现代浏览器中高效运行的二进制指令格式&#xff0c;它不是传统的编程语言&#xff0c;而是一种 低级字节码格式&#xff0c;可由高级语言&#xff08;如 C、C、Rust&am…...

GC1808高性能24位立体声音频ADC芯片解析

1. 芯片概述 GC1808是一款24位立体声音频模数转换器&#xff08;ADC&#xff09;&#xff0c;支持8kHz~96kHz采样率&#xff0c;集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器&#xff0c;适用于高保真音频采集场景。 2. 核心特性 高精度&#xff1a;24位分辨率&#xff0c…...

Mysql中select查询语句的执行过程

目录 1、介绍 1.1、组件介绍 1.2、Sql执行顺序 2、执行流程 2.1. 连接与认证 2.2. 查询缓存 2.3. 语法解析&#xff08;Parser&#xff09; 2.4、执行sql 1. 预处理&#xff08;Preprocessor&#xff09; 2. 查询优化器&#xff08;Optimizer&#xff09; 3. 执行器…...

RSS 2025|从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

视觉语言模型&#xff08;Vision-Language Models, VLMs&#xff09;&#xff0c;为真实环境中的机器人操作任务提供了极具潜力的解决方案。 尽管 VLMs 取得了显著进展&#xff0c;机器人仍难以胜任复杂的长时程任务&#xff08;如家具装配&#xff09;&#xff0c;主要受限于人…...