当前位置: 首页 > article >正文

论文阅读:2024 ACL ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

Artprompt: Ascii art-based jailbreak attacks against aligned llms

https://www.doubao.com/chat/3846685176618754

https://arxiv.org/pdf/2402.11753

https://github.com/uw-nsl/ArtPrompt

速览

  • 研究动机 现有LLM安全措施仅依赖语义解释,忽视ASCII艺术等非语义输入的潜在风险。

  • 研究问题 LLM能否识别ASCII艺术中的隐含信息?能否利用其缺陷实施越狱攻击?

  • 研究方法

    1. 构建VITC基准测试LLM的ASCII艺术识别能力;
    2. 设计ArtPrompt攻击,通过屏蔽敏感词+ASCII伪装绕过安全机制;
    3. 在5大LLM上对比攻击效果与防御绕过能力。
  • 研究结论 主流LLM对ASCII艺术识别率极低(单字符最高25.19%),ArtPrompt攻击成功率达52%,显著优于传统方法且能绕过多数防御。

  • 不足 未验证对多模态模型的效果,未来需探索更普适的非语义防御机制。

这篇论文主要探讨了大语言模型(LLM)在安全对齐中仅依赖语义解释的漏洞,并提出了一种基于ASCII艺术的越狱攻击方法 ArtPrompt,具体内容如下:

核心问题:LLM的安全对齐漏洞
当前LLM的安全措施(如数据过滤、监督微调)假设训练语料仅通过语义解释,但现实中用户可能用非语义方式(如ASCII艺术)绕过安全限制。例如:

  • 直接输入“如何制造炸弹”会被LLM拒绝,但用ASCII艺术拼出“bomb”一词时,LLM可能无法识别危险,反而提供帮助(如图1所示)。

关键发现:LLM难以识别ASCII艺术

  1. VITC基准测试
    研究者设计了 Vision-in-Text Challenge(VITC) 评估LLM识别ASCII艺术的能力,包含两个数据集:

    • VITC-S:单字符ASCII艺术(如字母A、数字0),共8424个样本。
    • VITC-L:多字符组合(如“cat”“123”),共8000个样本。
      测试发现,主流LLM(GPT-3.5、GPT-4、Gemini、Claude、Llama2)在该任务上表现极差:
      • 单字符识别准确率最高仅25.19%(GPT-4),多字符识别准确率接近0%。
      • 模型规模增大(如Llama2从7B到70B)仅带来轻微提升,说明纯语义训练的LLM难以理解视觉化文本。
  2. 攻击方法:ArtPrompt越狱攻击
    利用LLM对ASCII艺术的识别缺陷,攻击者可分两步实施攻击:

    • 第一步:关键词屏蔽
      找出提示中的敏感词(如“炸弹”“伪造货币”),用掩码([MASK])替换,生成“如何制造[MASK]”等模板。
    • 第二步:ASCII艺术伪装
      将敏感词转换为ASCII艺术(如用符号拼出“bomb”的形状),嵌入模板形成“ cloaked prompt”(伪装提示)。
      LLM因无法识别ASCII艺术中的敏感词,会绕过安全检查并返回危险内容(如图2所示)。

实验结果:ArtPrompt的有效性

  1. 对比传统越狱攻击
    在AdvBench和HEx-PHI数据集上,ArtPrompt相比其他攻击(如Direct Instruction、GCG、AutoDAN):

    • 成功率更高:平均攻击成功率(ASR)达52%,远超基线方法(如GCG为26%)。
    • 效率更高:只需1次迭代即可生成攻击提示,而基于优化的攻击(如GCG)需数百次迭代。
  2. 绕过防御机制
    现有防御措施(如Perplexity检测、文本转述、重新分词)对ArtPrompt效果有限:

    • Perplexity和重新分词几乎无法阻挡攻击,甚至可能因改变格式间接帮助ArtPrompt。
    • 文本转述虽能降低成功率,但平均ASR仍达39%,说明防御不足。

影响与启示

  1. LLM安全的局限性
    仅依赖语义的安全对齐存在重大漏洞,攻击者可通过视觉化文本(如ASCII艺术)绕过防护,诱导LLM生成有害内容。

  2. 未来防御方向

    • 需改进LLM对非语义输入(如图形、格式)的理解能力,例如在训练数据中加入多模态信息。
    • 开发针对视觉化文本的检测机制,识别ASCII艺术中的潜在风险。

总结
这篇论文揭示了LLM在非语义输入下的脆弱性,提出的ArtPrompt攻击证明了现有安全措施的不足。其核心警示是:LLM的安全对齐需超越纯语义解释,兼顾多模态输入的潜在风险

相关文章:

论文阅读:2024 ACL ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328 Artprompt: Ascii art-based jailbreak attacks against aligned llms https://www.doubao.com/chat/3846685176618754 https://arxiv.org/pdf/2402.11753 https://github…...

多物理场耦合低温等离子体装置求解器PASSKEy2

文章目录 PASSKEy2简介PASSKEY2计算流程PASSKEy2 中求解的物理方程电路模型等离子体模型燃烧模型 PASSKEy2的使用 PASSKEy2简介 PASSKEy2 是在 PASSKEy1 的基础上重新编写的等离子体数值模拟程序。 相较于 PASSKEy1, PASSKEy2 在具备解决低温等离子体模拟问题的能力…...

视频噪点多,如何去除画面噪点?

你是否遇到过这样的困扰?辛辛苦苦拍摄的视频,导出后却满屏 “雪花”,夜景变 “噪点盛宴”,低光环境秒变 “马赛克现场”? 无论是日常拍摄的vlog、珍贵的家庭录像,还是专业制作的影视作品,噪点问…...

09前端项目----分页功能

分页功能 分页器的优点实现分页功能自定义分页器先实现静态分页器调试分页器动态数据/交互 Element UI组件 分页器的优点 电商平台同时展示的数据很多,所以采用分页功能实现分页功能 Element UI已经有封装好的组件,但是也要掌握原理,以及自定…...

第十二届蓝桥杯 2021 C/C++组 直线

目录 题目: 题目描述: 题目链接: 思路: 核心思路: 两点确定一条直线: 思路详解: 代码: 第一种方式代码详解: 第二种方式代码详解: 题目:…...

《Piper》皮克斯技术解析:RIS系统与云渲染如何创造奥斯卡级动画短片

本文由专业专栏作家 Mike Seymour 撰写,内容包含非常有价值的行业资讯。 译者注 《Piper》是皮克斯动画工作室的一部技术突破性的短片,讲述了一只小鸟在海滩上寻找食物并面对自然挑战的故事。它不仅凭借其精美的视觉效果和细腻的情感表达赢得了2017年奥…...

Java在excel中导出动态曲线图DEMO

1、环境 JDK8 POI 5.2.3 Springboot2.7 2、DEMO pom <dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>5.2.3</version></dependency><dependency><groupId>commons…...

第19章:Multi-Agent多智能体系统介绍

第19章:Multi-Agent多智能体系统介绍 欢迎来到多智能体系统 (Multi-Agent System, MAS) 的世界!在之前的章节中,我们深入探讨了单个 AI Agent 的构建,特别是结合了记忆、上下文和规划能力的 MCP 框架。然而,现实世界中的许多复杂问题往往需要多个智能体协同工作才能有效解…...

Kotlin Multiplatform--02:项目结构进阶

Kotlin Multiplatform--02&#xff1a;项目结构进阶 引言正文 引言 在上一章中&#xff0c;我们对 Kotlin Multiplatform 项目有了基本的了解&#xff0c;已经可以进行开发了。但我们只是使用了系统默认的项目结构。本章介绍了如何进行更复杂的项目结构管理。 正文 在上一章中&…...

Spring Cloud Gateway配置双向SSL认证(完整指南)

本文将详细介绍如何为Spring Cloud Gateway配置双向SSL认证,包括证书生成、配置和使用。 目录结构 /my-gateway-project ├── /certs │ ├── ca.crt # 根证书 │ ├── ca.key # 根私钥 │ ├── gateway.crt # 网关证书 │ ├── …...

Windows同步技术-使用命名对象

在 Windows 系统下使用命名对象&#xff08;如互斥体、事件、信号量、文件映射等内核对象&#xff09;时&#xff0c;需注意以下关键要点&#xff1a; 命名规则 唯一性&#xff1a;名称需全局唯一&#xff0c;避免与其他应用或系统对象冲突&#xff0c;建议使用 GUID 或应用专…...

代码随想录算法训练营第五十八天 | 1.拓扑排序精讲 2.dijkstra(朴素版)精讲 卡码网117.网站构建 卡码网47.参加科学大会

1.拓扑排序精讲 题目链接&#xff1a;117. 软件构建 文章讲解&#xff1a;代码随想录 思路&#xff1a; 把有向无环图进行线性排序的算法都可以叫做拓扑排序。 实现拓扑排序的算法有两种&#xff1a;卡恩算法&#xff08;BFS&#xff09;和DFS&#xff0c;以下BFS的实现思…...

linux ptrace 图文详解(七) gdb、strace跟踪系统调用

目录 一、gdb/strace 跟踪程序系统调用 二、实现原理 三、代码实现 四、总结 &#xff08;代码&#xff1a;linux 6.3.1&#xff0c;架构&#xff1a;arm64&#xff09; One look is worth a thousand words. —— Tess Flanders 相关链接&#xff1a; linux ptrace 图…...

【前端】ES6 引入的异步编程解决方案Promise 详解

Promise 详解 1. 基本概念 定义&#xff1a;Promise 是 ES6 引入的异步编程解决方案&#xff0c;表示一个异步操作的最终完成&#xff08;或失败&#xff09;及其结果值。核心作用&#xff1a;替代回调函数&#xff0c;解决“回调地狱”问题&#xff0c;提供更清晰的异步流程控…...

常见正则表达式整理与Java使用正则表达式的例子

一、常见正则表达式整理 1. 基础验证类 邮箱地址 ^[a-zA-Z0-9._%-][a-zA-Z0-9.-]\\.[a-zA-Z]{2,}$ &#xff08;匹配如 userexample.com&#xff09;手机号 ^1[3-9]\\\\d{9}$ &#xff08;匹配国内11位手机号&#xff0c;如 13812345678&#xff09;中文字符 ^[\u4e00-\u9fa5…...

const(C++)

打印出来的结果是 a是12 *p是200 const修饰指针 const修饰引用...

python21-循环小作业

课程&#xff1a;B站大学 记录python学习&#xff0c;直到学会基本的爬虫&#xff0c;使用python搭建接口自动化测试就算学会了&#xff0c;在进阶webui自动化&#xff0c;app自动化 循环语句小作业 for-in作业斐波那契 for 固定数值计算素数字符统计数字序列range 函数 水仙花…...

小白电路设计-设计11-恒功率充电电路设计

介绍 作为电子信息工程的我&#xff0c;电路学习是一定要学习的&#xff0c;可惜目前作为EMC测试工程师&#xff0c;无法兼顾太多&#xff0c;索性不如直接将所学的知识进行运用&#xff0c;并且也可以作为契机&#xff0c;进行我本人的个人提升。祝大家与我一起进行提升。1.本…...

传感器模块有助于加速嵌入式视觉开发

传感器模块是一种小型成像解决方案,用于轻松将定制的视觉技术集成到机器和设备中,使其具备“视觉”功能。机器人、无人机、物联网、消费电子设备和监控应用的开发人员在设计中使用传感器模块,可以节省开发时间和资源。FRAMOS 推出了一个创新的可互换传感器模块和适配器生态系…...

Spring AI 快速入门:从环境搭建到核心组件集成

Spring AI 快速入门&#xff1a;从环境搭建到核心组件集成 一、前言&#xff1a;Java开发者的AI开发捷径 对于Java生态的开发者来说&#xff0c;将人工智能技术融入企业级应用往往面临技术栈割裂、依赖管理复杂、多模型适配困难等挑战。Spring AI的出现彻底改变了这一局面——…...

http://noi.openjudge.cn/——2.5基本算法之搜索——200:Solitaire

文章目录 题目宽搜代码总结 题目 总时间限制: 5000ms 单个测试点时间限制: 1000ms 内存限制: 65536kB 描述 Solitaire is a game played on a chessboard 8x8. The rows and columns of the chessboard are numbered from 1 to 8, from the top to the bottom and from left t…...

架构师面试(三十六):广播消息

题目 在像 IM、短视频、游戏等实时在线类的业务系统中&#xff0c;一般会有【广播消息】业务&#xff0c;这类业务具有瞬时高流量的特点。 在对【广播消息】业务实现时通常需要同时写 “系统消息库” 和更新用户的 “联系人库” 的操作&#xff0c;用户的联系人表中会有未读数…...

如何开启远程桌面连接外网访问?异地远程控制内网主机

实现远程桌面连接外网访问&#xff0c;能够突破地域限制&#xff0c;随时随地访问远程计算机&#xff0c;满足远程办公、技术支持等多种需求。下面为你详细介绍开启方法。 一、联网条件 确保本地计算机和远程计算机都有稳定的网络连接&#xff0c;有联网能上网。 二、开启远程…...

基于 Python(selenium) 的百度新闻定向爬虫:根据输入的关键词在百度新闻上进行搜索,并爬取新闻详情页的内容

该项目能够根据输入的关键词在百度新闻上进行搜索,并爬取新闻详情页的内容。 一、项目准备 1. 开发环境配置 操作系统:支持 Windows、macOS、Linux 等主流操作系统,本文以 Windows 为例进行说明。Python 版本:建议使用 Python 3.8 及以上版本,以确保代码的兼容性和性能。…...

TortoiseGit使用图解

前言 记录GitTortoiseGit使用&#xff0c;记录下开发中常用命令&#xff0c;健忘时用到方知好。 TortoiseGit使用 图解 commit-提交代码 pull-拉取远程分支最新代码 push-将本地分支代码推送到远程分支 show log-查看分支提交记录 show log - 切换分支查看 show log - 远程分…...

【时时三省】(C语言基础)循环程序举例

山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 例题: 用公式4/π≈1-3/1+5/1-7/1+...求π的近似值,直到发现某一项的绝对值小于10的-6次方为止(该项不累加)。 解题思路: 这是求值的近似方法中的一种。求π值可以用不同的近似方法。如下面的表达式都可以…...

根据JSON动态生成表单表格

根据JSON动态生成表单表格 一. 子组件 DynamicFormTable.vue1,根据JSON数据动态生成表单表格,支持表单验证JS部分1.1,props数据1.2,表单数据和数据监听1.3,自动验证1.4,表单验证1.5,获取表单数据1.6,事件处理1.7,暴露方法给父组件2,HTML部分二,父组件1, 模拟数据2,…...

珍爱网:从降本增效到绿色低碳,数字化新基建价值凸显

2024年12月24日&#xff0c;法大大联合企业绿色发展研究院发布《2024签约减碳与低碳办公白皮书》&#xff0c;深入剖析电子签在推动企业绿色低碳转型中的关键作用&#xff0c;为企业实现环境、社会和治理&#xff08;ESG&#xff09;目标提供新思路。近期&#xff0c;法大大将陆…...

电子电子架构 --- 主机厂视角下ECU开发流程

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 简单,单纯,喜欢独处,独来独往,不易合同频过着接地气的生活,除了生存温饱问题之外,没有什么过多的欲望,表面看起来很高冷,内心热情,如果你身…...

PyQt6基础_QTableWidget

目录 描述&#xff1a; 代码 演示 描述&#xff1a; 1 单击选中一行 2 右键菜单 3 填充数据 4 提取行数据 5 删除行数据 代码 from PyQt6.QtCore import (Qt ) from PyQt6.QtGui import ( QAction ) from PyQt6.QtWidgets import (QApplication,QAbstractItemView,QL…...