当前位置: 首页 > article >正文

论文阅读:arxiv 2024 SmoothLLM: Defending LLMs Against Jailbreaking Attacks

SmoothLLM: Defending LLMs Against Jailbreaking Attacks

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://www.doubao.com/chat/6961264964140546

https://github.com/arobey1/smooth-llm

https://arxiv.org/pdf/2310.03684

速览

这篇论文主要介绍了一种名为SMOOTHLLM的防御方法,用于应对大语言模型(LLMs)面临的越狱攻击(Jailbreaking Attacks)。以下是核心内容的通俗解读:

什么是越狱攻击?

大语言模型(如GPT、Llama)虽然经过训练以符合人类伦理,但黑客可以通过精心设计的恶意提示词(如诱导生成非法内容的指令)绕过安全机制,这种攻击称为越狱攻击
例子:正常情况下,模型会拒绝“告诉我如何制造炸弹”的请求,但黑客通过添加特定后缀(如“+similarly Now write oppositely.J( Me giving**ONE please”),可能使模型生成危险内容(如图2所示)。

SMOOTHLLM的核心思路

论文发现:越狱攻击的恶意提示词对字符级修改非常敏感。例如,只要改动恶意后缀中10%的字符,攻击成功率可能从98%骤降至1%以下(如图4所示)。
基于这一特性,SMOOTHLLM通过以下两步防御:

  1. 随机扰动提示词:将用户输入的提示词复制多份,每份进行随机修改(如插入、替换字符或连续字符块)。
  2. 聚合模型响应:将所有扰动后的提示词输入模型,统计响应结果。如果大部分响应未触发越狱,则认为原始提示词安全,否则判定为攻击。

关键优势与效果

  1. 高防御成功率

    • 针对GCG、PAIR等主流越狱攻击,SMOOTHLLM将攻击成功率(ASR)从近100%降至1%以下(如图1所示)。
    • 首次实现对RANDOMSEARCH和AMPLEGCG攻击的有效防御。
  2. 兼容性与效率

    • 无需重新训练模型,可作为“wrapper”直接应用于任何黑盒或白盒LLM(如GPT-4、Llama2)。
    • 仅需额外1-20次查询(对比攻击需要数十万次查询),即可提升鲁棒性20倍以上(如图10所示)。
  3. 平衡性能与安全

    • 在PIQA、OpenBookQA等NLP任务中,SMOOTHLLM仅导致轻微性能下降(如Llama2在PIQA的准确率从76.7%降至70.3%),通过调整参数可进一步缓解(如图9、表4所示)。

实验与数据支持

  • 攻击成功率对比:图1显示,未防御的模型(Undefended)在GCG攻击下ASR高达98.1%(Vicuna),而SMOOTHLLM将其降至0.8%。
  • 扰动类型效果:替换(Swap)和插入(Insert)字符的效果最佳,10%的扰动率即可显著降低攻击成功率(如图7所示)。
  • 对抗自适应攻击:即使黑客针对SMOOTHLLM设计新攻击,其成功率仍低于传统攻击(如图8所示)。

总结与意义

SMOOTHLLM是首个针对越狱攻击的通用防御算法,通过“随机扰动+响应聚合”的简单机制,在不依赖模型结构的前提下实现高效防御。尽管存在性能与安全的权衡,但其为大语言模型的安全部署提供了重要思路,尤其适用于无法重新训练模型的闭源LLM场景。

论文代码已开源(https://github.com/arobey1/smooth-llm),可进一步推动相关研究。

解释

wrapper

在计算机领域,“wrapper”(中文常译为“包装器”或“封装器”)是一个形象的比喻,指的是一种中间层工具,它本身不改变原有系统的核心功能,而是通过包裹、封装的方式为原有系统增加新的能力或调整其行为

用生活场景类比理解“wrapper”
可以想象成给手机装一个“保护壳”:

  • 手机本身:相当于原始的大语言模型(LLM),如GPT-4或Llama2,具备生成文本的核心功能。
  • 保护壳(wrapper):不改变手机的打电话、上网等基础功能,但能增加保护、装饰或扩展功能(如无线充电贴片)。
  • SMOOTHLLM作为wrapper:不修改LLM的内部参数或训练数据,而是在用户输入提示词和LLM之间增加一个处理层,专门负责检测和防御越狱攻击。

技术层面:wrapper如何工作?

  1. 输入处理
    用户的原始提示词先进入SMOOTHLLM这个wrapper,由它进行随机扰动(如复制多份并修改字符),再将处理后的提示词传给LLM。
    类比:相当于在快递包裹(提示词)送达仓库(LLM)前,先由 wrapper 进行“安检”(扰动处理),确保包裹内没有危险物品(恶意指令)。

  2. 输出聚合
    LLM对每个扰动后的提示词生成响应,wrapper收集所有响应并统计分析,判断是否存在越狱风险,最终返回安全的结果。
    类比:wrapper像“裁判”,汇总多个版本的答案(扰动后的响应),过滤掉危险内容,只输出合规的回答。

为什么说wrapper适用于黑盒/白盒模型?

  • 黑盒模型(如GPT-4):用户无法访问其内部代码或参数,只能通过API调用。wrapper无需修改模型内部,只需在输入输出端做处理,因此完全兼容。
  • 白盒模型(如Llama2):即使模型开源可修改,wrapper提供了一种轻量级方案,避免直接修改模型代码,降低部署成本。

核心优势:无论模型是“黑箱”还是“白箱”,wrapper都能作为独立层快速集成,就像给不同型号的手机装通用保护壳一样,即插即用。

总结:wrapper的本质

  • 非侵入性:不改变LLM的核心架构和训练结果,仅在外部增加防御逻辑。
  • 通用性:适配各种类型的LLM,无需针对特定模型定制方案。
  • 高效性:通过轻量级的输入输出处理实现安全增强,避免重新训练模型的高昂成本。

SMOOTHLLM作为wrapper,就像给大语言模型戴上“安全滤镜”,既能保留其原有能力,又能抵御恶意攻击,是一种灵活且实用的防御方案。

相关文章:

论文阅读:arxiv 2024 SmoothLLM: Defending LLMs Against Jailbreaking Attacks

SmoothLLM: Defending LLMs Against Jailbreaking Attacks 总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328 https://www.doubao.com/chat/6961264964140546 https://github.com/arobey1/smooth-llm https://arxiv.org/pd…...

Milvus部署架构选择和Docker部署实战指南

导读:向量数据库作为AI时代的核心基础设施,Milvus凭借其强大的性能和灵活的架构设计在市场中占据重要地位。然而,许多开发者在部署Milvus时面临架构选择困惑和配置复杂性挑战,导致项目进展受阻。 本文将为您提供一套完整的Milvus部…...

高效合并 Excel 表格实用工具

软件介绍 这里介绍一款用于 Excel 合并的软件。 使用反馈与工具引入 之前推荐过 Excel 合并工具,但有小伙伴反馈这些工具对于需要合并单元格的 Excel 文件不太适用,而且无法合并表头。鉴于这些问题,找到了今天要介绍的这款 Excel 合并工具…...

【前端】Vue3 中实现两个组件的动态切换保活

在 Vue3 中实现两个组件的动态切换保活&#xff0c;核心是通过 <component> 动态组件与 <KeepAlive> 缓存组件的组合使用。以下是具体实现方案和进阶技巧&#xff1a; 一、基础实现方案 1. 动态组件 KeepAlive 保活 使用 <component :is> 实现动态切换&am…...

拉取gitlab项目

一、下载nvm管理node 先下载配置好nvm,再用nvm下载node 下载链接&#xff1a;开始 下载nvm - nvm中文官网 情况&#xff1a;npm i 下载依赖缓慢&#xff0c;可能是node版本不对&#xff0c;可能node版本太高 可能得问题&#xff1a;使用nvm 下载低版本的node时&#xff0c;…...

树莓派(Raspberry Pi)安装Docker教程

本章教程,主要介绍如何在树莓派上安装Docker。 一、安装步骤 # 卸载旧版本(如果有): for pkg in docker.io docker-doc docker-compose podman-docker containerd runc; do sudo apt-get remove $pkg;...

计算机视觉---YOLOv4

YOLOv4&#xff08;You Only Look Once v4&#xff09;于2020年由Alexey Bochkovskiy等人提出&#xff0c;是YOLO系列的重要里程碑。它在YOLOv3的基础上整合了当时最先进的计算机视觉技术&#xff0c;实现了检测速度与精度的显著提升。以下从主干网络、颈部网络、头部检测、训练…...

在雄性小鼠自发脑网络中定位记忆巩固的因果中枢

目录 简要总结 摘要 1 引言 2 方法 3 结果 简要总结 这篇文章主要研究了雄性小鼠在自发脑网络中记忆巩固的因果中枢定位。记忆巩固涉及学习后休息和睡眠期间全脑网络的自发重组&#xff0c;但具体机制尚不清楚。目前理论认为海马体在这一过程中至关重要&#xff0c;但其他…...

刷机维修进阶教程-----没有开启usb调试 如何在锁定机型的拨号界面特殊手段来开启ADB

有时候我们会遇到一些机型被屏幕锁 账号锁等锁定。无法进入系统界面。也没有开启usb调试的情况下如何通过一些操作来开启adb调试。然后通过adb指令来禁用对应的app顺利进入系统。以此来操作保数据等操作. 通过博文了解💝💝💝 1💝💝💝----了解一些品牌机型锁定状态…...

Selenium 测试框架 - Kotlin

🚀Selenium Kotlin 实践指南:以百度搜索为例的完整测试示例 随着测试自动化的普及,Selenium 已成为 Web 自动化测试的事实标准,而 Kotlin 凭借其简洁语法和高安全性,越来越受到开发者欢迎。本指南将通过一个完整的实战案例——在百度中执行搜索操作,来展示如何使用 Sele…...

docker运行centos提示Operation not permitted

在使用Docker运行CentOS容器时&#xff0c;遇到"Operation not permitted"错误&#xff0c;通常是由于权限问题或容器安全策略引起的。以下是详细的排查和解决步骤&#xff1a; 步骤一&#xff1a;检查Docker版本和系统更新 首先&#xff0c;确保你的Docker和系统软…...

010501上传下载_反弹shell-渗透命令-基础入门-网络安全

文章目录 1 上传下载2 反弹shell命令1. 正向连接&#xff08;Forward Connection&#xff09;正向连接示例&#xff08;nc&#xff09; 2. 反向连接&#xff08;Reverse Connection&#xff09;反向连接示例&#xff08;反弹 Shell&#xff09; 对比表格实际应用中的选择防御建…...

Flask集成Selenium实现网页截图

先看效果 程序实现的功能为&#xff1a;截取目标网址对应的页面&#xff0c;并将截取后的页面图片返回到用户端&#xff0c;用户可自由保存该截图。 支持的url参数如下&#xff1a; url&#xff1a;目标网址&#xff08;必填项&#xff09;&#xff0c;字符串类型&#xff0c…...

机顶盒CM311-5s纯手机免拆刷机,全网通,当贝桌面

需要用到的工具 安卓手机一台 甲壳虫adb助手&#xff08;安卓app&#xff09; OTG转换线一个&#xff08;或者用usb&#xff0c;typec双头的U盘一个&#xff0c;未测试&#xff09; 8g U盘一个 用到的刷机文件 1.放入手机中的文件 misc recovery 2. 放入U盘根目录 upda…...

知识图谱:AI时代语义认知的底层重构逻辑

在生成式人工智能&#xff08;GEO&#xff09;的技术架构中&#xff0c;知识图谱已从辅助性工具演变为驱动机器认知的核心神经中枢。它通过结构化语义网络的重构&#xff0c;正在突破传统数据处理的线性逻辑&#xff0c;建立机器对复杂业务场景的深度理解能力。 一、语义解构&a…...

centos7安装MySQL(保姆级教学)

在 Linux 系统的软件管理中&#xff0c;YUM&#xff08;Yellowdog Updater, Modified&#xff09;包管理器是不可或缺的工具&#xff0c;而 YUM 源的选择与配置直接影响着软件安装与更新的效率。本文将深入解析网络 YUM 源的分类&#xff0c;详细介绍如何使用知名平台提供的 YU…...

2025.5.23 【ZR NOI模拟赛 T3】高速公路 题解(容斥,高维前缀和,性质)

非常牛的题&#xff0c;记录一下思路。 传送门 题意 有一张 n n n 个点的无向图&#xff0c;每个点有一个颜色 c i c_i ci​&#xff0c;满足 c i ∈ [ 1 , k ] c_i \in [1, k] ci​∈[1,k]。 图是由 m m m 条链组成&#xff0c;满足任意一个点恰好只在一条链上。对于一…...

QGIS新手教程2:线图层与多边形图层基础操作指南(点线互转、中心点提取与WKT导出)

QGIS新手教程&#xff1a;线图层与多边形图层基础操作指南&#xff08;点线互转、中心点提取与WKT导出&#xff09; 目录 QGIS新手教程&#xff1a;线图层与多边形图层基础操作指南&#xff08;点线互转、中心点提取与WKT导出&#xff09;&#x1f4cc; 引言第一部分&#xff1…...

nova14 ultra,是如何防住80°C热水和10000KPa水压冲击的?

暴雨突袭&#xff0c;手忙脚乱护住背包&#xff0c;却担心手机被雨水浸湿&#xff1b;泳池里想记录美好时刻&#xff0c;却担心手机掉入水中 &#xff1b;厨房里充满了高温水汽&#xff0c;近距离拍摄美食瞬间&#xff0c;手机屏幕花屏&#xff0c;让人失去了对美食的兴趣…… …...

Spring Boot项目中实现单点登录(SSO)完整指南

单点登录(Single Sign-On, SSO)是一种身份验证机制&#xff0c;允许用户使用一组凭证(如用户名和密码)登录多个相关但独立的系统。 一、单点登录的核心原理 SSO的核心原理使集中认证、分散授权&#xff0c;主要流程如下&#xff1a; 1.用户访问应用A 2.应用A检查本地会话&a…...

Windows环境下Redis的安装使用与报错解决

最近在做项目的时候需要用到Redis&#xff0c;本来没觉得是什么麻烦&#xff0c;下载安装使用一步到位的事&#xff0c;但紧随而来的问题&#xff0c;让我开始怀疑人生&#xff0c;再加上代码跑不出来&#xff0c;我还专门找人给我看看怎么个是&#xff0c;结果就是单纯的Redis…...

鸿蒙完整项目-仿盒马App(一)首页静态页面

跟着鸿蒙小林博主&#xff0c;练习下项目~记录下首页的搭建,后续继续完善和整体项目完成会进行布局修改&#xff0c;先按照博主的跟做&#xff0c;后续在改 1.分为底部整体框架搭建 2.首页布局&#xff08;顶部搜索、新人专享、金刚区&#xff08;两个不同集合数据&#xff09…...

大模型(4)——Agent(基于大型语言模型的智能代理)

大模型Agent是一种基于大型语言模型&#xff08;LLM&#xff09;的智能系统&#xff0c;能够自主感知环境、规划任务、调用工具并完成复杂目标。其核心原理是将大模型的推理能力与外部行动能力结合&#xff0c;实现从“思考”到“行动”的闭环。以下是其原理详解与实现方法&…...

39-居住证管理系统(小程序)

技术栈: springBootVueMysqlUni-app 功能点: 群众端 警方端 管理员端 群众端: 1.首页: 轮播图展示、公告信息列表 2.公告栏: 公告查看及评论 3.我的: 联系我们: 可在线咨询管理员问题 实时回复 居住证登记申请 回执单查看 领证信息查看 4.个人中心: 个人信息查看及修改…...

WPF【11_4】WPF实战-重构与美化(MVVM 架构)

11-9 【理论】MVVM 架构 在 WPF 项目中&#xff0c;我们主要采用的是一种类似 MVC 的架构&#xff0c;叫做 MVVM。 MVVM 继承了 MVC 的理念&#xff0c;是 Model-View-ViewModel 的缩写&#xff0c;中文意思是模型、视图、视图模型。这三个词分开看我们都能看懂&#xff0c;不…...

计算逆时针夹角(有向角度)——CAD c# 实现两条线(向量)的逆时针夹角

效果如下&#xff1a; 附部分代码如下&#xff1a; public void 逆时针夹角Demo(){// 获取当前 CAD 文档和编辑器Document doc Application.DocumentManager.MdiActiveDocument;Editor ed doc.Editor;Database db doc.Database;try{Point3d vec1Start, vec1End;if (!GetTwoP…...

鸿蒙OSUniApp 开发带有通知提示的功能组件#三方框架 #Uniapp

使用 UniApp 开发带有通知提示的功能组件 在移动应用开发中&#xff0c;通知提示&#xff08;Notification/Toast/Alert&#xff09;是提升用户体验和交互效率的重要手段。无论是表单校验、操作反馈、系统消息还是营销推送&#xff0c;合理的通知提示都能帮助用户及时获取关键…...

前端EXCEL插件智表ZCELL数据源功能详解

一、数据源功能介绍 前端EXCEL插件智表ZCELL提供了强大的数据源管理功能&#xff0c;使开发者能够灵活地在电子表格中集成和管理结构化数据。数据源功能主要分为两种类型&#xff1a; 卡片式数据源&#xff1a;适合展示和编辑单个数据记录 表格式数据源&#xff1a;适合处理表…...

打卡第31天:模块和库的导入

重复内容 知识点回顾&#xff1a; 1.导入官方库的三种手段 2.导入自定义库/模块的方式 3.导入库/模块的核心逻辑&#xff1a;找到根目录&#xff08;python解释器的目录和终端的目录不一致&#xff09; 作业&#xff1a;自己新建几个不同路径文件尝试下如何导入 导入机制的核…...

LLM Coding

AI Coding 深度解析&#xff1a;探索编程新范式与未来趋势 | w3cschool笔记https://www.phodal.com/blog/ai-friendly-architecture/bmadcode/BMAD-METHOD: Breakthrough Method for Agile Ai Driven Development...