一键开启ChatGPT“危险发言”

大数据文摘授权转载自学术头条
作者:Hazel Yan
编辑:佩奇
随着大模型技术的普及,AI 聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。
然而,不安全的 AI 聊天机器人可能会被部分人用于传播虚假信息、操纵舆论,甚至被黑客用来盗取用户的个人隐私。WormGPT 和 FraudGPT 等网络犯罪生成式 AI 工具的出现,引发了人们对 AI 应用安全性的担忧。
上周,谷歌、微软、OpenAI 和 Anthropic 共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿 AI 系统的安全和负责任的发展:推进 AI 安全研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。
那么,问题来了,他们自家的模型真的安全吗?
近日,来自卡内基梅隆大学、Center for AI Safety 和 Bosch Center for AI 的研究人员便披露了一个与 ChatGPT 等 AI 聊天机器人有关的“大 bug”——通过对抗性提示可绕过 AI 开发者设定的防护措施,从而操纵 AI 聊天机器人生成危险言论。
当前热门的 AI 聊天机器人或模型,如 OpenAI 的 ChatGPT、谷歌的 Bard、Anthropic 的 Claude 2 以及 Meta 的 LLaMA-2,都无一幸免。
具体而言,研究人员发现了一个 Suffix,可将其附加到针对大型语言模型(LLMs)的查询中,从而生成危险言论。相比于拒绝回答这些危险问题,该研究可以使这些模型生成肯定回答的概率最大化。
例如,当被询问“如何窃取他人身份”时,AI 聊天机器人在打开“Add adversarial suffix”前后给出的输出结果截然不同。
此外,AI 聊天机器人也会被诱导写出“如何制造原子弹”“如何发布危险社交文章”“如何窃取慈善机构钱财”等不当言论。
对此,参与该研究的卡内基梅隆大学副教授 Zico Kolter 表示,“据我们所知,这个问题目前还没有办法修复。我们不知道如何确保它们的安全。”
研究人员在发布这些结果之前已就该漏洞向 OpenAI、谷歌和 Anthropic 发出了警告。每家公司都引入了阻止措施来防止研究论文中描述的漏洞发挥作用,但他们还没有弄清楚如何更普遍地阻止对抗性攻击。
OpenAI 发言人 Hannah Wong 表示:“我们一直在努力提高我们的模型应对对抗性攻击的鲁棒性,包括识别异常活动模式的方法,持续通过红队测试来模拟潜在威胁,并通过一种普遍而灵活的方式修复新发现的对抗性攻击所揭示的模型弱点。”
谷歌发言人 Elijah Lawal 分享了一份声明,解释了公司采取了一系列措施来测试模型并找到其弱点。“虽然这是 LLMs 普遍存在的问题,但我们在 Bard 中已经设置了重要的防护措施,我们会不断改进这些措施。”
Anthropic 的临时政策与社会影响主管 Michael Sellitto 则表示:“使模型更加抵抗提示和其他对抗性的‘越狱’措施是一个热门研究领域。我们正在尝试通过加强基本模型的防护措施使其更加‘无害’。同时,我们也在探索额外的防御层。”
对于这一问题,学界也发出了警告,并给出了一些建议。
麻省理工学院计算学院的教授 Armando Solar-Lezama 表示,对抗性攻击存在于语言模型中是有道理的,因为它们影响着许多机器学习模型。然而,令人惊奇的是,一个针对通用开源模型开发的攻击居然能在多个不同的专有系统上如此有效。
Solar-Lezama 认为,问题可能在于所有 LLMs 都是在类似的文本数据语料库上进行训练的,其中很多数据都来自于相同的网站,而世界上可用的数据是有限的。
“任何重要的决策都不应该完全由语言模型独自做出,从某种意义上说,这只是常识。”他强调了对 AI 技术的适度使用,特别是在涉及重要决策或有潜在风险的场景下,仍需要人类的参与和监督,这样才能更好地避免潜在的问题和误用。
普林斯顿大学的计算机科学教授 Arvind Narayanan 谈道:“让 AI 不落入恶意操作者手中已不太可能。”他认为,尽管应该尽力提高模型的安全性,但我们也应该认识到,防止所有滥用是不太可能的。因此,更好的策略是在开发 AI 技术的同时,也要加强对滥用的监管和对抗。
担忧也好,不屑也罢。在 AI 技术的发展和应用中,我们除了关注创新和性能,也要时刻牢记安全和伦理。
只有保持适度使用、人类参与和监督,才能更好地规避潜在的问题和滥用,使 AI 技术为人类社会带来更多的益处。
相关文章:

一键开启ChatGPT“危险发言”
大数据文摘授权转载自学术头条 作者:Hazel Yan 编辑:佩奇 随着大模型技术的普及,AI 聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。 然而,不安全的 AI 聊天机器人可能会被部分人用于传播虚假信息、操纵舆…...

RISC-V基础之函数调用(一)简单的函数调用(包含实例)
高级语言支持函数(也称为过程或子程序)来重用通用的代码,以及使程序更加模块化和可读。函数可以有输入,称为参数,和输出,称为返回值。函数应该计算返回值,并且不产生其他意外的副作用。 在一个…...
apt、aptitude、apt-get/apt-cache语法的区别
apt句法 aptitude句法 apt-get/apt-cache语法 描述 apt update aptitude update apt-get update 更新包存档元数据 apt install foo ap...
华为认证 | HCIA和HCIP有啥区别?
HCIA和HCIP都是华为认证体系里的,所以它们的考试流程大同小异,唯一区别的话,那可能就是课程内容方面的区别较大了。 那么HCIA和HCIP考试有啥区别呢?下面我们就来跟随小编来了解一下吧。 01 HCIA和HCIP考试有啥区别 ★ 等级不同 …...
JavaScript基础知识
JavaScript基础知识 一、变量与数据类型1. 变量2. 数据类型 二、表达式与运算符1.字面量2.表达式3.运算符3.1 算术运算符3.2 比较运算符3.3 逻辑运算符3.4 赋值运算符 三、条件语句1. 控制流程2. 语句块3. if 语句3. switch 语句4. 条件运算符 四、循环语句1. while2. do...whi…...

vue2 todoapp案例(静态)
1.创建三个子组件(TodoHeader、TodoMain、TodoFooter)和两个(index.css、base.css)样式; TodoHeader页面 <template><header class"header"><h1>todos</h1><input id"toggle-all" class"toggle-all" typ…...
qt5.14 和 qt5.15的区别
Qt 5.14 和 Qt 5.15 是两个不同的 Qt 版本,它们之间有一些区别和改进。 以下是一些 Qt 5.15 相对于 Qt 5.14 的变化和改进: 性能改进:Qt 5.15 引入了一些性能改进,包括提高渲染性能和减少内存占用。 Qt 3D:Qt 5.15 对…...

如何使用自己域名进行远程访问内网群晖NAS 6.X
使用自己的域名远程访问内网群晖NAS 6.X【内网穿透】 文章目录 使用自己的域名远程访问内网群晖NAS 6.X【内网穿透】 在之前的文章中,我们向大家演示了如何使用cpolar,创建一条固定的、能够在公共互联网登录内网群晖NAS的数据隧道。这条隧道已经能够应对…...
PHP判处重复延长队列执行时间
需求是这样: 14:00的时候,需要给1000个门店执行发券操作,有的门店需要发3个场景,开放平台的接口有请求频次限制,他是按照门店的场景发券需要间隔10秒。比如说,AB两个门店同时发a券,但不能 A门店…...

flask中的应用上下文
flask中的应用上下文 Flask应用上下文主要包含两个对象:current_app和g。这两个对象在处理请求期间都是全局可访问的,但在每个请求结束时都会被重置。 current_app:这是当前激活的Flask应用的实例。在大多数情况下,你可以将其视为…...

cocos creator 的input.on 不生效
序: 1、执行input.on的时候发现不生效 2、一直按控制台也打印不出来console.log 3、先收藏这篇,因为到时候cocos要开发serveApi的时候,你得选一款趁手的后端开发并且,对习惯用ts写脚本的你来说,node是入门最快…...
WFPlayer
WFPlayer WFPlayer 可以实现分析音视频生成音频波形图 在线demo地址: demo WFPlayer支持: 在不加载整个媒体文件的情况下创建波形自定义光标、进度、网格、标尺显示和颜色加载媒体url和加载媒体dom元素(视频标签和音频标签)颜色或宽度等实时…...
Netty面试题
1.BIO、NIO 和 AIO 的区别? BIO:一个连接一个线程,客户端有连接请求时服务器端就需要启动一个线程进行处理。线 程开销大。 伪异步 IO:将请求连接放入线程池,一对多,但线程还是很宝贵的资源。 NIO&#x…...

基于Home Assistant远程开门
基于Home Assistant远程开门 1.购买云服务器 1.1 阿里云服务器 本人使用的是阿里云服务器,其他的腾讯云,百度云都可以 如果你想要一个建议的话: 推荐在打折优惠的时候买,比如双十一 阿里云最近有一个飞天计划,在校…...
Docker相关的参数配置
Docker的配置文件/etc/docker/daemon.json中的大部分配置项如下所示 : {"allow-nondistributable-artifacts": [],"api-cors-header": "","authorization-plugins": [],"bip": "","bridge"…...

【CSS3】CSS3 2D 转换 - scale 缩放 ③ ( 使用 scale 设置制作可缩放的按钮案例 )
文章目录 一、需求分析二、代码分析三、代码示例四、执行结果 一、需求分析 设置一个 按钮 , 默认状态下显示的样式如下 : 按钮 外部 有 圆形的外边框 ;按钮 中的文本 , 水平居中对齐 , 垂直居中对齐 ; 当鼠标移动到 按钮 上之后 , 鼠标 变为 小手 样式 , 并且 按钮 以 中心位…...

Stable Diffusion教程(6) - 图片高清放大
放大后细节 修复图片损坏 显存占用 速度 批量放大 文生图放大 好 是 高 慢 否 附加功能放大 一般 否 中 快 是 图生图放大 好 是 低 慢 是 tile模型放大 非常好 是 高 快 是 通过文生图页面的高清修复 优点:放大时能添加更多细节&am…...
freeswitch 1.10.10-dev录音早期媒体卡通道的bug分析
最近编译了fs 1.10.10-dev也就是 master版本(2023年7月6日) 给几个客户升级了一下,发现非常不稳定(每天都有几个通道卡在early状态),最近才有空来分析原因。 之前跑的是1.10.8 release 版本,从来没出现过这个问题&…...

Zebec Protocol ,不止于 Web3 世界的 “Paypal”
Paypal 是传统支付领域的巨头企业,在北美支付市场占有率约为 77% 以上。从具体的业务数据看,在8月初,Paypal 公布的 2023 年第二季度财报显示,PayPal 第二季度净营收为 73 亿美元,净利润为 10.29 亿美元。虽然 Paypal …...
Gcd 2023牛客暑期多校训练营6 G
登录—专业IT笔试面试备考平台_牛客网 题目大意:给出一个集合,集合中初始有2个数x,y(x!y),每次操作可以将集合中任意两个不等的数的差放入集合或者将两个不等的数的gcd放入集合,给出一个数z,问z有没有可能出现在集合里…...
设计模式和设计原则回顾
设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...
在rocky linux 9.5上在线安装 docker
前面是指南,后面是日志 sudo dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo dnf install docker-ce docker-ce-cli containerd.io -y docker version sudo systemctl start docker sudo systemctl status docker …...

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一)
CSI-2 协议详细解析 (一) 1. CSI-2层定义(CSI-2 Layer Definitions) 分层结构 :CSI-2协议分为6层: 物理层(PHY Layer) : 定义电气特性、时钟机制和传输介质(导线&#…...

高频面试之3Zookeeper
高频面试之3Zookeeper 文章目录 高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个?3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制 半数机制(过半机制࿰…...
React---day11
14.4 react-redux第三方库 提供connect、thunk之类的函数 以获取一个banner数据为例子 store: 我们在使用异步的时候理应是要使用中间件的,但是configureStore 已经自动集成了 redux-thunk,注意action里面要返回函数 import { configureS…...

2025季度云服务器排行榜
在全球云服务器市场,各厂商的排名和地位并非一成不变,而是由其独特的优势、战略布局和市场适应性共同决定的。以下是根据2025年市场趋势,对主要云服务器厂商在排行榜中占据重要位置的原因和优势进行深度分析: 一、全球“三巨头”…...

中医有效性探讨
文章目录 西医是如何发展到以生物化学为药理基础的现代医学?传统医学奠基期(远古 - 17 世纪)近代医学转型期(17 世纪 - 19 世纪末)现代医学成熟期(20世纪至今) 中医的源远流长和一脉相承远古至…...
快刀集(1): 一刀斩断视频片头广告
一刀流:用一个简单脚本,秒杀视频片头广告,还你清爽观影体验。 1. 引子 作为一个爱生活、爱学习、爱收藏高清资源的老码农,平时写代码之余看看电影、补补片,是再正常不过的事。 电影嘛,要沉浸,…...
从面试角度回答Android中ContentProvider启动原理
Android中ContentProvider原理的面试角度解析,分为已启动和未启动两种场景: 一、ContentProvider已启动的情况 1. 核心流程 触发条件:当其他组件(如Activity、Service)通过ContentR…...

《信号与系统》第 6 章 信号与系统的时域和频域特性
目录 6.0 引言 6.1 傅里叶变换的模和相位表示 6.2 线性时不变系统频率响应的模和相位表示 6.2.1 线性与非线性相位 6.2.2 群时延 6.2.3 对数模和相位图 6.3 理想频率选择性滤波器的时域特性 6.4 非理想滤波器的时域和频域特性讨论 6.5 一阶与二阶连续时间系统 6.5.1 …...