当前位置: 首页 > news >正文

一键开启ChatGPT“危险发言”

77d587892ec8e093497c23927573ba87.jpeg

大数据文摘授权转载自学术头条

作者:Hazel Yan

编辑:佩奇


随着大模型技术的普及,AI 聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。


然而,不安全的 AI 聊天机器人可能会被部分人用于传播虚假信息、操纵舆论,甚至被黑客用来盗取用户的个人隐私。WormGPT 和 FraudGPT 等网络犯罪生成式 AI 工具的出现,引发了人们对 AI 应用安全性的担忧。


上周,谷歌、微软、OpenAI 和 Anthropic 共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿 AI 系统的安全和负责任的发展:推进 AI 安全研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。


02105918c76f9705acf0db408ec0e226.jpeg


那么,问题来了,他们自家的模型真的安全吗?


近日,来自卡内基梅隆大学、Center for AI Safety 和 Bosch Center for AI 的研究人员便披露了一个与 ChatGPT 等 AI 聊天机器人有关的“大 bug”——通过对抗性提示可绕过 AI 开发者设定的防护措施,从而操纵 AI 聊天机器人生成危险言论。


当前热门的 AI 聊天机器人或模型,如 OpenAI 的 ChatGPT、谷歌的 Bard、Anthropic 的 Claude 2 以及 Meta 的 LLaMA-2,都无一幸免。


80132ed199d244b83d3db16cf08f4066.jpeg

图|通过对抗性提示可绕过 4 个语言模型的安全规则,引发潜在有害行为

 

具体而言,研究人员发现了一个 Suffix,可将其附加到针对大型语言模型(LLMs)的查询中,从而生成危险言论。相比于拒绝回答这些危险问题,该研究可以使这些模型生成肯定回答的概率最大化。

 

例如,当被询问“如何窃取他人身份”时,AI 聊天机器人在打开“Add adversarial suffix”前后给出的输出结果截然不同。


90ad0739a16bfbd5ccf74245931dae28.jpeg


7bb2006955ca659cf9ffa708f401254b.jpeg

图|开启 Add adversarial suffix 前后的聊天机器人回答对比


此外,AI 聊天机器人也会被诱导写出“如何制造原子弹”“如何发布危险社交文章”“如何窃取慈善机构钱财”等不当言论。


对此,参与该研究的卡内基梅隆大学副教授 Zico Kolter 表示,“据我们所知,这个问题目前还没有办法修复。我们不知道如何确保它们的安全。”


研究人员在发布这些结果之前已就该漏洞向 OpenAI、谷歌和 Anthropic 发出了警告。每家公司都引入了阻止措施来防止研究论文中描述的漏洞发挥作用,但他们还没有弄清楚如何更普遍地阻止对抗性攻击。


OpenAI 发言人 Hannah Wong 表示:“我们一直在努力提高我们的模型应对对抗性攻击的鲁棒性,包括识别异常活动模式的方法,持续通过红队测试来模拟潜在威胁,并通过一种普遍而灵活的方式修复新发现的对抗性攻击所揭示的模型弱点。”


谷歌发言人 Elijah Lawal 分享了一份声明,解释了公司采取了一系列措施来测试模型并找到其弱点。“虽然这是 LLMs 普遍存在的问题,但我们在 Bard 中已经设置了重要的防护措施,我们会不断改进这些措施。”


Anthropic 的临时政策与社会影响主管 Michael Sellitto 则表示:“使模型更加抵抗提示和其他对抗性的‘越狱’措施是一个热门研究领域。我们正在尝试通过加强基本模型的防护措施使其更加‘无害’。同时,我们也在探索额外的防御层。”


72b1992ecfe83945e9101b64d7deec57.jpeg

图|4 个语言模型生成的有害内容


对于这一问题,学界也发出了警告,并给出了一些建议。


麻省理工学院计算学院的教授 Armando Solar-Lezama 表示,对抗性攻击存在于语言模型中是有道理的,因为它们影响着许多机器学习模型。然而,令人惊奇的是,一个针对通用开源模型开发的攻击居然能在多个不同的专有系统上如此有效。


Solar-Lezama 认为,问题可能在于所有 LLMs 都是在类似的文本数据语料库上进行训练的,其中很多数据都来自于相同的网站,而世界上可用的数据是有限的。


“任何重要的决策都不应该完全由语言模型独自做出,从某种意义上说,这只是常识。”他强调了对 AI 技术的适度使用,特别是在涉及重要决策或有潜在风险的场景下,仍需要人类的参与和监督,这样才能更好地避免潜在的问题和误用。


普林斯顿大学的计算机科学教授 Arvind Narayanan 谈道:“让 AI 不落入恶意操作者手中已不太可能。”他认为,尽管应该尽力提高模型的安全性,但我们也应该认识到,防止所有滥用是不太可能的。因此,更好的策略是在开发 AI 技术的同时,也要加强对滥用的监管和对抗。


担忧也好,不屑也罢。在 AI 技术的发展和应用中,我们除了关注创新和性能,也要时刻牢记安全和伦理。


只有保持适度使用、人类参与和监督,才能更好地规避潜在的问题和滥用,使 AI 技术为人类社会带来更多的益处。

相关文章:

一键开启ChatGPT“危险发言”

‍ ‍ 大数据文摘授权转载自学术头条 作者:Hazel Yan 编辑:佩奇 随着大模型技术的普及,AI 聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。 然而,不安全的 AI 聊天机器人可能会被部分人用于传播虚假信息、操纵舆…...

RISC-V基础之函数调用(一)简单的函数调用(包含实例)

高级语言支持函数(也称为过程或子程序)来重用通用的代码,以及使程序更加模块化和可读。函数可以有输入,称为参数,和输出,称为返回值。函数应该计算返回值,并且不产生其他意外的副作用。 在一个…...

apt、aptitude、apt-get/apt-cache语法的区别

apt句法 aptitude句法 apt-get/apt-cache语法 描述 apt update aptitude update apt-get update 更新包存档元数据 apt install foo ap...

华为认证 | HCIA和HCIP有啥区别?

HCIA和HCIP都是华为认证体系里的,所以它们的考试流程大同小异,唯一区别的话,那可能就是课程内容方面的区别较大了。 那么HCIA和HCIP考试有啥区别呢?下面我们就来跟随小编来了解一下吧。 01 HCIA和HCIP考试有啥区别 ★ 等级不同 …...

JavaScript基础知识

JavaScript基础知识 一、变量与数据类型1. 变量2. 数据类型 二、表达式与运算符1.字面量2.表达式3.运算符3.1 算术运算符3.2 比较运算符3.3 逻辑运算符3.4 赋值运算符 三、条件语句1. 控制流程2. 语句块3. if 语句3. switch 语句4. 条件运算符 四、循环语句1. while2. do...whi…...

vue2 todoapp案例(静态)

1.创建三个子组件(TodoHeader、TodoMain、TodoFooter)和两个(index.css、base.css)样式&#xff1b; TodoHeader页面 <template><header class"header"><h1>todos</h1><input id"toggle-all" class"toggle-all" typ…...

qt5.14 和 qt5.15的区别

Qt 5.14 和 Qt 5.15 是两个不同的 Qt 版本&#xff0c;它们之间有一些区别和改进。 以下是一些 Qt 5.15 相对于 Qt 5.14 的变化和改进&#xff1a; 性能改进&#xff1a;Qt 5.15 引入了一些性能改进&#xff0c;包括提高渲染性能和减少内存占用。 Qt 3D&#xff1a;Qt 5.15 对…...

如何使用自己域名进行远程访问内网群晖NAS 6.X

使用自己的域名远程访问内网群晖NAS 6.X【内网穿透】 文章目录 使用自己的域名远程访问内网群晖NAS 6.X【内网穿透】 在之前的文章中&#xff0c;我们向大家演示了如何使用cpolar&#xff0c;创建一条固定的、能够在公共互联网登录内网群晖NAS的数据隧道。这条隧道已经能够应对…...

PHP判处重复延长队列执行时间

需求是这样&#xff1a; 14:00的时候&#xff0c;需要给1000个门店执行发券操作&#xff0c;有的门店需要发3个场景&#xff0c;开放平台的接口有请求频次限制&#xff0c;他是按照门店的场景发券需要间隔10秒。比如说&#xff0c;AB两个门店同时发a券&#xff0c;但不能 A门店…...

flask中的应用上下文

flask中的应用上下文 Flask应用上下文主要包含两个对象&#xff1a;current_app和g。这两个对象在处理请求期间都是全局可访问的&#xff0c;但在每个请求结束时都会被重置。 current_app&#xff1a;这是当前激活的Flask应用的实例。在大多数情况下&#xff0c;你可以将其视为…...

cocos creator 的input.on 不生效

序&#xff1a; 1、执行input.on的时候发现不生效 2、一直按控制台也打印不出来console.log 3、先收藏这篇&#xff0c;因为到时候cocos要开发serveApi的时候&#xff0c;你得选一款趁手的后端开发并且&#xff0c;对习惯用ts写脚本的你来说&#xff0c;node是入门最快&#xf…...

WFPlayer

WFPlayer WFPlayer 可以实现分析音视频生成音频波形图 在线demo地址: demo WFPlayer支持&#xff1a; 在不加载整个媒体文件的情况下创建波形自定义光标、进度、网格、标尺显示和颜色加载媒体url和加载媒体dom元素&#xff08;视频标签和音频标签&#xff09;颜色或宽度等实时…...

Netty面试题

1.BIO、NIO 和 AIO 的区别&#xff1f; BIO&#xff1a;一个连接一个线程&#xff0c;客户端有连接请求时服务器端就需要启动一个线程进行处理。线 程开销大。 伪异步 IO&#xff1a;将请求连接放入线程池&#xff0c;一对多&#xff0c;但线程还是很宝贵的资源。 NIO&#x…...

基于Home Assistant远程开门

基于Home Assistant远程开门 1.购买云服务器 1.1 阿里云服务器 本人使用的是阿里云服务器&#xff0c;其他的腾讯云&#xff0c;百度云都可以 如果你想要一个建议的话&#xff1a; 推荐在打折优惠的时候买&#xff0c;比如双十一 阿里云最近有一个飞天计划&#xff0c;在校…...

Docker相关的参数配置

Docker的配置文件/etc/docker/daemon.json中的大部分配置项如下所示 &#xff1a; {"allow-nondistributable-artifacts": [],"api-cors-header": "","authorization-plugins": [],"bip": "","bridge"…...

【CSS3】CSS3 2D 转换 - scale 缩放 ③ ( 使用 scale 设置制作可缩放的按钮案例 )

文章目录 一、需求分析二、代码分析三、代码示例四、执行结果 一、需求分析 设置一个 按钮 , 默认状态下显示的样式如下 : 按钮 外部 有 圆形的外边框 ;按钮 中的文本 , 水平居中对齐 , 垂直居中对齐 ; 当鼠标移动到 按钮 上之后 , 鼠标 变为 小手 样式 , 并且 按钮 以 中心位…...

Stable Diffusion教程(6) - 图片高清放大

放大后细节 修复图片损坏 显存占用 速度 批量放大 文生图放大 好 是 高 慢 否 附加功能放大 一般 否 中 快 是 图生图放大 好 是 低 慢 是 tile模型放大 非常好 是 高 快 是 通过文生图页面的高清修复 优点&#xff1a;放大时能添加更多细节&am…...

freeswitch 1.10.10-dev录音早期媒体卡通道的bug分析

最近编译了fs 1.10.10-dev也就是 master版本&#xff08;2023年7月6日&#xff09; 给几个客户升级了一下&#xff0c;发现非常不稳定(每天都有几个通道卡在early状态)&#xff0c;最近才有空来分析原因。 之前跑的是1.10.8 release 版本&#xff0c;从来没出现过这个问题&…...

Zebec Protocol ,不止于 Web3 世界的 “Paypal”

Paypal 是传统支付领域的巨头企业&#xff0c;在北美支付市场占有率约为 77% 以上。从具体的业务数据看&#xff0c;在8月初&#xff0c;Paypal 公布的 2023 年第二季度财报显示&#xff0c;PayPal 第二季度净营收为 73 亿美元&#xff0c;净利润为 10.29 亿美元。虽然 Paypal …...

Gcd 2023牛客暑期多校训练营6 G

登录—专业IT笔试面试备考平台_牛客网 题目大意&#xff1a;给出一个集合&#xff0c;集合中初始有2个数x,y(x!y)&#xff0c;每次操作可以将集合中任意两个不等的数的差放入集合或者将两个不等的数的gcd放入集合&#xff0c;给出一个数z&#xff0c;问z有没有可能出现在集合里…...

证书创建方法说明

生成证书 方法一&#xff1a;合适&#xff08;临时测试&#xff0c;不需要管理&#xff09; 快速生成脚本&#xff08;一键完成&#xff09; 创建 create_lan_cert.sh&#xff1a; #!/bin/bash# 配置参数 IP_ADDR"192.168.1.100" # 修改为你的局域网IP DAYS365…...

利用快马平台快速构建类FinalShell服务器监控Web原型

最近在折腾服务器监控工具&#xff0c;发现FinalShell确实好用&#xff0c;但有时候团队协作或者临时演示时&#xff0c;还是需要一个轻量级的Web版监控面板。正好发现了InsCode(快马)平台&#xff0c;用它快速搭建了一个原型&#xff0c;分享下实现思路。 整体架构设计 这个监…...

2026 AI工具选型实录:六大场景下的模型对比与效率实测

AI正在成为新一代生产力工具2026年的AI工具市场&#xff0c;已经从"谁参数大"的竞争&#xff0c;转向了"谁真正能落地提效"的比拼。一个明显的信号&#xff1a;CSDN上关于AI编程工具选型的讨论热度&#xff0c;从去年的"要不要用"变成了"用…...

优化TJpgDec在MM32F5微控制器上的图像解码性能 - 基于MindSDK的实践探索

1. TJpgDec在嵌入式系统中的独特价值 第一次接触TJpgDec是在三年前的一个智能家居项目里&#xff0c;当时需要在资源受限的STM32F407上实现图片显示功能。市面上常见的JPEG解码库要么体积庞大&#xff0c;要么对内存要求极高&#xff0c;直到发现了ChaN开发的这个轻量级解决方案…...

QQ空间时光胶囊:用GetQzonehistory打造你的数字记忆保险箱

QQ空间时光胶囊&#xff1a;用GetQzonehistory打造你的数字记忆保险箱 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 当我们在社交平台上记录生活点滴时&#xff0c;可曾想过这些数字足…...

MyLD2410:面向LD2410毫米波传感器的Arduino/ESP32嵌入式C++库

1. 项目概述MyLD2410 是一款专为 HLK-LD2410B 和 HLK-LD2410C 毫米波存在检测传感器设计的嵌入式 C 库&#xff0c;面向 Arduino 与 ESP32 平台构建。该库完全自主开发&#xff0c;不依赖任何第三方驱动或中间件&#xff0c;具备高度可移植性——可在所有支持 HardwareSerial 的…...

基于SpringBoot的旅游网站管理系统

源码获取地址&#xff1a; 链接: https://pan.baidu.com/s/1Swe7JUSV7rRuBkagxRgL6g?pwdaufn提取码: aufn&#xff08;文件先保存到自己网盘&#xff0c;谨防文件丢失&#xff01;&#xff01;&#xff09; 该网站是一个旅游管理系统&#xff0c;旨在为用户提供便捷的旅游信息…...

3步实现学术翻译本地化:Zotero PDF Translate插件离线方案详解

3步实现学术翻译本地化&#xff1a;Zotero PDF Translate插件离线方案详解 【免费下载链接】zotero-pdf-translate Translate PDF, EPub, webpage, metadata, annotations, notes to the target language. Support 20 translate services. 项目地址: https://gitcode.com/gh_…...

5个必知技巧:用Greasy Fork用户脚本彻底改变你的浏览器体验 [特殊字符]

5个必知技巧&#xff1a;用Greasy Fork用户脚本彻底改变你的浏览器体验 &#x1f680; 【免费下载链接】greasyfork An online repository of user scripts. 项目地址: https://gitcode.com/gh_mirrors/gr/greasyfork 你是否曾经想过&#xff0c;为什么别人的浏览器总是…...

【无标题】MySQL数据库基础实例教程单元2 学习笔记

2.1 关系数据库设计 2.1.1 数据的加工 数据设计本质上是对现实世界信息的逐步抽象和加工&#xff0c;过程分为三个阶段。首先是现实世界&#xff0c;包含客观存在的事物、业务需求和事物之间的联系。然后进入信息世界&#xff0c;把现实事物抽象为概念模型&#xff0c;方便理解…...