当前位置: 首页 > news >正文

ChatGPT 存在很大的隐私问题

当 OpenAI 发布时 2020 年 7 月的 GPT-3,它提供了用于训练大型语言模型的数据的一瞥。

根据一篇技术论文,从网络、帖子、书籍等中收集的数百万页被用于创建生成文本系统。

在此数据中收集的是您在网上分享的一些关于您自己的个人信息,这些数据现在让 OpenAI 陷入困境。 

3 月 31 日,意大利数据监管机构 发布了一项临时紧急决定,要求 OpenAI 停止使用其训练数据中包含的数百万意大利人的个人信息。

根据监管机构的说法,OpenAI 没有合法权利在 ChatGPT 中使用人们的个人信息。

作为回应,OpenAI 已阻止意大利人访问其聊天机器人,同时它向正在进一步调查的官员提供答复。 

这是西方监管机构首次针对 ChatGPT 采取的行动,凸显了围绕创建巨大的生成式 AI 模型的隐私紧张,这些模型通常在大量互联网数据上进行训练。

正如艺术家和媒体公司抱怨生成式 AI 开发人员未经许可使用他们的作品一样,数据监管机构现在对人们的个人信息也是如此。

整个欧洲都可能做出类似的决定。在意大利宣布调查后的几天里,法国、 德国和爱尔兰的数据监管机构已联系 Garante,要求提供有关其调查结果的更多信息。

如果商业模式只是在互联网上搜索你能找到的任何东西,那么这里可能会出现一个非常重要的问题,挪威数据保护机构国际负责人称该机构正在监测事态发展。

如果一个模型是建立在可能被非法收集的数据之上的,那么就会引发关于是否任何人都可以合法使用这些工具的问题。

意大利对 OpenAI 的打击也发生在对大型人工智能模型的审查稳步增加之际。

3 月 29 日,技术领导者呼吁暂停 ChatGPT 等系统的开发,担心其未来的影响。意大利的决定凸显了更紧迫的担忧。

从本质上讲,我们看到迄今为止的 AI 开发可能存在巨大的缺陷。

欧洲的 GDPR 规则涵盖了组织收集、存储和使用人们个人数据的方式 ,保护了整个大陆 4 亿多人的数据。

这些个人数据可以是从人名到 IP 地址的任何内容,如果它可以用来识别某人,就可以算作他们的个人信息。

与美国州级隐私规则的拼凑不同,GDPR 的保护适用于人们的信息可在网上免费获得的情况。

简而言之:仅仅因为某人的信息是公开的并不意味着您可以将其抽空并用它做任何您想做的事。

意大利的 Garante 认为 ChatGPT 在 GDPR 下存在四个问题:

OpenAI 没有年龄控制来阻止 13 岁以下的人使用文本生成系统;它可以提供有关人员的不准确信息;人们还没有被告知他们的数据已被收集;也许最重要的是,它的第四个问题是在用于训练 ChatGPT 的海量数据中收集人们的个人信息“没有法律依据”。

在欧盟看来确实很明显这违反了数从广义上讲,公司要根据 GDPR 收集和使用人们的信息,他们必须依赖 六种法律理由之一,从某人的许可到合同要求的信息。

在这种情况下,基本上有两种选择:获得人们的同意,OpenAI 没有这样做或者争辩说它有“合法利益”来使用人们的数据,这“很难”做到。

OpenAI 的隐私政策没有直接提及其在训练数据中使用人们的个人信息的法律原因,但表示它在“开发”其服务时依赖于“合法利益”。

与 GPT-3 不同,OpenAI 没有公布任何进入 ChatGPT 的训练数据的细节,而 GPT-4 被认为要大几倍。

然而,GPT-4 的技术文件包括一个关于隐私的部分,其中说它的训练数据可能包括来自多个来源的“公开可用的个人信息”。

该论文称,OpenAI 采取措施保护人们的隐私,包括“微调”模型以阻止人们询问个人信息,以及“在可行的情况下”从训练数据中删除人们的信息。

如何合法地收集数据用于训练数据集,用于从常规算法到一些非常复杂的人工智能的一切,这是一个现在需要解决的关键问题,因为我们正处于这种技术采用的临界点结束了。

意大利监管机构的行动也正在 对 Replika 聊天机器人采取行动,有可能成为检查 OpenAI 数据实践的众多案例中的第一个。

GDPR 允许在欧洲设有基地的公司指定一个国家来处理其所有投诉。例如,爱尔兰与谷歌、Twitter 和 Meta 打交道。

然而,OpenAI 在欧洲没有基地,这意味着根据 GDPR,每个国家都可以对它提出投诉。 

OpenAI 并不孤单。专家表示,意大利监管机构提出的许多问题可能会触及机器学习和生成人工智能系统所有开发的核心。

欧盟正在制定人工智能法规,但到目前为止,在隐私方面针对机器学习系统的发展采取的行动相对较少。

牛津大学人工智能伦理研究所高级研究员、数据实践作者表示:这项技术的构建模块的基础已经腐烂,我认为这将很难治愈。她指出,许多用于训练机器学习系统的数据集已经存在多年,而且在将它们放在一起时可能很少考虑隐私问题。 

数据最终如何进入 GPT-4 之类的东西,存在这种分层和复杂的供应链,从来没有真正设计或默认的任何类型的数据保护。

2022 年,一个广泛使用的图像数据库的创建者建议对数据集中的人脸图像进行模糊处理,该数据库已帮助训练 AI 模型达十年之久 。 

在欧洲和加利福尼亚,隐私规则允许人们 在信息不准确时要求删除或更正信息。但是,从 AI 系统中删除不准确或某人不想要的内容可能并不简单,尤其是在数据来源不明的情况下。

专业人士都质疑 GDPR 从长远来看是否能够对此采取任何措施,包括维护人们的权利。纽卡斯尔大学的爱德华兹说:对于如何使用这些非常大的语言模型来做到这一点,没有任何线索,他们对此没有规定。

到目前为止,至少有一个相关的例子,当时美国联邦贸易委员会命令以前称为慧俪轻体的公司删除根据其无权使用的数据创建的算法。

但随着审查的加强,此类命令可能会变得更加普遍。

显然,根据技术基础设施,可能很难完全清除用于训练它的所有个人数据的模型,如果模型随后通过非法收集的个人数据进行训练,这将意味着你基本上可能无法使用你的模型。

相关文章:

ChatGPT 存在很大的隐私问题

当 OpenAI 发布时 2020 年 7 月的 GPT-3,它提供了用于训练大型语言模型的数据的一瞥。 根据一篇技术论文,从网络、帖子、书籍等中收集的数百万页被用于创建生成文本系统。 在此数据中收集的是您在网上分享的一些关于您自己的个人信息,这些数据现在让 O…...

图的迭代深度优先遍历

图的深度优先遍历(或搜索)类似于树的深度优先遍历(DFS)。这里唯一的问题是,与树不同,图可能包含循环,因此一个节点可能会被访问​​两次。为避免多次处理一个节点,请使用布尔访问数组。 例子: 输入: n = 4, e = 6 0 -> 1, 0 -> 2, 1 -> 2, 2 -> 0, …...

华为OD机试-开放日活动-2022Q4 A卷-Py/Java/JS

某部门开展Family Day开放日活动,其中有个从桶里取球的游戏,游戏规则如下:有N个容量一样的小桶等距排开,且每个小桶都默认装了数量不等的小球, 每个小桶装的小球数量记录在数组 bucketBallNums 中,游戏开始时,要求所有…...

两亲性聚合物:Lauric acid PEG Maleimide,Mal-PEG-Lauric acid,月桂酸PEG马来酰亚胺,试剂知识分享

Lauric acid PEG Maleimide,Lauric acid PEG Mal| 月桂酸PEG马来酰亚胺 | CAS:N/A | 端基取代率:95%一、试剂参数信息: 外观(Appearance):灰白色/白色固体或粘性液体取决于分子量 溶解性&am…...

FB使用入口点函数例子

一、DLL的入口点 1.1 VFB的自带DLL模式入口 FB是把代码转成C(GCC编译)或者汇编(GAS编译)后编译的,本身就有一个main函数,所以在程序里其实不需要入口点,直接写就可以顺序执行,而有的…...

学习周报4/9

文章目录前言文献阅读摘要简介方法结论时间序列预测总结前言 本周阅读文献《Improving LSTM hydrological modeling with spatiotemporal deep learning and multi-task learning: A case study of three mountainous areas on the Tibetan Plateau》,文章主要基于…...

49天精通Java,第14天,Java泛型方法的定义和使用

目录一、基本介绍1、Java泛型的基本语法格式为:2、在使用泛型时,还需要注意以下几点:二、泛型的优点1、类型安全2、消除强制类型转换3、更高的效率4、潜在的性能收益三、常见泛型字母含义四、使用泛型时的注意事项五、泛型的使用1、泛型类2、…...

20230402英语学习

reasonable adj.合理的;通情达理的;明智的,理智的 abstract adj.抽象的,理论的 reflection n.反射; 映像, 倒影; 反映; 表达, 抒发; (长相等)酷似的人; 惟妙惟肖的事物; 深思; 考虑 instruction n.教授; 教导, 指导; 指示, 命令…...

Java知识复习(十七)SpringCloud

1、什么是微服务架构 微服务架构就是将单体的应用程序分成多个应用程序,这多个应用程序就成为微服务,每个微服务运行在自己的进程中,并使用轻量级的机制通信这些服务围绕业务能力来划分,并通过自动化部署机制来独立部署。这些服务…...

MySQL 数据库操作

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、关系模型二、数据库的操作 创建数据库查看数据库选择数据库删除数据库三、MySQL 数据库命名规范总结一、关系模型 关系数据库是建立在关系模型上的。而关系模…...

Cesium更换地球背景

设置背景图片 #cesiumContainer {width: 100%;height: 100%;background-image: url("/assets/image/背景.png"); }设置渲染, 用来去掉地球表面的大气效果的黑圈问题 this.viewer new Cesium.Viewer("cesiumContainer", {......// 设置渲染orderIndepe…...

测试人员的瓶颈期

测试人员的瓶颈期 做测试久了,会在所难免地碰到职业瓶颈期,这很正常,从事任何职业的工作人员都会遇到,关键是要看你如何去克服它。对优秀的软件测试人员来讲,除了要具备全面的技能、丰富的经验、良好的心理素质&#x…...

HTML5 <form> 标签

HTML5 <form> 标签 实例 带有两个输入字段和一个提交按钮的 HTML 表单&#xff1a; <form action"demo_form.php" method"get">First name: <input type"text" name"fname"><br>Last name: <input type&qu…...

编译技术-词法理论

一、文法的种类 1.1 分类定义 Chomsky 文法定义&#xff1a; G(V,Vt,P,Z)G (V, V_t, P, Z)G(V,Vt​,P,Z)VVV&#xff1a;符号集合VtV_tVt​&#xff1a;终结符号集合PPP &#xff1a;有穷规则集合ZZZ&#xff1a;是被符号&#xff0c;不能是终结符 关于不同文法的区别 类型…...

【20】核心易中期刊推荐——计算机科学电子通信(EI索引)

🚀🚀🚀NEW!!!核心易中期刊推荐栏目来啦 ~ 📚🍀 核心期刊在国内的应用范围非常广,核心期刊发表论文是国内很多作者晋升的硬性要求,并且在国内属于顶尖论文发表,具有很高的学术价值。在中文核心目录体系中,权威代表有CSSCI、CSCD和北大核心。其中,中文期刊的数…...

Vue 3.0 风格指南 2

#元素 attribute 的顺序推荐 元素 (包括组件) 的 attribute 应该有统一的顺序。 这是我们为组件选项推荐的默认顺序。它们被划分为几大类&#xff0c;所以你也能知道新添加的自定义 attribute 和指令应该放到哪里。 定义 (提供组件的选项) is列表渲染 (创建多个变化的相同元素…...

ChatGPT遭多国调查,OpenAI凌晨就安全问题发文,GPT-5要暂缓?

最近&#xff0c;意大利宣布禁用 ChatGPT&#xff0c;因为 OpenAI 违反了意大利相关的隐私规则和数据保护法&#xff0c;出现了用户数据丢失情况&#xff0c;而且未向用户告知。 消息出来后&#xff0c;德国、法国、爱尔兰、西班牙等国的监管部门都表示正在密切关注 ChatGPT 的…...

网络安全书籍推荐

网络安全书籍推荐 &#xff0c;对于网络安全的初学者来说&#xff0c;能很好的选择教材&#xff0c;鉴于只有英文版&#xff0c;我尝试翻译成中文以供参考&#xff0c;初次翻译&#xff0c;翻译的不好请见谅。 标题注解技术等级The Art of Software Security Assessment软件安…...

【独家】华为OD机试 - 狼羊过河 or 羊、狼、农夫过河(C 语言解题)

最近更新的博客 华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为od机试,独家整理 已参加机试人员的实战技巧本篇题解:狼羊过河 or 羊、狼、农夫过河…...

东八区的 springboot 如何配置序列化

东八区的 springboot &#x1f69e;使用SpringBoot默认配置自定义配置类自定义 ObjectMapper自定义序列化器总结我接受它的苦&#xff0c;它的灰暗&#xff0c;它的刺&#xff0c;因为总会过去&#xff0c;我的花会开&#xff0c;生活也会慢慢拥抱我 使用SpringBoot默认配置 S…...

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…...

渲染学进阶内容——模型

最近在写模组的时候发现渲染器里面离不开模型的定义,在渲染的第二篇文章中简单的讲解了一下关于模型部分的内容,其实不管是方块还是方块实体,都离不开模型的内容 🧱 一、CubeListBuilder 功能解析 CubeListBuilder 是 Minecraft Java 版模型系统的核心构建器,用于动态创…...

SpringBoot+uniapp 的 Champion 俱乐部微信小程序设计与实现,论文初版实现

摘要 本论文旨在设计并实现基于 SpringBoot 和 uniapp 的 Champion 俱乐部微信小程序&#xff0c;以满足俱乐部线上活动推广、会员管理、社交互动等需求。通过 SpringBoot 搭建后端服务&#xff0c;提供稳定高效的数据处理与业务逻辑支持&#xff1b;利用 uniapp 实现跨平台前…...

Module Federation 和 Native Federation 的比较

前言 Module Federation 是 Webpack 5 引入的微前端架构方案&#xff0c;允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。 概念解析 Module Federation (模块联邦) Modul…...

C# 求圆面积的程序(Program to find area of a circle)

给定半径r&#xff0c;求圆的面积。圆的面积应精确到小数点后5位。 例子&#xff1a; 输入&#xff1a;r 5 输出&#xff1a;78.53982 解释&#xff1a;由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982&#xff0c;因为我们只保留小数点后 5 位数字。 输…...

高效线程安全的单例模式:Python 中的懒加载与自定义初始化参数

高效线程安全的单例模式:Python 中的懒加载与自定义初始化参数 在软件开发中,单例模式(Singleton Pattern)是一种常见的设计模式,确保一个类仅有一个实例,并提供一个全局访问点。在多线程环境下,实现单例模式时需要注意线程安全问题,以防止多个线程同时创建实例,导致…...

【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变(硬件篇)

本项目是基于 STM32F103C8T6 微控制器的 SPWM(正弦脉宽调制)电源模块,能够生成可调频率和幅值的正弦波交流电源输出。该项目适用于逆变器、UPS电源、变频器等应用场景。 供电电源 输入电压采集 上图为本设计的电源电路,图中 D1 为二极管, 其目的是防止正负极电源反接, …...

push [特殊字符] present

push &#x1f19a; present 前言present和dismiss特点代码演示 push和pop特点代码演示 前言 在 iOS 开发中&#xff0c;push 和 present 是两种不同的视图控制器切换方式&#xff0c;它们有着显著的区别。 present和dismiss 特点 在当前控制器上方新建视图层级需要手动调用…...

【MATLAB代码】基于最大相关熵准则(MCC)的三维鲁棒卡尔曼滤波算法(MCC-KF),附源代码|订阅专栏后可直接查看

文章所述的代码实现了基于最大相关熵准则(MCC)的三维鲁棒卡尔曼滤波算法(MCC-KF),针对传感器观测数据中存在的脉冲型异常噪声问题,通过非线性加权机制提升滤波器的抗干扰能力。代码通过对比传统KF与MCC-KF在含异常值场景下的表现,验证了后者在状态估计鲁棒性方面的显著优…...

十九、【用户管理与权限 - 篇一】后端基础:用户列表与角色模型的初步构建

【用户管理与权限 - 篇一】后端基础:用户列表与角色模型的初步构建 前言准备工作第一部分:回顾 Django 内置的 `User` 模型第二部分:设计并创建 `Role` 和 `UserProfile` 模型第三部分:创建 Serializers第四部分:创建 ViewSets第五部分:注册 API 路由第六部分:后端初步测…...