当前位置: 首页 > news >正文

预防GPT-3和其他复杂语言模型中的“幻觉”

标题:预防GPT-3和其他复杂语言模型中的“幻觉”

正文:

“假新闻”的一个显著特征是它经常在事实正确信息的环境中呈现虚假信息,通过一种文学渗透的方式,使不真实的数据获得感知权威,这是半真半假力量令人担忧的展示。

像GPT-3这样复杂的生成自然语言处理(NLP)模型也倾向于“幻觉”这种欺骗性数据。部分原因在于,语言模型需要能够重写和总结长篇且常常错综复杂的文本,而没有能够定义、封装和“密封”事件和事实的架构约束,以保护它们免受语义重构过程的影响。

因此,对于NLP模型来说,事实并非神圣不可侵犯;在复杂语法或深奥的源材料使离散实体与语言结构难以分离的情况下,它们很容易被当作“语义乐高积木”来处理。

观察发现,复杂的语言模型如GPT-3可能会被曲折表达的源材料所迷惑。来源:使用深度强化学习进行释义生成

这个问题从基于文本的机器学习蔓延到计算机视觉研究,特别是在利用语义区分来识别或描述对象的领域。

“幻觉”和“不准确”的美容性重新解释也影响计算机视觉研究。

在GPT-3的情况下,当模型对已经回答过的问题反复提问时,它可能会感到沮丧。在最好的情况下,它会承认失败:

我最近对GPT-3的基本达芬奇引擎进行的一项实验。模型在第一次尝试时得到了正确的答案,但在第二次被问及同样的问题时感到困惑。由于它保留了之前答案的短期记忆,并将重复的问题视为对该答案的拒绝,因此它承认失败。来源:https://www.scalr.ai/post/business-applications-for-gpt-3

达芬奇和达芬奇指导(测试版)在这方面比其他通过API可用的GPT-3模型做得更好。在这里,Curie模型给出了错误的答案,而Babbage模型在同样错误的答案上自信地扩展:

爱因斯坦从未说过的话

当向GPT-3达芬奇指导引擎(目前似乎是最有能力的)征求爱因斯坦的名言“上帝不与宇宙掷骰子”时,达芬奇指导未能找到这句名言,而是发明了一句非名言,并在类似的查询中继续“幻觉”出另外三句相对可信且完全不存在的名言(无论是爱因斯坦还是其他人的):

GPT-3产生了四句爱因斯坦的名言,但在全文互联网搜索中没有任何结果,尽管其中一些触发了爱因斯坦关于“想象力”的其他(真实)名言。

如果GPT-3在引用名言时一直出错,那么程序化地排除这些幻觉会更容易。然而,名言越分散和著名,GPT-3就越有可能正确地引用名言:

GPT-3显然在名言在贡献数据中表现良好时能够找到正确的名言。

第二个问题可能出现在GPT-3的会话历史数据渗入新问题时:

爱因斯坦可能会对这句名言归因于他感到震惊。这句名言似乎是对温斯顿·丘吉尔名言的荒谬“幻觉”。GPT-3会话中的上一个问题是关于丘吉尔(而不是爱因斯坦),GPT-3似乎错误地使用了这个会话令牌来提供答案。

经济地解决“幻觉”问题

“幻觉”是采用复杂NLP模型作为研究工具的一个显著障碍——尤其是当这些引擎的输出高度抽象于形成它的源材料时,建立名言和事实的真实性变得困难。

因此,NLP当前的一个普遍研究挑战是建立一种方法来识别幻觉文本,而无需想象全新的NLP模型,这些模型将事实作为离散实体进行整合、定义和验证(这是许多更广泛的计算机研究领域的长期、独立目标)。

识别和生成幻觉内容

卡内基梅隆大学和Facebook AI研究之间的一项新合作提供了一种解决幻觉问题的新方法,通过制定一种方法来识别幻觉输出,并使用合成幻觉文本创建一个数据集,该数据集可以作为未来过滤器和机制的基线,这些过滤器可能会成为NLP架构的核心部分。

来源:https://arxiv.org/pdf/2011.02593.pdf

在上图中,源材料已经按单词进行了分割,其中“0”标签分配给正确的单词,“1”标签分配给幻觉单词。下面我们看到一个与输入信息相关但被非真实数据增强的幻觉输出的例子。

该系统使用了一个预训练的去噪自动编码器,能够将一个幻觉字符串映射回产生其损坏版本的原始文本(类似于我上面的例子,其中互联网搜索揭示了虚假名言的来源,但具有程序化和自动化的语义方法)。具体来说,Facebook的BART自动编码器模型被用来产生损坏的句子。

标签分配。

将幻觉映射回源的过程,这在普通的高级NLP模型中是不可能的,允许映射“编辑距离”,并促进算法方法来识别幻觉内容。

研究人员发现,即使系统在训练期间没有访问到参考材料,它也能很好地推广,这表明概念模型是健全且广泛可复制的。

防止过度拟合

为了避免过度拟合并达到广泛可部署的架构,研究人员随机从过程中删除令牌,并使用释义和其他噪声函数。

机器翻译(MT)也是这个混淆过程的一部分,因为跨语言翻译文本很可能会强有力地保留意义,并进一步防止过度拟合。因此,该项目通过双语发言人在手动注释层中翻译和识别幻觉。

该倡议在许多标准部门测试中取得了新的最佳结果,并且是第一个在使用超过1000万个令牌的数据时取得可接受结果的项目。

该项目的代码,题为“检测条件神经序列生成中的幻觉内容”,已在GitHub上发布,允许用户使用BART从任何文本语料库生成他们自己的合成数据。还提供了生成幻觉检测模型的后续步骤。

相关文章:

预防GPT-3和其他复杂语言模型中的“幻觉”

标题:预防GPT-3和其他复杂语言模型中的“幻觉” 正文: “假新闻”的一个显著特征是它经常在事实正确信息的环境中呈现虚假信息,通过一种文学渗透的方式,使不真实的数据获得感知权威,这是半真半假力量令人担忧的展示。…...

从源码解析AQS

前置概念 要彻底了解AQS的底层实现就必须要了解一下线程相关的知识。 包括voliatevoliate 我们使用翻译软件翻译一下volatile,会发现它有以下几个意思:易变的;无定性的;无常性的;可能急剧波动的;不稳定的;易恶化的;易挥发的;易发散的。这也正式使用vola…...

基于Spring Boot的云上水果超市的设计与实现

摘 要 伴随着我国社会的发展,人民生活质量日益提高。于是对云上水果超市进行规范而严格是十分有必要的,所以许许多多的信息管理系统应运而生。此时单靠人力应对这些事务就显得有些力不从心了。所以本论文将设计一套云上水果超市,帮助商家进行…...

游戏引擎中的动画基础

一、动画技术简介 视觉残留理论 - 影像在我们的视网膜上残留1/24s。 游戏中动画面临的挑战: 交互:游戏中的玩家动画需要和场景中的物体进行交互。实时:最慢需要在1/30秒内算完所有的场景渲染和动画数据。(可以用动画压缩解决&am…...

springboot3快速入门案例2024最新版

前边 springboot3 系统要求 技术&工具版本(or later)maven3.6.3 or later 3.6.3 或更高版本Tomcat10.0Servlet9.0JDK17 SpringBoot的主要目标是: 为所有 Spring 开发提供更快速、可广泛访问的入门体验。开箱即用,设置合理的…...

软考 系统架构设计师系列知识点之系统性能(1)

所属章节: 第2章. 计算机系统基础知识 第9节. 系统性能 系统性能是一个系统提供给用户的所有性能指标的集合。它既包括硬件性能(如处理器主频、存储器容量、通信带宽等)和软件性能(如上下文切换、延迟、执行时间等)&a…...

Trent-FPGA硬件设计课程

本课程涵盖FPGA硬件设计的基础概念和实践应用。学生将学习Verilog语言编程、数字电路设计原理、FPGA架构和开发工具的使用。通过项目实践,掌握FPGA设计流程和调试技巧,为硬件加速和嵌入式系统开发打下坚实基础。 课程大小:4.3G 课程下载&am…...

【大模型学习记录】db-gpt源码安装问题汇总

1、首次源码安装时安装的其实dbgpt到conda环境中,会将路径一起安装。 如果有其他的路径使用同样的conda环境会报错,一直读取的就是原先的路径的内容。需要自己新创建一个conda env 2、界面中配置知识库问答时,报错 # 1、报的错如下&#x…...

QB PHP 多语言配置

1: 下载QBfast .exe 的文件 2: 安装的时候 ,一定点击 仅为我 安装 而不是 所有人 3: 如果提示 更新就 更新 , 安装如2 4: 如果遇到 新增 或者编辑已经 配置的项目时 不起作用 : 右…...

Kubernetes实战(三十一)-使用开源CEPH作为后端StorageClass

1 引言 K8S在1.13版本开始支持使用Ceph作为StorageClass。其中云原生存储Rook和开源Ceph应用都非常广泛。本文主要介绍K8S如何对接开源Ceph使用RBD卷。 K8S对接Ceph的技术栈如下图所示。K8S主要通过容器存储接口CSI和Ceph进行交互。 Ceph官方文档:Block Devices a…...

【Python爬虫】详解BeautifulSoup()及其方法

文章目录 🍔准备工作🌹BeautifulSoup()⭐代码实现✨打印标签里面的内容✨快速拿到一个标签里的属性✨打印整个文档🎆获取特定标签的特定内容 🌹查找标签🎈在文档查找标签 find_all🎈正则表达式搜索 &#x…...

C语言经典算法-8

文章目录 其他经典例题跳转链接41.基数排序法42.循序搜寻法(使用卫兵)43.二分搜寻法(搜寻原则的代表)44.插补搜寻法45.费氏搜寻法 其他经典例题跳转链接 C语言经典算法-1 1.汉若塔 2. 费式数列 3. 巴斯卡三角形 4. 三色棋 5. 老鼠…...

Panasonic松下PLC如何数据采集?如何实现快速接入IIOT云平台?

在工业自动化领域,数据采集与远程控制是提升生产效率、优化资源配置的关键环节。对于使用Panasonic松下PLC的用户来说,如何实现高效、稳定的数据采集,并快速接入IIOT云平台,是摆在他们面前的重要课题。HiWoo Box工业物联网关以其强…...

高性能 MySQL 第四版(GPT 重译)(四)

第十一章:扩展 MySQL 在个人项目中运行 MySQL,甚至在年轻公司中运行 MySQL,与在市��已经建立并且“呈现指数增长”业务中运行 MySQL 大不相同。在高速业务环境中,流量可能每年增长数倍,环境变得…...

整型数组按个位值排序 - 华为OD统一考试(C卷)

OD统一考试(C卷) 分值: 100分 题解: Java / Python / C 题目描述 给定一个非空数组(列表),其元素数据类型为整型,请按照数组元素十进制最低位从小到大进行排序,十进制最低位相同的元素&#xf…...

【React】Diff算法

1. React15 Diff算法(递归进行) 一句话概括:新虚拟DOM和旧虚拟DOM对比,找出差异,根据差异更新真实DOM Diff过程描述: 1. 树比较(DOM) 同层节点之间相互比较,不会跨层级比较。(当发现…...

【物联网】Modbus 协议及应用

Modbus 协议简介 QingHub设计器在设计物联网数据采集时不可避免的需要针对Modbus协议的设备做相关数据采集,这里就我们的实际项目经验分享Modbus协议 简介 Modbus由MODICON公司于1979年开发,是一种工业现场总线协议标准。1996年施耐德公司推出基于以太…...

Docker容器引擎

1、Docker是什么。 Docker是在Linux容器里运行应用的开源工具,是一种轻量级的"虚拟机"。Docker的logo设计为蓝色鲸鱼,拖着许多集装箱。鲸鱼可以看作宿主机,而集装箱可以理解为相互隔离的容器,每个集装箱中都包含自己的应…...

2.28线程

注意被抢占时是返回原队列,优先级不变。越往下优先级越小。往下没有优先级时,在最低的优先级队列里循环 到达了不一定会被服务,会进入就绪态进行等待 。核心等式就是周转时间运行时间等待时间,带权就是周转/运行, 随着…...

TCP/IP ⽹络模型

TCP/IP ⽹络模型 对于同⼀台设备上的进程间通信,有很多种⽅式,⽐如有管道、消息队列、共享内存、信号等⽅式,⽽对于不同设备上的进程间通信,就需要⽹络通信,⽽设备是多样性的,所以要兼容多种多样的设备&am…...

挑战杯推荐项目

“人工智能”创意赛 - 智能艺术创作助手:借助大模型技术,开发能根据用户输入的主题、风格等要求,生成绘画、音乐、文学作品等多种形式艺术创作灵感或初稿的应用,帮助艺术家和创意爱好者激发创意、提高创作效率。 ​ - 个性化梦境…...

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子,用于处理异步操作(如数据加载)中的错误。下面我将详细解释其用途并提供代码示例。 一、useAsyncError 用途 处理异步错误:捕获在 loader 或 action 中发生的异步错误替…...

【入坑系列】TiDB 强制索引在不同库下不生效问题

文章目录 背景SQL 优化情况线上SQL运行情况分析怀疑1:执行计划绑定问题?尝试:SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景 项目中使用 TiDB 数据库,并对 SQL 进行优化了,添加了强制索引。 UAT 环境已经生效,但 PROD 环境强制索…...

java 实现excel文件转pdf | 无水印 | 无限制

文章目录 目录 文章目录 前言 1.项目远程仓库配置 2.pom文件引入相关依赖 3.代码破解 二、Excel转PDF 1.代码实现 2.Aspose.License.xml 授权文件 总结 前言 java处理excel转pdf一直没找到什么好用的免费jar包工具,自己手写的难度,恐怕高级程序员花费一年的事件,也…...

使用van-uploader 的UI组件,结合vue2如何实现图片上传组件的封装

以下是基于 vant-ui&#xff08;适配 Vue2 版本 &#xff09;实现截图中照片上传预览、删除功能&#xff0c;并封装成可复用组件的完整代码&#xff0c;包含样式和逻辑实现&#xff0c;可直接在 Vue2 项目中使用&#xff1a; 1. 封装的图片上传组件 ImageUploader.vue <te…...

相机从app启动流程

一、流程框架图 二、具体流程分析 1、得到cameralist和对应的静态信息 目录如下: 重点代码分析: 启动相机前,先要通过getCameraIdList获取camera的个数以及id,然后可以通过getCameraCharacteristics获取对应id camera的capabilities(静态信息)进行一些openCamera前的…...

Rapidio门铃消息FIFO溢出机制

关于RapidIO门铃消息FIFO的溢出机制及其与中断抖动的关系&#xff0c;以下是深入解析&#xff1a; 门铃FIFO溢出的本质 在RapidIO系统中&#xff0c;门铃消息FIFO是硬件控制器内部的缓冲区&#xff0c;用于临时存储接收到的门铃消息&#xff08;Doorbell Message&#xff09;。…...

html-<abbr> 缩写或首字母缩略词

定义与作用 <abbr> 标签用于表示缩写或首字母缩略词&#xff0c;它可以帮助用户更好地理解缩写的含义&#xff0c;尤其是对于那些不熟悉该缩写的用户。 title 属性的内容提供了缩写的详细说明。当用户将鼠标悬停在缩写上时&#xff0c;会显示一个提示框。 示例&#x…...

AirSim/Cosys-AirSim 游戏开发(四)外部固定位置监控相机

这个博客介绍了如何通过 settings.json 文件添加一个无人机外的 固定位置监控相机&#xff0c;因为在使用过程中发现 Airsim 对外部监控相机的描述模糊&#xff0c;而 Cosys-Airsim 在官方文档中没有提供外部监控相机设置&#xff0c;最后在源码示例中找到了&#xff0c;所以感…...

pikachu靶场通关笔记19 SQL注入02-字符型注入(GET)

目录 一、SQL注入 二、字符型SQL注入 三、字符型注入与数字型注入 四、源码分析 五、渗透实战 1、渗透准备 2、SQL注入探测 &#xff08;1&#xff09;输入单引号 &#xff08;2&#xff09;万能注入语句 3、获取回显列orderby 4、获取数据库名database 5、获取表名…...