预防GPT-3和其他复杂语言模型中的“幻觉”
标题:预防GPT-3和其他复杂语言模型中的“幻觉”
正文:
“假新闻”的一个显著特征是它经常在事实正确信息的环境中呈现虚假信息,通过一种文学渗透的方式,使不真实的数据获得感知权威,这是半真半假力量令人担忧的展示。
像GPT-3这样复杂的生成自然语言处理(NLP)模型也倾向于“幻觉”这种欺骗性数据。部分原因在于,语言模型需要能够重写和总结长篇且常常错综复杂的文本,而没有能够定义、封装和“密封”事件和事实的架构约束,以保护它们免受语义重构过程的影响。
因此,对于NLP模型来说,事实并非神圣不可侵犯;在复杂语法或深奥的源材料使离散实体与语言结构难以分离的情况下,它们很容易被当作“语义乐高积木”来处理。
观察发现,复杂的语言模型如GPT-3可能会被曲折表达的源材料所迷惑。来源:使用深度强化学习进行释义生成
这个问题从基于文本的机器学习蔓延到计算机视觉研究,特别是在利用语义区分来识别或描述对象的领域。
“幻觉”和“不准确”的美容性重新解释也影响计算机视觉研究。
在GPT-3的情况下,当模型对已经回答过的问题反复提问时,它可能会感到沮丧。在最好的情况下,它会承认失败:
我最近对GPT-3的基本达芬奇引擎进行的一项实验。模型在第一次尝试时得到了正确的答案,但在第二次被问及同样的问题时感到困惑。由于它保留了之前答案的短期记忆,并将重复的问题视为对该答案的拒绝,因此它承认失败。来源:https://www.scalr.ai/post/business-applications-for-gpt-3
达芬奇和达芬奇指导(测试版)在这方面比其他通过API可用的GPT-3模型做得更好。在这里,Curie模型给出了错误的答案,而Babbage模型在同样错误的答案上自信地扩展:
爱因斯坦从未说过的话
当向GPT-3达芬奇指导引擎(目前似乎是最有能力的)征求爱因斯坦的名言“上帝不与宇宙掷骰子”时,达芬奇指导未能找到这句名言,而是发明了一句非名言,并在类似的查询中继续“幻觉”出另外三句相对可信且完全不存在的名言(无论是爱因斯坦还是其他人的):
GPT-3产生了四句爱因斯坦的名言,但在全文互联网搜索中没有任何结果,尽管其中一些触发了爱因斯坦关于“想象力”的其他(真实)名言。
如果GPT-3在引用名言时一直出错,那么程序化地排除这些幻觉会更容易。然而,名言越分散和著名,GPT-3就越有可能正确地引用名言:
GPT-3显然在名言在贡献数据中表现良好时能够找到正确的名言。
第二个问题可能出现在GPT-3的会话历史数据渗入新问题时:
爱因斯坦可能会对这句名言归因于他感到震惊。这句名言似乎是对温斯顿·丘吉尔名言的荒谬“幻觉”。GPT-3会话中的上一个问题是关于丘吉尔(而不是爱因斯坦),GPT-3似乎错误地使用了这个会话令牌来提供答案。
经济地解决“幻觉”问题
“幻觉”是采用复杂NLP模型作为研究工具的一个显著障碍——尤其是当这些引擎的输出高度抽象于形成它的源材料时,建立名言和事实的真实性变得困难。
因此,NLP当前的一个普遍研究挑战是建立一种方法来识别幻觉文本,而无需想象全新的NLP模型,这些模型将事实作为离散实体进行整合、定义和验证(这是许多更广泛的计算机研究领域的长期、独立目标)。
识别和生成幻觉内容
卡内基梅隆大学和Facebook AI研究之间的一项新合作提供了一种解决幻觉问题的新方法,通过制定一种方法来识别幻觉输出,并使用合成幻觉文本创建一个数据集,该数据集可以作为未来过滤器和机制的基线,这些过滤器可能会成为NLP架构的核心部分。
来源:https://arxiv.org/pdf/2011.02593.pdf
在上图中,源材料已经按单词进行了分割,其中“0”标签分配给正确的单词,“1”标签分配给幻觉单词。下面我们看到一个与输入信息相关但被非真实数据增强的幻觉输出的例子。
该系统使用了一个预训练的去噪自动编码器,能够将一个幻觉字符串映射回产生其损坏版本的原始文本(类似于我上面的例子,其中互联网搜索揭示了虚假名言的来源,但具有程序化和自动化的语义方法)。具体来说,Facebook的BART自动编码器模型被用来产生损坏的句子。
标签分配。
将幻觉映射回源的过程,这在普通的高级NLP模型中是不可能的,允许映射“编辑距离”,并促进算法方法来识别幻觉内容。
研究人员发现,即使系统在训练期间没有访问到参考材料,它也能很好地推广,这表明概念模型是健全且广泛可复制的。
防止过度拟合
为了避免过度拟合并达到广泛可部署的架构,研究人员随机从过程中删除令牌,并使用释义和其他噪声函数。
机器翻译(MT)也是这个混淆过程的一部分,因为跨语言翻译文本很可能会强有力地保留意义,并进一步防止过度拟合。因此,该项目通过双语发言人在手动注释层中翻译和识别幻觉。
该倡议在许多标准部门测试中取得了新的最佳结果,并且是第一个在使用超过1000万个令牌的数据时取得可接受结果的项目。
该项目的代码,题为“检测条件神经序列生成中的幻觉内容”,已在GitHub上发布,允许用户使用BART从任何文本语料库生成他们自己的合成数据。还提供了生成幻觉检测模型的后续步骤。
相关文章:
预防GPT-3和其他复杂语言模型中的“幻觉”
标题:预防GPT-3和其他复杂语言模型中的“幻觉” 正文: “假新闻”的一个显著特征是它经常在事实正确信息的环境中呈现虚假信息,通过一种文学渗透的方式,使不真实的数据获得感知权威,这是半真半假力量令人担忧的展示。…...
从源码解析AQS
前置概念 要彻底了解AQS的底层实现就必须要了解一下线程相关的知识。 包括voliatevoliate 我们使用翻译软件翻译一下volatile,会发现它有以下几个意思:易变的;无定性的;无常性的;可能急剧波动的;不稳定的;易恶化的;易挥发的;易发散的。这也正式使用vola…...
基于Spring Boot的云上水果超市的设计与实现
摘 要 伴随着我国社会的发展,人民生活质量日益提高。于是对云上水果超市进行规范而严格是十分有必要的,所以许许多多的信息管理系统应运而生。此时单靠人力应对这些事务就显得有些力不从心了。所以本论文将设计一套云上水果超市,帮助商家进行…...
游戏引擎中的动画基础
一、动画技术简介 视觉残留理论 - 影像在我们的视网膜上残留1/24s。 游戏中动画面临的挑战: 交互:游戏中的玩家动画需要和场景中的物体进行交互。实时:最慢需要在1/30秒内算完所有的场景渲染和动画数据。(可以用动画压缩解决&am…...
springboot3快速入门案例2024最新版
前边 springboot3 系统要求 技术&工具版本(or later)maven3.6.3 or later 3.6.3 或更高版本Tomcat10.0Servlet9.0JDK17 SpringBoot的主要目标是: 为所有 Spring 开发提供更快速、可广泛访问的入门体验。开箱即用,设置合理的…...
软考 系统架构设计师系列知识点之系统性能(1)
所属章节: 第2章. 计算机系统基础知识 第9节. 系统性能 系统性能是一个系统提供给用户的所有性能指标的集合。它既包括硬件性能(如处理器主频、存储器容量、通信带宽等)和软件性能(如上下文切换、延迟、执行时间等)&a…...
Trent-FPGA硬件设计课程
本课程涵盖FPGA硬件设计的基础概念和实践应用。学生将学习Verilog语言编程、数字电路设计原理、FPGA架构和开发工具的使用。通过项目实践,掌握FPGA设计流程和调试技巧,为硬件加速和嵌入式系统开发打下坚实基础。 课程大小:4.3G 课程下载&am…...
【大模型学习记录】db-gpt源码安装问题汇总
1、首次源码安装时安装的其实dbgpt到conda环境中,会将路径一起安装。 如果有其他的路径使用同样的conda环境会报错,一直读取的就是原先的路径的内容。需要自己新创建一个conda env 2、界面中配置知识库问答时,报错 # 1、报的错如下&#x…...
QB PHP 多语言配置
1: 下载QBfast .exe 的文件 2: 安装的时候 ,一定点击 仅为我 安装 而不是 所有人 3: 如果提示 更新就 更新 , 安装如2 4: 如果遇到 新增 或者编辑已经 配置的项目时 不起作用 : 右…...
Kubernetes实战(三十一)-使用开源CEPH作为后端StorageClass
1 引言 K8S在1.13版本开始支持使用Ceph作为StorageClass。其中云原生存储Rook和开源Ceph应用都非常广泛。本文主要介绍K8S如何对接开源Ceph使用RBD卷。 K8S对接Ceph的技术栈如下图所示。K8S主要通过容器存储接口CSI和Ceph进行交互。 Ceph官方文档:Block Devices a…...
【Python爬虫】详解BeautifulSoup()及其方法
文章目录 🍔准备工作🌹BeautifulSoup()⭐代码实现✨打印标签里面的内容✨快速拿到一个标签里的属性✨打印整个文档🎆获取特定标签的特定内容 🌹查找标签🎈在文档查找标签 find_all🎈正则表达式搜索 &#x…...
C语言经典算法-8
文章目录 其他经典例题跳转链接41.基数排序法42.循序搜寻法(使用卫兵)43.二分搜寻法(搜寻原则的代表)44.插补搜寻法45.费氏搜寻法 其他经典例题跳转链接 C语言经典算法-1 1.汉若塔 2. 费式数列 3. 巴斯卡三角形 4. 三色棋 5. 老鼠…...
Panasonic松下PLC如何数据采集?如何实现快速接入IIOT云平台?
在工业自动化领域,数据采集与远程控制是提升生产效率、优化资源配置的关键环节。对于使用Panasonic松下PLC的用户来说,如何实现高效、稳定的数据采集,并快速接入IIOT云平台,是摆在他们面前的重要课题。HiWoo Box工业物联网关以其强…...
高性能 MySQL 第四版(GPT 重译)(四)
第十一章:扩展 MySQL 在个人项目中运行 MySQL,甚至在年轻公司中运行 MySQL,与在市��已经建立并且“呈现指数增长”业务中运行 MySQL 大不相同。在高速业务环境中,流量可能每年增长数倍,环境变得…...
整型数组按个位值排序 - 华为OD统一考试(C卷)
OD统一考试(C卷) 分值: 100分 题解: Java / Python / C 题目描述 给定一个非空数组(列表),其元素数据类型为整型,请按照数组元素十进制最低位从小到大进行排序,十进制最低位相同的元素…...
【React】Diff算法
1. React15 Diff算法(递归进行) 一句话概括:新虚拟DOM和旧虚拟DOM对比,找出差异,根据差异更新真实DOM Diff过程描述: 1. 树比较(DOM) 同层节点之间相互比较,不会跨层级比较。(当发现…...
【物联网】Modbus 协议及应用
Modbus 协议简介 QingHub设计器在设计物联网数据采集时不可避免的需要针对Modbus协议的设备做相关数据采集,这里就我们的实际项目经验分享Modbus协议 简介 Modbus由MODICON公司于1979年开发,是一种工业现场总线协议标准。1996年施耐德公司推出基于以太…...
Docker容器引擎
1、Docker是什么。 Docker是在Linux容器里运行应用的开源工具,是一种轻量级的"虚拟机"。Docker的logo设计为蓝色鲸鱼,拖着许多集装箱。鲸鱼可以看作宿主机,而集装箱可以理解为相互隔离的容器,每个集装箱中都包含自己的应…...
2.28线程
注意被抢占时是返回原队列,优先级不变。越往下优先级越小。往下没有优先级时,在最低的优先级队列里循环 到达了不一定会被服务,会进入就绪态进行等待 。核心等式就是周转时间运行时间等待时间,带权就是周转/运行, 随着…...
TCP/IP ⽹络模型
TCP/IP ⽹络模型 对于同⼀台设备上的进程间通信,有很多种⽅式,⽐如有管道、消息队列、共享内存、信号等⽅式,⽽对于不同设备上的进程间通信,就需要⽹络通信,⽽设备是多样性的,所以要兼容多种多样的设备&am…...
网络六边形受到攻击
大家读完觉得有帮助记得关注和点赞!!! 抽象 现代智能交通系统 (ITS) 的一个关键要求是能够以安全、可靠和匿名的方式从互联车辆和移动设备收集地理参考数据。Nexagon 协议建立在 IETF 定位器/ID 分离协议 (…...
python打卡day49
知识点回顾: 通道注意力模块复习空间注意力模块CBAM的定义 作业:尝试对今天的模型检查参数数目,并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...
【Java学习笔记】Arrays类
Arrays 类 1. 导入包:import java.util.Arrays 2. 常用方法一览表 方法描述Arrays.toString()返回数组的字符串形式Arrays.sort()排序(自然排序和定制排序)Arrays.binarySearch()通过二分搜索法进行查找(前提:数组是…...
通过Wrangler CLI在worker中创建数据库和表
官方使用文档:Getting started Cloudflare D1 docs 创建数据库 在命令行中执行完成之后,会在本地和远程创建数据库: npx wranglerlatest d1 create prod-d1-tutorial 在cf中就可以看到数据库: 现在,您的Cloudfla…...
Java如何权衡是使用无序的数组还是有序的数组
在 Java 中,选择有序数组还是无序数组取决于具体场景的性能需求与操作特点。以下是关键权衡因素及决策指南: ⚖️ 核心权衡维度 维度有序数组无序数组查询性能二分查找 O(log n) ✅线性扫描 O(n) ❌插入/删除需移位维护顺序 O(n) ❌直接操作尾部 O(1) ✅内存开销与无序数组相…...
【第二十一章 SDIO接口(SDIO)】
第二十一章 SDIO接口 目录 第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...
MySQL中【正则表达式】用法
MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现(两者等价),用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例: 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...
SpringTask-03.入门案例
一.入门案例 启动类: package com.sky;import lombok.extern.slf4j.Slf4j; import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; import org.springframework.cache.annotation.EnableCach…...
【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪 宝可梦GO游戏自组网系统
目录 游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性 宝可梦玩法融合设计游戏构想要素1. 地图探索(基于物理空间 广播范围)2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法 安全性设计 技术选…...
什么是Ansible Jinja2
理解 Ansible Jinja2 模板 Ansible 是一款功能强大的开源自动化工具,可让您无缝地管理和配置系统。Ansible 的一大亮点是它使用 Jinja2 模板,允许您根据变量数据动态生成文件、配置设置和脚本。本文将向您介绍 Ansible 中的 Jinja2 模板,并通…...
