预防GPT-3和其他复杂语言模型中的“幻觉”
标题:预防GPT-3和其他复杂语言模型中的“幻觉”
正文:
“假新闻”的一个显著特征是它经常在事实正确信息的环境中呈现虚假信息,通过一种文学渗透的方式,使不真实的数据获得感知权威,这是半真半假力量令人担忧的展示。
像GPT-3这样复杂的生成自然语言处理(NLP)模型也倾向于“幻觉”这种欺骗性数据。部分原因在于,语言模型需要能够重写和总结长篇且常常错综复杂的文本,而没有能够定义、封装和“密封”事件和事实的架构约束,以保护它们免受语义重构过程的影响。
因此,对于NLP模型来说,事实并非神圣不可侵犯;在复杂语法或深奥的源材料使离散实体与语言结构难以分离的情况下,它们很容易被当作“语义乐高积木”来处理。
观察发现,复杂的语言模型如GPT-3可能会被曲折表达的源材料所迷惑。来源:使用深度强化学习进行释义生成
这个问题从基于文本的机器学习蔓延到计算机视觉研究,特别是在利用语义区分来识别或描述对象的领域。
“幻觉”和“不准确”的美容性重新解释也影响计算机视觉研究。
在GPT-3的情况下,当模型对已经回答过的问题反复提问时,它可能会感到沮丧。在最好的情况下,它会承认失败:
我最近对GPT-3的基本达芬奇引擎进行的一项实验。模型在第一次尝试时得到了正确的答案,但在第二次被问及同样的问题时感到困惑。由于它保留了之前答案的短期记忆,并将重复的问题视为对该答案的拒绝,因此它承认失败。来源:https://www.scalr.ai/post/business-applications-for-gpt-3
达芬奇和达芬奇指导(测试版)在这方面比其他通过API可用的GPT-3模型做得更好。在这里,Curie模型给出了错误的答案,而Babbage模型在同样错误的答案上自信地扩展:
爱因斯坦从未说过的话
当向GPT-3达芬奇指导引擎(目前似乎是最有能力的)征求爱因斯坦的名言“上帝不与宇宙掷骰子”时,达芬奇指导未能找到这句名言,而是发明了一句非名言,并在类似的查询中继续“幻觉”出另外三句相对可信且完全不存在的名言(无论是爱因斯坦还是其他人的):
GPT-3产生了四句爱因斯坦的名言,但在全文互联网搜索中没有任何结果,尽管其中一些触发了爱因斯坦关于“想象力”的其他(真实)名言。
如果GPT-3在引用名言时一直出错,那么程序化地排除这些幻觉会更容易。然而,名言越分散和著名,GPT-3就越有可能正确地引用名言:
GPT-3显然在名言在贡献数据中表现良好时能够找到正确的名言。
第二个问题可能出现在GPT-3的会话历史数据渗入新问题时:
爱因斯坦可能会对这句名言归因于他感到震惊。这句名言似乎是对温斯顿·丘吉尔名言的荒谬“幻觉”。GPT-3会话中的上一个问题是关于丘吉尔(而不是爱因斯坦),GPT-3似乎错误地使用了这个会话令牌来提供答案。
经济地解决“幻觉”问题
“幻觉”是采用复杂NLP模型作为研究工具的一个显著障碍——尤其是当这些引擎的输出高度抽象于形成它的源材料时,建立名言和事实的真实性变得困难。
因此,NLP当前的一个普遍研究挑战是建立一种方法来识别幻觉文本,而无需想象全新的NLP模型,这些模型将事实作为离散实体进行整合、定义和验证(这是许多更广泛的计算机研究领域的长期、独立目标)。
识别和生成幻觉内容
卡内基梅隆大学和Facebook AI研究之间的一项新合作提供了一种解决幻觉问题的新方法,通过制定一种方法来识别幻觉输出,并使用合成幻觉文本创建一个数据集,该数据集可以作为未来过滤器和机制的基线,这些过滤器可能会成为NLP架构的核心部分。
来源:https://arxiv.org/pdf/2011.02593.pdf
在上图中,源材料已经按单词进行了分割,其中“0”标签分配给正确的单词,“1”标签分配给幻觉单词。下面我们看到一个与输入信息相关但被非真实数据增强的幻觉输出的例子。
该系统使用了一个预训练的去噪自动编码器,能够将一个幻觉字符串映射回产生其损坏版本的原始文本(类似于我上面的例子,其中互联网搜索揭示了虚假名言的来源,但具有程序化和自动化的语义方法)。具体来说,Facebook的BART自动编码器模型被用来产生损坏的句子。
标签分配。
将幻觉映射回源的过程,这在普通的高级NLP模型中是不可能的,允许映射“编辑距离”,并促进算法方法来识别幻觉内容。
研究人员发现,即使系统在训练期间没有访问到参考材料,它也能很好地推广,这表明概念模型是健全且广泛可复制的。
防止过度拟合
为了避免过度拟合并达到广泛可部署的架构,研究人员随机从过程中删除令牌,并使用释义和其他噪声函数。
机器翻译(MT)也是这个混淆过程的一部分,因为跨语言翻译文本很可能会强有力地保留意义,并进一步防止过度拟合。因此,该项目通过双语发言人在手动注释层中翻译和识别幻觉。
该倡议在许多标准部门测试中取得了新的最佳结果,并且是第一个在使用超过1000万个令牌的数据时取得可接受结果的项目。
该项目的代码,题为“检测条件神经序列生成中的幻觉内容”,已在GitHub上发布,允许用户使用BART从任何文本语料库生成他们自己的合成数据。还提供了生成幻觉检测模型的后续步骤。
相关文章:
预防GPT-3和其他复杂语言模型中的“幻觉”
标题:预防GPT-3和其他复杂语言模型中的“幻觉” 正文: “假新闻”的一个显著特征是它经常在事实正确信息的环境中呈现虚假信息,通过一种文学渗透的方式,使不真实的数据获得感知权威,这是半真半假力量令人担忧的展示。…...
从源码解析AQS
前置概念 要彻底了解AQS的底层实现就必须要了解一下线程相关的知识。 包括voliatevoliate 我们使用翻译软件翻译一下volatile,会发现它有以下几个意思:易变的;无定性的;无常性的;可能急剧波动的;不稳定的;易恶化的;易挥发的;易发散的。这也正式使用vola…...

基于Spring Boot的云上水果超市的设计与实现
摘 要 伴随着我国社会的发展,人民生活质量日益提高。于是对云上水果超市进行规范而严格是十分有必要的,所以许许多多的信息管理系统应运而生。此时单靠人力应对这些事务就显得有些力不从心了。所以本论文将设计一套云上水果超市,帮助商家进行…...

游戏引擎中的动画基础
一、动画技术简介 视觉残留理论 - 影像在我们的视网膜上残留1/24s。 游戏中动画面临的挑战: 交互:游戏中的玩家动画需要和场景中的物体进行交互。实时:最慢需要在1/30秒内算完所有的场景渲染和动画数据。(可以用动画压缩解决&am…...

springboot3快速入门案例2024最新版
前边 springboot3 系统要求 技术&工具版本(or later)maven3.6.3 or later 3.6.3 或更高版本Tomcat10.0Servlet9.0JDK17 SpringBoot的主要目标是: 为所有 Spring 开发提供更快速、可广泛访问的入门体验。开箱即用,设置合理的…...

软考 系统架构设计师系列知识点之系统性能(1)
所属章节: 第2章. 计算机系统基础知识 第9节. 系统性能 系统性能是一个系统提供给用户的所有性能指标的集合。它既包括硬件性能(如处理器主频、存储器容量、通信带宽等)和软件性能(如上下文切换、延迟、执行时间等)&a…...

Trent-FPGA硬件设计课程
本课程涵盖FPGA硬件设计的基础概念和实践应用。学生将学习Verilog语言编程、数字电路设计原理、FPGA架构和开发工具的使用。通过项目实践,掌握FPGA设计流程和调试技巧,为硬件加速和嵌入式系统开发打下坚实基础。 课程大小:4.3G 课程下载&am…...
【大模型学习记录】db-gpt源码安装问题汇总
1、首次源码安装时安装的其实dbgpt到conda环境中,会将路径一起安装。 如果有其他的路径使用同样的conda环境会报错,一直读取的就是原先的路径的内容。需要自己新创建一个conda env 2、界面中配置知识库问答时,报错 # 1、报的错如下&#x…...

QB PHP 多语言配置
1: 下载QBfast .exe 的文件 2: 安装的时候 ,一定点击 仅为我 安装 而不是 所有人 3: 如果提示 更新就 更新 , 安装如2 4: 如果遇到 新增 或者编辑已经 配置的项目时 不起作用 : 右…...

Kubernetes实战(三十一)-使用开源CEPH作为后端StorageClass
1 引言 K8S在1.13版本开始支持使用Ceph作为StorageClass。其中云原生存储Rook和开源Ceph应用都非常广泛。本文主要介绍K8S如何对接开源Ceph使用RBD卷。 K8S对接Ceph的技术栈如下图所示。K8S主要通过容器存储接口CSI和Ceph进行交互。 Ceph官方文档:Block Devices a…...

【Python爬虫】详解BeautifulSoup()及其方法
文章目录 🍔准备工作🌹BeautifulSoup()⭐代码实现✨打印标签里面的内容✨快速拿到一个标签里的属性✨打印整个文档🎆获取特定标签的特定内容 🌹查找标签🎈在文档查找标签 find_all🎈正则表达式搜索 &#x…...

C语言经典算法-8
文章目录 其他经典例题跳转链接41.基数排序法42.循序搜寻法(使用卫兵)43.二分搜寻法(搜寻原则的代表)44.插补搜寻法45.费氏搜寻法 其他经典例题跳转链接 C语言经典算法-1 1.汉若塔 2. 费式数列 3. 巴斯卡三角形 4. 三色棋 5. 老鼠…...

Panasonic松下PLC如何数据采集?如何实现快速接入IIOT云平台?
在工业自动化领域,数据采集与远程控制是提升生产效率、优化资源配置的关键环节。对于使用Panasonic松下PLC的用户来说,如何实现高效、稳定的数据采集,并快速接入IIOT云平台,是摆在他们面前的重要课题。HiWoo Box工业物联网关以其强…...

高性能 MySQL 第四版(GPT 重译)(四)
第十一章:扩展 MySQL 在个人项目中运行 MySQL,甚至在年轻公司中运行 MySQL,与在市��已经建立并且“呈现指数增长”业务中运行 MySQL 大不相同。在高速业务环境中,流量可能每年增长数倍,环境变得…...

整型数组按个位值排序 - 华为OD统一考试(C卷)
OD统一考试(C卷) 分值: 100分 题解: Java / Python / C 题目描述 给定一个非空数组(列表),其元素数据类型为整型,请按照数组元素十进制最低位从小到大进行排序,十进制最低位相同的元素…...
【React】Diff算法
1. React15 Diff算法(递归进行) 一句话概括:新虚拟DOM和旧虚拟DOM对比,找出差异,根据差异更新真实DOM Diff过程描述: 1. 树比较(DOM) 同层节点之间相互比较,不会跨层级比较。(当发现…...

【物联网】Modbus 协议及应用
Modbus 协议简介 QingHub设计器在设计物联网数据采集时不可避免的需要针对Modbus协议的设备做相关数据采集,这里就我们的实际项目经验分享Modbus协议 简介 Modbus由MODICON公司于1979年开发,是一种工业现场总线协议标准。1996年施耐德公司推出基于以太…...
Docker容器引擎
1、Docker是什么。 Docker是在Linux容器里运行应用的开源工具,是一种轻量级的"虚拟机"。Docker的logo设计为蓝色鲸鱼,拖着许多集装箱。鲸鱼可以看作宿主机,而集装箱可以理解为相互隔离的容器,每个集装箱中都包含自己的应…...

2.28线程
注意被抢占时是返回原队列,优先级不变。越往下优先级越小。往下没有优先级时,在最低的优先级队列里循环 到达了不一定会被服务,会进入就绪态进行等待 。核心等式就是周转时间运行时间等待时间,带权就是周转/运行, 随着…...

TCP/IP ⽹络模型
TCP/IP ⽹络模型 对于同⼀台设备上的进程间通信,有很多种⽅式,⽐如有管道、消息队列、共享内存、信号等⽅式,⽽对于不同设备上的进程间通信,就需要⽹络通信,⽽设备是多样性的,所以要兼容多种多样的设备&am…...

边缘计算医疗风险自查APP开发方案
核心目标:在便携设备(智能手表/家用检测仪)部署轻量化疾病预测模型,实现低延迟、隐私安全的实时健康风险评估。 一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...

STM32F4基本定时器使用和原理详解
STM32F4基本定时器使用和原理详解 前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

MMaDA: Multimodal Large Diffusion Language Models
CODE : https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA,它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构…...
Java 加密常用的各种算法及其选择
在数字化时代,数据安全至关重要,Java 作为广泛应用的编程语言,提供了丰富的加密算法来保障数据的保密性、完整性和真实性。了解这些常用加密算法及其适用场景,有助于开发者在不同的业务需求中做出正确的选择。 一、对称加密算法…...
TRS收益互换:跨境资本流动的金融创新工具与系统化解决方案
一、TRS收益互换的本质与业务逻辑 (一)概念解析 TRS(Total Return Swap)收益互换是一种金融衍生工具,指交易双方约定在未来一定期限内,基于特定资产或指数的表现进行现金流交换的协议。其核心特征包括&am…...
AI编程--插件对比分析:CodeRider、GitHub Copilot及其他
AI编程插件对比分析:CodeRider、GitHub Copilot及其他 随着人工智能技术的快速发展,AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者,分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...

day36-多路IO复用
一、基本概念 (服务器多客户端模型) 定义:单线程或单进程同时监测若干个文件描述符是否可以执行IO操作的能力 作用:应用程序通常需要处理来自多条事件流中的事件,比如我现在用的电脑,需要同时处理键盘鼠标…...

什么是VR全景技术
VR全景技术,全称为虚拟现实全景技术,是通过计算机图像模拟生成三维空间中的虚拟世界,使用户能够在该虚拟世界中进行全方位、无死角的观察和交互的技术。VR全景技术模拟人在真实空间中的视觉体验,结合图文、3D、音视频等多媒体元素…...
0x-3-Oracle 23 ai-sqlcl 25.1 集成安装-配置和优化
是不是受够了安装了oracle database之后sqlplus的简陋,无法删除无法上下翻页的苦恼。 可以安装readline和rlwrap插件的话,配置.bahs_profile后也能解决上下翻页这些,但是很多生产环境无法安装rpm包。 oracle提供了sqlcl免费许可,…...
comfyui 工作流中 图生视频 如何增加视频的长度到5秒
comfyUI 工作流怎么可以生成更长的视频。除了硬件显存要求之外还有别的方法吗? 在ComfyUI中实现图生视频并延长到5秒,需要结合多个扩展和技巧。以下是完整解决方案: 核心工作流配置(24fps下5秒120帧) #mermaid-svg-yP…...