当前位置: 首页 > news >正文

ANAH数据集- 大模型幻觉细粒度评估工具

       大型语言模型(LLMs)在各种自然语言处理任务中取得了显著的性能提升。然而,它们在回答用户问题时仍面临一个令人担忧的问题,即幻觉,它们会产生听起来合理但不符合事实或无意义的信息,尤其是当问题需要大量知识时。鉴于LLMs生成的回应的流畅性和说服力,检测它们的幻觉变得越来越困难。这样的挑战阻碍了对LLM幻觉的深入分析和减少,并导致随着用户群的扩大和现实世界应用的增多,误导性信息的广泛传播。

      最近为LLMs提出的基准测试只是将整个响应是否包含幻觉进行分类,没有解释和参考。这种粗糙的性质使得很难追踪幻觉的确切触发因素,阻碍了进一步减轻幻觉的措施。因此,我们建立了一个新的大规模中英文基准测试,名为ANAH,它评估LLMs在基于知识的生成性问答场景中逐句注释LLMs幻觉的能力。与仅以结果为导向的方法不同,我们的方法促使模型对每个问题的答案进行注释,包括检索参考片段、判断幻觉类型(无/矛盾/无法验证的幻觉和无事实),如果存在幻觉,则根据参考片段纠正句子如下图:

1、数据集的构建

ANAH数据集的建立包含四个阶段

1.1 主题选择和参考资料检索

初始阶段涉及从知识密集型数据集中选择主题和相应的参考资料。为确保信息的多元化和广泛性,我们的主题选择被归类为名人、事件、地点和事物涵盖了包括政治军事、艺术、科学技术、宗教等多个领域。主题是基于它们通过Google Ngram Viewer的出现频率来精心挑选的,因为更频繁出现且公众感兴趣的主题对LLMs的实际应用更为重要

1.2 问题生成与选择

根据特定主题的参考资料生成和选择几个问题。为增加数据未被见过且未被污染的可能性,我们创建新问题而不是重新利用现有数据集。这些问题被设计为可以完全基于提供的参考资料来回答,避免过于主观或开放式。为确保问题多样性和可理解性,它们旨在涵盖不同类型,如“什么”、“何时”、“何地”、“为什么”等,以及不同视角,如描述、解释、原因等,涵盖信息的所有方面。问题还涉及不同知识层次,从基础、通用知识到更复杂、专业化的知识或特定领域的专业知识。

使用GPT-4从上述候选问题中选择前三名问题,考虑以下特征:

  • 高真实性:问题避免任何故意误导、含糊或虚假信息。
  • 高可答性:表现出过度主观性、争议性或预测性的问题被排除。
  • 难度适中:保证一定难度水平。
  • 高多样性:在类型、复杂度、知识深度等方面增强整体多样性,排除相似问题。

1.3 答案生成

我们使用GPT-3.5带参考文档构建高质量答案,以及不带参考的早期版本的InternLM-7B生成低质量答案。这样的设计允许我们全面评估LLMs在不同场景下的幻觉注释能力。

1.4 细粒度幻觉注释

为注释者提供特定主题的文档和相关问题。对于每个答案句子,完整的注释包括找到确切相关的参考片段、评估幻觉类型,并相应地纠正幻觉。

为减少大量的时间和人力,并保持准确性,我们采用GPT-4进行初步注释,然后由人工注释者进行验证和完善。

2、幻觉标注

查找参考片段:注释者需要在提供的文档中找到与答案句子直接相关的参考片段。

评估幻觉类型:基于找到的参考片段,对答案句子进行幻觉类型的评估。幻觉类型分为以下几种:

  • 无幻觉(No Hallucination):如果句子包含的事实信息与参考文档一致,且注释者能够找到具体的参考片段,则将该句子的幻觉类型标记为“无幻觉”。
  • 矛盾幻觉(Contradictory Hallucination):如果答案句子与参考文档相矛盾,需要标记为“矛盾幻觉”,并提供具体的参考片段以及对答案进行修正的建议。
  • 无法验证的幻觉(Unverifiable Hallucination):如果答案句子缺乏支持证据,无法在参考文档中找到验证,则将其标记为“无法验证的幻觉”,并提供修正建议。
  • 无事实(No Fact):如果句子中没有包含可供评估的事实信息,则将其归类为“无事实”,并且不需要进一步的注释。

纠正幻觉:在评估了幻觉类型之后,需要根据参考片段对存在幻觉的答案句子进行相应的纠正。这包括提出修改建议,如何将包含幻觉的内容更改为与参考文档一致或可验证的信息。

3、实验与结论

3.1 实验细节

3.1.1 数据分割

ANAH数据集被分为训练集和测试集。为了研究注释器的泛化方向和数据集规模,我们进一步将测试集均等地划分为未见过话题(unseen-topic)和未见过问题(unseen-question)两个组。在未见过话题测试集中,话题及其相关的参考资料、问题和答案在训练期间未被暴露。在未见过问题测试集中,话题在训练期间已被暴露,但问题未被暴露。

3.1.2 实验设置

使用了不同的数据分割和评估设置,以评估模型在不同情况下的性能。例如,考虑了在训练中使用单一任务与多任务设置的影响,以及在测试中引入指令扰动(即测试指令与训练中未见过的指令)的影响。

3.1.3 评估模型

评估了多种不同大小的预训练语言模型,包括但不限于GPT-3.5、GPT-4、Qwen-7B、Baichuan2-7B、Llama2-7B等,以及在ANAH数据集上训练的模型

3.1.4 评估指标

  • F1 分数: 用于评估标注器预测的幻觉类型与人工标注的一致性。
  • 准确率 (ACC): 用于评估标注器识别幻觉类型的能力。
  • RougeL: 用于评估生成式标注器预测的参考片段与人工标注的参考片段在语法、连贯性、顺序和语义方面的相似度。
  • BERTScore: 用于评估生成式标注器预测的修改建议与人工标注的修改建议在语法、连贯性、顺序和语义方面的相似度。
  • n-gram 精确率: 用于评估生成式标注器预测的参考片段和修改建议是否忠实于原始文档。

3.2 结论

      在整体测试集上的结果显示,当前的开源LLMs和GPT-3.5难以按照细粒度的方式注释幻觉,而GPT-4与人类注释的一致性较高。因此,利用ANAH的训练分割来训练我们的幻觉注释器。值得注意的是,ANAH-20B模型在F1分数上达到了80.49%,在准确率上达到了81.01%,超越了开源模型,并在性能上与GPT-4相媲美,同时模型尺寸更小,来源成本更低

相关文章:

ANAH数据集- 大模型幻觉细粒度评估工具

大型语言模型(LLMs)在各种自然语言处理任务中取得了显著的性能提升。然而,它们在回答用户问题时仍面临一个令人担忧的问题,即幻觉,它们会产生听起来合理但不符合事实或无意义的信息,尤其是当问题需要大量知…...

AI前沿技术探索:智能化浪潮下的创新与应用

一、引言 随着科技的不断进步,人工智能(AI)已成为推动社会发展的重要力量。从自动驾驶汽车到智能医疗诊断,从智能家居到虚拟助手,AI技术正逐渐渗透到我们生活的方方面面。本文旨在探讨AI的前沿技术、创新应用以及未来…...

JVM类加载过程

在Java虚拟机规范中,把描述类的数据从class文件加载到内存,并对数据进行校验、转换解析和初始化,最终形成可以被虚拟机直接使用的java.lang.Class对象,这个过程被称作类加载过程。一个类在整个虚拟机周期内会经历如下图的阶段&…...

如何安装ansible

ansible安装 1、 准备环境----关闭防护墙和selinux 一般用ansible不会少于10台以上 环境: 主机:4台 一个控制节点 3个被控制节点 解析:本地互相解析(所有机器) # vim /etc/hosts 192.168.1.10 ansible-web1 192.168.1.11 ansible-web2 192.168.1.12…...

html+CSS+js部分基础运用11

一、改变新闻网页中的字号 1、设计如图1-1所示的界面,要求当网络访问者选择字号中的【大、中、小】时能实现页面字号大小变化,选择“中”时,页面效果如图1所示。 图1 单击前初始状态页面 图2 单击“中”链接后页面 2、div中内容如下&#x…...

6,串口编程———通过串口助手发送数据,控制led亮灭

//功能:串口助手每次发送数据格式:0000& // 第二个字节控制LED1亮灭 // 第三个字节控制LED2亮灭 // 第四个字节控制LED3亮灭 // 第无个字节控制LED4亮灭 //要求:代码能够一直运行,能够接收多字节数据 上节讲了串口的基本…...

【java】【python】leetcode刷题记录--栈与队列

232 用栈实现队列 题目描述 两个栈模拟队列的思路是利用栈(后进先出结构)的特性来实现队列(先进先出结构)的行为。这种方法依赖于两个栈来逆转元素的入队和出队顺序,从而实现队列的功能。 入队操作(使用s…...

java并发常见问题

1.死锁:当两个或多个线程无限期地等待对方释放锁时发生死锁。为了避免这种情况,你应该尽量减少锁定资源的时间,按顺序获取锁,并使用定时锁尝试。 2.竞态条件:当程序的行为依赖于线程的执行顺序或输入数据到达的顺序时…...

联芸科技偏高的关联交易:业绩波动性明显,海康威视曾拥有一票否决

《港湾商业观察》施子夫 5月31日,上交所上市审核委员会将召开2024年第14次审议会议,届时将审议联芸科技(杭州)股份有限公司招股书(以下简称,联芸科技)的首发上会事项。 据悉,此次系…...

hexo init命令报错:Error: EPERM: operation not permitted, mkdir ‘D:\‘

我用的是git bash通过hexo init安装hexo的,但是报错如下: $ hexo init INFO Cloning hexo-starter https://github.com/hexojs/hexo-starter.git fatal: unable to access https://github.com/hexojs/hexo-starter.git/: HTTP/2 stream 1 was not clos…...

day-37 最大正方形

思路 动态规划,这题主要得弄明白状态转换方程,dp[i][j]表示以(i,j)为右下角的最大正方形 解题方法 1.首先将第一行和第一列初始化,当对应位置的matrix为’0’时,dp数组对应位置也为零,否则为1 …...

springboot 3.3版本 类数据共享(CDS)提升启动速度 使用方法+Docker打包代码

springboot 3.3 版本已经正式发布,新版本提供了类数据共享(CDS)功能,通过将类元数据缓存在 Archive(归档/存档) 文件中,使其可以快速预加载到新启动的 JVM 中,从而帮助缩短 JVM 的启…...

Django 目录

Django 创建项目及应用-CSDN博客 Django 注册应用-CSDN博客 Django 应用的路由访问-CSDN博客 Django templates 存放html目录-CSDN博客 Django 解析路由参数-CSDN博客 Django 用re_path()方法正则匹配复杂路由-CSDN博客 Django 反向解析路由-CSDN博客 Django HttpReques…...

VirtualBox Ubuntu系统硬盘扩容

1、关闭虚拟机,找到需要扩容的硬盘,修改为新的容量80GB,应用保存。 2、打开VM,进入系统,使用lsblk可以看到硬盘容量已经变为80GB,但硬盘根分区还没有扩容,使用df查看根文件系统也没有扩容。 [19…...

【自动驾驶】针对低速无人车的线控底盘技术

目录 术语定义 一般要求 操纵装置 防护等级 识别代号 技术要求 通过性要求 直线行驶稳定性 环境适应性要求 功能安全要求 信息安全要求 故障处理要求 通信接口 在线升级(OTA) 线控驱动 动力性能 驱动控制响应能力 线控制动 行车制动 制动响应能力 线控转向 总体要求 线控…...

Kotlin 继承和实现

文章目录 前言继承(extend)实现(implement)继承与实现 前言 在 Kotlin 中,继承和实现都是在类名后使用冒号:,后边加上其他类或接口的名称来表示,二者之间写法没有太大区别(类需要加…...

MATLAB误差估计扩展卡尔博斯方法的目录大纲

MATLAB误差估计扩展卡尔博斯方法的目录大纲 目录: 一、引言 1.1 背景介绍 1.2 研究意义 二、基本理论 2.1 误差估计的基本概念 2.2 卡尔博斯方法的基本原理 三、MATLAB误差估计扩展卡尔博斯方法 3.1 MATLAB简介 3.2 MATLAB在误差估计中的应用 3.3 MATLAB扩展卡尔…...

NetMizer 日志管理系统前台RCE漏洞

声明 本文仅用于技术交流,请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任。 一、产品介绍 NetMizer日志管理系统是一个与NetMizer流量管理设备配合…...

【spring】第二篇 bean实例化

对象已经能交给Spring的IOC容器来创建了,但是容器是如何来创建对象的呢? 就需要研究下bean的实例化过程,在这块内容中主要解决两部分内容,分别是 bean是如何创建的 实例化bean的三种方式,构造方法,静态工厂和实例工厂 在讲解这…...

MVC和MVVM

MVC Model层:用于处理应用程序数据逻辑的部分,通常负责在数据库中存取数据 View(视图)处理数据显示的部分。通常视图是依据模型数据创建的 Controller(控制器)是处理用户交互的部分。通常控制器负责从视…...

谷歌浏览器插件

项目中有时候会用到插件 sync-cookie-extension1.0.0:开发环境同步测试 cookie 至 localhost,便于本地请求服务携带 cookie 参考地址:https://juejin.cn/post/7139354571712757767 里面有源码下载下来,加在到扩展即可使用FeHelp…...

Java 语言特性(面试系列1)

一、面向对象编程 1. 封装(Encapsulation) 定义:将数据(属性)和操作数据的方法绑定在一起,通过访问控制符(private、protected、public)隐藏内部实现细节。示例: public …...

抖音增长新引擎:品融电商,一站式全案代运营领跑者

抖音增长新引擎:品融电商,一站式全案代运营领跑者 在抖音这个日活超7亿的流量汪洋中,品牌如何破浪前行?自建团队成本高、效果难控;碎片化运营又难成合力——这正是许多企业面临的增长困局。品融电商以「抖音全案代运营…...

ArcGIS Pro制作水平横向图例+多级标注

今天介绍下载ArcGIS Pro中如何设置水平横向图例。 之前我们介绍了ArcGIS的横向图例制作:ArcGIS横向、多列图例、顺序重排、符号居中、批量更改图例符号等等(ArcGIS出图图例8大技巧),那这次我们看看ArcGIS Pro如何更加快捷的操作。…...

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理)

上一章用到了V2 的概念,其实 Fiori当中还有 V4,咱们这一章来总结一下 V2 和 V4。 SAP学习笔记 - 开发25 - 前端Fiori开发 Remote OData Service(使用远端Odata服务),代理中间件(ui5-middleware-simpleproxy)-CSDN博客…...

智能AI电话机器人系统的识别能力现状与发展水平

一、引言 随着人工智能技术的飞速发展,AI电话机器人系统已经从简单的自动应答工具演变为具备复杂交互能力的智能助手。这类系统结合了语音识别、自然语言处理、情感计算和机器学习等多项前沿技术,在客户服务、营销推广、信息查询等领域发挥着越来越重要…...

C#中的CLR属性、依赖属性与附加属性

CLR属性的主要特征 封装性: 隐藏字段的实现细节 提供对字段的受控访问 访问控制: 可单独设置get/set访问器的可见性 可创建只读或只写属性 计算属性: 可以在getter中执行计算逻辑 不需要直接对应一个字段 验证逻辑: 可以…...

水泥厂自动化升级利器:Devicenet转Modbus rtu协议转换网关

在水泥厂的生产流程中,工业自动化网关起着至关重要的作用,尤其是JH-DVN-RTU疆鸿智能Devicenet转Modbus rtu协议转换网关,为水泥厂实现高效生产与精准控制提供了有力支持。 水泥厂设备众多,其中不少设备采用Devicenet协议。Devicen…...

《Docker》架构

文章目录 架构模式单机架构应用数据分离架构应用服务器集群架构读写分离/主从分离架构冷热分离架构垂直分库架构微服务架构容器编排架构什么是容器,docker,镜像,k8s 架构模式 单机架构 单机架构其实就是应用服务器和单机服务器都部署在同一…...

绕过 Xcode?使用 Appuploader和主流工具实现 iOS 上架自动化

iOS 应用的发布流程一直是开发链路中最“苹果味”的环节:强依赖 Xcode、必须使用 macOS、各种证书和描述文件配置……对很多跨平台开发者来说,这一套流程并不友好。 特别是当你的项目主要在 Windows 或 Linux 下开发(例如 Flutter、React Na…...