当前位置: 首页 > news >正文

Evaluating Open-Domain Question Answering in the Era of Large Language Models

本文是LLM系列文章,针对《Evaluating Open-Domain Question Answering in the Era of Large Language Models》的翻译。

大语言模型时代的开放域问答评价

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 开放域QA评估
  • 4 评估开放域QA模型的策略
  • 5 正确答案的语言分析
  • 6 CuratedTREC上的正则表达式匹配
  • 7 结论

摘要

词汇匹配仍然是开放域问答(QA)事实上的评价方法。不幸的是,当一个可信的候选答案没有出现在黄金答案列表中,词汇匹配就会完全失败,随着我们从抽取模型转向生成模型,这种情况越来越多。最近大型语言模型(llm)在QA方面的成功加剧了词汇匹配失败,因为候选答案变得更长,从而使与黄金答案的匹配更具挑战性。没有准确的评估,开放领域QA的真正进展仍然是未知的。在本文中,我们通过在NQ-OPEN(一个流行的基准)的子集上手动评估它们的答案,对各种开放域QA模型(包括llm)进行了彻底的分析。我们的评估显示,虽然所有模型的真实性能都被严重低估了,但InstructGPT(零样本)LLM的性能提高了近60%,使其与现有的顶级模型相当,而InstructGPT(小样本)模型实际上在NQ-OPEN上达到了新的水平。我们还发现,超过50%的词汇匹配失败归因于语义等价的答案。我们进一步证明了regex匹配排序QA模型与人类判断一致,尽管仍然遭受不必要的严格。最后,我们证明了在某些情况下,自动评估模型是词汇匹配的合理替代品,但对于llm生成的长格式答案则不是。自动模型很难检测到LLM答案中的幻觉,因此无法评估LLM。在这个时候,似乎没有什么可以代替人的评价。

1 引言

2 相关工作

3 开放域QA评估

4 评估开放域QA模型的策略

5 正确答案的语言分析

6 CuratedTREC上的正则表达式匹配

7 结论

尽管在开放领域的QA中,词汇匹配作为一种评估指标是简单而普遍的,但它是不必要的僵化,因为合理的候选答案可能不会出现在黄金答案列表中。这个缺陷早已为人所知,但规避它的努力大多是手工的。在本文中,我们报告了一个系统的词汇匹配研究,通过人工判断几个著名的开放域QA模型生成的答案。我们发现llm在NQ-OPEN上达到了最先进的水平。模型的准确性被严重低估,大多数EM失败案例源于答案的语法变化。此外,零提示方法可以作为人类评估的合理替代品,尽管它不能检测长格式答案中的不可归因性。我们在本文中的见解和分析将有望为开放领域QA中可靠的评估技术的发展奠定基础。

相关文章:

Evaluating Open-Domain Question Answering in the Era of Large Language Models

本文是LLM系列文章,针对《Evaluating Open-Domain Question Answering in the Era of Large Language Models》的翻译。 大语言模型时代的开放域问答评价 摘要1 引言2 相关工作3 开放域QA评估4 评估开放域QA模型的策略5 正确答案的语言分析6 CuratedTREC上的正则表…...

基于安卓Android的掌上酒店预订APP

项目介绍 网络的广泛应用给生活带来了十分的便利。所以把掌上酒店预订与现在网络相结合,利用java技术建设掌上酒店预订APP,实现掌上酒店预订的信息化。则对于进一步提高掌上酒店预订发展,丰富掌上酒店预订经验能起到不少的促进作用。 掌上酒…...

搭建CNFS文件系统

1.概念: CNFS (Cluster Network File System)是 GPFS 中的一种模式,用于配置和管理多台服务器(节点)之间的文件共享和数据访问 它允许多个节点同时访问和共享文件系统的数据,以实现高性能、高可…...

网络工程师知识点7

111、IS-IS路由器的三种类型? Level-1路由器(只能创建level-1的LSDB) Level-2路由器(只能创建level-2的LSDB) Level-1-2路由器(路由器默认的类型,能同时创建level-1和level-2的LSDB)…...

C++ 八股文:类析构

继承层次中,为什么基类析构函数是虚函数? 在继承层次中,将基类的析构函数声明为虚函数的主要原因是为了支持多态和安全的资源释放。以下是为什么基类的析构函数通常应该是虚函数的原因: 多态析构: 当使用基类指针&a…...

第三章 内存管理 八、两级页表

目录 一、定义 二、如何实现地址变换 三、注意 四、总结 一、定义 二级页表是一种分层的虚拟内存管理机制。在二级页表中,虚拟地址被分成两个层次,第一层是页目录,第二层是页表。通过这种方式,二级页表可以管理更大的虚拟内存…...

新时代高效记账:自动化智能如何进行财务管理

随着科技的不断发展,自动化智能已经逐渐渗透到我们生活的各个领域。在财务管理中,自动化智能的应用显得尤为重要。它不仅可以提高财务管理的效率和精度,还能帮助我们更好地规划和掌控公司的财务状况 晨曦记账本提供了多种高效财务管理工具。…...

Linux小程序---进度条

一&#xff1a;\r 和 \n \r --- 回车 --- 使光标回到这一行的开头 \n --- 换行 --- 会来到下一行与之平行的位置 缓冲区的问题&#xff1a; <1>: \n 的示例 正常输出 hehehehe 。 <2>: \r 的示例 为了方便观察&#xff0c;加入一个 sleep &#xff08;休眠函数…...

【Java笔试强训】Day1(100449-组队竞赛 、OR63 删除公共字符)

100449-组队竞赛 链接&#xff1a;组队竞赛 题目&#xff1a; 牛牛举办了一次编程比赛,参加比赛的有3*n个选手,每个选手都有一个水平值a_i.现在要将这些选手进行组队,一共组成n个队伍,即每个队伍3人.牛牛发现队伍的水平值等于该队伍队员中第二高水平值。 例如: 一个队伍三个…...

C语言进行实验:通过程序实现线算图取值【支持VC++ 6.0编辑器环境运行】

背景&#xff1a; 一、实验目的和要求 1、能描述数据基本类型及其常量的表示方法&#xff1b; 2、会对变量进行定义及初始化&#xff1b; 3、能使用运算符与表达式对变量赋值&#xff1b; 4、会描述C语句的概念及种类、C语言常用的输入/出方式&#xff1b; 5、会设计顺序…...

信息检索与数据挖掘|(四)索引构建

目录 &#x1f4da;硬件基础 &#x1f4da;基于块的排序索引方法 &#x1f407;BSBI算法(blocked sort-based indexing) &#x1f4da;内存式单遍扫描索引构建方法 &#x1f407;SPIMI算法(single-pass in-memory indexing) &#x1f4da;分布式索引构建方法 &#x1f4d…...

Ruby使用类组织对象

使用Object.new创建新对象&#xff0c;但是一次只使用一种方法&#xff0c;这是感受以对象为中心的Ruby编程的最佳方式之一。不过这种方式并不能很好地扩展&#xff0c;假如有一个正在运行地在线售票网站&#xff0c;然后其数据库必须处理数以百计地售票记录&#xff0c;那么可…...

Spring Boot 中常用的注解@RequestParam

Spring Boot 中常用的注解RequestParam RequestParam 是 Spring Framework 和 Spring Boot 中常用的注解之一&#xff0c;用于从请求中获取参数值。它通常用于处理 HTTP 请求中的查询参数&#xff08;query parameters&#xff09;或表单数据。下面详细解释 RequestParam 的用…...

Spark工作流程

Spark 的整个工作流程可以概括为以下步骤&#xff1a; 创建 SparkSession&#xff1a; 应用程序首先需要创建一个 SparkSession 对象&#xff0c;它是与 Spark 的交互入口。SparkSession 提供了对核心功能和各个模块的访问。 加载数据&#xff1a; 使用 SparkSession 提供的 AP…...

IDEA如何设置项目包名分级

按上面的勾选即可&#xff01;...

消防应急疏散指示系统在某生物制药工厂项目的应用

安科瑞 华楠 摘要 消防应急照明和疏散指示系统由控制器、集中电源和灯具&#xff08;疏散指示灯具、应急照明灯具&#xff09;等几部分组成。系统采用17寸工业平板电脑、Windonws7系统&#xff0c;可支持联动报警、系统监控、故障报警、自检、备电、记录存储与查询、导光流、…...

C语言文件操作(上)

文章目录 一、为什么使用文件二、什么是文件1.程序文件2.数据文件3.文件名 三、文件的打开与关闭1.文件指针2.文件的打开和关闭fopen 与 fclose 四、文件的顺序读写01 字符输出函数&#xff1a;fputs02 字符输入函数&#xff1a;fgetc03 文本行输出函数&#xff1a;fputs04 文本…...

二叉树的前 中 后序的非递归实现(图文详解)

&#x1f388;个人主页:&#x1f388; :✨✨✨初阶牛✨✨✨ &#x1f43b;强烈推荐优质专栏: &#x1f354;&#x1f35f;&#x1f32f;C的世界(持续更新中) &#x1f43b;推荐专栏1: &#x1f354;&#x1f35f;&#x1f32f;C语言初阶 &#x1f43b;推荐专栏2: &#x1f354;…...

.NET验收

验收通用模板&#xff1a; 1.该资料计划看几天&#xff1f; 实际看了几天&#xff1f; 计划7天&#xff0c;实际看了9天 2.多少天一篇总结&#xff1f;将总结列出来。 一周总结一篇。 博客地址:3.这个资料相较于之前资料共同的内容是什么&#xff1f; 不同的(需要强化学习)…...

C++11——lambda表达式

文章目录 1. C98对自定义类型的排序2. lambda表达式语法2.1 捕捉列表 3. lambda底层原理 1. C98对自定义类型的排序 在C98中&#xff0c;想要对自定义类型就行排序&#xff0c;我们得自己写仿函数来表明我们相对哪一项进行排序 struct Student {Student(string name, long id…...

突破限制:3大核心功能让MediaCreationTool.bat成为Windows安装自由的终极解决方案

突破限制&#xff1a;3大核心功能让MediaCreationTool.bat成为Windows安装自由的终极解决方案 【免费下载链接】MediaCreationTool.bat Universal MCT wrapper script for all Windows 10/11 versions from 1507 to 21H2! 项目地址: https://gitcode.com/gh_mirrors/me/Media…...

[TI板]MSPM0G3507开发全攻略:从环境搭建到实战应用

1. 环境配置&#xff1a;从零搭建MSPM0G3507开发环境 第一次接触TI的MSPM0G3507开发板时&#xff0c;最头疼的就是环境搭建。我花了整整两天时间踩遍了所有坑&#xff0c;现在把最顺滑的配置流程分享给你。这个芯片支持Keil、IAR和CCS三大主流IDE&#xff0c;但实测下来Keil的兼…...

实战指南:基于快马平台快速开发并部署班级宠物园应用官方下载门户

最近学校想推广一个班级宠物园的教育应用&#xff0c;需要快速搭建一个官方下载页面。作为技术负责人&#xff0c;我尝试用InsCode(快马)平台来快速实现这个需求&#xff0c;整个过程比想象中顺利很多。 项目规划与结构设计 首先明确页面需要包含的几个核心模块&#xff1a;顶部…...

AI专著生成新玩法!掌握这些工具,快速产出高质量专业专著

学术专著写作挑战与 AI 辅助工具介绍 学术专著的根本价值在于其内容的系统性与内部逻辑的完整性&#xff0c;但这往往是写作中的一个重大挑战。相较于期刊论文专注于某个特定问题&#xff0c;学术专著必须构建一个包括绪论、理论框架、核心研究、应用拓展&#xff0c;以及结论…...

忍者像素绘卷:天界画坊在操作系统课程设计中的应用:进程调度可视化

忍者像素绘卷&#xff1a;天界画坊在操作系统课程设计中的应用&#xff1a;进程调度可视化 1. 当操作系统教学遇上像素艺术 操作系统课程中的进程调度算法一直是教学难点。传统方式依靠静态图表和伪代码讲解&#xff0c;学生往往难以直观理解不同调度策略的实际运行差异。而&…...

告别运行库安装烦恼:如何用VisualCppRedist AIO一站式解决Windows依赖问题

告别运行库安装烦恼&#xff1a;如何用VisualCppRedist AIO一站式解决Windows依赖问题 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 在使用Windows电脑时&…...

Zotero GPT插件全攻略:打造智能化文献管理工作流

Zotero GPT插件全攻略&#xff1a;打造智能化文献管理工作流 【免费下载链接】zotero-gpt GPT Meet Zotero. 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-gpt 学术研究中&#xff0c;文献管理往往耗费研究者大量时间与精力。Zotero GPT插件将人工智能技术与文献…...

Anaconda3 2025 安装教程【附安装包】快速安装下载

安装包https://qqstone.top/blog/anaconda3-2025 安装步骤 1. 解压压缩包 下载完成后&#xff0c;鼠标右击【Anaconda3 2025】压缩包&#xff0c;选择【解压至此处】。 2. 以管理员身份运行安装程序 打开解压后的文件夹&#xff0c;鼠标右击【Setup】选择【以管理员身份运行…...

无人水下航行器(UUV)与无人航空系统(UAS)时空会合关键技术研究附Matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。&#x1f34e; 往期回顾关注个人主页&#xff1a;Matlab科研工作室&#x1f34a;个人信条&#xff1a;格物致知,完整Matlab代码及仿真咨询…...

你还在用for循环清洗CSV?Polars 2.0的scan_csv()+expression DSL已支持自动列式推断与零拷贝转换——立即升级避免被淘汰

第一章&#xff1a;Polars 2.0大规模数据清洗的核心范式变革Polars 2.0 不再将数据清洗视为一系列离散的、命令式的转换操作&#xff0c;而是以“惰性执行图列式语义优先”为基石&#xff0c;重构整个清洗生命周期。其核心变革体现在计算模型、内存管理与API设计三重维度的协同…...