当前位置: 首页 > news >正文

ACL2024 | AI的时空穿越记:大型语言模型共时推理的奇幻之旅!

89124d97ff76f1e3a74ca787a340410d.png

作者:苏肇辰

d2b6a892c1eaf064cceb883beb52d623.png

标题:Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning?

录取:ACL2024 Main

论文链接:https://arxiv.org/abs/2406.09072

代码链接:https://github.com/zhaochen0110/Cotempqa

单位:苏州大学、上海人工智能实验室

🔍 背景与现有工作:

  1. 时间推理的重要性:时间推理对于语言模型理解世界至关重要。当前的时间推理数据集(如TIMEQA、TEMPLAMA和TEMPREASON)主要关注单一或孤立事件,未能充分反映现实世界中共时事件的复杂性。这些数据集的问题集中在单个时间点或孤立的事件上,而现实中事件往往是同时发生并相互交织的。

  2. 现有数据集

  • TIMEQA:基于时间演变的事实构建问题,要求模型在特定时间点回答问题。

  • TEMPLAMA:从Wikidata知识库中提取结构化事实,用于封闭式问答。

  • TEMPREASON:将显式时间表达转化为隐式事件信息,提供更综合的时间问答评估框架。

🌟 我们的贡献 - COTEMPQA 数据集:

4aa1bbabd695b29d7c86627835055ba9.png
图1: Cotempqa数据集组成
7ecb2cced0ef92931e659ffa9e039334.png
图2: Cotempqa和常见时间推理数据集比较
  1. 数据集简介:COTEMPQA是一个全面的共时问答基准,包含4748个样本,旨在评估大规模语言模型在四种共时场景(相等、重叠、期间、混合)中的理解和推理能力。

f7f9e80ab051893af3edde0250c053fb.png
图3: 三种共时关系
  1. 四种共时场景:

  • 相等场景(Equal)

    • 定义:两个事实发生在完全相同的时间范围内,没有时间差异。

    • 特点:时间完全重叠,模型只需识别出相同的时间段。

    • 示例问题:当A事件发生时,B事件也在同时发生。

  • 重叠场景(Overlap)

    • 定义:两个事实在时间上部分重叠。

    • 特点:需要模型识别出部分重叠的时间段。

    • 示例问题:当A事件发生时,B事件在时间段C内部分重叠。

  • 期间场景(During)

    • 定义:一个事实的时间范围完全包含在另一个事实的时间范围内。

    • 特点:模型需要理解一个事件完全包含在另一个事件内的复杂时间关系。

    • 示例问题:在A事件发生期间,B事件也在发生。

  • 混合场景(Mix)

    • 定义:包含相等、重叠和期间三种类型的混合情形,是最复杂的场景。

    • 特点:需要模型处理多种时间关系的组合。

    • 示例问题:当A事件发生时,B事件在相同时间段或部分重叠,或者一个事件包含在另一个事件中。

  1. 数据集构建过程

  • 从Wikidata提取时间相关事实

    • 数据格式:将知识三元组和限定词转化为五元组格式(主体,关系,客体,开始时间,结束时间)。

    • 分组整理:按主体分组,确保每组包含至少三个时间事实。

  • 识别共时事实

    • 算法设计:通过比较不同事实的时间戳来识别重叠部分,并将其分类为相等、重叠、期间或混合。

  • 问答对构建

    • 条件事实与查询事实:根据识别出的共时事实构建问题,选择一个事实作为条件事实,另一个作为查询事实。

    • 预定义关系对与问题模板:为确保问题的逻辑关联性,我们预定义了17种相关关系对,并基于这些对构建问题模板。

dbab158fd2113d5f375637c6efaf4889.png

📊 实验结果与分析:

  1. 模型表现

3d845cb5466f4372fbcbb50abb028e79.png
图4: 不同模型在Cotempqa数据集上的效果
  • GPT-4 在共时推理中的表现:尽管GPT-4在所有模型中表现最好,但与人类水平(54.7 vs. 92.8)仍有显著差距。

  • 不同场景的难度差异

    • 相等场景(Equal):GPT-4表现较好(92.7)。

    • 重叠场景(Overlap):表现显著下降(59.4)。

    • 期间场景(During):进一步下降(50.1)。

    • 混合场景(Mix):表现最差(45.0)。

  • 闭卷问答(CBQA) vs. 开卷问答(OBQA)

    • 闭卷问答:模型表现较弱,GPT-4为14.5。

    • 开卷问答:表现提升显著,GPT-4为54.7。

  1. 错误分析

c00b307b8b180d370f3a081d3b8f96de.png
图5: 错误分析
  • 为了更好地理解模型所犯的错误,我们重点调查了GPT-4在零样本CoT下生成的回答。我们将错误分为三类:

    根据案例错误分析,“不确定性错误”是最常见的错误类型,占比43.14%。我们认为GPT-4在回答时倾向于提供相对保守的回答,仅在具有一定信心时才返回答案。未来的研究需要优化模型的框架,进一步增强大规模语言模型在共时理解和推理方面的能力。

    • 不完整答案错误:问题有多个正确答案,但模型未能返回全部正确答案。

    • 不确定性错误:模型无法从提供的上下文中提取共时关系,并拒绝回答问题。

    • 错误答案错误:模型返回了错误答案,表明模型在共时推理方面存在不足。

  1. 案例研究

2f25e038e85b27980cddc229b25bfdc1.png
图6: 案例研究
  • 基本能力:现有的大规模语言模型(LLMs)能够有效地推理简单的共时事件。然而,它们在需要更深层次理解和复杂共时推理的任务中表现出困难。相等场景由于时间间隔完全重叠,对LLMs来说更容易处理。

  • 复杂性增加:重叠和期间场景呈现出复杂的时间交叉,需要更多隐含推理来理解共时关系。相比于相等场景,确定一个时间段是否与另一个时间段相交(例如期间和重叠)更加具有挑战性。

  • 混合场景:混合场景有多个正确答案,并包含各种共时关系,是最具挑战性的场景。模型在处理这些复杂情况时,需要更高的推理能力和准确性。

  1. 不同能力在共时推理中的作用

d573b452224d82232032c6f8251f74d8.png
图7: 不同能力在共时推理中的作用
  • 数学推理的作用:专门用于数学推理的模型(如WizardMath-70B)在共时推理中的表现显著提升,得分为30.1,而基础模型LLaMA-70B为22.2,CodeLLaMA-34B为20.0。这表明数学推理技能与理解和解释复杂时间关系所需的技能之间有很强的相关性。

  • 混合场景的表现:尽管WizardMath在基准模型中表现最好,但在混合场景中的效果较低。进一步调查发现,在混合场景中,问题往往有多个答案。WizardMath倾向于返回单一答案,而不是列出所有可能的答案,这导致其精确度较高但召回率较低(与LLaMA、CodeLLaMA等模型相比)。

🔧 提升策略 - MR-COT

  1. 数学推理的重要性:上述实验发现数学推理在处理共时事件中至关重要。以WizardMath-70B模型为例,基于数学推理的方法在共时推理任务中的表现显著优于基础模型LLaMA-70B。

792df381e5d32986f18c1b24d302d959.png
图8: MR-COT样例展示
  1. 提出的MR-COT策略:结合数学推理和链式思维的方法,显著提升模型在共时推理任务中的表现。具体步骤包括:

  • 建立关键时间点:确定事件发生的具体时间。

  • 结构化时间线:将相关事件按时间顺序排列。

  • 数学识别重叠:通过数学方法识别事件的重叠部分。

5ff9893c1235afd047cd2bc681702c8d.png
图9: MR-COT的效果展示
  1. 实验结果

  • MR-COT的优势:在开卷问答中重叠、期间和混合任务中分别提升14.6、11.4和13.5分,在闭卷问答中综合提升1.3分。这表明MR-COT策略在复杂共时推理任务中具有显著优势。

  • 但同时相比较human performance (92.8) 还有很大的差距,说明模型的共时推理能力还有很大的提升空间。

💡结论

这篇论文中,我们提出了COTEMPQA数据集,并评估了现有大规模语言模型在共时推理任务中的表现。研究表明,尽管模型在简单的共时任务中表现良好,但在处理复杂的共时关系(如重叠、期间和混合场景)时仍存在显著差距。特别是数学推理能力对共时推理至关重要,专门用于数学推理的模型(如WizardMath-70B)表现最佳。通过结合数学推理和链式思维的方法(MR-COT),我们显著提升了模型在复杂共时任务中的表现。这项研究为未来改进大规模语言模型在共时推理中的能力提供了新的方向。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

f33eb4d18287807190fae3d3d0f56075.png

id:DLNLPer,记得备注呦

相关文章:

ACL2024 | AI的时空穿越记:大型语言模型共时推理的奇幻之旅!

作者:苏肇辰 标题:Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? 录取:ACL2024 Main 论文链接:https://arxiv.org/abs/2406.09072 代码链接:https://github.com/zhaochen0110/Cotem…...

从xxl-job源码中学习Netty的使用

1. 启动与Spring实例化 com.xxl.job.core.executor.impl.XxlJobSpringExecutor.java类 继承SmartInitializingSingleton 类,在afterSingletonsInstantiated 实例化后方法中 调用initJobHandlerMethodRepository 把所有的xxljob任务管理起来; private…...

人工智能发展历程了解和Tensorflow基础开发环境构建

目录 人工智能的三次浪潮 开发环境介绍 Anaconda Anaconda的下载和安装 下载说明 安装指导 模块介绍 使用Anaconda Navigator Home界面介绍 Environment界面介绍 使用Jupter Notebook 打开Jupter Notebook 配置默认目录 新建文件 两种输入模式 Conda 虚拟环境 添…...

makefile追加warning日志

在Makefile中,你不能直接“追加”warning日志到构建过程中,但你可以通过几种方式在构建时产生额外的警告或消息。以下是一些常用的方法: 使用echo或printf命令: 在Makefile的规则中,你可以使用echo或printf命令来输出警…...

不要直接使用unidefined 而使用void 0

为什么不要使用unidefined 而使用void 0? 在JavaScript中,undefined 和 void 0 都可以用来表示未定义的值,但它们在使用和上下文中有一些微妙的差异,这也是为什么有时可能会推荐使用 void 0 而不是直接使用 undefined。 全局污染&#xff…...

注解详解系列 - @Scope:Bean作用域管理

注解简介 在今天的注解详解系列中,我们将探讨Scope注解。Scope是Spring框架中的一个重要注解,用于定义Spring bean的作用域。通过指定bean的作用域,我们可以控制bean的生命周期和创建方式。 注解定义 Scope注解用于指定Spring bean的作用域…...

数学建模基础:数学建模概述

目录 前言 一、数学建模的步骤 二、模型的分类 三、模型评价指标 四、常见的数学建模方法 实际案例:线性回归建模 步骤 1:导入数据 步骤 2:数据预处理 步骤 3:建立线性回归模型 步骤 4:模型验证 步骤 5&…...

人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)

开源大语言模型完整列表 Large Language Model (LLM) 即大规模语言模型,是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。 所谓"语言模型",就是只用来处理语言文…...

数据结构之B树

引言 在计算机科学中,数据结构是用于组织和存储数据的关键工具。其中,B树(B-tree)作为一种自平衡的树形数据结构,被广泛应用于数据库和文件系统中,以提高查找、插入、删除和范围查询的效率。本文将深入探讨…...

双色球预测算法(Java),——森林机器学习、时间序列

最近AI很火,老想着利用AI的什么算法,干点什么有意义的事情。其中之一便想到了双色球,然后让AI给我预测,结果基本都是简单使用随机算法列出了几个数字。 额,,,,咋说呢,双…...

【计算机网络篇】数据链路层(11)在数据链路层扩展以太网

文章目录 🍔使用网桥在数据链路层扩展以太网🥚网桥的主要结构和基本工作原理🎈网桥的主要结构🔎网桥转发帧的例子🔎网桥丢弃帧的例子🔎网桥转发广播帧的例子 🥚透明网桥🔎透明网桥的…...

Ubuntu20.04 使用scrapy-splash爬取动态网页

我们要先安装splash服务,使用dock安装,如果dock没有安装,请参考我的上一篇博文: 按照官方文档:https://splash.readthedocs.io/en/stable/install.html 1.下载splash sudo docker pull scrapinghub/splash2.安装scrapy…...

Function:控制继电器上下电,上电后adb登录,copy配置文件

import serial import time import datetime import subprocess import osdef append_to_txt(file_path, content):if os.path.exists(file_path):with open(file_path, a) as file: # 使用 a 模式打开文件进行追加file.write(content \n) # 追加内容,并换行else…...

香港电讯高可用网络助力企业变革金融计算

客户背景 客户是一家金融行业知名的量化私募对冲基金公司,专注于股票、期权、期货、债券等主要投资市场,在量化私募管理深耕多年,目前资管规模已达数百亿级,在国内多个城市均设有办公地点。 客户需求 由于客户业务倚重量化技术…...

LDR6020一拖二快充线:多设备充电新选择

随着科技的快速发展,我们的日常生活中越来越多地依赖于智能设备。然而,每当手机、平板或其他移动设备电量告急时,我们总是需要寻找合适的充电线进行充电。为了解决这一痛点,市场上出现了一款备受瞩目的新产品——LDR6020一拖二快充…...

电脑ffmpeg.dll丢失原因解析,找不到ffmpeg.dll的5种解决方法

在数字化时代,多媒体文件的处理已经成为我们日常生活和工作中不可或缺的一部分。在计算机使用过程中,丢失ffmpeg.dll文件是一个特定但常见的问题,尤其是对于那些经常处理视频编解码任务的用户来说。下面小编讲全面分析ffmpeg.dll丢失原因以及…...

手机网站制作软件是哪些

手机网站制作软件是一种用于设计、开发和创建适用于移动设备的网站的软件工具。随着移动互联网时代的到来,越来越多的用户开始使用手机浏览网页和进行在线交流,因此,手机网站制作软件也逐渐成为了市场上的热门工具。 1. Adobe Dreamweaver&am…...

【Kubernetes项目部署】k8s集群+高可用、负载均衡+防火墙

项目架构图 (1)部署 kubernetes 集群 详见:http://t.csdnimg.cn/RLveS (2) 在 Kubernetes 环境中,通过yaml文件的方式,创建2个Nginx Pod分别放置在两个不同的节点上; Pod使用hostP…...

IPC工业电脑的现状、发展未来与破局策略

文章目录 全球工业电脑市场概况1.1 市场规模与增长1.2 区域分布与主要市场 工业电脑的技术发展与应用2.1 技术趋势与创新2.2 应用领域扩展2.3 工业自动化与智能化 竞争格局与市场参与者3.1 主要企业与市场竞争3.2 国内外竞争对比3.3 市场集中度与竞争策略 未来发展趋势与市场预…...

深入了解Redis的TYPE命令

Redis作为一个高性能的内存数据库,支持多种数据结构。在管理和操作Redis数据库时,了解键对应的数据类型是至关重要的。本文将深入探讨Redis的TYPE命令,它用于返回存储在指定键中的值的数据类型。 什么是TYPE命令? TYPE命令用于查…...

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API,用于在函数组件中使用 state 和其他 React 特性(例如生命周期方法、context 等)。Hooks 通过简洁的函数接口,解决了状态与 UI 的高度解耦,通过函数式编程范式实现更灵活 Rea…...

web vue 项目 Docker化部署

Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段: 构建阶段(Build Stage)&#xff1a…...

设计模式和设计原则回顾

设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...

【杂谈】-递归进化:人工智能的自我改进与监管挑战

递归进化:人工智能的自我改进与监管挑战 文章目录 递归进化:人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管?3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...

工业安全零事故的智能守护者:一体化AI智能安防平台

前言: 通过AI视觉技术,为船厂提供全面的安全监控解决方案,涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面,能够实现对应负责人反馈机制,并最终实现数据的统计报表。提升船厂…...

高频面试之3Zookeeper

高频面试之3Zookeeper 文章目录 高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个?3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制 半数机制(过半机制&#xff0…...

【CSS position 属性】static、relative、fixed、absolute 、sticky详细介绍,多层嵌套定位示例

文章目录 ★ position 的五种类型及基本用法 ★ 一、position 属性概述 二、position 的五种类型详解(初学者版) 1. static(默认值) 2. relative(相对定位) 3. absolute(绝对定位) 4. fixed(固定定位) 5. sticky(粘性定位) 三、定位元素的层级关系(z-i…...

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

引言: 在人工智能快速发展的浪潮中,快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型(LLM)。该模型代表着该领域的重大突破,通过独特方式融合思考与非思考…...

sqlserver 根据指定字符 解析拼接字符串

DECLARE LotNo NVARCHAR(50)A,B,C DECLARE xml XML ( SELECT <x> REPLACE(LotNo, ,, </x><x>) </x> ) DECLARE ErrorCode NVARCHAR(50) -- 提取 XML 中的值 SELECT value x.value(., VARCHAR(MAX))…...

Matlab | matlab常用命令总结

常用命令 一、 基础操作与环境二、 矩阵与数组操作(核心)三、 绘图与可视化四、 编程与控制流五、 符号计算 (Symbolic Math Toolbox)六、 文件与数据 I/O七、 常用函数类别重要提示这是一份 MATLAB 常用命令和功能的总结,涵盖了基础操作、矩阵运算、绘图、编程和文件处理等…...