当前位置: 首页 > news >正文

今日arXiv最热NLP大模型论文:揭露大语言模型短板,北京大学提出事件推理测试基准

人工智能领域又一里程碑时刻!北京大学、北京智源人工智能研究院等机构联合推出大型事件推理评测基准 。这是首个同时在知识和推理层面全面评估大模型事件推理能力的数据集。

总所周知,事件推理需要丰富的事件知识和强大的推理能力,涉及多种推理范式和关系类型。而  的出现,让我们对大模型在这一重要领域的能力有了全新的认知。

研究人员在  上对多个常见大模型进行了全面测评,结果令人惊喜又意料之中:

  1. 大模型已初步具备事件推理能力,但距离人类还有不小差距;

  2. 不同大模型的能力参差不齐;

  3. 大模型能掌握事件知识,却不懂得如何高效运用。

 GPT-3.5研究测试:

yeschat

GPT-4研究测试:

Hello, LLMs

Claude-3研究测试(全面吊打GPT-4):

AskManyAI

基于这些发现,研究人员进一步探索了引导大模型更好进行事件推理的新方法。他们设计的知识引导方案,让大模型的表现获得了显著提升。下面就让我们一起深入解读这篇文章,看看研究人员的智慧结晶如何推动人工智能跨越式发展。 为业界树立了创新性工作的标杆,必将激发更多学者投身于这一领域的探索。人工智能的明天,值得我们所有人满怀期待!

图片

论文标题:

A Comprehensive Evaluation on Event Reasoning of Large Language Models

论文链接:

https://arxiv.org/pdf/2404.17513

——全面评估大模型事件推理能力的“试金石”

随着人工智能的飞速发展,大模型在各类自然语言任务中取得了令人瞩目的成绩。然而,对于事件推理这一重要能力,我们对大模型的真实水平却知之甚少。业界迫切需要一个能够全面评估其事件推理能力的“试金石”。 的诞生,正是为了填补这一空白。

那么  有哪些独特之处呢?让我们一探究竟。

首先, 开创了全新的评估模式。传统的评估方法往往只关注结果,忽视了过程。而事件推理是一个复杂的过程,既需要丰富的事件知识作为基础,又需要灵活运用各种推理技巧。 巧妙地从Schema(模式)和Instance(实例)两个层面入手,全面考察大模型的事件知识储备和推理能力,这在业界尚属首次。

其次, 的考察内容非常全面,它涵盖了因果、时序、层次等多种事件关系类型,设计了事件关系推理、事件分类等不同形式的任务。这种多维度、多角度的考察,能够全方位地测试大模型的事件推理能力,让我们对其优势和短板有更清晰的认识。

最后, 的构建过程颇具特色。它并非少数研究人员闭门造车的产物,而是融合了人工智能和人类智慧的结晶。研究团队利用 GPT-4 自动生成海量事件数据,以此保证数据规模;同时,人工标注团队对数据质量进行了严格把关,确保了数据的准确性和可靠性。这种人机协作的方式极大地提升了  的数据质量。

总的来说, 是一个全新的事件推理能力评估基准,它在评估模式、考察内容和构建方法上都有独到之处。这为全面评估大模型的事件推理能力提供了重要工具,有助于推动人工智能领域的进一步发展。

背后的“智慧密码”

要探究大模型的事件推理能力,科学的研究方法和严谨的实验设计必不可少。接下来,就让我们走进研究团队,看看他们是如何开展这项开创性工作。

评测模型与任务设计

研究人员首先精心挑选了9个在业界具有代表性的大模型,作为评测的"参赛选手"。这些模型都是自然语言处理领域的佼佼者,例如GPT-4、GPT-3.5、Qwen1.5-7B等。但它们在事件推理上的真实水平如何,还是未知数。通过在  基准上对这些模型进行系统评测,我们就能一探究竟。

为了全面考察大模型的事件推理能力,研究团队精心设计了两大类任务:上下文事件分类(CEC)和上下文关系推理(CRR)。下图展示了CEC和CRR两类任务的一般步骤:

图片

CEC任务主要考察模型在特定背景下识别事件的能力:给定一个事件和特定的关系类型,模型需要从候选事件中选出正确答案。而CRR任务则侧重于考察模型理解事件间关系的能力:给定两个事件,模型要正确判断它们之间的关系类型。这两类任务相辅相成,可以多角度评估模型的事件推理水平。

数据集构建流程

众所周知,数据质量对于模型评测至关重要。为了构建高质量的评测数据集,研究人员可谓"下足了功夫"。他们采用了三步走的策略:

  1. 基于EECKG知识库构建模式图。该图涵盖了丰富的事件类型及其关系,为后续工作奠定了坚实的基础;

  2. 利用GPT-4的生成能力,将模式图转化为实例图。通过这种方式,研究人员获得了海量的真实可信的事件实例;

  3. 由人工标注团队在模式图和实例图的基础上,构建CEC和CRR任务的问答数据集。标注团队的加入,进一步保证了数据的准确性和可靠性。

这种先自动生成、再人工标注的方式,既保证了数据规模,又兼顾了数据质量。可以说, 的数据集是人工智能和人类智慧协作的结晶。

下图表示了  数据集与现有事件推理数据集之间的比较,其中表示数据集包含的层面,和分别表示模式和实例层面,表示是否符合上下文,和分别表示是否具有多重关系或范式。

图片

知识引导方法探索

除了评测大模型的事件推理能力,研究人员还探索了如何进一步提升其表现。他们别出心裁地设计了两种知识引导方法:直接引导和基于**思维链的引导(CoT)**。

直接引导的思路很简单,就是在输入文本中直接提供事件类型知识,给模型"划重点"。而CoT引导则更有"烧脑"的味道,它启发模型先预测事件类型,再基于预测结果进行推理。通过这种思维链的方式,模型可以更好地利用事件知识进行判断。

综上所述,这项研究采用了严谨的实验设计和创新的研究方法。通过系统评测和知识引导,研究人员全面考察了大模型的事件推理能力,并探索了提升其表现的新思路。

揭秘大模型的事件推理能力

在介绍了  基准的特点和研究方法后,你是不是迫不及待地想知道实验结果了呢?别着急,接下来我就为你一一道来,让我们一起来看看大模型们在这场"考试"中的表现如何。

大模型已初具事件推理能力,但离人类还有差距

首先,让我们来看看大模型在事件推理任务上的整体表现。在实例层面的评测中,GPT-4在CEC和CRR任务上的准确率分别达到了63.80%和61.20%,远超其他模型。这个结果表明,以GPT-4为代表的大模型已经具备了一定的事件推理能力。它们能够在给定背景下正确识别事件,并判断事件之间的关系。

图片

然而我们也要看到,即使是表现最好的GPT-4,其准确率也还没有达到令人满意的程度。这说明,大模型在事件推理上虽然已经初具能力,但离人类的水平还有不小的差距。要让它们真正具备人类般的事件推理能力,还需要进一步的提升。

模型在不同关系类型和任务上的表现不平衡

接下来,让我们再来看看模型在不同类型的事件关系和任务上的表现差异。

实验结果显示,所有模型在处理因果关系时的表现最好,其次是时序关系和层次关系。这说明,大模型对于不同类型的事件关系,掌握的程度是不一样的。它们似乎更擅长处理因果关系,而在时序和层次关系上还有待加强。

图片

同时我们也发现,模型在CEC任务上的表现普遍优于CRR任务。这表明大模型在识别事件方面的能力,要强于理解事件间关系。这也许是因为判断事件间的关系需要更深入的推理和分析能力。

图片

总的来说,实验结果揭示了大模型在事件推理能力上的不平衡性。它们在不同的关系类型和任务上表现出了明显的差异。这提示我们在未来的研究中要更加注重提升模型在薄弱环节上的能力,实现全面而均衡的发展。

事件模式知识的运用仍有待加强

除了考察大模型的事件推理能力,研究人员还探究了它们运用事件模式知识的情况。

随着模型发展,模型在实例层面的推理表现要好于模式层面,这表明事件模式知识落后于事件实例知识。这一发现表明,加强事件模式知识可以进一步提高模型的能力,从而获得更好的通用LLM。

图片

此外,作者还探讨了大语言模型在利用事件模式知识进行推理时,与人类是否一致。结果表示大语言模型在利用事件模式知识进行推理时,其方式可能与人类存在差异。换句话说,它们并没有很好地与人类的思维方式对齐。

图片

这一发现很有启发性。它提示我们,让大语言模型学会像人类一样利用事件模式知识进行推理,可能是显著提升其事件推理能力的关键。

知识引导为大模型指明前进方向

最后,让我们来看看知识引导方法对大模型事件推理能力的影响。

实验结果显示,无论是直接引导还是CoT引导,都能够显著提升大模型在事件推理任务上的表现。其中,直接引导对多个模型的CEC和CRR任务准确率提升最为明显,平均提升幅度超过5%。而CoT引导目前在GPT-4上也取得了积极的效果。

图片

图片

这些结果充分证明了知识引导方法的有效性。通过恰当的引导,我们可以帮助大模型更好地利用事件知识进行推理,从而大幅提升它们的表现。这为进一步提高大模型的事件推理能力指明了方向。

总的来说,通过  基准的实验,我们对大模型的事件推理能力有了更全面、更深入的认识。一方面,我们看到了它们已经初步具备了这一能力;另一方面,我们也发现了它们在不同方面还存在短板,这需要我们在未来的研究中重点关注和改进。同时,知识引导方法的初步成功也为我们指明了一条有潜力的研究道路。

大模型来了,事件推理还会远吗?

 基准的提出及随后的系列研究,无疑是人工智能领域的一次重大突破。它们不仅揭示了大模型在事件推理方面的优势与不足,更为后续研究指明了方向。

 的研究结果告诉我们,大模型已经初步具备了事件推理能力,这是一个令人惊喜的发现。然而我们也要清醒地认识到,当前大模型的事件推理能力还存在诸多限制。它们在处理不同类型的事件关系时表现出明显的不平衡性,尤其是在时序和层次关系的理解上还有很大的提升空间。此外,大模型在灵活运用事件知识方面也存在不足。

 的研究只是一个开始,它为我们探索大模型的事件推理能力提供了一个全新的视角和方法论,开启了这一领域的新纪元。随着  及后续研究工作的不断深入,大模型的事件推理能力必将得到长足的进步。在不久的将来,机器或许就能够像人类一样,甚至比人类更好地理解和推理世间万物的因果联系、时序规律和层次结构。这将极大地拓展人工智能的应用边界,为人类认识世界、改变世界提供更强大的智能工具。

相关文章:

今日arXiv最热NLP大模型论文:揭露大语言模型短板,北京大学提出事件推理测试基准

人工智能领域又一里程碑时刻!北京大学、北京智源人工智能研究院等机构联合推出大型事件推理评测基准 。这是首个同时在知识和推理层面全面评估大模型事件推理能力的数据集。 总所周知,事件推理需要丰富的事件知识和强大的推理能力,涉及多种推…...

windows系统安装Ubuntu子系统

安装前先在 控制面板 中打开 程序与功能选项 ,点击 启用或关闭Windows功能: 勾选 适用于 Linux的Windows子系统 和 虚拟机平台 、 Hyper-v 。 重启电脑后再 Microsoft Store Windows应用商店 中下载合适的Ubuntu版本。 运行Ubuntu程序,如出现…...

电脑复制和粘贴的时候会出现Hello!

电脑不管是Microsoft Excel还是Microsoft Word复制之后粘贴过来就出现HELLO,当复制粘贴文件的时候就会出现WINFILE; 具体现象看下面两个图片: 这是因为winfile 文件病毒(幽灵蠕虫病毒),每月的28号发作; 症状…...

AI新视界:探索Baidu Comate的前沿科技

前言 Baidu Comate(智能代码助手)是基于文心大模型,结合百度积累多年的编程现场大数据和外部优秀开源数据,打造的新一代编码辅助工具。拥有代码智能、场景丰富、创造价值、广泛应用等多重产品优势,可实现“帮你想、帮…...

唐山知识付费系统搭建教程,女性创业难吗?2017十佳女性创业故事:黑科技创业“女神”

女性创业难吗?2017十佳女性创业故事:黑科技创业“女神”!创业似乎一直是一个比较热门的话题,女性创业也是一个很有争议的问题。女性创业难吗?看看2017十佳女性创业故事:黑科技创业“女神”。 阿里研究院、中国企业家木兰汇、阿里巴巴创新中…...

Hotcoin Research | 模块化将是大势所趋:拆解模块化区块链的现状和未来

关于模块化区块链叙事的讨论源于Celestia和其代币TIA的亮眼表现。实际上,模块化是未来区块链设计的主要发展方向和大势所趋。模块化区块链就像乐高积木一样,将区块链系统拆分为可重用的模块,通过定制组合可实现不同功能的区块链网络。这种灵活…...

Unity VR在编辑器下开启Quest3透视(PassThrough)功能

现在有个需求是PC端串流在某些特定时候需要开启透视。我研究了两天发现一些坑,记录一下方便查阅,也给没踩坑的朋友一些思路方案。 先说结论,如果要打PC端或者在Unity编辑器中开启,那么OpenXR当前是不行的可能还需要一个长期的过程,必须需要切换到Oculus。当然Unity官方指…...

使用 git rebase 还是 git merge,优缺点

在开发过程中使用 git rebase 还是 git merge,优缺点分别是什么? - 知乎 看一下gerrit的模式 永远rebase 绝对禁用merge 每一个commit都是一个完整的功能 保持清晰直观的提交历史 所以,main 分支是万万不能使用 rebase 的!&#…...

李飞飞团队 AI4S 最新洞察:16 项创新技术汇总,覆盖生物/材料/医疗/问诊……

不久前,斯坦福大学 Human-Center Artificial Intelligence (HAI) 研究中心重磅发布了《2024年人工智能指数报告》。 作为斯坦福 HAI 的第七部力作,这份报告长达 502 页,全面追踪了 2023 年全球人工智能的发展趋势。相比往年,扩大了…...

springboot整合rabbitmq的不同工作模式理解

前提是已经安装并启动了rabbitmq,并且项目已经引入rabbitmq,完成了配置。 不同模式所需参数不同,生产者可以根据参数不同使用重载的convertAndSend方法。而消费者均是直接监听某个队列。 不同的交换机是实现不同工作模式的关键组件.每种交换…...

Ansible(二)

一、Playbook基础 1.1 Playbook定义 Playbook其实是Ansible服务的一个配置文件,Ansible使用Playbook的YAML语言配置编写成操作需求,实现对远端主机或策略部署,实现对远端主机的控制与管理。 1.2 Playbook组成 Tasks:任务&…...

【linux】linux工具使用

这一章完全可以和前两篇文件归类在一起,可以选择放一起看哦 http://t.csdnimg.cn/aNaAg http://t.csdnimg.cn/gkJx7 拖更好久了,抱歉,让我偷了会懒 1. 自动化构建工具 make , makefile make 是一个命令,makefile 是一个文件&…...

Docker需要代理下载镜像

systemctl status docker查看docker的状态和配置文件是/usr/lib/systemd/system/docker.service vi /usr/lib/systemd/system/docker.service, 增加如下配置项 [Service] Environment"HTTP_PROXYhttp://proxy.example.com:8080" "HTTPS_PROXYhttp:…...

Debian操作系统简史

一,起源和初衷 Debian项目始于1993年,由Ian Murdock发起,他当时是普渡大学的一名学生。Debian的名字来源于Ian Murdock和他的妻子Debra的组合。Debian的核心理念是创建一个完全自由的操作系统,它遵循严格的自由软件指导原则。 二…...

课堂练习——路由策略

需求:将1.1.1.0/24网段重发布到网络中,不允许出现次优路径,实现全网可达。 在R1上重发布1.1.1.0/24网段,但是需要过滤192.168.12.0/24和192.168.13.0/24在R2和R3上执行双向重发布 因为R1引入的域外路由信息的优先级为150&#xff…...

Agent AI智能体:未来社会的角色、发展与挑战

Agent AI智能体在未来社会中的角色、发展路径以及可能带来的挑战是一个非常值得关注的话题。让我们来深入探讨一下这些方面。 1. 角色与应用场景 Agent AI智能体是指具有自主决策能力和执行能力的人工智能系统,它们可以代表个人或组织执行各种任务和活动。在未来社…...

mybatis-plus使用指南(1)

快速开始 首先 我们 在创建了一个基本的springboot的基础框架以后&#xff0c;在 pom文件中 引入 mybatisplus的相关依赖 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.5…...

python自定义x坐标名称

在画完图后加上 x[0.1,0.5,1.0,2.0,4.0,6.0,8.0] plt.xticks(x) import matplotlib.pyplot as pltx [1, 2, 3, 4, 5] y [2, 4, 6, 8, 10]plt.plot(x, y) plt.xticks(x, [A, B, C, D, E]) # 设置x轴坐标位置和标签 plt.show()要自定义x坐标名称&#xff0c;你可以使用matplo…...

图论专题训练

leecode 547 并查集 class Solution { public:int findCircleNum(vector<vector<int>>& isConnected) {ini();int len isConnected.size();for(int i0;i<len;i){for(int j0;j<len;j)if(isConnected[i][j]){unio(i,j);}}int ans 0;for(int i0;i<len;…...

持续总结中!2024年面试必问 100 道 Java基础面试题(四十二)

上一篇地址&#xff1a;持续总结中&#xff01;2024年面试必问 100 道 Java基础面试题&#xff08;四十一&#xff09;-CSDN博客 八十三、如何判断一个对象是否应该被垃圾回收&#xff1f; 在Java中&#xff0c;判断一个对象是否应该被垃圾回收的关键在于对象的引用状态。垃圾…...

黑马Mybatis

Mybatis 表现层&#xff1a;页面展示 业务层&#xff1a;逻辑处理 持久层&#xff1a;持久数据化保存 在这里插入图片描述 Mybatis快速入门 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6501c2109c4442118ceb6014725e48e4.png //logback.xml <?xml ver…...

ssc377d修改flash分区大小

1、flash的分区默认分配16M、 / # df -h Filesystem Size Used Available Use% Mounted on /dev/root 1.9M 1.9M 0 100% / /dev/mtdblock4 3.0M...

【C语言练习】080. 使用C语言实现简单的数据库操作

080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码:使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出:5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作 在…...

工业自动化时代的精准装配革新:迁移科技3D视觉系统如何重塑机器人定位装配

AI3D视觉的工业赋能者 迁移科技成立于2017年&#xff0c;作为行业领先的3D工业相机及视觉系统供应商&#xff0c;累计完成数亿元融资。其核心技术覆盖硬件设计、算法优化及软件集成&#xff0c;通过稳定、易用、高回报的AI3D视觉系统&#xff0c;为汽车、新能源、金属制造等行…...

Redis数据倾斜问题解决

Redis 数据倾斜问题解析与解决方案 什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中&#xff0c;部分节点存储的数据量或访问量远高于其他节点&#xff0c;导致这些节点负载过高&#xff0c;影响整体性能。 数据倾斜的主要表现 部分节点内存使用率远高于其他节…...

代码规范和架构【立芯理论一】(2025.06.08)

1、代码规范的目标 代码简洁精炼、美观&#xff0c;可持续性好高效率高复用&#xff0c;可移植性好高内聚&#xff0c;低耦合没有冗余规范性&#xff0c;代码有规可循&#xff0c;可以看出自己当时的思考过程特殊排版&#xff0c;特殊语法&#xff0c;特殊指令&#xff0c;必须…...

Chromium 136 编译指南 Windows篇:depot_tools 配置与源码获取(二)

引言 工欲善其事&#xff0c;必先利其器。在完成了 Visual Studio 2022 和 Windows SDK 的安装后&#xff0c;我们即将接触到 Chromium 开发生态中最核心的工具——depot_tools。这个由 Google 精心打造的工具集&#xff0c;就像是连接开发者与 Chromium 庞大代码库的智能桥梁…...

Sklearn 机器学习 缺失值处理 获取填充失值的统计值

💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖 本博客的精华专栏: 【自动化测试】 【测试经验】 【人工智能】 【Python】 使用 Scikit-learn 处理缺失值并提取填充统计信息的完整指南 在机器学习项目中,数据清…...

五子棋测试用例

一.项目背景 1.1 项目简介 传统棋类文化的推广 五子棋是一种古老的棋类游戏&#xff0c;有着深厚的文化底蕴。通过将五子棋制作成网页游戏&#xff0c;可以让更多的人了解和接触到这一传统棋类文化。无论是国内还是国外的玩家&#xff0c;都可以通过网页五子棋感受到东方棋类…...

加密通信 + 行为分析:运营商行业安全防御体系重构

在数字经济蓬勃发展的时代&#xff0c;运营商作为信息通信网络的核心枢纽&#xff0c;承载着海量用户数据与关键业务传输&#xff0c;其安全防御体系的可靠性直接关乎国家安全、社会稳定与企业发展。随着网络攻击手段的不断升级&#xff0c;传统安全防护体系逐渐暴露出局限性&a…...