当前位置: 首页 > news >正文

HUMANITY’S LAST EXAM (HLE) 综述:人工智能领域的“最终考试”

论文地址:Humanity’s Last Exam

1. 背景与动机

随着大型语言模型(LLMs)能力的飞速发展,其在数学、编程、生物等领域的任务表现已超越人类。为了系统地衡量这些能力,LLMs 需要接受基准测试(Benchmarks)的评估。然而,现有的基准测试,如 MMLU,已经无法满足需求:

  • 饱和现象严重:顶尖的 LLMs 在这些基准测试中已经能够达到超过 90% 的准确率,难以准确反映 AI 能力的真实水平。
  • 无法有效评估前沿能力:现有基准测试无法充分评估 AI 在人类知识前沿领域的进步。

为了解决上述问题,HUMANITY’S LAST EXAM (HLE) 应运而生,旨在成为评估 AI 学术能力的最终封闭式基准测试

2. HLE 的核心特点

2.1 挑战性与前沿性
  • 高难度:HLE 包含 3000 道 极具挑战性的问题,涵盖数学、人文、自然科学等 100 多个学科领域
    • 示例
      • 数学:涉及高阶数学概念,如自然变换、共变自然变换等。
      • 化学:要求分析复杂的化学反应机理。
      • 语言学:考察对古代语言(如圣经希伯来语)的深入理解。
      • 其他:包括经典文学、生态学、计算机科学等领域的问题【详见图 2】。
  • 前沿性:问题由全球近 1000 名来自 500 多家机构的领域专家(包括教授、研究人员、研究生等)共同开发,确保了问题的前沿性和专业性。
2.2 多模态与精确性
  • 多模态:HLE 是多模态基准测试,10% 的问题需要同时理解文本和图像信息。
  • 精确性
    • 问题格式:包括精确匹配题(模型提供精确字符串作为输出)和多项选择题(模型从五个或更多选项中选择一个)。
    • 答案验证:所有问题都有明确的、客观的答案,便于自动化评分。
2.3 严格的质量控制
  • 多阶段审核流程
    • LLM 难度检查:在提交之前,每个问题都会经过多个前沿 LLM 的测试。如果 LLM 能够正确回答,则该问题会被拒绝【详见图 4】。
    • 专家评审:通过 LLM 测试的问题将进入两轮人工评审:
      • 第一轮:由研究生级别的评审员进行多轮反馈和修订。
      • 第二轮:由组织者和专家评审员进行最终审核,确保问题质量和符合提交标准。
    • 社区反馈:发布后,将进行公开反馈期,收集研究社区的意见,以纠正数据集中的任何问题。
  • 严格的提交标准
    • 问题必须精确、无歧义、可解决且无法通过简单搜索获得
    • 所有提交内容必须为原创作品或对已发表信息的非平凡合成
    • 问题通常需要研究生级别的专业知识或测试对高度专业主题的知识
    • 答案简短且易于验证,以支持自动评分。
    • 禁止开放式问题、主观解释和与大规模杀伤性武器相关的内容

3. HLE 的评估结果与分析

3.1 顶尖 LLM 的表现
  • 准确率低:所有顶尖 LLM 在 HLE 上的准确率均低于 10%,表明当前 AI 能力与专家级学术表现之间存在显著差距【详见表 1】。
    • 原因分析
      • 问题难度高:HLE 旨在筛选出 LLM 无法正确回答的问题。
      • 模型推理噪声:模型在推理过程中存在固有噪声,导致其无法始终保持一致的表现。
  • 校准误差高:模型在 HLE 上表现出较差的校准性,经常以高置信度提供错误答案,表明模型存在幻觉(hallucination)问题【详见表 1】。
    • RMS 校准误差:衡量模型预测置信度与实际准确率之间的一致性。RMS 误差越高,表明模型越不善于识别自身能力的边界。
模型准确率 (%) ↑RMS 校准误差 (%)
GPT-4O3.392.5
GROK23.893.2
CLAUDE3.5SONNET4.388.9
GEMINI1.5PRO5.093.1
GEMINI2.OFLASHTHINKING6.293.9
O19.193.4
DEEPSEEK-R19.481.8
3.2 推理与计算成本
  • 推理成本高:具有推理能力的模型需要生成更多的标记(tokens),从而导致更高的计算成本【详见图 5】。
    • 未来方向:未来的模型不仅需要在准确率方面有所提升,还应致力于提高计算效率。

4. 未来展望与影响

4.1 未来模型的表现
  • 发展潜力巨大:尽管当前 LLM 在 HLE 上的表现不佳,但 AI 发展迅速,模型很可能在 2025 年底之前在 HLE 上达到超过 50% 的准确率。
  • 局限性:HLE 主要测试结构化的学术问题,而非开放式的科研或创造性问题,因此它只是衡量 AI 技术知识和推理能力的一个指标,而非衡量“人工通用智能”(AGI)的标准。
4.2 对 AI 发展的影响
  • 提供共同参考点:HLE 为科学家和政策制定者提供了一个评估 AI 能力的共同参考点,有助于更深入地了解 AI 的发展轨迹、潜在风险以及必要的治理措施。
  • 促进 AI 发展:HLE 的发布将激励研究人员开发更强大的 AI 模型,推动 AI 技术的不断进步。

5. 总结

HLE 代表着 AI 基准测试的一个重要里程碑,它:

  • 挑战 AI 极限:通过设计极具挑战性的问题,HLE 有效评估了 AI 在人类知识前沿领域的能力。
  • 推动 AI 发展:HLE 的发布将推动 AI 研究人员不断突破现有技术的瓶颈,推动 AI 技术的进一步发展。
  • 促进 AI 治理:HLE 为 AI 治理提供了重要的参考依据,有助于制定更有效的 AI 政策。

HLE 示例问题
图 2:HLE 提交的部分多样且具有挑战性的问题示例

HLE 数据集创建流程
图 4:HLE 数据集创建流程。接受 LLM 无法解决的问题,然后借助专家同行评审员进行迭代完善。每个问题随后由组织者或由组织者培训的专家评审员手动批准。除了公共集之外,还保留了一个私有保留集,以评估模型在公共基准测试上的过度拟合和作弊行为。

HLE 准确率与 RMS 校准误差
图 5:测试的推理模型的平均完成标记计数,包括推理和输出标记。我们还在附录 C.3 中绘制了非推理模型的平均标记计数。

6. 结论

HLE 为 AI 领域提供了一个全新的、极具挑战性的评估平台,将有助于推动 AI 技术的持续进步,并为 AI 治理提供重要的参考依据。

相关文章:

HUMANITY’S LAST EXAM (HLE) 综述:人工智能领域的“最终考试”

论文地址:Humanity’s Last Exam 1. 背景与动机 随着大型语言模型(LLMs)能力的飞速发展,其在数学、编程、生物等领域的任务表现已超越人类。为了系统地衡量这些能力,LLMs 需要接受基准测试(Benchmarks&…...

C++从入门到实战(二)C++命名空间

C从入门到实战(二)C命名空间 前言一、C的第一个程序二、命名空间(一)为什么需要命名空间(二)定义命名空间(三)使用命名空间1.通过命名空间限定符:2.使用 using 声明&…...

C# OpenCV机器视觉:实现农作物病害检测

在酷热难耐的夏日,阳光似火舌般舔舐大地。阿强惬意地躺在老家院子摇椅上,哼着小曲,手边放着一碗冰镇西瓜,头顶大槐树宛如巨大遮阳伞,洒下斑驳阴凉。他本想趁假期回老家放松,远离城市喧嚣与代码 “纠缠”。 …...

开源软件协议介绍

一、可以闭源使用/不具传染性的协议 允许商业使用和分发 1、BSD:详细介绍 2、LGPL许可证:详细介绍 3、MPL2.0:详细介绍 二、具有传染性/使用后需要开源自身软件的协议 不建议商业使用 1、GPL许可证:详细介绍...

CLion开发Qt桌面

IDE:CLion Qt Qt版本:5.12 学习正点原子的嵌入式Linux开发板时,使用Qt Creator写代码不是很方便,遂尝试使用CLion搭建Qt开发环境。 一、CLion的Qt环境搭建 1,配置工具链 找到Qt的安装目录,此处为E:\Tools\…...

09_异步加载_单例模式_常量类配置_不可销毁

1.首先在 资源加载服务层ResSvc.cs中添加 自定义异步加载函数 using UnityEngine; using UnityEngine.SceneManagement; //异步加载 命名空间 //功能 : 资源加载服务 public class ResSvc : MonoBehaviour{public void InitSvc(){Debug.Log("Init ResSvc...");}//自定…...

士的宁(strychnine)的生物合成-文献精读104

Biosynthesis of strychnine 士的宁(strychnine) 又名 番木鳖碱 的生物合成 摘要 士的宁(番木鳖碱)是一种天然产物,通过分离、结构阐明和合成努力,塑造了有机化学领域。目前,士的宁因其强大的…...

【开源免费】基于Vue和SpringBoot的常规应急物资管理系统(附论文)

本文项目编号 T 159 ,文末自助获取源码 \color{red}{T159,文末自助获取源码} T159,文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…...

(Java版本)基于JAVA的网络通讯系统设计与实现-毕业设计

源码 论文 下载地址: ​​​​c​​​​​​c基于JAVA的网络通讯系统设计与实现(源码系统论文)https://download.csdn.net/download/weixin_39682092/90299782https://download.csdn.net/download/weixin_39682092/90299782 第1章 绪论 1.1 课题选择的…...

ray.rllib 入门实践-2:配置算法

前言: ray.rllib的算法配置方式有多种,网上的不同教程各不相同,有的互不兼容,本文汇总罗列了多种算法配置方式,给出推荐,并在最后给出可运行代码。 四种配置方式 方法1 import os from ray.rllib.algori…...

2025-01学习笔记

1.SpEL 第一次知道它的全称 Spring Expression Language(SpEL) Value("${my.property}") private String myProperty; Value("#{2 * 3}") private int computedValue; 2.逃逸分析 逃逸分析:当一个对象在方法中被定…...

多线程执行大批量数据查询

// 创建一个固定大小的线程池ExecutorService executorService Executors.newFixedThreadPool(5);// 创建多个查询任务List<Callable<List<ShopCompareBase>>> tasks new ArrayList<>();//查询门店 切割,分成十份List<List<String>> sho…...

ChatGPT高效处理图片技巧使用详解

ChatGPT&#xff0c;作为OpenAI开发的预训练语言模型&#xff0c;主要用于生成自然语言文本的任务。然而&#xff0c;通过一些技巧和策略&#xff0c;我们可以将ChatGPT与图像处理模型结合&#xff0c;实现一定程度上的图像优化和处理。本文将详细介绍如何使用ChatGPT高效处理图…...

leetcode——相交链表(java)

给你两个单链表的头节点 headA 和 headB &#xff0c;请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点&#xff0c;返回 null 。 图示两个链表在节点 c1 开始相交&#xff1a; 题目数据 保证 整个链式结构中不存在环。 注意&#xff0c;函数返回结果后&…...

RubyFPV开源代码之系统简介

RubyFPV开源代码之系统简介 1. 源由2. 工程架构3. 特性介绍&#xff08;软件&#xff09;3.1 特性亮点3.2 数字优势3.3 使用功能 4. DEMO推荐&#xff08;硬件&#xff09;4.1 天空端4.2 地面端4.3 按键硬件Raspberry PiRadxa 3W/E/C 5. 软件设计6. 参考资料 1. 源由 RubyFPV以…...

麦田物语学习笔记:创建TransitionManager控制人物场景切换

基本流程 制作场景之间的切换 1.代码思路 (1)为了实现不同场景切换,并且保持当前的persistentScene一直存在,则需要一个Manager去控制场景的加载和卸载,并且在加载每一个场景之后,都要将当前的场景Set Active Scene,保证其为激活的场景,在卸载的时候也可以方便调用当前激活的场…...

后端SpringBoot学习项目-用户管理-增删改查-service层

仓库地址 在初版代码中&#xff0c;已经实现了基础的增删改查。 但是&#xff0c;逻辑处理都放在Controller层中并没有分为Service层&#xff0c;所以&#xff0c;代码升级时候必须补充上去。 代码结构 升级后的代码结构有所变化。 --common 公共插件 --controller…...

机器学习11-学习路径推荐

机器学习11-学习路径推荐 本文希望摒除AI学习商业宣传要素&#xff0c;推荐一条极简的AI学习路线&#xff01;推荐内容均为在线免费内容&#xff0c;如果有条件可以咨询专业的培训机构&#xff01; 文章目录 机器学习11-学习路径推荐[toc] 1-AI培训路线第一阶段 Python-人工智能…...

[ACTF2020 新生赛]Upload1

题目 以为是前端验证&#xff0c;试了一下PHP传不上去 可以创建一个1.phtml文件。对.phtml文件的解释: 是一个嵌入了PHP脚本的html页面。将以下代码写入该文件中 <script languagephp>eval($_POST[md]);</script><script languagephp>system(cat /flag);&l…...

【PyTorch】0.初识:从吃货角度理解张量

0.初识张量 PyTorch 是一个 Python 深度学习框架&#xff0c;它将数据封装成张量&#xff08;Tensor&#xff09;来进行运算。PyTorch 中的张量就是元素为同一种数据类型的多维矩阵。在 PyTorch 中&#xff0c;张量以 "类" 的形式封装起来&#xff0c;对张量的一些运…...

医学图像分析工具09.1:Brainstorm安装教程

1. 安装前准备 **官方安装包和数据&#xff1a;**https://neuroimage.usc.edu/bst/download.php **官方安装教程&#xff1a;**https://neuroimage.usc.edu/brainstorm/Installation Matlab 版本要求&#xff1a; 有 Matlab&#xff1a; R2009b (7.9) 或更高版本没有 Matlab&…...

springboot基于Spring Boot的智慧养老服务系统的设计与实现

系统介绍&#xff1a; 智慧养老服务系统是一种运用现代科技手段&#xff0c;整合各类养老资源&#xff0c;为老年人提供全方位、个性化服务的综合性平台。该系统通过智能化设备、大数据分析、云计算等技术&#xff0c;实现对老年人健康状况、生活需求的实时监控与精准匹配&…...

Linux内核中IPoIB驱动模块的初始化与实现

InfiniBand(IB)是一种高性能的网络互连技术,广泛应用于高性能计算(HPC)和数据中心。为了在InfiniBand网络上运行标准的IP协议栈,Linux内核提供了IP over InfiniBand(IPoIB)驱动模块。IPoIB允许在InfiniBand网络上传输IPv4和IPv6数据包,从而使得现有的IP应用程序能够无…...

WPS计算机二级•幻灯片的基础操作

听说这是目录哦 PPT的正确制作步骤&#x1f6e3;️认识PPT界面布局&#x1f3dc;️PPT基础操作 快捷键&#x1f3de;️制作PPT时 常用的快捷技巧&#x1f3d9;️快速替换PPT的 文本字体&#x1f303;快速替换PPT 指定文本内容&#x1f305;能量站&#x1f61a; PPT的正确制作步…...

.NET9增强OpenAPI规范,不再内置swagger

ASP.NETCore in .NET 9.0 OpenAPI官方文档ASP.NET Core API 应用中的 OpenAPI 支持概述 | Microsoft Learnhttps://learn.microsoft.com/zh-cn/aspnet/core/fundamentals/openapi/overview?viewaspnetcore-9.0https://learn.microsoft.com/zh-cn/aspnet/core/fundamentals/ope…...

基于微信小程序的民宿预订管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏&#xff1a;…...

网络(三) 协议

目录 1. IP协议; 2. 以太网协议; 3. DNS协议, ICMP协议, NAT技术. 1. IP协议: 1.1 介绍: 网际互连协议, 网络层是进行数据真正传输的一层, 进行数据从一个主机传输到另一个主机. 网络层可以将数据主机进行传送, 那么传输层保证数据可靠性, 一起就是TCP/IP协议. 路径选择: 确…...

【深度解析Java 20天速成】04_IDEA的安装与使用

【Why IDEA ?】 【注】JetBrains官方说明&#xff1a; 尽管我们采取了多种措施确保受访者的代表性&#xff0c;但结果可能会略微偏向 JetBrains 产品的用户&#xff0c;因为这些用户更有可能参加调查。 此外&#xff0c;2022年&#xff0c;某美国软件开发商在对近千名专业的Ja…...

gitlab处理空文件夹的提交或空文件夹提交失败

问题描述 厂家发给了我一个压缩包文件&#xff0c;压缩包解压之后本地编译没问题&#xff1b;推送到gitlab之后&#xff0c;再编译就报错了&#xff1b; 问题原因 经过分析之后发现&#xff0c;压缩包解压之后存在很多空文件夹&#xff1b;但是gitlab推送的时候&#xff0c;…...

计算机网络之链路层

本文章目录结构出自于《王道计算机考研 计算机网络_哔哩哔哩_bilibili》 02 数据链路层 在网上看到其他人做了详细的笔记&#xff0c;就不再多余写了&#xff0c;直接参考着学习吧。 1 详解数据链路层-数据链路层的功能【王道计算机网络笔记】_wx63088f6683f8f的技术博客_51C…...