当前位置：首页 > news >正文

HUMANITY’S LAST EXAM (HLE) 综述：人工智能领域的“最终考试”

news 2025/7/14 2:18:42

论文地址：Humanity’s Last Exam

随着大型语言模型（LLMs）能力的飞速发展，其在数学、编程、生物等领域的任务表现已超越人类。为了系统地衡量这些能力，LLMs 需要接受基准测试（Benchmarks）的评估。然而，现有的基准测试，如 MMLU，已经无法满足需求：

为了解决上述问题，HUMANITY’S LAST EXAM (HLE) 应运而生，旨在成为评估 AI 学术能力的最终封闭式基准测试。

高难度：HLE 包含 3000 道 极具挑战性的问题，涵盖数学、人文、自然科学等 100 多个学科领域。
- 示例：
  - 数学：涉及高阶数学概念，如自然变换、共变自然变换等。
  - 化学：要求分析复杂的化学反应机理。
  - 语言学：考察对古代语言（如圣经希伯来语）的深入理解。
  - 其他：包括经典文学、生态学、计算机科学等领域的问题【详见图 2】。
前沿性：问题由全球近 1000 名来自 500 多家机构的领域专家（包括教授、研究人员、研究生等）共同开发，确保了问题的前沿性和专业性。

多模态：HLE 是多模态基准测试，10% 的问题需要同时理解文本和图像信息。
精确性：
- 问题格式：包括精确匹配题（模型提供精确字符串作为输出）和多项选择题（模型从五个或更多选项中选择一个）。
- 答案验证：所有问题都有明确的、客观的答案，便于自动化评分。

多阶段审核流程：
- LLM 难度检查：在提交之前，每个问题都会经过多个前沿 LLM 的测试。如果 LLM 能够正确回答，则该问题会被拒绝【详见图 4】。
- 专家评审：通过 LLM 测试的问题将进入两轮人工评审：
  - 第一轮：由研究生级别的评审员进行多轮反馈和修订。
  - 第二轮：由组织者和专家评审员进行最终审核，确保问题质量和符合提交标准。
- 社区反馈：发布后，将进行公开反馈期，收集研究社区的意见，以纠正数据集中的任何问题。
严格的提交标准：
- 问题必须精确、无歧义、可解决且无法通过简单搜索获得。
- 所有提交内容必须为原创作品或对已发表信息的非平凡合成。
- 问题通常需要研究生级别的专业知识或测试对高度专业主题的知识。
- 答案简短且易于验证，以支持自动评分。
- 禁止开放式问题、主观解释和与大规模杀伤性武器相关的内容。

准确率低：所有顶尖 LLM 在 HLE 上的准确率均低于 10%，表明当前 AI 能力与专家级学术表现之间存在显著差距【详见表 1】。
- 原因分析：
  - 问题难度高：HLE 旨在筛选出 LLM 无法正确回答的问题。
  - 模型推理噪声：模型在推理过程中存在固有噪声，导致其无法始终保持一致的表现。
校准误差高：模型在 HLE 上表现出较差的校准性，经常以高置信度提供错误答案，表明模型存在幻觉（hallucination）问题【详见表 1】。
- RMS 校准误差：衡量模型预测置信度与实际准确率之间的一致性。RMS 误差越高，表明模型越不善于识别自身能力的边界。

推理成本高：具有推理能力的模型需要生成更多的标记（tokens），从而导致更高的计算成本【详见图 5】。
- 未来方向：未来的模型不仅需要在准确率方面有所提升，还应致力于提高计算效率。

发展潜力巨大：尽管当前 LLM 在 HLE 上的表现不佳，但 AI 发展迅速，模型很可能在 2025 年底之前在 HLE 上达到超过 50% 的准确率。
局限性：HLE 主要测试结构化的学术问题，而非开放式的科研或创造性问题，因此它只是衡量 AI 技术知识和推理能力的一个指标，而非衡量“人工通用智能”（AGI）的标准。

HLE 代表着 AI 基准测试的一个重要里程碑，它：

HLE 示例问题
图 2：HLE 提交的部分多样且具有挑战性的问题示例

图 4：HLE 数据集创建流程。接受 LLM 无法解决的问题，然后借助专家同行评审员进行迭代完善。每个问题随后由组织者或由组织者培训的专家评审员手动批准。除了公共集之外，还保留了一个私有保留集，以评估模型在公共基准测试上的过度拟合和作弊行为。

HLE 准确率与 RMS 校准误差
图 5：测试的推理模型的平均完成标记计数，包括推理和输出标记。我们还在附录 C.3 中绘制了非推理模型的平均标记计数。

HLE 为 AI 领域提供了一个全新的、极具挑战性的评估平台，将有助于推动 AI 技术的持续进步，并为 AI 治理提供重要的参考依据。