OlympicArena 论文简介
近年来,大型语言模型(LLMs)和大型多模态模型(LMMs)的飞速发展,让AI逐渐展现出接近人类水平的认知推理能力。然而,如何科学评估AI在复杂问题解决中的真实水平,一直是学术界和产业界的难题。上海交通大学与上海人工智能实验室联合发布了名为OlympicArena的全新基准测试,堪称AI界的“奥林匹克竞赛场”。它不仅覆盖数学、物理、化学等七大学科,还包含上万道高难度双语题目,甚至能揪出GPT-4o的“软肋”——整体正确率仅39.97%!
为什么需要OlympicArena?
现有的AI评估基准大多聚焦单一学科或简单知识记忆,而真实世界的科学探索往往需要跨学科的综合推理能力。例如,解决一道国际物理奥赛题,可能需要结合数学建模、空间想象和符号解析能力。OlympicArena的诞生,正是为了填补这一空白。
- 覆盖广:包含7大学科、62项国际奥赛题目,总计11,163道双语问题,涵盖纯文本与图文混合模态。
- 难度高:问题分为“知识回忆”“概念应用”“认知推理”三级,其中67%的问题需高阶推理能力。
- 评估细:不仅看答案对错,还通过“过程级评估”分析推理步骤,甚至能发现模型“蒙对答案但思路错误”的情况。
AI在OlympicArena中表现如何?
研究团队对包括GPT-4o、Claude3、Gemini等顶尖模型进行了全面测试,结果令人深思:
- 顶尖模型也“偏科”:GPT-4o以39.97%的整体正确率领先,但在数学(28.67%)和物理(29.71%)上表现最弱,生物学(52.18%)和地理(56.23%)稍好。
- 多模态竟是“双刃剑”:多数LMM模型(如LLaVA-NeXT)在图文混合问题上反而不如纯文本版本,仅GPT-4o等少数模型能有效利用视觉信息。
- 推理链条越长,错误越多:过程级评估显示,模型在推理后期步骤的错误率显著增加,暴露长链条逻辑推导的短板。
AI的“弱点”与“潜力”
通过细粒度分析,团队揭示了当前AI的三大瓶颈:
- 逻辑分解能力弱:面对需拆解为子问题的复杂题目(如证明题),模型表现最差。
- 空间与符号理解差:涉及几何图形、抽象符号(如化学方程式)的问题错误率高。
- 知识深度不足:部分错误源于模型缺乏专业领域知识(如地质学中的地热效应)。
但研究也发现积极信号:即使答案错误,AI常能完成部分正确推理步骤。例如,在物理题中,GPT-4o虽未得出最终数值,却能正确应用能量守恒定律。这表明AI的推理潜力尚未被完全挖掘。
为何选择奥林匹克竞赛题?
论文作者指出,奥赛题的设计天然适合评估高阶认知能力:
- 跨学科性:例如化学题可能需数学计算和空间想象力。
- 创新性:题目常突破课本框架,要求“创造性地应用知识”。
- 严谨性:奥赛题需严格逻辑推导,避免“模糊回答”。
此外,团队通过数据泄漏检测证实,当前模型对OlympicArena题目的“死记硬背”现象极少,确保了评估的公平性。
开源资源与未来展望
OlympicArena不仅是一个基准测试,更提供全套研究工具:
- 标注平台:支持社区协作完善数据集。
- 自动评估工具:支持答案级和过程级评分。
- 动态排行榜:研究者可提交模型结果,实时对比性能。
未来,团队计划每年更新题目,并探索AI在真实科研(如新材料设计)中的应用评估。正如论文通讯作者所言:“我们的目标不是让AI成为‘做题家’,而是推动其成为科学发现的伙伴。”
结语
OlympicArena的发布,为AI的能力评估树立了新标杆。它既揭示了当前技术的局限,也指明了突破方向——融合跨学科知识、提升多模态理解、强化长链条推理。或许在不远的未来,AI真能在“科学奥运会”中摘金夺银,而这场竞赛的起点,正是今天。
项目地址:https://github.com/GAIR-NLP/OlympicArena
论文链接:https://arxiv.org/abs/2406.12753
相关文章:
OlympicArena 论文简介
近年来,大型语言模型(LLMs)和大型多模态模型(LMMs)的飞速发展,让AI逐渐展现出接近人类水平的认知推理能力。然而,如何科学评估AI在复杂问题解决中的真实水平,一直是学术界和产业界的…...
你具备数据素养吗?
在这个外卖平台能预测你明天想点什么的时代,当超市货架摆放都经过算法优化时,我们发现:数据素养已不再是专业人员的专利,而是数字公民的基本生存技能。一位小学班主任通过分析学生错题数据优化教学策略,社区便利店老板…...
如何用ClassFinal加密JAR保护知识产权!
0.前言 凌晨三点的办公室,咖啡杯底凝着褐色的残渍,键盘上跳跃的手指突然停滞。张工程师盯着屏幕上的反编译窗口,自己耗时三个月开发的规则引擎此刻像被解剖的标本般赤裸裸摊开——这正是上周交付给客户的jar包。当.class文件以伪代码形式暴露…...
轨迹优化 | 基于LBFGS优化器的无约束路径平滑(附ROS C++仿真)
目录 0 专栏介绍1 LBFGS优化器1.1 拟牛顿法框架1.2 LBFGS-Lite库 2 基于LBFGS的轨迹优化3 ROS C仿真 0 专栏介绍 🔥课设、毕设、创新竞赛必备!🔥本专栏涉及更高阶的运动规划算法轨迹优化实战,包括:曲线生成、碰撞检测…...
Vue2到Vue3:无痛升级之路
为什么要从 Vue2 升级到 Vue3 Vue 3 带来了众多令人瞩目的改进和新特性,这些优势使得升级到 Vue 3 对项目的长期发展具有重要意义。 性能显著提升:Vue 3 采用了基于 Proxy 的响应式系统,相比 Vue 2 使用的 Object.defineProperty,…...
第28篇 基于ARM A9处理器用C语言实现中断<四>
Q:可以改变上一期实验工程里红色LED计数的速率吗? A:在按键中断服务程序中使HPS Timer 0停止计数,修改定时器中使用的预设计数值,然后重启定时器;所有的修改都是在按键中断服务程序中完成。主程序和其他…...
Linux、Docker与Redis核心知识点与常用命令速查手册
Linux、Docker与Redis核心知识点与常用命令速查手册 一、Linux基础核心 1. 核心概念 文件系统:采用树形结构,根目录为/权限机制:rwx(读/写/执行)权限,用户分为owner/group/others软件包管理: …...
时间序列分析(四)——差分运算、延迟算子、AR(p)模型
此前篇章: 时间序列分析(一)——基础概念篇 时间序列分析(二)——平稳性检验 时间序列分析(三)——白噪声检验 一、差分运算 差分运算的定义:差分运算是一种将非平稳时间序列转换…...
《深度学习》——调整学习率和保存使用最优模型
调整学习率 在使用 PyTorch 进行深度学习训练时,调整学习率是一个重要的技巧,合适的学习率调整策略可以帮助模型更好地收敛。 PyTorch 提供了多种调整学习率的方法,下面将详细介绍几种常见的学习率调整策略及实例代码: torch.opt…...
零风险把数据盘挂载给根分区,给生产环境服务器扩容
背景 刚买服务器时,用户量不大,所以结合预算不多情况下,都是默认买个小点的系统盘挂载到服务器上,(或者默认服务器的40G),等到某一天业务量上来之后,发现抓肘见襟给自己一手措不及防…...
刷题日记4
2025.1.21 2904. 最短且字典序最小的美丽子字符串 2904. 最短且字典序最小的美丽子字符串 - 力扣(LeetCode) class Solution { public:string shortestBeautifulSubstring(string s, int k) {//遍历找到美丽子字符串,更新时候如果<res&…...
在vscode中拉取gitee里的项目并运行
拉取项目: 方法一:vscode点击查看--->终端(或者直接通过快捷键ctrol+ `打开) 在终端内通过cd命令定位到你想存放项目的文件夹 例如:cd h: 通过命令:git clone 地址 例如:git clone newbee-mall-vue-app: 前端代码 等待拉取完成即可在对应文件夹下看到项目啦 方…...
IDEA通过Contince接入Deepseek
Deepseek 的出色表现,上期【Deepseek得两种访问方式与本地部署】 安装Continue插件 第一步、下载插件 在编辑栏【File】->设置【Settiings】或快捷键【CtrlAltS】,弹窗的左侧导航树,选择【plugins】,在marketplace 搜索【Continue】,点…...
Ubuntu如何利用.ibd文件恢复MySQL数据?
## 背景:服务器中,MySQL程序坏了,也没有做定时备份的操作。为了是数据库恢复到最新的。 ## 方法:可以使用MySQL的 .ibd 文件恢复。(需要原数据库的表结构) ## 文件位置:在Ubuntu系统中&#x…...
github上文件过大无法推送问题
GitHub 对文件大小有限制,超过 100 MB 的文件无法直接推送到仓库中。 解决思路: 使用 Git Large File Storage (Git LFS) 来管理大文件不上传对应的大文件 使用Git LFS: 1. 安装 Git LFS 首先,你需要安装 Git LFS。可以按照以…...
数据结构------单向链表。
一.实现单向链表的头插,头删,尾插,尾删,按位置插,按位置删,按位置修改,按元素查找,按元素修改,按元素删除,单链表的逆置,查找倒数第几个元素&…...
(.text+0x1b): undefined reference to `main‘
使用vscode Linux g编译出现 /usr/bin/ld: /usr/lib/gcc/x86_64-linux-gnu/11/../../../x86_64-linux-gnu/Scrt1.o: in function _start: (.text0x1b): undefined reference to main collect2: error: ld returned 1 exit status make: *** [makefile:3: put] Error 1一定记得…...
各类系统Pycharm安装教程
各类系统Pycharm安装教程 一、安装前的准备 1. 系统要求 操作系统: Windows:Windows 10 或更高版本(64位)。macOS:macOS 10.14 或更高版本。Linux:Ubuntu 18.04+、Fedora 30+ 等主流发行版。硬件要求: 内存:至少 4GB(推荐 8GB 以上)。磁盘空间:至少 2.5GB 可用空间…...
算法——结合实例了解Minimax算法(极小化极大算法)
计算机科学中最有趣的事情之一就是编写一个人机博弈的程序。有大量的例子,最出名的是编写一个国际象棋的博弈机器。但不管是什么游戏,程序趋向于遵循一个被称为Minimax算法,伴随着各种各样的子算法在一块。本篇将简要介绍 minimax 算法&#…...
cornerstone3D学习笔记-MPR
最近在研究如何利用cornerstone3D (v1.70.13) 来实现MPR功能,找到它的一个demo -- volumeBasic, 运行效果如下图 看了下主程序的示例代码,非常简单,可以说corestone3D这个库把很多细节都封装起来了,使得调用者可以很简单的快速实…...
向量数据库是什么?「向量数据库详解」
目录 向量数据库详解 一、定义与核心概念 二、核心技术与组件 三、应用场景 四、与传统数据库的对比 五、典型技术框架 六、优缺点分析 七、AI领域的最新应用案例 八、总结 向量数据库详解 一、定义与核心概念 向量数据库是专门用于存储、检索和处理向量数据的数据库…...
C++ Primer 函数匹配
欢迎阅读我的 【CPrimer】专栏 专栏简介:本专栏主要面向C初学者,解释C的一些基本概念和基础语言特性,涉及C标准库的用法,面向对象特性,泛型特性高级用法。通过使用标准库中定义的抽象设施,使你更加适应高级…...
Dav_笔记14:优化程序提示 HINTs -4
指定全局表提示 指定表的提示通常是指发生提示的DELETE,SELECT或UPDATE查询块中的表,而不是指语句引用的任何视图中的表。 如果要为显示在视图中的表指定提示,Oracle建议使用全局提示,而不是在视图中嵌入提示。 您可以使用包含具…...
功率因素和电费的关系
功率因数与电费之间存在直接的关系,具体体现在功率因数调整电费上。 功率因数调整电费的定义 功率因数调整电费是指根据用户功率因数的水平高低,对用户的电费进行减收或增收的费用。这种调整机制旨在鼓励用户提高功率因数,减少无功功率的消…...
桥接模式 Bridge Pattern
桥接模式Abstraction 和 Implementor 的理解 在图书馆看到一本 通过电商项目真正实战《贯穿设计模式》。拿起来翻到了 桥接模式,感觉味道不对,和我印象中不一样。 感谢这位同学提供的源码 贯穿设计模式-适配器模式桥接模式_-CSDN博客GitHub - WeiXiao…...
C# SpinLock 类 使用详解
总目录 前言 SpinLock 是 C# 中一种轻量级的自旋锁,属于 System.Threading 命名空间,专为极短时间锁竞争的高性能场景设计。它通过忙等待(自旋)而非阻塞线程来减少上下文切换开销,适用于锁持有时间极短(如…...
Ubuntu 安装 OpenCV (C++)
版本详情: Ubuntu: 22.04 5.15.0-133-generic gcc: 11.4.0 g: 11.4.0 OpenCV: 4.7.0 1. 卸载 OpenCV 进入原先编译 opencv 的 build 目录,在该目录下打开终端,执行以下代码(如果 build 已经删除了,可以重新编译一…...
推荐两个比较好用的流程图js库
React Flow 和 Logic Flow 是两个用于构建流程图的 JavaScript 库,适用于不同的场景和需求。以下是它们的简要介绍和对比: React Flow React Flow 是一个基于 React 的流程图库,专注于构建高度可定制的节点和边。它适用于需要复杂交互和数据…...
前端模板引擎
前言 正常渲染拿到数据后渲染,三步走:格式化数据、编译模板、渲染数据 如下例 <!DOCTYPE html><html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice…...
Linux /dev/null
/dev/null 是 Linux 和类 Unix 系统中一个特殊且非常有用的设备文件,也被称为空设备。下面为你详细介绍它的特点、用途和使用示例。 特点 写入丢弃:当向 /dev/null 写入数据时,这些数据会被立即丢弃,不会被保存到任何地方&#…...
