当前位置：首页 > news >正文

MMLU-Pro 基准测试数据集上线，含 12k 个跨学科复杂问题，难度提升，更具挑战性！DeepSeek 数学模型一键部署

news 2025/8/26 6:52:21

在大语言模型 (LLM) 蓬勃发展的时代，诸如大规模多任务语言理解 (MMLU) 之类的基准测试，在推动 AI 于不同领域的语言理解与推理能力迈向极限方面，发挥着至关重要的关键作用。

然而，伴随模型的持续改进与优化，LLM 在这些基准测试中的表现已经逐步趋于稳定，这使得区分不同模型能力的差异变得越来越困难。

为了更好地评估 LLM 的能力，滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集，整合了来自多个来源的问题，包括原始 MMLU 数据集、 STEM 网站、 TheoremQA 和 SciBench 等。该数据集现已在 hyper.ai 提供下载，下拉文章获取链接~

9 月 9 日-9 月 14 日，hyper.ai 官网更新速览：

优质公共数据集：10 个
优质教程精选：3 个
社区文章精选：4 篇
热门百科词条：5 条
9 月截稿顶会：3 个

访问官网：hyper.ai

公共数据集精选

1. MMLU-Pro 大规模多任务理解数据集

MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集，旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。

直接使用：https://go.hyper.ai/PwJDW

2. DeepGlobe18 道路提取数据集

道路挑战赛的训练数据包含 6,226 张 RGB 卫星图像，尺寸为 1024×1024 。图像分辨率为 50 厘米像素，由 DigitalGlobe 的卫星收集。

直接使用：https://go.hyper.ai/VIg0J

3. OpenForensics 人脸伪造检测数据集

该数据集由 115K 张野外图像和 334K 张人脸组成，所有图像都有丰富的面部注释，包括伪造类别、边界框、分割掩码、伪造边界和一般面部地标，包含各种背景和多个不同年龄、性别、姿势、位置和面部遮挡的人。

直接使用：https://go.hyper.ai/jTTRz

4. DeepfakeTIMIT 深度伪造检测数据集

该数据集包含了使用开源的基于生成对抗网络 (GAN) 的方法交换面孔的视频。这些视频基于原始的自动编码器基础的 Deepfake 算法创建。

直接使用：https://go.hyper.ai/me1TI

5. SESYD 合成文档数据库

该数据集包含了具有基准真实信息的文档图像, 由 11 个集合组成，包含 284k 图像、 190k 符号和 284k 字符，主要针对文档图像分析领域的 2 个主要研究问题：(1) 在线绘图图像（如平面图和电路图）中的象征识别和定位；(2) 地理地图中字符的分割和识别。

直接使用：https://go.hyper.ai/ZqRTQ

6. LAV-DF 多模态 DeepFake 音频视觉数据集

LAV-DF 是一个多模态（视频篡改和音频篡改）数据集，源自 VoxCeleb2 数据集，包含 136,304 段视频，其中 36,431 段真实视频，99,873 段伪造视频。

直接使用：https://go.hyper.ai/ujock

7. Vibrent Clothes Rental Dataset 服装租赁数据集

该数据集包含 64k 笔交易、 2.2k 名匿名用户的租赁历史记录和 15.8k 套独特的服装，其中每件实物的属性和租赁历史都有细致的信息记录。所有服装都列为单件商品或其相应的商品组，指的是单件商品之间的共享设计，每件服装都附有一组描述其某些属性的标签。

直接使用：https://go.hyper.ai/PFlKA

8. FFIW10K 人脸伪造数据集

该数据包括从 Youtube 收集的 10k 个高质量伪造视频，平均每帧有三个人脸，每个视频都包含真实人脸和伪造人脸，更加接近现实复杂场景。操纵过程是全自动的，由领域对抗质量评估网络控制，使数据集具有高度可扩展性和低人力成本。

直接使用：https://go.hyper.ai/AHS7y

9. ForgeryNet 人脸伪造数据集

该数据集包含了 290 万张图像和 221,247 个视频，涵盖了来自全球的 7 种图像层面和 8 种视频层面的伪造操作方法。这个数据集为研究者提供了丰富的资源，以支持图像和视频层面的 4 种任务：图像伪造分类、空间伪造定位、视频伪造分类和时间伪造定位。

直接使用：https://go.hyper.ai/Yx0mj

10. EEG Eve State Dataset 眼部状态脑电图数据集

该数据集包含了 EEG 测量的实例，其输出是眼睛是睁开还是闭合的状态。数据集中的值按时间顺序排列，其中 0 表示眼睛睁开状态，1 表示眼睛闭合状态。数据集包含 14 个 EEG 测量值，分别标记为 AF3, F7, F3, FC5, T7, P, O1, O2, P8, T8, FC6, F4, F8, AF4 。

直接使用：https://go.hyper.ai/RTBDy

更多公共数据集，请访问：

https://hyper.ai/datasets

公共教程精选

1. 一键部署 DeepSeek-Prover-V1.5

该模型是 DeepSeek 于 2024 年开源的数学定理证明模型，研究团队在 Lean 4 中引入了该模型，模型通过自我迭代和 Lean 证明器监督，构建了一个「围棋」式的学习环境。该教程是对模型进行一键部署 Demo 的分步使用。

直接使用：https://go.hyper.ai/MevMB

2. LLaVA OneVision 多模态全能视觉模型 Demo

该模型能够处理图像、文本、图像文本交错输入和视频，是首个能够同时突破开放多模态模型在这三个重要计算机视觉场景性能瓶颈的单模型。进入官网克隆并启动容器，直接复制 API 地址，即可对模型进行推理体验。

直接使用：https://go.hyper.ai/Dcg74

3. 在线教程｜大人，文生图的时代又变了！SD 核心成员自立门户，首个模型 FLUX.1 硬刚 SD 3 和 Midjourney

文生图模型的竞争愈发激烈！前 Stable Diffusion 核心成员自立门户，发布了文生图模型 FLUX，从商业用途到开源个人使用，全面覆盖。生成效果非常接近真人实拍，人物细节表现十分逼真。目前 hyper.ai 已上线「FLUX ComfyUI（含黑神话悟空 LoRA 训练版）」，点击以下链接即可根据教程部署。

直接使用：https://go.hyper.ai/trQhv

社区文章精选

1. 数据集汇总｜DeepFake 乱象丛生，用魔法打败魔法！高质量数据集助力伪造监测技术发展

对于人脸识别、 DeepFake 乱象，亟需升级人脸识别和伪造检测技术，以精确判断被篡改的图像和视频。 HyperAI 超神经为大家汇总了常用的 11 个人脸识别、 DeepFake 数据集，点击一键下载。

查看完整汇总：https://go.hyper.ai/EMKo2

2. Apple Intelligence 深夜炸场！苹果发布 4 颗自研芯片，iPhone/iWatch/AirPods 大升级

在 9 月 10 日的秋季新品发布会上，苹果推出 iPhone 16 、 AirPods 4 、 Apple Watch Series 10 等新品，基于自研芯片，在性能上实现了重大飞跃，同时全面融入 Apple Intelligence，为用户带来前所未有的智能体验。本文是对 Apple 秋季新品发布会的全面报道。

查看完整报道：https://go.hyper.ai/H7P8X

3. 灵敏度提高 56%，港中文/复旦/耶鲁等联袂提出全新蛋白质同源物检测方法

在对蛋白质的识别过程中，蛋白质序列的同源性鉴定是其中一项至关重要的任务。为解决蛋白质远同源性研究的痛点，基于蛋白质语言模型和密集检索技术，香港中文大学李煜，联合复旦大学智能复杂体系实验室、上海人工智能实验室青年研究员孙思琦、耶鲁大学 Mark Gerstein 提出了一种超快速、高灵敏度的同源物检测框架——密集同源物检索器。本文是对研究论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/vLAej

4. 基于 2,500 平方公里实景数据，北师大团队提出 StarFusion 模型，实现高空间分辨率图像预测

北京师范大学地表过程与资源生态国家重点实验室陈晋团队，提出了一种双流时空解耦融合架构模型 StarFusion，该模型能够克服大多数现有深度学习算法需要 HSR 时间序列图像进行训练的问题，充分实现高空间分辨率图像的预测。本文是对研究论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/7LmzA

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区， 致力于成为国内数据科学领域的基础设施，为国内开发者提供丰富、优质的公共资源，截至目前已经：

为 1300+ 公开数据集提供国内加速下载节点
收录 400+ 经典及流行在线教程
解读 100+ AI4Science 论文案例
支持 500+ 相关词条查询
托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅：

https://hyper.ai