当前位置: 首页 > news >正文

MMLU-Pro 基准测试数据集上线,含 12k 个跨学科复杂问题,难度提升,更具挑战性!DeepSeek 数学模型一键部署

在大语言模型 (LLM) 蓬勃发展的时代,诸如大规模多任务语言理解 (MMLU) 之类的基准测试,在推动 AI 于不同领域的语言理解与推理能力迈向极限方面,发挥着至关重要的关键作用。

然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。

为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始 MMLU 数据集、 STEM 网站、 TheoremQA 和 SciBench 等。该数据集现已在 hyper.ai 提供下载,下拉文章获取链接~

9 月 9 日-9 月 14 日,hyper.ai 官网更新速览:

  • 优质公共数据集:10 个

  • 优质教程精选:3 个

  • 社区文章精选:4 篇

  • 热门百科词条:5 条

  • 9 月截稿顶会:3 个

访问官网:hyper.ai

公共数据集精选

1. MMLU-Pro 大规模多任务理解数据集

MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。

直接使用:https://go.hyper.ai/PwJDW

2. DeepGlobe18 道路提取数据集

道路挑战赛的训练数据包含 6,226 张 RGB 卫星图像,尺寸为 1024×1024 。图像分辨率为 50 厘米像素,由 DigitalGlobe 的卫星收集。

直接使用:https://go.hyper.ai/VIg0J

3. OpenForensics 人脸伪造检测数据集

该数据集由 115K 张野外图像和 334K 张人脸组成,所有图像都有丰富的面部注释,包括伪造类别、 边界框 、分割掩码、伪造边界和一般面部地标,包含各种背景和多个不同年龄、性别、姿势、位置和面部遮挡的人。

直接使用:https://go.hyper.ai/jTTRz

4. DeepfakeTIMIT 深度伪造检测数据集

该数据集包含了使用 开源 的基于 生成 对抗网络 (GAN) 的方法交换面孔的视频。这些视频基于原始的自动编码器基础的 Deepfake 算法 创建。

直接使用:https://go.hyper.ai/me1TI

5. SESYD 合成文档数据库

该数据集包含了具有基准真实信息的文档图像, 由 11 个集合组成,包含 284k 图像、 190k 符号和 284k 字符,主要针对文档图像分析领域的 2 个主要研究问题:(1) 在线绘图图像(如平面图和电路图)中的象征识别和定位;(2) 地理地图中字符的分割和识别。

直接使用:https://go.hyper.ai/ZqRTQ

6. LAV-DF 多模态 DeepFake 音频视觉数据集

LAV-DF 是一个多模态(视频篡改和音频篡改)数据集,源自 VoxCeleb2 数据集,包含 136,304 段视频,其中 36,431 段真实视频,99,873 段伪造视频。

直接使用:https://go.hyper.ai/ujock

7. Vibrent Clothes Rental Dataset 服装租赁数据集

该数据集包含 64k 笔交易、 2.2k 名匿名用户的租赁历史记录和 15.8k 套独特的服装,其中每件实物的属性和租赁历史都有细致的信息记录。所有服装都列为单件商品或其相应的商品组,指的是单件商品之间的共享设计,每件服装都附有一组描述其某些属性的 标签 。

直接使用:https://go.hyper.ai/PFlKA

8. FFIW10K 人脸伪造数据集

该数据包括从 Youtube 收集的 10k 个高质量伪造视频,平均每帧有三个人脸,每个视频都包含真实人脸和伪造人脸,更加接近现实复杂场景。操纵过程是全自动的,由领域对抗质量评估网络控制,使数据集具有高度可扩展性和低人力成本。

直接使用:https://go.hyper.ai/AHS7y

9. ForgeryNet 人脸伪造数据集

该数据集包含了 290 万张图像和 221,247 个视频,涵盖了来自全球的 7 种图像层面和 8 种视频层面的伪造操作方法。这个数据集为研究者提供了丰富的资源,以支持图像和视频层面的 4 种任务:图像伪造分类、空间伪造定位、视频伪造分类和时间伪造定位。

直接使用:https://go.hyper.ai/Yx0mj

10. EEG Eve State Dataset 眼部状态脑电图数据集

该数据集包含了 EEG 测量的实例,其输出是眼睛是睁开还是闭合的状态。数据集中的值按时间顺序排列,其中 0 表示眼睛睁开状态,1 表示眼睛闭合状态。数据集包含 14 个 EEG 测量值,分别标记为 AF3, F7, F3, FC5, T7, P, O1, O2, P8, T8, FC6, F4, F8, AF4 。

直接使用:https://go.hyper.ai/RTBDy

更多公共数据集,请访问:

https://hyper.ai/datasets

公共教程精选

1. 一键部署 DeepSeek-Prover-V1.5

该模型是 DeepSeek 于 2024 年开源的数学定理证明模型,研究团队在 Lean 4 中引入了该模型,模型通过自我迭代和 Lean 证明器监督,构建了一个「围棋」式的学习环境。该教程是对模型进行一键部署 Demo 的分步使用。

直接使用:https://go.hyper.ai/MevMB

2. LLaVA OneVision 多模态全能视觉模型 Demo

该模型能够处理图像、文本、图像文本交错输入和视频,是首个能够同时突破开放多模态模型在这三个重要 计算机视觉 场景性能瓶颈的单模型。进入官网克隆并启动容器,直接复制 API 地址,即可对模型进行推理体验。

直接使用:https://go.hyper.ai/Dcg74

3. 在线教程|大人,文生图的时代又变了!SD 核心成员自立门户,首个模型 FLUX.1 硬刚 SD 3 和 Midjourney

文生图模型的竞争愈发激烈!前 Stable Diffusion 核心成员自立门户,发布了文生图模型 FLUX,从商业用途到开源个人使用,全面覆盖。生成效果非常接近真人实拍,人物细节表现十分逼真。目前 hyper.ai 已上线「FLUX ComfyUI(含黑神话悟空 LoRA 训练版)」,点击以下链接即可根据教程部署。

直接使用:https://go.hyper.ai/trQhv

社区文章精选

1. 数据集汇总|DeepFake 乱象丛生,用魔法打败魔法!高质量数据集助力伪造监测技术发展

对于人脸识别、 DeepFake 乱象,亟需升级人脸识别和伪造检测技术,以精确判断被篡改的图像和视频。 HyperAI 超神经为大家汇总了常用的 11 个人脸识别、 DeepFake 数据集,点击一键下载。

查看完整汇总:https://go.hyper.ai/EMKo2

2. Apple Intelligence 深夜炸场!苹果发布 4 颗自研芯片,iPhone/iWatch/AirPods 大升级

在 9 月 10 日的秋季新品发布会上,苹果推出 iPhone 16 、 AirPods 4 、 Apple Watch Series 10 等新品,基于自研芯片,在性能上实现了重大飞跃,同时全面融入 Apple Intelligence,为用户带来前所未有的 智能体 验。本文是对 Apple 秋季新品发布会的全面报道。

查看完整报道:https://go.hyper.ai/H7P8X

3. 灵敏度提高 56%,港中文/复旦/耶鲁等联袂提出全新蛋白质同源物检测方法

在对蛋白质的识别过程中,蛋白质序列的同源性鉴定是其中一项至关重要的任务。为解决蛋白质远同源性研究的痛点,基于蛋白质语言模型和密集检索技术,香港中文大学李煜,联合复旦大学智能复杂体系实验室、上海 人工智能 实验室青年研究员孙思琦、耶鲁大学 Mark Gerstein 提出了一种超快速、高灵敏度的同源物检测框架——密集同源物检索器。本文是对研究论文的详细解读与分享。

查看完整报道:https://go.hyper.ai/vLAej

4. 基于 2,500 平方公里实景数据,北师大团队提出 StarFusion 模型,实现高空间分辨率图像预测

北京师范大学地表过程与资源生态国家重点实验室陈晋团队,提出了一种双流时空解耦融合架构模型 StarFusion,该模型能够克服大多数现有 深度学习 算法需要 HSR 时间序列图像进行训练的问题,充分实现高空间分辨率图像的预测。本文是对研究论文的详细解读与分享。

查看完整报道:https://go.hyper.ai/7LmzA

热门百科词条精选

  1. Sigmoid 函数
  2. 配对 t 检验 Paired t-Test
  3. 对比学习 Contrastive Learning
  4. 半 监督学习 Semi-Supervised Learning
  5. 数据增强 Data Augmentation

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki
在这里插入图片描述

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内 数据科学 领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1300+ 公开数据集提供国内加速下载节点

  • 收录 400+ 经典及流行在线教程

  • 解读 100+ AI4Science 论文案例

  • 支持 500+ 相关词条查询

  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai

相关文章:

MMLU-Pro 基准测试数据集上线,含 12k 个跨学科复杂问题,难度提升,更具挑战性!DeepSeek 数学模型一键部署

在大语言模型 (LLM) 蓬勃发展的时代,诸如大规模多任务语言理解 (MMLU) 之类的基准测试,在推动 AI 于不同领域的语言理解与推理能力迈向极限方面,发挥着至关重要的关键作用。 然而,伴随模型的持续改进与优化,LLM 在这些…...

Vue | Vue深入浅出——Vue中的render函数详解

1.render函数 在编写vue单文件的大多数情况下,我们都是使用template模板来创建HTML。然而在一些条件判断比较复杂的场景下,使用JavaScript去描绘HTML的生成逻辑会显得更加的简洁直观。 使用Vue官网的例子来简单说明: 如果自己在开发的时候…...

数学基础 -- 线性代数之奇异值

奇异值与其应用 1. 奇异值定义 对于任意的矩阵 A A A(可以是方阵或非方阵),存在三个矩阵 U U U、 Σ \Sigma Σ 和 V V V,使得: A U Σ V T A U \Sigma V^T AUΣVT 其中: U U U 是一个 m m m \ti…...

Python爬虫使用实例-wallpaper

1/ 排雷避坑 &#x1f95d; 中文乱码问题 print(requests.get(urlurl,headersheaders).text)出现中文乱码 原因分析&#xff1a; <meta charset"gbk" />解决方法&#xff1a; 法一&#xff1a; response requests.get(urlurl,headersheaders) response.en…...

探索Go语言中的随机数生成、矩阵运算与数独验证

1. Go中的随机数生成 在许多编程任务中&#xff0c;随机数的生成是不可或缺的。Go语言通过 math/rand 包提供了伪随机数生成方式。伪随机数由种子(seed)决定&#xff0c;如果种子相同&#xff0c;生成的数列也会相同。为了确保每次程序运行时产生不同的随机数&#xff0c;我们…...

无线安全(WiFi)

免责声明:本文仅做分享!!! 目录 WEP简介 WPA简介 安全类型 密钥交换 PMK PTK 4次握手 WPA攻击原理 网卡选购 攻击姿态 1-暴力破解 脚本工具 字典 2-Airgeddon 破解 3-KRACK漏洞 4-Rough AP 攻击 5-wifi钓鱼 6-wifite 其他 WEP简介 WEP是WiredEquivalentPri…...

牛客练习赛128:Cidoai的平均数对(背包dp)

题目描述 给定 nnn 对数 (ai,bi)(a_i,b_i)(ai​,bi​) 和参数 kkk&#xff0c;你需要选出一些对使得在满足 bib_ibi​ 的平均值不超过 kkk 的同时&#xff0c;aia_iai​ 的和最大&#xff0c;求出这个最大值。 输入描述: 第一行两个整数分别表示 n,kn,kn,k。 接下来 nnn 行&…...

Python世界:简易地址簿增删查改算法实践

Python世界&#xff1a;简易地址簿增删查改算法实践 任务背景编码思路代码实现本文小结 任务背景 该任务来自简明Python教程中迈出下一步一章的问题&#xff1a; 编写一款你自己的命令行地址簿程序&#xff0c; 你可以用它浏览、 添加、 编辑、 删除或搜索你的联系人&#xff…...

网络安全-intigriti-0422-XSS-Challenge Write-up

目录 一、环境 二、解题 2.1看源码 一、环境 Intigriti April Challenge 二、解题 要求&#xff1a;弹出域名就算成功 2.1看源码 我们看到marge方法&#xff0c;肯定是原型链污染题目 接的是传参&#xff0c;我们可控的点在于qs.config和qs.settings&#xff0c;这两个可…...

Debian Linux 11 使用crash

文章目录 前言一、环境安装1.1 安装debug package1.2 安装crash 二、使用crash 前言 # cat /etc/os-release PRETTY_NAME"Debian GNU/Linux 11 (bullseye)" NAME"Debian GNU/Linux" VERSION_ID"11" VERSION"11 (bullseye)" VERSION_C…...

python列表 — 按顺序找出b表中比a表多出的元素

目录 一、功能描述 二、适用场景 三、代码实现 一、功能描述 有a、b两个列表&#xff0c;a列表有3个元素&#xff1b;b列表有7个元素。b列表多出的一个元素可能在随机的位置&#xff0c;在不影响其他元素的情况下&#xff0c;找到b列表多出的那四个元素&#xff0c;并按照在…...

如何使用Python创建目录或文件路径列表

在 Python 中&#xff0c;创建目录或生成文件路径列表通常涉及使用 os、os.path 或 pathlib 模块。下面是一些常见的任务和方法&#xff0c;用于在 Python 中创建目录或获取文件路径列表。 问题背景 在初始阶段的 Python 学习过程中&#xff0c;可能遇到这样的问题&#xff1a…...

领夹麦克风哪个品牌好,哪种领夹麦性价比高,无线麦克风推荐

在音频录制需求日益多样化的今天&#xff0c;无线领夹麦克风作为提升音质的关键设备&#xff0c;其重要性不言而喻。市场上鱼龙混杂&#xff0c;假冒伪劣、以次充好的现象屡见不鲜。这些产品往往以低价吸引消费者&#xff0c;却在音质、稳定性、耐用性等方面大打折扣&#xff0…...

苍穹外卖学习笔记(五)

文章目录 二.新增菜品1.图片上传2.具体新增菜品 二.新增菜品 1.图片上传 这里采用了阿里云oss对象存储服务 application.yml alioss:endpoint: ${sky.alioss.endpoint}access-key-id: ${sky.alioss.access-key-id}access-key-secret: ${sky.alioss.access-key-secret}bucket…...

什么是卷积层、池化层、BN层,有什么作用?

什么是卷积层、池化层、BN层&#xff0c;有什么作用&#xff1f; 卷积层池化层BN层 卷积层 定义&#xff1a; 卷积层是CNN中的核心组件&#xff0c;它通过卷积运算对输入数据进行特征提取。卷积层由多个卷积单元组成&#xff0c;每个卷积单元的参数通过反向传播算法优化得到。…...

[学习笔记]《CSAPP》深入理解计算机系统 - Chapter 4 处理器体系结构Chapter 5 优化程序性能

总结一些第四章和第五章的一些关键信息 Chapter 4 处理器体系结构将处理组织成阶段 Chapter 5 优化程序性能 Chapter 4 处理器体系结构 在硬件中&#xff0c;寄存器直接将它的输入和输出线连接到电路的其他盆。 在机器级变成中&#xff0c;寄存器代表的是 CPU 中为数不多的可寻…...

案例分享|我是这样转型做数据产品经理的?

本文为才聚学员投稿的原创作品&#xff0c;现在才聚正面向专业项目管理者征集“项目管理实战案例”原创文章&#xff0c;被采纳即可获得丰厚稿酬&#xff0c;欢迎大家关注公众号踊跃投稿。 如您有意向投稿&#xff0c;可将稿件投递给我们。 故事介绍 三段故事&#xff0c;讲…...

ffmpeg面向对象-rtsp拉流相关对象

目录 1.AVFormatContext和FFFormatContext类。1.1 概述1.2 构造函数1.3 oopc的继承实现 2. AVInputFormat 类。2.1 多态的实现 3.所用设计模式3.1模板模式3.2 工厂模式&#xff1f; 3.3 rtsp拉流建链 4.this指针5.小结6.rtsp拉流流程 1.AVFormatContext和FFFormatContext类。 …...

feign client发送Post请求,发送对象参数,服务端接收不到正确参数报错排查

记一次feignclient发送请求服务端接收不到正确参数排查 服务端代码&#xff1a; Operation(summary "Create team")PostMapping("post")RequiresPermissions("team:add")public RestResponse addTeam(Valid Team team) {this.teamService.crea…...

Hadoop林子雨安装

文章目录 hadoop安装教程注意事项&#xff1a; hadoop安装教程 链接: 安装教程 注意事项&#xff1a; 可以先安装ububtu增强功能&#xff0c;完成共享粘贴板和共享文件夹 ubuntu增强功能 2.这里就可以使用共享文件夹 或者在虚拟机浏览器&#xff0c;用 微信文件传输助手 传文…...

Docker 离线安装指南

参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性&#xff0c;不同版本的Docker对内核版本有不同要求。例如&#xff0c;Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本&#xff0c;Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...

Unity3D中Gfx.WaitForPresent优化方案

前言 在Unity中&#xff0c;Gfx.WaitForPresent占用CPU过高通常表示主线程在等待GPU完成渲染&#xff08;即CPU被阻塞&#xff09;&#xff0c;这表明存在GPU瓶颈或垂直同步/帧率设置问题。以下是系统的优化方案&#xff1a; 对惹&#xff0c;这里有一个游戏开发交流小组&…...

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件&#xff0c;常用于在两个集合之间进行数据转移&#xff0c;如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。 核心特性与用法 基本属性 v-model&#xff1a;绑定右侧列表的值&…...

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

引言&#xff1a; 在人工智能快速发展的浪潮中&#xff0c;快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型&#xff08;LLM&#xff09;。该模型代表着该领域的重大突破&#xff0c;通过独特方式融合思考与非思考…...

【C语言练习】080. 使用C语言实现简单的数据库操作

080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码:使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出:5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作 在…...

AI书签管理工具开发全记录(十九):嵌入资源处理

1.前言 &#x1f4dd; 在上一篇文章中&#xff0c;我们完成了书签的导入导出功能。本篇文章我们研究如何处理嵌入资源&#xff0c;方便后续将资源打包到一个可执行文件中。 2.embed介绍 &#x1f3af; Go 1.16 引入了革命性的 embed 包&#xff0c;彻底改变了静态资源管理的…...

视觉slam十四讲实践部分记录——ch2、ch3

ch2 一、使用g++编译.cpp为可执行文件并运行(P30) g++ helloSLAM.cpp ./a.out运行 二、使用cmake编译 mkdir build cd build cmake .. makeCMakeCache.txt 文件仍然指向旧的目录。这表明在源代码目录中可能还存在旧的 CMakeCache.txt 文件,或者在构建过程中仍然引用了旧的路…...

springboot整合VUE之在线教育管理系统简介

可以学习到的技能 学会常用技术栈的使用 独立开发项目 学会前端的开发流程 学会后端的开发流程 学会数据库的设计 学会前后端接口调用方式 学会多模块之间的关联 学会数据的处理 适用人群 在校学生&#xff0c;小白用户&#xff0c;想学习知识的 有点基础&#xff0c;想要通过项…...

BLEU评分:机器翻译质量评估的黄金标准

BLEU评分&#xff1a;机器翻译质量评估的黄金标准 1. 引言 在自然语言处理(NLP)领域&#xff0c;衡量一个机器翻译模型的性能至关重要。BLEU (Bilingual Evaluation Understudy) 作为一种自动化评估指标&#xff0c;自2002年由IBM的Kishore Papineni等人提出以来&#xff0c;…...

uniapp 小程序 学习(一)

利用Hbuilder 创建项目 运行到内置浏览器看效果 下载微信小程序 安装到Hbuilder 下载地址 &#xff1a;开发者工具默认安装 设置服务端口号 在Hbuilder中设置微信小程序 配置 找到运行设置&#xff0c;将微信开发者工具放入到Hbuilder中&#xff0c; 打开后出现 如下 bug 解…...