当前位置: 首页 > news >正文

MMLU-Pro 基准测试数据集上线,含 12k 个跨学科复杂问题,难度提升,更具挑战性!DeepSeek 数学模型一键部署

在大语言模型 (LLM) 蓬勃发展的时代,诸如大规模多任务语言理解 (MMLU) 之类的基准测试,在推动 AI 于不同领域的语言理解与推理能力迈向极限方面,发挥着至关重要的关键作用。

然而,伴随模型的持续改进与优化,LLM 在这些基准测试中的表现已经逐步趋于稳定,这使得区分不同模型能力的差异变得越来越困难。

为了更好地评估 LLM 的能力,滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员联合发布了 MMLU-Pro 数据集,整合了来自多个来源的问题,包括原始 MMLU 数据集、 STEM 网站、 TheoremQA 和 SciBench 等。该数据集现已在 hyper.ai 提供下载,下拉文章获取链接~

9 月 9 日-9 月 14 日,hyper.ai 官网更新速览:

  • 优质公共数据集:10 个

  • 优质教程精选:3 个

  • 社区文章精选:4 篇

  • 热门百科词条:5 条

  • 9 月截稿顶会:3 个

访问官网:hyper.ai

公共数据集精选

1. MMLU-Pro 大规模多任务理解数据集

MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集,旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。

直接使用:https://go.hyper.ai/PwJDW

2. DeepGlobe18 道路提取数据集

道路挑战赛的训练数据包含 6,226 张 RGB 卫星图像,尺寸为 1024×1024 。图像分辨率为 50 厘米像素,由 DigitalGlobe 的卫星收集。

直接使用:https://go.hyper.ai/VIg0J

3. OpenForensics 人脸伪造检测数据集

该数据集由 115K 张野外图像和 334K 张人脸组成,所有图像都有丰富的面部注释,包括伪造类别、 边界框 、分割掩码、伪造边界和一般面部地标,包含各种背景和多个不同年龄、性别、姿势、位置和面部遮挡的人。

直接使用:https://go.hyper.ai/jTTRz

4. DeepfakeTIMIT 深度伪造检测数据集

该数据集包含了使用 开源 的基于 生成 对抗网络 (GAN) 的方法交换面孔的视频。这些视频基于原始的自动编码器基础的 Deepfake 算法 创建。

直接使用:https://go.hyper.ai/me1TI

5. SESYD 合成文档数据库

该数据集包含了具有基准真实信息的文档图像, 由 11 个集合组成,包含 284k 图像、 190k 符号和 284k 字符,主要针对文档图像分析领域的 2 个主要研究问题:(1) 在线绘图图像(如平面图和电路图)中的象征识别和定位;(2) 地理地图中字符的分割和识别。

直接使用:https://go.hyper.ai/ZqRTQ

6. LAV-DF 多模态 DeepFake 音频视觉数据集

LAV-DF 是一个多模态(视频篡改和音频篡改)数据集,源自 VoxCeleb2 数据集,包含 136,304 段视频,其中 36,431 段真实视频,99,873 段伪造视频。

直接使用:https://go.hyper.ai/ujock

7. Vibrent Clothes Rental Dataset 服装租赁数据集

该数据集包含 64k 笔交易、 2.2k 名匿名用户的租赁历史记录和 15.8k 套独特的服装,其中每件实物的属性和租赁历史都有细致的信息记录。所有服装都列为单件商品或其相应的商品组,指的是单件商品之间的共享设计,每件服装都附有一组描述其某些属性的 标签 。

直接使用:https://go.hyper.ai/PFlKA

8. FFIW10K 人脸伪造数据集

该数据包括从 Youtube 收集的 10k 个高质量伪造视频,平均每帧有三个人脸,每个视频都包含真实人脸和伪造人脸,更加接近现实复杂场景。操纵过程是全自动的,由领域对抗质量评估网络控制,使数据集具有高度可扩展性和低人力成本。

直接使用:https://go.hyper.ai/AHS7y

9. ForgeryNet 人脸伪造数据集

该数据集包含了 290 万张图像和 221,247 个视频,涵盖了来自全球的 7 种图像层面和 8 种视频层面的伪造操作方法。这个数据集为研究者提供了丰富的资源,以支持图像和视频层面的 4 种任务:图像伪造分类、空间伪造定位、视频伪造分类和时间伪造定位。

直接使用:https://go.hyper.ai/Yx0mj

10. EEG Eve State Dataset 眼部状态脑电图数据集

该数据集包含了 EEG 测量的实例,其输出是眼睛是睁开还是闭合的状态。数据集中的值按时间顺序排列,其中 0 表示眼睛睁开状态,1 表示眼睛闭合状态。数据集包含 14 个 EEG 测量值,分别标记为 AF3, F7, F3, FC5, T7, P, O1, O2, P8, T8, FC6, F4, F8, AF4 。

直接使用:https://go.hyper.ai/RTBDy

更多公共数据集,请访问:

https://hyper.ai/datasets

公共教程精选

1. 一键部署 DeepSeek-Prover-V1.5

该模型是 DeepSeek 于 2024 年开源的数学定理证明模型,研究团队在 Lean 4 中引入了该模型,模型通过自我迭代和 Lean 证明器监督,构建了一个「围棋」式的学习环境。该教程是对模型进行一键部署 Demo 的分步使用。

直接使用:https://go.hyper.ai/MevMB

2. LLaVA OneVision 多模态全能视觉模型 Demo

该模型能够处理图像、文本、图像文本交错输入和视频,是首个能够同时突破开放多模态模型在这三个重要 计算机视觉 场景性能瓶颈的单模型。进入官网克隆并启动容器,直接复制 API 地址,即可对模型进行推理体验。

直接使用:https://go.hyper.ai/Dcg74

3. 在线教程|大人,文生图的时代又变了!SD 核心成员自立门户,首个模型 FLUX.1 硬刚 SD 3 和 Midjourney

文生图模型的竞争愈发激烈!前 Stable Diffusion 核心成员自立门户,发布了文生图模型 FLUX,从商业用途到开源个人使用,全面覆盖。生成效果非常接近真人实拍,人物细节表现十分逼真。目前 hyper.ai 已上线「FLUX ComfyUI(含黑神话悟空 LoRA 训练版)」,点击以下链接即可根据教程部署。

直接使用:https://go.hyper.ai/trQhv

社区文章精选

1. 数据集汇总|DeepFake 乱象丛生,用魔法打败魔法!高质量数据集助力伪造监测技术发展

对于人脸识别、 DeepFake 乱象,亟需升级人脸识别和伪造检测技术,以精确判断被篡改的图像和视频。 HyperAI 超神经为大家汇总了常用的 11 个人脸识别、 DeepFake 数据集,点击一键下载。

查看完整汇总:https://go.hyper.ai/EMKo2

2. Apple Intelligence 深夜炸场!苹果发布 4 颗自研芯片,iPhone/iWatch/AirPods 大升级

在 9 月 10 日的秋季新品发布会上,苹果推出 iPhone 16 、 AirPods 4 、 Apple Watch Series 10 等新品,基于自研芯片,在性能上实现了重大飞跃,同时全面融入 Apple Intelligence,为用户带来前所未有的 智能体 验。本文是对 Apple 秋季新品发布会的全面报道。

查看完整报道:https://go.hyper.ai/H7P8X

3. 灵敏度提高 56%,港中文/复旦/耶鲁等联袂提出全新蛋白质同源物检测方法

在对蛋白质的识别过程中,蛋白质序列的同源性鉴定是其中一项至关重要的任务。为解决蛋白质远同源性研究的痛点,基于蛋白质语言模型和密集检索技术,香港中文大学李煜,联合复旦大学智能复杂体系实验室、上海 人工智能 实验室青年研究员孙思琦、耶鲁大学 Mark Gerstein 提出了一种超快速、高灵敏度的同源物检测框架——密集同源物检索器。本文是对研究论文的详细解读与分享。

查看完整报道:https://go.hyper.ai/vLAej

4. 基于 2,500 平方公里实景数据,北师大团队提出 StarFusion 模型,实现高空间分辨率图像预测

北京师范大学地表过程与资源生态国家重点实验室陈晋团队,提出了一种双流时空解耦融合架构模型 StarFusion,该模型能够克服大多数现有 深度学习 算法需要 HSR 时间序列图像进行训练的问题,充分实现高空间分辨率图像的预测。本文是对研究论文的详细解读与分享。

查看完整报道:https://go.hyper.ai/7LmzA

热门百科词条精选

  1. Sigmoid 函数
  2. 配对 t 检验 Paired t-Test
  3. 对比学习 Contrastive Learning
  4. 半 监督学习 Semi-Supervised Learning
  5. 数据增强 Data Augmentation

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki
在这里插入图片描述

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内 数据科学 领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1300+ 公开数据集提供国内加速下载节点

  • 收录 400+ 经典及流行在线教程

  • 解读 100+ AI4Science 论文案例

  • 支持 500+ 相关词条查询

  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai

相关文章:

MMLU-Pro 基准测试数据集上线,含 12k 个跨学科复杂问题,难度提升,更具挑战性!DeepSeek 数学模型一键部署

在大语言模型 (LLM) 蓬勃发展的时代,诸如大规模多任务语言理解 (MMLU) 之类的基准测试,在推动 AI 于不同领域的语言理解与推理能力迈向极限方面,发挥着至关重要的关键作用。 然而,伴随模型的持续改进与优化,LLM 在这些…...

Vue | Vue深入浅出——Vue中的render函数详解

1.render函数 在编写vue单文件的大多数情况下,我们都是使用template模板来创建HTML。然而在一些条件判断比较复杂的场景下,使用JavaScript去描绘HTML的生成逻辑会显得更加的简洁直观。 使用Vue官网的例子来简单说明: 如果自己在开发的时候…...

数学基础 -- 线性代数之奇异值

奇异值与其应用 1. 奇异值定义 对于任意的矩阵 A A A(可以是方阵或非方阵),存在三个矩阵 U U U、 Σ \Sigma Σ 和 V V V,使得: A U Σ V T A U \Sigma V^T AUΣVT 其中: U U U 是一个 m m m \ti…...

Python爬虫使用实例-wallpaper

1/ 排雷避坑 &#x1f95d; 中文乱码问题 print(requests.get(urlurl,headersheaders).text)出现中文乱码 原因分析&#xff1a; <meta charset"gbk" />解决方法&#xff1a; 法一&#xff1a; response requests.get(urlurl,headersheaders) response.en…...

探索Go语言中的随机数生成、矩阵运算与数独验证

1. Go中的随机数生成 在许多编程任务中&#xff0c;随机数的生成是不可或缺的。Go语言通过 math/rand 包提供了伪随机数生成方式。伪随机数由种子(seed)决定&#xff0c;如果种子相同&#xff0c;生成的数列也会相同。为了确保每次程序运行时产生不同的随机数&#xff0c;我们…...

无线安全(WiFi)

免责声明:本文仅做分享!!! 目录 WEP简介 WPA简介 安全类型 密钥交换 PMK PTK 4次握手 WPA攻击原理 网卡选购 攻击姿态 1-暴力破解 脚本工具 字典 2-Airgeddon 破解 3-KRACK漏洞 4-Rough AP 攻击 5-wifi钓鱼 6-wifite 其他 WEP简介 WEP是WiredEquivalentPri…...

牛客练习赛128:Cidoai的平均数对(背包dp)

题目描述 给定 nnn 对数 (ai,bi)(a_i,b_i)(ai​,bi​) 和参数 kkk&#xff0c;你需要选出一些对使得在满足 bib_ibi​ 的平均值不超过 kkk 的同时&#xff0c;aia_iai​ 的和最大&#xff0c;求出这个最大值。 输入描述: 第一行两个整数分别表示 n,kn,kn,k。 接下来 nnn 行&…...

Python世界:简易地址簿增删查改算法实践

Python世界&#xff1a;简易地址簿增删查改算法实践 任务背景编码思路代码实现本文小结 任务背景 该任务来自简明Python教程中迈出下一步一章的问题&#xff1a; 编写一款你自己的命令行地址簿程序&#xff0c; 你可以用它浏览、 添加、 编辑、 删除或搜索你的联系人&#xff…...

网络安全-intigriti-0422-XSS-Challenge Write-up

目录 一、环境 二、解题 2.1看源码 一、环境 Intigriti April Challenge 二、解题 要求&#xff1a;弹出域名就算成功 2.1看源码 我们看到marge方法&#xff0c;肯定是原型链污染题目 接的是传参&#xff0c;我们可控的点在于qs.config和qs.settings&#xff0c;这两个可…...

Debian Linux 11 使用crash

文章目录 前言一、环境安装1.1 安装debug package1.2 安装crash 二、使用crash 前言 # cat /etc/os-release PRETTY_NAME"Debian GNU/Linux 11 (bullseye)" NAME"Debian GNU/Linux" VERSION_ID"11" VERSION"11 (bullseye)" VERSION_C…...

python列表 — 按顺序找出b表中比a表多出的元素

目录 一、功能描述 二、适用场景 三、代码实现 一、功能描述 有a、b两个列表&#xff0c;a列表有3个元素&#xff1b;b列表有7个元素。b列表多出的一个元素可能在随机的位置&#xff0c;在不影响其他元素的情况下&#xff0c;找到b列表多出的那四个元素&#xff0c;并按照在…...

如何使用Python创建目录或文件路径列表

在 Python 中&#xff0c;创建目录或生成文件路径列表通常涉及使用 os、os.path 或 pathlib 模块。下面是一些常见的任务和方法&#xff0c;用于在 Python 中创建目录或获取文件路径列表。 问题背景 在初始阶段的 Python 学习过程中&#xff0c;可能遇到这样的问题&#xff1a…...

领夹麦克风哪个品牌好,哪种领夹麦性价比高,无线麦克风推荐

在音频录制需求日益多样化的今天&#xff0c;无线领夹麦克风作为提升音质的关键设备&#xff0c;其重要性不言而喻。市场上鱼龙混杂&#xff0c;假冒伪劣、以次充好的现象屡见不鲜。这些产品往往以低价吸引消费者&#xff0c;却在音质、稳定性、耐用性等方面大打折扣&#xff0…...

苍穹外卖学习笔记(五)

文章目录 二.新增菜品1.图片上传2.具体新增菜品 二.新增菜品 1.图片上传 这里采用了阿里云oss对象存储服务 application.yml alioss:endpoint: ${sky.alioss.endpoint}access-key-id: ${sky.alioss.access-key-id}access-key-secret: ${sky.alioss.access-key-secret}bucket…...

什么是卷积层、池化层、BN层,有什么作用?

什么是卷积层、池化层、BN层&#xff0c;有什么作用&#xff1f; 卷积层池化层BN层 卷积层 定义&#xff1a; 卷积层是CNN中的核心组件&#xff0c;它通过卷积运算对输入数据进行特征提取。卷积层由多个卷积单元组成&#xff0c;每个卷积单元的参数通过反向传播算法优化得到。…...

[学习笔记]《CSAPP》深入理解计算机系统 - Chapter 4 处理器体系结构Chapter 5 优化程序性能

总结一些第四章和第五章的一些关键信息 Chapter 4 处理器体系结构将处理组织成阶段 Chapter 5 优化程序性能 Chapter 4 处理器体系结构 在硬件中&#xff0c;寄存器直接将它的输入和输出线连接到电路的其他盆。 在机器级变成中&#xff0c;寄存器代表的是 CPU 中为数不多的可寻…...

案例分享|我是这样转型做数据产品经理的?

本文为才聚学员投稿的原创作品&#xff0c;现在才聚正面向专业项目管理者征集“项目管理实战案例”原创文章&#xff0c;被采纳即可获得丰厚稿酬&#xff0c;欢迎大家关注公众号踊跃投稿。 如您有意向投稿&#xff0c;可将稿件投递给我们。 故事介绍 三段故事&#xff0c;讲…...

ffmpeg面向对象-rtsp拉流相关对象

目录 1.AVFormatContext和FFFormatContext类。1.1 概述1.2 构造函数1.3 oopc的继承实现 2. AVInputFormat 类。2.1 多态的实现 3.所用设计模式3.1模板模式3.2 工厂模式&#xff1f; 3.3 rtsp拉流建链 4.this指针5.小结6.rtsp拉流流程 1.AVFormatContext和FFFormatContext类。 …...

feign client发送Post请求,发送对象参数,服务端接收不到正确参数报错排查

记一次feignclient发送请求服务端接收不到正确参数排查 服务端代码&#xff1a; Operation(summary "Create team")PostMapping("post")RequiresPermissions("team:add")public RestResponse addTeam(Valid Team team) {this.teamService.crea…...

Hadoop林子雨安装

文章目录 hadoop安装教程注意事项&#xff1a; hadoop安装教程 链接: 安装教程 注意事项&#xff1a; 可以先安装ububtu增强功能&#xff0c;完成共享粘贴板和共享文件夹 ubuntu增强功能 2.这里就可以使用共享文件夹 或者在虚拟机浏览器&#xff0c;用 微信文件传输助手 传文…...

Springboot项目总结

1.为了调用写在其他包里面的类的方法 但是不使用new来实现调用这个类里面的方法&#xff0c;这个时候我们就需要将这个类注入到ioc容器里面&#xff0c;通过ioc容器来实现自动生成一个对象。 对ioc容器的理解&#xff1a;自动将一个对象实现new. 考察了and 和 or组合使用&…...

目标检测从入门到精通——数据增强方法总结

以下是YOLO系列算法&#xff08;从YOLOv1到YOLOv7&#xff09;中使用的数据增强方法的总结&#xff0c;包括每种方法的数学原理、相关论文以及对应的YOLO版本。 YOLO系列数据增强方法总结 数据增强方法数学原理相关论文图像缩放将输入图像缩放到固定大小&#xff08;如448x44…...

SQL server 的异常处理 一个SQL异常 如何不影响其他SQL执行

在 SQL Server 中&#xff0c;存储过程中的 SQL 语句是顺序执行的。如果其中任何一个 SQL 语句遇到了错误或异常&#xff0c;那么默认情况下&#xff0c;这个错误会导致整个事务&#xff08;如果有的话&#xff09;回滚&#xff0c;并且存储过程会立即停止执行&#xff0c;不会…...

STM32——看门狗通俗解析

笔者在学习看门狗的视频后&#xff0c;对看门狗仍然是一知半解&#xff0c;后面在实际应用中发现它是一个很好用的检测或者调试工具。所以总结一下笔者作为初学小白对看门狗的理解。 主函数初始化阶段、循环阶段和复位 众所周知&#xff0c;程序的运行一般是这样的&#xff1…...

点亮第一盏LED灯 5): stm32CubeMX生成Keil代码

嵌入式入门&#xff0c;继续点亮第一盏LED灯&#xff0c;前面文章已经配置了GPIO引脚和时钟&#xff0c;那么基本上stm32CubeMX的配置就完成了&#xff0c;还有一点就是可以对PC13这个引脚起个别名&#xff0c; 这里起的别名是 LED_PC13&#xff0c;还有注意地方就是GPIO mode…...

ollama语言大模型部署使用

ollama语言大模型部署使用 前言一、下载安装maxkb1、下载解压赋权2、安装 二、安装ollamadocker运行 三、无需获取api_keymaxkb安装ollama模型对&#xff0c;就是这&#xff0c;你选好基础模型后&#xff0c;只需要给他地址&#xff0c;添加完成后自行调用ollama安装你选择好的…...

redis 基本数据类型—string类型

一、介绍 Redis 中的字符串&#xff0c;直接就是按照二进制数据的方式存储的&#xff0c;不会做任何的编码转换。 Redis对于 string 类型&#xff0c;限制了大小最大是512M 二、命令 SET 将 string 类型的 value 设置到 key 中。如果 key 之前存在&#xff0c;则覆盖&#…...

Git 使用教程:从入门到精通

Git 是一个开源的分布式版本控制系统&#xff0c;由 Linus Torvalds 创建&#xff0c;用于有效、高速地处理从小到大的项目版本管理。本教程将带你从 Git 的安装开始&#xff0c;逐步学习到如何使用 Git 进行日常的版本控制操作。 安装 Git Windows 访问 Git 官方网站 下载 …...

ES查询的一些优化方式

ES查询的一些优化方式 filter和query Query会计算得分&#xff0c;filte不是&#xff0c; 整体上query会更耗时 字段方式: KEYWORD 和 text&#xff0c; Text检索的方式往往会占用更多性能&#xff0c;它往往需要伴随着模糊匹配和分词 分页的大小 From 和size的大小合理设置…...

计算左边(比自己小的元素)的最长距离

前言&#xff1a;一般做的题目都是使用单调栈来求出距离这个点最近的那个比这个数大或小的元素&#xff0c;但是如果是需要找到最远的那个元素呢&#xff1f;我们可以用到类似逆序对的思路&#xff0c;我们先进行排序从小到大&#xff0c;接着我们先处理左边&#xff0c;每次维…...