当前位置：首页 > news >正文

最全高质量大模型 -评估基准数据集（不定期更新）

news 2026/4/5 7:45:08

评估基准是推动人工智能领域技术进步和应用落地的关键工具，通过这些基准，我们可以更全面地理解LLMs的能力，并指导未来的研究和实践。

评估基准，是一套衡量标准，就像老师用考试来检查学生学得怎么样。在大模型的世界里，这些标准就是用来衡量这些电脑大脑在处理语言、图像或者其他任务时的表现。

评估基准：

1、性能衡量：

评估基准提供了一套标准化的测试，来衡量LLMs在特定任务上的性能，如语言理解、文本生成等等。

2、模型比较：

通过评估基准，研究人员可以比较不同LLMs的性能，识别出哪些模型在特定任务上表现更优。

3、模型优化：

评估基准的结果可以反馈给模型开发者，帮助他们优化模型结构和训练过程。

数据集：READOC|文档结构化提取数据集|评估基准数据集

创建时间：2024-09-08
链接地址：READOC|文档结构化提取数据集|评估基准数据集
数据集介绍：READOC数据集是由中国科学院软件研究所和中国信息处理实验室创建的一个统一基准，旨在评估真实文档结构化提取系统。该数据集包含2233个从arXiv和GitHub收集的多样化真实世界文档，涵盖了多种类型、年份和主题。数据集的创建过程包括自动构建PDF-Markdown对，并开发了一个包含标准化、分段和评分模块的评估套件。READOC数据集主要应用于文档结构化提取领域，旨在解决现有评估方法的碎片化和不现实性问题，推动该领域的进一步发展。

数据集：GMAI-MMBench|医疗AI数据集|评估基准数据集

创建时间：2024-08-07
链接地址：GMAI-MMBench|医疗AI数据集|评估基准数据集
数据集介绍：GMAI-MMBench是由上海人工智能实验室等机构创建的综合性医疗AI评估基准，包含285个高质量数据集，覆盖39种医疗图像模态和18个临床任务。数据集内容丰富，包括2D检测、分类和2D/3D分割等多种任务，数据来源于全球各地的公共和医院资源。创建过程中，数据集经过严格筛选和标准化处理，确保了数据的多样性和临床相关性。该数据集主要用于评估和提升大型视觉语言模型在医疗领域的应用，特别是在疾病诊断和治疗方面的辅助能力。

数据集：DreamBench++ 图像自动评估基准数据集|图像评估数据集|人工智能数据集

创建时间：2024-07-09
链接地址：DreamBench++ 图像自动评估基准数据集|图像评估数据集|人工智能数据集
数据集介绍：DreamBench++ 是一个由清华大学、西安交通大学、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员于 2024 年共同推出的新基准，旨在解决个性化图像生成技术评估中存在的问题。它通过引入支持多模态的 GPT-4o，实现了与人类偏好的深度对齐和自动化评估，并推出了一个更为全面和多元化的数据集。

数据集：UBENCH|语言模型评估数据集|基准测试数据集

创建时间：2024-06-19
链接地址：UBENCH|语言模型评估数据集|基准测试数据集
数据集介绍：UBENCH是由南开大学软件学院创建的一个综合基准，用于评估大型语言模型（LLMs）的可靠性。该数据集包含3978个多选题，覆盖知识、语言、理解和推理四个主要领域，旨在通过这些题目评估LLMs在不同任务中的表现。UBENCH的数据来源于多个公开数据集，经过特殊处理和严格的质量控制，以确保评估的准确性。该数据集适用于广泛的开放源和闭源模型，特别强调高效的推理和可扩展性。UBENCH的应用领域包括但不限于模型评估和改进，旨在解决LLMs在实际应用中的不确定性和可靠性问题。

数据集：DeepFaceGen|人脸伪造检测数据集|评估基准数据集

创建时间：2024-06-13
发布机构：浙江大学
链接地址：DeepFaceGen|人脸伪造检测数据集|评估基准数据集
数据集介绍：DeepFaceGen是由浙江大学开发的一个大规模人脸伪造检测评估基准。该数据集包含463,583张真实人脸图像和313,407个真实视频，以及350,264张伪造图像和423,548个伪造视频，这些伪造样本使用了34种主流的人脸生成技术。在构建过程中，DeepFaceGen考虑了内容多样性、种族公平性和全面的标签可用性，确保了其多功能性和便利性。该数据集主要用于评估和分析现有面部伪造检测技术，旨在推动面部伪造检测技术的发展，解决由AI生成内容技术引发的真实性验证难题。

数据集：m-a-p/CHC-Bench|中文理解评估数据集|多学科基准数据集

创建时间：2024-04-08
链接地址：m-a-p/CHC-Bench|中文理解评估数据集|多学科基准数据集
数据集介绍：CHC-Bench是一个精心挑选的多学科中文硬案例基准，用于评估模型在理解和遵循中文指令方面的能力。数据集包含来自多个来源的问题，涵盖写作、人文历史、科学、数学、阅读理解、角色扮演等多个类别，并特别关注中文理解的硬案例，如中文发音和古代中文语言理解等。评估方法综合考虑了响应的准确性、有用性、相关性、深度、创造性和详细程度等多个维度。

数据集：FETV|文本到视频生成数据集|评估基准数据集

创建时间：2024-03-29
链接地址：FETV|文本到视频生成数据集|评估基准数据集
数据集介绍：FETV是开放域文本到视频生成的细粒度评估基准

数据集：中文生成式聊天评估基准(CGCE)|自然语言生成数据集|聊天模型评估数据集

创建时间：2023-05-24
链接地址：中文生成式聊天评估基准(CGCE)|自然语言生成数据集|聊天模型评估数据集
数据集介绍：中文生成式聊天评估基准(CGCE)是由度小满创建的一个专注于中文生成式聊天模型的评估数据集。该数据集包含350个问题，分为200个通用领域问题和150个金融领域专业问题。通用领域问题涵盖数学计算、场景写作、逻辑推理等13个维度，而金融领域则涉及金融术语理解、市场评论、数据分析等多个专业方面。数据集通过人工评分，评估模型的准确性、连贯性、表达清晰度和完整性。CGCE旨在为研究人员提供一个标准化的评估框架，以评估和比较中文生成式聊天模型的性能，推动自然语言生成(NLG)领域的研究进展。

一、自然语言处理（NLP）：

数据集：nyu-mll/glue|自然语言处理数据集|语言理解数据集

更新时间：2024-01-30
发布机构：nyu-mll
链接地址：nyu-mll/glue|自然语言处理数据集|语言理解数据集
数据集介绍：GLUE（通用语言理解评估基准）是一个集合了多种资源的数据集，用于训练、评估和分析自然语言理解系统。它涵盖了多个任务，包括文本分类、自然语言推理、语义相似性评分等，每个任务都有详细的数据集结构和评估标准。GLUE通过多个子任务来全面评估模型的语言理解能力，并提供了一个Leaderboard来展示不同模型的性能。

数据集：rajpurkar/squad|自然语言处理数据集|阅读理解数据集

更新时间：2024-03-04
链接地址：SQuad|自然语言处理数据集|阅读理解数据集
数据集介绍：斯坦福问答数据集（SQuAD）是一个阅读理解数据集，包含由众包工作者针对一组维基百科文章提出的问题，每个问题的答案是相应阅读文章中的文本段落，或者问题可能无法回答。SQuAD 1.1包含超过100,000个问题-答案对，涵盖500多篇文章。该数据集支持问答任务，是单语的，仅包含英语内容。数据集根据CC BY-SA 4.0许可发布，由众包和发现语言创建者共同策划。

数据集：SummEval, Newsroom|文本摘要数据集|自动评估数据集

创建时间：2023-05-11
链接地址：SummEval, Newsroom|文本摘要数据集|自动评估数据集
数据集介绍：SummEval数据集包含基于人类和自动指标的评分，包括人类对连贯性、一致性、流畅性和相关性的评分，以及基于预训练语言模型的困惑度分数和各种自动评估指标如BLEU、ROUGE和BERTScore等。Newsroom数据集没有伴随的参考真相，因此使用源文本作为参考，用于评估基于参考的或接近无参考的指标。

二、计算机视觉：

数据集：taesiri/imagenet-hard|图像分类数据集|ImageNet数据集

更新时间：2023-06-16
链接地址：taesiri/imagenet-hard|图像分类数据集|ImageNet数据集
数据集介绍：ImageNet-Hard是一个包含10,980张图像的基准数据集，这些图像从多个ImageNet相关数据集中收集而来，旨在挑战当前最先进的视觉模型。数据集的特点是，简单的图像放大无法有效提高模型的分类准确性，即使是如CLIP-ViT-L/14@336px这样的先进模型，其准确率也仅为2.02%。数据集提供了详细的分类标签映射和数据实例的结构描述，包括图像、标签、来源和英文标签等字段。

数据集：COCO数据集|图像识别数据集|计算机视觉数据集

创建时间：2018-09-13
链接地址：COCO数据集|图像识别数据集|计算机视觉数据集
数据集介绍：COCO数据集，全称Common Objects in COntext，是微软团队提供的一个用于图像识别的大型数据集。它包含了80个对象类别和多种场景类型的图像，通过在Flickr上搜索并使用Amazon Mechanical Turk进行数据收集。数据集分为训练、验证和测试集，并提供了三种标注类型：目标实例、目标上的关键点和看图说话，所有数据均使用JSON文件存储。

数据集：pascal-voc|目标检测数据集|语义分割数据集

链接地址：pascal-voc|目标检测数据集|语义分割数据集
数据集介绍：视觉对象类挑战，包含图像分类、对象检测和分割任务。

三、语音识别：

数据集：gilkeyio/librispeech-alignments

数据集地址：gilkeyio/librispeech-alignments｜用于研究的大规模读英语语音数据集

数据集介绍：Librispeech Alignments是一个包含1000小时16kHz读英语语音的数据集，来源于LibriVox项目的英语有声书。数据集包括多个子集，用于训练和评估自动语音识别（ASR）系统。数据集特征包括说话人性别、子集类型、唯一ID、音频文件、转录文本、单词和音素的开始和结束时间。数据集的标注是通过Montreal Forced Aligner自动生成的，用于生成单词和音素级别的对齐。

数据集：SMS-WSJ (Spatialized Multi-Speaker Wall Street Journal)|语音识别数据集

数据集地址：SMS-WSJ (Spatialized Multi-Speaker Wall Street Journal)|语音识别数据集
数据集介绍：Spatialized Multi-Speaker Wall Street Journal (SMS-WSJ) 由从 WSJ 数据库中提取的人工混合语音组成，但与早期的数据库不同，该数据库考虑了所有 WSJ0+1 话语，并严格区分训练、验证中存在的说话者集和测试集。

四、机器学习和模式识别：

数据集：UCI Machine Learning Repository|机器学习数据集|数据集数据集

链接地址：UCI Machine Learning Repository|机器学习数据集|数据集数据集
数据集介绍：加利福尼亚大学欧文分校提供的大量用于机器学习任务的数据集。UCI机器学习库是一个包含数据库、领域理论和数据生成器的集合，这些被机器学习社区用于机器学习算法的实证分析。

数据集：Kaggle Competitions Data|数据科学竞赛数据集|Kaggle数据集

链接地址：Kaggle Competitions Data|数据科学竞赛数据集|Kaggle数据集
数据集介绍：Kaggle平台上的各种竞赛提供了多种数据集和相应的基准测试。

最全高质量大模型 -评估基准数据集（不定期更新）

评估基准是推动人工智能领域技术进步和应用落地的关键工具，通过这些基准，我们可以更全面地理解LLMs的能力，并指导未来的研究和实践。评估基准，是一套衡量标准，就像老师用考试来检查学生学得怎么样。在大模型的世界里…...

编程日记 2024/9/16 21:20:23

react 中， navigate 跳转链接 2种写法

react 中， navigate 下面2种写法， 有什么区别, import { useNavigate } from "react-router-dom"; const navigate useNavigate(""); onClick{() > navigate("/signup")}import { Navigate } from "react-route…...

编程日记 2024/9/16 21:15:19

k8s Service 服务

文章目录一、为什么需要 Service二、Kubernetes 中的服务发现与负载均衡 -- Service三、用例解读1、Service 语法2、创建和查看 Service 四、Headless Service五、集群内访问 Service六、向集群外暴露 Service七、操作示例1、获取集群状态信息2、创建 Service、Deployment3、创…...

编程日记 2024/9/16 21:11:15

安全建设当中的冷门知识

今天说点有趣的话题，也是因为在安全建设过程中，安全员也不太可能都按照最理想的状态去工作，有资源的问题，有管理惰性问题，当然也有管理者本身决策的问题。安全行业起步较晚，16年才施行网络安全法&#xff…...

编程日记 2024/9/16 21:09:13

python画图|极坐标下的3D surface

前述学习过程中，我们已经掌握了3D surface的基本绘制技巧，详见链接： python画图|3D surface基础教程-CSDN博客基础教程中的3D surface绘制位于笛卡尔坐标系，但有时候会用到极坐标绘图。虽然我们已经学过简单的极坐标绘图技巧&a…...

编程日记 2024/9/16 21:05:09

html+css+js网页设计旅游大理旅游7个页面

htmlcssjs网页设计旅游大理旅游7个页面网页作品代码简单，可使用任意HTML辑软件（如：Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作）。获取源码 1&#…...

编程日记 2024/9/16 21:04:08

Day 29~42 JavaWeb

Java Web 1、基本概念 1.1、前言 web开发： web，网页的意思，www.baidu.com静态web html，css 提供给所有人看的数据始终不会发生变化动态web 淘宝，几乎是所有的网站提供给所有人看的数据始终会发生变…...

编程日记 2024/9/16 21:01:05

小程序开发设计-第一个小程序：创建小程序项目④

上一篇文章导航： 小程序开发设计-第一个小程序：安装开发者工具③-CSDN博客https://blog.csdn.net/qq_60872637/article/details/142219152?spm1001.2014.3001.5501 须知：注：不同版本选项有所不同，并无大碍。一、创…...

编程日记 2024/9/16 20:59:03

C++设计模式——Mediator中介者模式

一，中介者模式的定义中介者模式是一种行为型设计模式。它通过一个中介者对象将多个对象之间的交互关系进行封装，使得对象之间的交互需要通过中介者对象来完成。该设计模式的结构很容易理解，以中介者为中心。中介者模式的设计思想侧重于在…...

编程日记 2024/9/16 20:56:01

微服务之间远程调用实现思路

项目使用的Spring Cloud Alibaba框架，微服务之间远程调用使用OpenFeign，具体实现步骤如下： （1）在api工程定义OpenFeign接口，使用FeignClient注解进行定义。 （2）服务提供方定义Open…...

编程日记 2024/9/16 20:53:58

获取STM32 MCU的唯一ID

STM32每个系列都会有唯一的一个芯片序列号（96位bit） STM32F10X 的起始地址是 0x1FFFF7E8 STM32F20X 的起始地址是 0x1FFF7A10 STM32F30X 的起始地址是 0x1FFFF7AC STM32F40X 的起始地址是 0x1FFF7A10 STM32L0XX 的起始地址是 0x1FF80050 STM32L1XX 的起…...

编程日记 2024/9/16 20:50:55

Debian项目实战——环境搭建篇

Debian系统安装准备工作 1、系统镜像：根据自己的需要选择合适的版本格式：x86 / arm 架构 | 最好下载离线安装版本 | 清华镜像源 2、制作工具：balenaEtcher 3、系统媒介：16G以上U盘最佳烧录镜像打开balenaEtcher进行烧录&am…...

编程日记 2024/9/16 20:49:54

CenterNet官方代码—目标检测模型推理部分解析与项目启动

CenterNet模型推理部分解析 CenterNet官方代码环境部署 CenterNet作为2019年CVPR推出的论文，论文中给出了官方代码所在的github仓库地址。https://github.com/xingyizhou/CenterNet。整个代码的代码量并不是特别大，但整个项目的难点在于使用了老版本的…...

编程日记 2024/9/16 20:47:52

测试开发基础——测试用例的设计

三、测试用例的设计 1. 什么是测试用例测试用例(Test Case)是为了实施测试而向被测试的系统提供的一组集合，这组集合包含：测试环境、操作步骤、测试数据、预期结果等要素。设计测试用例原则一：测试用例中一个必需部分是对预期输出或结果进…...

编程日记 2024/9/16 20:46:51

C++第五十一弹---IO流实战：高效文件读写与格式化输出

✨个人主页： 熬夜学编程的小林 💗系列专栏： 【C语言详解】【数据结构详解】【C详解】目录 1. C语言的输入与输出 2. 流是什么 3. CIO流 3.1 C标准IO流 3.2 C文件IO流 3.2.1 以写方式打开文件 3.2.1 以读方式打开文件 4 stringstre…...

编程日记 2024/9/16 20:45:50

C++中使用分治法求最大值

在C++中使用分治法（Divide and Conquer）来求一个数组中的最大值是一个经典的问题。分治法是一种通过将原问题分解为若干个小规模相似子问题，递归地求解这些子问题，然后将子问题的解合并成原问题的解的方法。以下是使用分治法求数组中最大值的步骤：分解（Divide）：将数…...

编程日记 2024/9/16 20:42:48

数据集 CULane 车道线检测＞＞ DataBall

数据集 CULane 车道线检测自动驾驶无人驾驶目标检测 CULane是用于行车道检测学术研究的大规模具有挑战性的数据集。它由安装在六辆由北京不同驾驶员驾驶的不同车辆上的摄像机收集。收集了超过55小时的视频，并提取了133,235帧。数据示例如上所示。我们将数据集分为…...

编程日记 2024/9/16 20:40:41

Android CustomDialog圆角背景不生效的问题

一行解决: window?.setBackgroundDrawableResource(android.R.color.transparent) 原文件: /*** Created by Xinghai.Zhao* 自定义选择弹框*/ SuppressLint("InflateParams", "MissingInflatedId") class CustomDialog(context: Context?) : AlertDia…...

编程日记 2024/9/16 20:37:39

C++速通LeetCode简单第9题-二叉树的最大深度

深度优先算法递归： /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nullptr), right…...

编程日记 2024/9/16 20:33:34

com.microsoft.sqlserver:sqljdbc4:jar:4.0 was not found产生原因及解决步骤

文章目录问题sqlserver 包找不到报错原因分析主要原因解决方案步骤 1：检查 pom.xml 中的依赖声明步骤 2：配置 Microsoft 的 Maven 仓库步骤 3：强制更新 Maven 依赖步骤 4：清理本地仓库缓存步骤 5：手动下载并安装 sq…...

编程日记 2024/9/16 20:27:29

OpenClaw配置备份指南：百川2-13B-4bits量化版环境迁移技巧

OpenClaw配置备份指南：百川2-13B-4bits量化版环境迁移技巧 1. 为什么需要专门备份OpenClaw配置上周我的主力开发机突然硬盘故障，导致所有数据丢失。最让我痛心的不是代码仓库——它们都有远程备份，而是那套精心调校的OpenClaw自动化环境。…...

编程新知 2026/4/5 7:12:43

STM32串口IAP实现与固件远程更新指南

1. STM32串口IAP实现原理与实战指南IAP（In Application Programming）技术是嵌入式开发中一项非常实用的功能，它允许我们在产品发布后通过预留的通信接口对固件进行远程更新。作为一名嵌入式开发者，我曾在多个工业项目中成功应用串…...

编程新知 2026/4/5 7:06:42

Qwen-Image-2512-SDNQ在STM32嵌入式系统中的应用：低功耗图像生成方案

Qwen-Image-2512-SDNQ在STM32嵌入式系统中的应用：低功耗图像生成方案 1. 边缘图像生成的新机遇想象一下这样的场景：一个智能家居设备能够根据你的语音描述，实时生成个性化的图标和界面元素；一个工业检测设备可以在现场直接生成…...

编程新知 2026/4/5 6:56:36

用Stata处理368城数据：从DO文件到可视化分析全流程（含代码分享）

用Stata处理368城数据：从DO文件到可视化分析全流程当面对包含368个地级市的庞大数据集时，如何高效地进行数据清洗、分析和可视化是每个研究者都会面临的挑战。Stata凭借其强大的数据处理能力和灵活的编程特性，成为城市经济研究的首选工具之一…...

编程新知 2026/4/5 5:37:14

AI Agent处理多个问题点的三种方式比较分析

在使用AI Agent处理多个任务时，我们通常面临不同的选择。本文将深入分析三种常见的处理方式：一次性提交多个问题、使用子代理以及使用worktree，并探讨它们各自的优缺点和适用场景。方式一：一次性提交三个问题点这是最直接的处理…...

编程新知 2026/4/5 4:10:00

2026届毕业生推荐的五大AI辅助论文助手推荐榜单

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 对于降低AIGC检测率而言，其核心之处在于把机器生成时所具备的规律性以及可预测性…...

编程新知 2026/4/5 3:47:53