最全 高质量 大模型 -评估基准数据集(不定期更新)
评估基准是推动人工智能领域技术进步和应用落地的关键工具,通过这些基准,我们可以更全面地理解LLMs的能力,并指导未来的研究和实践。
评估基准,是一套衡量标准,就像老师用考试来检查学生学得怎么样。在大模型的世界里,这些标准就是用来衡量这些电脑大脑在处理语言、图像或者其他任务时的表现。
评估基准:
1、性能衡量:
评估基准提供了一套标准化的测试,来衡量LLMs在特定任务上的性能,如语言理解、文本生成等等。
2、模型比较:
通过评估基准,研究人员可以比较不同LLMs的性能,识别出哪些模型在特定任务上表现更优。
3、模型优化:
评估基准的结果可以反馈给模型开发者,帮助他们优化模型结构和训练过程。
数据集:READOC|文档结构化提取数据集|评估基准数据集
-
创建时间:2024-09-08
-
链接地址:READOC|文档结构化提取数据集|评估基准数据集
-
数据集介绍:READOC数据集是由中国科学院软件研究所和中国信息处理实验室创建的一个统一基准,旨在评估真实文档结构化提取系统。该数据集包含2233个从arXiv和GitHub收集的多样化真实世界文档,涵盖了多种类型、年份和主题。数据集的创建过程包括自动构建PDF-Markdown对,并开发了一个包含标准化、分段和评分模块的评估套件。READOC数据集主要应用于文档结构化提取领域,旨在解决现有评估方法的碎片化和不现实性问题,推动该领域的进一步发展。
数据集:GMAI-MMBench|医疗AI数据集|评估基准数据集
-
创建时间:2024-08-07
-
链接地址:GMAI-MMBench|医疗AI数据集|评估基准数据集
-
数据集介绍:GMAI-MMBench是由上海人工智能实验室等机构创建的综合性医疗AI评估基准,包含285个高质量数据集,覆盖39种医疗图像模态和18个临床任务。数据集内容丰富,包括2D检测、分类和2D/3D分割等多种任务,数据来源于全球各地的公共和医院资源。创建过程中,数据集经过严格筛选和标准化处理,确保了数据的多样性和临床相关性。该数据集主要用于评估和提升大型视觉语言模型在医疗领域的应用,特别是在疾病诊断和治疗方面的辅助能力。
数据集:DreamBench++ 图像自动评估基准数据集|图像评估数据集|人工智能数据集
-
创建时间:2024-07-09
-
链接地址:DreamBench++ 图像自动评估基准数据集|图像评估数据集|人工智能数据集
-
数据集介绍:DreamBench++ 是一个由清华大学、西安交通大学、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员于 2024 年共同推出的新基准,旨在解决个性化图像生成技术评估中存在的问题。它通过引入支持多模态的 GPT-4o,实现了与人类偏好的深度对齐和自动化评估,并推出了一个更为全面和多元化的数据集。
数据集:UBENCH|语言模型评估数据集|基准测试数据集
-
创建时间:2024-06-19
-
链接地址:UBENCH|语言模型评估数据集|基准测试数据集
-
数据集介绍:UBENCH是由南开大学软件学院创建的一个综合基准,用于评估大型语言模型(LLMs)的可靠性。该数据集包含3978个多选题,覆盖知识、语言、理解和推理四个主要领域,旨在通过这些题目评估LLMs在不同任务中的表现。UBENCH的数据来源于多个公开数据集,经过特殊处理和严格的质量控制,以确保评估的准确性。该数据集适用于广泛的开放源和闭源模型,特别强调高效的推理和可扩展性。UBENCH的应用领域包括但不限于模型评估和改进,旨在解决LLMs在实际应用中的不确定性和可靠性问题。
数据集:DeepFaceGen|人脸伪造检测数据集|评估基准数据集
-
创建时间:2024-06-13
-
发布机构:浙江大学
-
链接地址:DeepFaceGen|人脸伪造检测数据集|评估基准数据集
-
数据集介绍:DeepFaceGen是由浙江大学开发的一个大规模人脸伪造检测评估基准。该数据集包含463,583张真实人脸图像和313,407个真实视频,以及350,264张伪造图像和423,548个伪造视频,这些伪造样本使用了34种主流的人脸生成技术。在构建过程中,DeepFaceGen考虑了内容多样性、种族公平性和全面的标签可用性,确保了其多功能性和便利性。该数据集主要用于评估和分析现有面部伪造检测技术,旨在推动面部伪造检测技术的发展,解决由AI生成内容技术引发的真实性验证难题。
数据集:m-a-p/CHC-Bench|中文理解评估数据集|多学科基准数据集
-
创建时间:2024-04-08
-
链接地址:m-a-p/CHC-Bench|中文理解评估数据集|多学科基准数据集
-
数据集介绍:CHC-Bench是一个精心挑选的多学科中文硬案例基准,用于评估模型在理解和遵循中文指令方面的能力。数据集包含来自多个来源的问题,涵盖写作、人文历史、科学、数学、阅读理解、角色扮演等多个类别,并特别关注中文理解的硬案例,如中文发音和古代中文语言理解等。评估方法综合考虑了响应的准确性、有用性、相关性、深度、创造性和详细程度等多个维度。
数据集:FETV|文本到视频生成数据集|评估基准数据集
-
创建时间:2024-03-29
-
链接地址:FETV|文本到视频生成数据集|评估基准数据集
-
数据集介绍:FETV是开放域文本到视频生成的细粒度评估基准
数据集:中文生成式聊天评估基准(CGCE)|自然语言生成数据集|聊天模型评估数据集
-
创建时间:2023-05-24
-
链接地址:中文生成式聊天评估基准(CGCE)|自然语言生成数据集|聊天模型评估数据集
-
数据集介绍:中文生成式聊天评估基准(CGCE)是由度小满创建的一个专注于中文生成式聊天模型的评估数据集。该数据集包含350个问题,分为200个通用领域问题和150个金融领域专业问题。通用领域问题涵盖数学计算、场景写作、逻辑推理等13个维度,而金融领域则涉及金融术语理解、市场评论、数据分析等多个专业方面。数据集通过人工评分,评估模型的准确性、连贯性、表达清晰度和完整性。CGCE旨在为研究人员提供一个标准化的评估框架,以评估和比较中文生成式聊天模型的性能,推动自然语言生成(NLG)领域的研究进展。
一、自然语言处理(NLP):
数据集:nyu-mll/glue|自然语言处理数据集|语言理解数据集
-
更新时间:2024-01-30
-
发布机构:nyu-mll
-
链接地址:nyu-mll/glue|自然语言处理数据集|语言理解数据集
-
数据集介绍:GLUE(通用语言理解评估基准)是一个集合了多种资源的数据集,用于训练、评估和分析自然语言理解系统。它涵盖了多个任务,包括文本分类、自然语言推理、语义相似性评分等,每个任务都有详细的数据集结构和评估标准。GLUE通过多个子任务来全面评估模型的语言理解能力,并提供了一个Leaderboard来展示不同模型的性能。
数据集:rajpurkar/squad|自然语言处理数据集|阅读理解数据集
-
更新时间:2024-03-04
-
链接地址:SQuad|自然语言处理数据集|阅读理解数据集
-
数据集介绍:斯坦福问答数据集(SQuAD)是一个阅读理解数据集,包含由众包工作者针对一组维基百科文章提出的问题,每个问题的答案是相应阅读文章中的文本段落,或者问题可能无法回答。SQuAD 1.1包含超过100,000个问题-答案对,涵盖500多篇文章。该数据集支持问答任务,是单语的,仅包含英语内容。数据集根据CC BY-SA 4.0许可发布,由众包和发现语言创建者共同策划。
数据集:SummEval, Newsroom|文本摘要数据集|自动评估数据集
-
创建时间:2023-05-11
-
链接地址:SummEval, Newsroom|文本摘要数据集|自动评估数据集
-
数据集介绍:SummEval数据集包含基于人类和自动指标的评分,包括人类对连贯性、一致性、流畅性和相关性的评分,以及基于预训练语言模型的困惑度分数和各种自动评估指标如BLEU、ROUGE和BERTScore等。Newsroom数据集没有伴随的参考真相,因此使用源文本作为参考,用于评估基于参考的或接近无参考的指标。
二、计算机视觉:
数据集:taesiri/imagenet-hard|图像分类数据集|ImageNet数据集
-
更新时间:2023-06-16
-
链接地址:taesiri/imagenet-hard|图像分类数据集|ImageNet数据集
-
数据集介绍:ImageNet-Hard是一个包含10,980张图像的基准数据集,这些图像从多个ImageNet相关数据集中收集而来,旨在挑战当前最先进的视觉模型。数据集的特点是,简单的图像放大无法有效提高模型的分类准确性,即使是如CLIP-ViT-L/14@336px这样的先进模型,其准确率也仅为2.02%。数据集提供了详细的分类标签映射和数据实例的结构描述,包括图像、标签、来源和英文标签等字段。
数据集:COCO数据集|图像识别数据集|计算机视觉数据集
-
创建时间:2018-09-13
-
链接地址:COCO数据集|图像识别数据集|计算机视觉数据集
-
数据集介绍:COCO数据集,全称Common Objects in COntext,是微软团队提供的一个用于图像识别的大型数据集。它包含了80个对象类别和多种场景类型的图像,通过在Flickr上搜索并使用Amazon Mechanical Turk进行数据收集。数据集分为训练、验证和测试集,并提供了三种标注类型:目标实例、目标上的关键点和看图说话,所有数据均使用JSON文件存储。
数据集:pascal-voc|目标检测数据集|语义分割数据集
-
链接地址:pascal-voc|目标检测数据集|语义分割数据集
-
数据集介绍:视觉对象类挑战,包含图像分类、对象检测和分割任务。
三、语音识别:
数据集:gilkeyio/librispeech-alignments
数据集地址:gilkeyio/librispeech-alignments|用于研究的大规模读英语语音数据集
数据集介绍:Librispeech Alignments是一个包含1000小时16kHz读英语语音的数据集,来源于LibriVox项目的英语有声书。数据集包括多个子集,用于训练和评估自动语音识别(ASR)系统。数据集特征包括说话人性别、子集类型、唯一ID、音频文件、转录文本、单词和音素的开始和结束时间。数据集的标注是通过Montreal Forced Aligner自动生成的,用于生成单词和音素级别的对齐。
数据集:SMS-WSJ (Spatialized Multi-Speaker Wall Street Journal)|语音识别数据集
-
数据集地址:SMS-WSJ (Spatialized Multi-Speaker Wall Street Journal)|语音识别数据集
-
数据集介绍:Spatialized Multi-Speaker Wall Street Journal (SMS-WSJ) 由从 WSJ 数据库中提取的人工混合语音组成,但与早期的数据库不同,该数据库考虑了所有 WSJ0+1 话语,并严格区分训练、验证中存在的说话者集和测试集。
四、机器学习和模式识别:
数据集:UCI Machine Learning Repository|机器学习数据集|数据集数据集
- 链接地址:UCI Machine Learning Repository|机器学习数据集|数据集数据集
- 数据集介绍:加利福尼亚大学欧文分校提供的大量用于机器学习任务的数据集。UCI机器学习库是一个包含数据库、领域理论和数据生成器的集合,这些被机器学习社区用于机器学习算法的实证分析。
数据集:Kaggle Competitions Data|数据科学竞赛数据集|Kaggle数据集
- 链接地址:Kaggle Competitions Data|数据科学竞赛数据集|Kaggle数据集
- 数据集介绍:Kaggle平台上的各种竞赛提供了多种数据集和相应的基准测试。
相关文章:
最全 高质量 大模型 -评估基准数据集(不定期更新)
评估基准是推动人工智能领域技术进步和应用落地的关键工具,通过这些基准,我们可以更全面地理解LLMs的能力,并指导未来的研究和实践。 评估基准,是一套衡量标准,就像老师用考试来检查学生学得怎么样。在大模型的世界里…...
react 中, navigate 跳转链接 2种写法
react 中, navigate 下面2种写法, 有什么区别, import { useNavigate } from "react-router-dom"; const navigate useNavigate(""); onClick{() > navigate("/signup")}import { Navigate } from "react-route…...

k8s Service 服务
文章目录 一、为什么需要 Service二、Kubernetes 中的服务发现与负载均衡 -- Service三、用例解读1、Service 语法2、创建和查看 Service 四、Headless Service五、集群内访问 Service六、向集群外暴露 Service七、操作示例1、获取集群状态信息2、创建 Service、Deployment3、创…...
安全建设当中的冷门知识
今天说点有趣的话题,也是因为在安全建设过程中,安全员也不太可能都按照最理想的状态去工作,有资源的问题,有管理惰性问题,当然也有管理者本身决策的问题。 安全行业起步较晚,16年才施行网络安全法ÿ…...

python画图|极坐标下的3D surface
前述学习过程中,我们已经掌握了3D surface的基本绘制技巧,详见链接: python画图|3D surface基础教程-CSDN博客 基础教程中的3D surface绘制位于笛卡尔坐标系,但有时候会用到极坐标绘图。虽然我们已经学过简单的极坐标绘图技巧&a…...

html+css+js网页设计 旅游 大理旅游7个页面
htmlcssjs网页设计 旅游 大理旅游7个页面 网页作品代码简单,可使用任意HTML辑软件(如:Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作)。 获取源码 1&#…...

Day 29~42 JavaWeb
Java Web 1、基本概念 1.1、前言 web开发: web,网页的意思,www.baidu.com静态web html,css 提供给所有人看的数据始终不会发生变化动态web 淘宝,几乎是所有的网站 提供给所有人看的数据始终会发生变…...

小程序开发设计-第一个小程序:创建小程序项目④
上一篇文章导航: 小程序开发设计-第一个小程序:安装开发者工具③-CSDN博客https://blog.csdn.net/qq_60872637/article/details/142219152?spm1001.2014.3001.5501 须知:注:不同版本选项有所不同,并无大碍。 一、创…...

C++设计模式——Mediator中介者模式
一,中介者模式的定义 中介者模式是一种行为型设计模式。它通过一个中介者对象将多个对象之间的交互关系进行封装,使得对象之间的交互需要通过中介者对象来完成。该设计模式的结构很容易理解,以中介者为中心。 中介者模式的设计思想侧重于在…...
微服务之间远程调用实现思路
项目使用的Spring Cloud Alibaba框架,微服务之间远程调用使用OpenFeign,具体实现步骤如下: (1)在api工程定义OpenFeign接口,使用FeignClient注解进行定义。 (2)服务提供方定义Open…...
获取STM32 MCU的唯一ID
STM32每个系列都会有唯一的一个芯片序列号(96位bit) STM32F10X 的起始地址是 0x1FFFF7E8 STM32F20X 的起始地址是 0x1FFF7A10 STM32F30X 的起始地址是 0x1FFFF7AC STM32F40X 的起始地址是 0x1FFF7A10 STM32L0XX 的起始地址是 0x1FF80050 STM32L1XX 的起…...

Debian项目实战——环境搭建篇
Debian系统安装 准备工作 1、系统镜像:根据自己的需要选择合适的版本格式:x86 / arm 架构 | 最好下载离线安装版本 | 清华镜像源 2、制作工具:balenaEtcher 3、系统媒介:16G以上U盘最佳 烧录镜像 打开balenaEtcher进行烧录&am…...

CenterNet官方代码—目标检测模型推理部分解析与项目启动
CenterNet模型推理部分解析 CenterNet官方代码环境部署 CenterNet作为2019年CVPR推出的论文,论文中给出了官方代码所在的github仓库地址。https://github.com/xingyizhou/CenterNet。 整个代码的代码量并不是特别大,但整个项目的难点在于使用了老版本的…...

测试开发基础——测试用例的设计
三、测试用例的设计 1. 什么是测试用例 测试用例(Test Case)是为了实施测试而向被测试的系统提供的一组集合,这组集合包含:测试环境、操作步骤、测试数据、预期结果等要素。 设计测试用例原则一:测试用例中一个必需部分是对预期输出或结果进…...

C++第五十一弹---IO流实战:高效文件读写与格式化输出
✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】 目录 1. C语言的输入与输出 2. 流是什么 3. CIO流 3.1 C标准IO流 3.2 C文件IO流 3.2.1 以写方式打开文件 3.2.1 以读方式打开文件 4 stringstre…...
C++中使用分治法求最大值
在C++中使用分治法(Divide and Conquer)来求一个数组中的最大值是一个经典的问题。分治法是一种通过将原问题分解为若干个小规模相似子问题,递归地求解这些子问题,然后将子问题的解合并成原问题的解的方法。 以下是使用分治法求数组中最大值的步骤: 分解(Divide):将数…...

数据集 CULane 车道线检测 >> DataBall
数据集 CULane 车道线检测 自动驾驶 无人驾驶目标检测 CULane是用于行车道检测学术研究的大规模具有挑战性的数据集。它由安装在六辆由北京不同驾驶员驾驶的不同车辆上的摄像机收集。收集了超过55小时的视频,并提取了133,235帧。数据示例如上所示。我们将数据集分为…...
Android CustomDialog圆角背景不生效的问题
一行解决: window?.setBackgroundDrawableResource(android.R.color.transparent) 原文件: /*** Created by Xinghai.Zhao* 自定义选择弹框*/ SuppressLint("InflateParams", "MissingInflatedId") class CustomDialog(context: Context?) : AlertDia…...

C++速通LeetCode简单第9题-二叉树的最大深度
深度优先算法递归: /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nullptr), right…...
com.microsoft.sqlserver:sqljdbc4:jar:4.0 was not found产生原因及解决步骤
文章目录 问题sqlserver 包找不到 报错原因分析主要原因 解决方案步骤 1:检查 pom.xml 中的依赖声明步骤 2:配置 Microsoft 的 Maven 仓库步骤 3:强制更新 Maven 依赖步骤 4:清理本地仓库缓存步骤 5:手动下载并安装 sq…...

手机号在网状态查询接口如何用PHP实现调用?
一、什么是手机号在网状态查询接口 通过精准探测手机号的状态,帮助平台减少此类问题的发生,提供更个性化的服务或进行地域性营销 二、应用场景 1. 金融风控 通过运营商在网态查询接口,金融机构可以核验贷款申请人的手机状态,拦…...
Python入门手册:异常处理
在编程过程中,异常处理是一个非常重要的环节。它可以帮助我们处理程序运行时可能出现的错误和异常情况,确保程序的稳定性和可靠性。Python提供了强大的异常处理机制,使得我们能够优雅地处理各种异常情况。今天,就让我们一起深入学…...
如何用 pnpm patch 给 element-plus 打补丁修复线上 bug(以 2.4.4 修复 PR#15197 为例)
背景 在实际项目开发中,依赖的三方库(如 element-plus)难免会遇到 bug。有时候官方虽然已经修复,但新版本升级成本高,或者有兼容性风险。这时,给依赖打补丁是最优雅的解决方案之一。 本文以 element-plus…...

Vue3学习(4)- computed的使用
1. 简述与使用 作用:computed 用于基于响应式数据派生出新值,其值会自动缓存并在依赖变化时更新。 缓存机制:依赖未变化时直接返回缓存值,避免重复计算(通过 _dirty 标志位实现)。响应式更新&…...

IDEA 打开文件乱码
问题:文件乱码 底部编码无法切换 解决方案: 第一步 使用Nodepad 查询文件编码 本项目设置为 转为 UTF-8 无 BOM 第二步:在 IntelliJ IDEA 中:右键点击文件 → File Encoding → 选择目标编码(如 UTF-8) 最…...
ArcGIS Maps SDK for JavaScript:使用图层过滤器只显示FeatureLayer的部分要素
文章目录 引言1 需求场景分析2精确过滤实现方案2.1 基础过滤语法2.2 动态过滤实现 3 模糊查询进阶技巧3.1 LIKE操作符使用3.2 特殊字段处理 4. 性能优化与注意事项4.1 服务端vs客户端过滤4.2 最佳实践建议 5 常见问题解答 引言 在地图应用开发中,图层过滤是常见的需…...
php中实现邮件发送功能
要在php项目中实现邮件发送功能,推荐使用phpmailer库通过smtp协议配置。首先安装phpmailer扩展,可通过composer命令composer require phpmailer/phpmailer安装;若未使用composer则手动引入源码。接着配置smtp信息,包括服务器地址&…...

字符串 金额转换
package heima.Test09;import java.util.Scanner;public class Money {public static void main(String[] args) {//1。键盘录入一个金额Scanner sc new Scanner(System.in);//请输入一个数据String result "";int money;while (true) {System.out.println("请…...

Mysql的卸载与安装
确保卸载干净mysql 不然在进行mysal安装时候会出现不一的页面和问题 1、卸载 在应用页面将查询到的mysql相关应用卸载 2、到c盘下将残留的软件包进行数据删除 3、删除programData下的mysql数据 4、检查系统中的mysql是否存在 cmd中执行 sc deleted mysql80 5、删除注册表中的…...

Spring Boot + Prometheus 实现应用监控(基于 Actuator 和 Micrometer)
文章目录 Spring Boot Prometheus 实现应用监控(基于 Actuator 和 Micrometer)环境准备示例结构启动和验证验证 Spring Boot 应用Prometheus 抓取配置(静态方式)Grafana 面板配置总结 Spring Boot Prometheus 实现应用监控&…...