司南评测集社区 3 月上新一览!
司南评测集社区 CompassHub 作为司南评测体系的重要组成部分,旨在打创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,帮助研究人员和行业人士快速搜索和使用评测集。
2025 年 3 月,司南评测集社区新收录了一批评测基准,覆盖多模态、法律和 Agent 等方向。以下为部分新增评测集的介绍,欢迎大家下载使用。
司南评测集社区链接:
https://hub.opencompass.org.cn/home
MiLiC-Eval

发布单位:
PKU
发布时间:
2025-03-03
评测集简介:
MiLiC-Eval 是针对中国少数民族语言的 NLP 评估套件,涵盖藏语(bo)、维吾尔语(ug)、哈萨克语(kk,哈萨克阿拉伯语)和蒙古语(mn,传统蒙古语)。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/MiLiC-Eval
ToolRet

发布单位:
Shandong University, Baidu Inc, etc.
发布时间:
2025-03-03
评测集简介:
ToolRet 是一个大规模工具检索基准,包括从现有数据集资源中收集的 7.6k 不同的检索任务和 43k 工具语料库。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/ToolRet
SwiLTra-Bench

发布单位:
Harvey, ETH Zurich, etc.
发布时间:
2025-03-03
评测集简介:
SwiLTra-Bench,这是一个包含超过 18 万个对齐的瑞士法律翻译对的综合多语言基准,涵盖了所有瑞士语言以及英语的法律、标题说明和新闻稿,旨在评估基于大型语言模型的翻译系统。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/SwiLTra-Bench
Deepfake-Eval-2024

发布单位:
TrueMedia.org, University of Washington, etc.
发布时间:
2025-03-04
评测集简介:
Deepfake-Eval-2024是一个现实世界中的深度伪造数据集。Deepfake-Eval-2024 包含 44 小时的视频、56.5 小时的音频和 1,975 张图像,涵盖了当代操纵技术、多样化的媒体内容、来自 88 个不同网站来源以及 52 种不同的语言。Deepfake-Eval-2024 包含手动标记的真实和伪造媒体。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/Deepfake-Eval-2024
MCiteBench

发布单位:
Fudan University, Shanghai University, etc.
发布时间:
2025-03-05
评测集简介:
MCiteBench 是一个用于评估多模态大语言模型(MLLMs)中多模态引用文本生成的基准。它包括来自学术论文和评审反驳交互的数据,重点关注引用质量、来源可靠性和答案准确性。MCiteBench 由来自 1749 篇学术论文的 3000 个样本组成,具有 2000 个解释任务和 1000 个定位任务,在文本、图表、表格和混合模态中具有平衡的证据。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/MCiteBench
MASK

发布单位:
Center for AI Safety, Scale AI
发布时间:
2025-03-05
评测集简介:
MASK 为评估大型语言模型的诚实性提供了一个严格的基准,它通过测量模型在被激励说谎时是否仍保持真实来进行评估。公开集包含 1028 个高质量的人工标注示例,涵盖六种不同的原型,每个原型都由一个命题、基本事实、旨在引发说谎的压力提示以及用于确定模型实际知识的信念引出提示组成。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/MASK
IFIR

发布单位:
UCAS, ZJU, etc.
发布时间:
2025-03-06
评测集简介:
IFIR是一个旨在评估专家领域中 instruction-following 信息检索(IR)的综合基准。IFIR 包括 2,426 个高质量示例,涵盖四个专业领域的八个子集:金融、法律、医疗保健和科学文献。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/IFIR
MastermindEval

发布单位:
Humboldt-Universität zu Berlin, DFKI Berlin
发布时间:
2025-03-07
评测集简介:
MastermindEval 使用猜谜游戏棋盘评估大型语言模型的推理能力。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/MastermindEval
FedMABench

发布单位:
ZJU, SJTU, etc.
发布时间:
2025-03-07
评测集简介:
FedMABench 是一个开源基准,用于Mobile Agents 的联合训练和评估,专为异构场景设计。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/FedMABench
KnowLogic

发布单位:
PKU, Huawei Noah’s Ark Lab
发布时间:
2025-03-08
评测集简介:
KnowLogic 是一个知识驱动的综合基准,旨在评估大型语言模型(LLM)的推理能力。它包括 5400 个跨不同领域的双语(中英文)问题,涵盖常识知识和逻辑推理的不同方面。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/KnowLogic
UrbanVideo-Bench

发布单位:
THU
发布时间:
2025-03-08
评测集简介:
UrbanVideo-Bench 旨在评估视频大型语言模型(Video-LLMs)是否能够像人类一样自然地处理连续的第一人称视觉观察,从而实现回忆、感知、推理和导航。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/UrbanVideo-Bench
ProJudge

发布单位:
WHU, USTC, etc.
发布时间:
2025-03-09
评测集简介:
ProJudge 是一个综合性、多模态、多学科和多难度的基准,专门用于评估基于 MLLM 的流程法官的能力。它包含 2,400 个测试案例和 50,118 个步骤级标签,涵盖四个科学学科,具有不同的难度级别和多模态内容。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/ProJudge
VisualSimpleQA

发布单位:
Zhongguancun Laboratory, RUC, Tencent, etc.
发布时间:
2025-03-09
评测集简介:
VisualSimpleQA 是一个多模态事实查询基准,具有两个关键特征。首先,它能够对语言和视觉模态下的大规模语言视觉模型(LVLMs)进行简化且解耦的评估。其次,它纳入了明确的难度标准以指导人工标注,并便于提取具有挑战性的子集 VisualSimpleQA-hard。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/VisualSimpleQA
MedAgentsBench

发布单位:
Yale University, Stanford University, etc.
发布时间:
2025-03-10
评测集简介:
MedAgentsBench是一个专注于复杂医学推理的基准测试,从七个医学数据集中精选了 862 个挑战性问题。这些数据集包括 MedQA、PubMedQA、MedMCQA、MedBullets、MedExQA、MedXpertQA 和 MMLU/MMLU-Pro,涵盖了从医学执照考试到研究文献的多种医学问题。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/MedAgentsBench
ProBench

发布单位:
ANU, NTU, etc.
发布时间:
2025-03-10
评测集简介:
ProBench是一个包含需要大量专家级知识来解决的开放式多模态查询的基准。ProBench 包含 10 个任务领域和 56 个子领域,支持 17 种语言,并支持最多 13 轮对话。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/ProBench
V-STaR

发布单位:
Queen Mary University of London, NJU, etc.
发布时间:
2025-03-14
评测集简介:
V-STaR 是 Video-LLM 的时空推理基准,评估 Video-LLM 在“何时”、“何处”和“什么”上下文中明确回答问题的时空推理能力。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/V-STaR
Creation-MMBench

发布单位:
Zhejiang University, Tongji University, etc.
发布时间:
2025-03-18
评测集简介:
Creation-MMBench 是专为评估多模态大模型的创作能力而设计的多模态基准。采用两个不同指标对模型的基础感知能力和深层次视觉创作能力进行评估,采用 GPT-4o 作为评判模型进行评估。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/Creation-MMBench
ContextualJudgeBench

发布单位:
Salesforce AI Research
发布时间:
2025-03-19
评测集简介:
ContextualJudgeBench 是一个具有 2000 个样本的成对基准测试,用于在两个上下文设置(上下文问答和摘要)中评估作为评判者的大语言模型。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/ContextualJudgeBench
BigOBench

发布单位:
Meta, Inria, etc.
发布时间:
2025-03-19
评测集简介:BigO(Bench)是一个包含约 300 个需要用 Python 解决的代码问题的基准测试,以及 3,105 个编码问题和 1,190,250 个解决方案用于训练,以评估 LLMs 能否找到代码解决方案的时间-空间复杂度,或者生成符合时间-空间复杂度要求的代码解决方案。
评测集社区链接:
https://hub.opencompass.org.cn/dataset-detail/BigOBench
·
相关文章:
司南评测集社区 3 月上新一览!
司南评测集社区 CompassHub 作为司南评测体系的重要组成部分,旨在打创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,帮助研究人员和行业人士快速搜索和使用评测集。 2025 年 3 月,司南评测集社区新收录了一批评…...
TrollStore(巨魔商店)介绍及操作手册
TrollStore(巨魔商店)介绍及操作手册 一、TrollStore 简介 TrollStore 是一款针对 iOS 设备开发的第三方应用安装工具,它允许用户在不越狱设备的情况下,安装和使用未经过苹果官方 App Store 审核的应用程序。该工具利用了 iOS 系…...
SSE与Streamable HTTP的区别:协议与技术实现的深度对比
引言 在现代Web开发中,实时数据传输是许多应用的核心需求,从聊天应用到股票市场更新,从游戏服务器到AI模型通信。为了满足这一需求,各种技术应运而生,其中Server-Sent Events (SSE)和Streamable HTTP是两种重要的实时…...
android 之简述屏幕分辨率、屏幕密度、屏幕最小宽度
一、屏幕分辨率 屏幕分辨率是指屏幕显示的像素数量,通常以水平像素数乘以垂直像素数表示,例如 1920x1080。它直接影响屏幕的显示效果,包括图像的清晰度和细节。不同的设备可能有不同的屏幕分辨率。 1、常见的屏幕分辨率 标准分辨率&#x…...
mac环境中Nginx安装使用 反向代理
安装 如没有Homebrew 先安装Homebrew 国内镜像: /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)" 安装成功后安装nginx: brew install nginx 启动nginx: nginx 或者 brew services st…...
2025年3月个人工作生活总结
本文为 2025年3月工作生活总结。 研发编码 一个curl下载失败问题的记录 问题: 某程序,指定IP和账户密码配置,再使用curl库连接sftp服务器,下载文件。在CentOS系统正常,但在某国产操作系统中失败,需要用命…...
实战打靶集锦-36-Deception
文章目录 1. 主机发现2. 端口扫描3. 服务枚举4. 服务探查5. 系统提权6. 写在最后 靶机地址:https://download.vulnhub.com/haclabs/Deception.ova 1. 主机发现 目前只知道目标靶机在192.168.56.xx网段,通过如下的命令,看看这个网段上在线的主…...
前端开发技术演进与就业现实:顺应时代方能不被淘汰-优雅草卓伊凡
前端开发技术演进与就业现实:顺应时代方能不被淘汰-优雅草卓伊凡 在技术浪潮汹涌的当下,常有人发问:“学习CSS、HTML、JS以后可以干什么?”对此,卓伊凡可以明确地给出答案:单纯学习这些过于基础的Web前端开…...
敏捷开发:以人为本的高效开发模式
目录 前言1. 什么是敏捷开发?1.1 敏捷开发的核心理念1.2 敏捷开发的优势 2. 敏捷宣言:四大核心价值观2.1 个体和交互胜过工具和过程2.2 可工作的软件胜过大量的文档2.3 客户合作胜过合同谈判2.4 响应变化胜过遵循计划 3. 敏捷开发的实践3.1 Scrum&#x…...
HarmonyOS 基础组件和基础布局的介绍
1. HarmonyOS 基础组件 1.1 Text 文本组件 Text(this.message)//文本内容.width(200).height(50).margin({ top: 20, left: 20 }).fontSize(30)//字体大小.maxLines(1)// 最大行数.textOverflow({ overflow: TextOverflow.Ellipsis })// 超出显示....fontColor(Color.Black).…...
CAD插入属性块 弹窗提示输入属性值——CAD知识讲堂
插入属性块时,有时会遇到不弹窗输入属性值的情况,解决方案如下: 最好关闭块编辑器并保存,插入属性块即可弹窗。...
Redis 主要能够用来做什么
Redis(Remote Dictionary Server)是一种基于内存的键值存储数据库,它的性能极高,广泛应用于各种高并发场景。以下是 Redis 常见的用途: 1. 缓存(Cache) 作用:存储热点数据…...
MySQL GROUP BY 和 HAVING 子句中 ‘Unknown column‘ 错误的深入解析
在使用 MySQL 进行数据分析和报表生成时,GROUP BY 和 HAVING 子句是非常强大的工具。然而,很多开发者在使用它们时会遇到一个常见的错误:"Unknown column column_name in having clause"。本文将深入解析这个错误的原因,…...
Sentinel实战(三)、流控规则之流控效果及流控小结
spring cloud Alibaba-Sentinel实战(三)、流控效果流控小结 一、流控规则:流控效果一)、流控效果:预热1、概念含义2、案例流控规则设置测试结果 二)、流控效果:排队等待1、概念含义2、案例流控规…...
JavaScrip——DOM编程
一、DOM元素创建与属性操作 1. 元素创建与插入 // 创建新元素 const newDiv document.createElement(div); newDiv.textContent "动态创建的内容";// 插入到容器末尾 document.body.appendChild(newDiv);// 在指定元素前插入 existingElement.before(newDiv);// …...
表单的前端数据流向
在CRM项目中,会涉及很多张表单。每张表单的前端代码都会放在一个单独的文件夹中。这个文件夹下包含三个文件,分别是: index.js(以下称为 index):负责组件的渲染和交互逻辑。model.js(以下称为 …...
PP-ChatOCRv3新升级:多页PDF信息抽取支持自定义提示词工程,拓展大语言模型功能边界
文本图像信息抽取技术在自动化办公、建筑工程、教育科研、金融风控、医疗健康等行业领域具有广泛应用场景。2024年9月,飞桨低代码开发工具PaddleX中新增文本图像智能产线PP-ChatOCRv3,充分结合PaddleOCR的文本图像版面解析能力和文心一言语言理解优势&am…...
《二叉树:二叉树的顺序结构->堆》
二叉树一般可以使用两种结构存储,一种是顺序结构,一种是链式结构。 顺序存储 顺序结构存储是使用数组来存储,一般使用数组只适合表示完全二叉树,因为不是完全二叉树会有空间的浪费。实际上使用中只有堆才会使用数组来存储。二叉…...
OpenLayers:封装Overlay的方法
平时在使用OpenLayers的Overlay时常感觉不便,于是最近我便封装了一些Overlay增删改查的方法,以提高可用性。这边文章中我会介绍我封装的方法,同时记录这个过程中踩的一些坑。 添加Overlay /*** abstract 添加overlay* param {*} map* param…...
软件重构与项目进度的矛盾如何解决
软件重构与项目进度之间的矛盾可以通过明确重构目标与范围、采用渐进式重构策略、优化项目管理流程、提高团队沟通效率、建立重构意识文化等方式解决。其中,采用渐进式重构策略尤为关键。渐进式重构是指在日常开发过程中,以小步骤持续进行重构࿰…...
Mysql+Demo 获取当前日期时间的方式
记录一下使用Mysql获取当前日期时间的方式 获取当前完整的日期时间有常见的四种方式,获取得到的默认格式(mysql的格式标准)是 %Y-%m-%d %H:%i:%s其它格式 %Y-%m-%d %H:%i:%s.%f方式一:now()函数 select now();mysql> select now(); -------------…...
数智化时代下开源AI大模型驱动的新型商业生态构建——基于AI智能名片与S2B2C商城小程序的融合创新研究
摘要 数字技术的指数级发展推动物理世界向数智化网状结构加速转型,传统商业逻辑面临系统性重构。本文以"开源AI大模型AI智能名片S2B2C商城小程序"为研究主体,采用案例分析与技术验证相结合的方法,揭示技术融合对商业生态的重塑机制…...
Spring Cloud Alibaba 技术全景与实战指南
简介: Spring Cloud Alibaba 是阿里巴巴开源的微服务解决方案,基于 Spring Cloud 标准构建,提供了一站式分布式系统开发能力。它深度整合阿里云生态组件,为企业级微服务架构提供高可用、高性能的技术支撑。 核心特性 全栈微服务能…...
回归预测 | Matlab实现NRBO-Transformer-BiLSTM多输入单输出回归预测
回归预测 | Matlab实现NRBO-Transformer-BiLSTM多输入单输出回归预测 目录 回归预测 | Matlab实现NRBO-Transformer-BiLSTM多输入单输出回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.【JCR一区级】Matlab实现NRBO-Transformer-BiLSTM多变量回归预测…...
了解 PoE 握手协议在网络配电中的重要性
在现代网络领域,以太网供电(PoE)已成为一项革命性的技术,通过在一根以太网电缆上集成电力和数据传输,简化了网络连接设备的部署和管理。这种无缝操作的核心是 PoE 握手 —— 一个促进支持PoE 的设备之间的通信、确保高效供电和保护网络基础设…...
小智机器人相关函数解析,BackgroundTask::Schedule (***)将一个回调函数添加到后台任务队列中等待执行
以下是对 BackgroundTask::Schedule 函数代码的详细解释: void BackgroundTask::Schedule(std::function<void()> callback) {std::lock_guard<std::mutex> lock(mutex_);if (active_tasks_ > 30) {int free_sram heap_caps_get_free_size(MALLOC_…...
基于Python设计的TEQC数据质量可视化分析软件
标题:基于Python设计的TEQC数据质量可视化分析软件 内容:1.摘要 本文旨在设计一款基于Python的TEQC数据质量可视化分析软件。随着全球导航卫星系统(GNSS)的广泛应用,数据质量的评估变得至关重要。TEQC(TransEditQualityCheck&…...
人月神话:如何有效的避免Bug的产生
bug的来源有很多种,一般的小bug很好修复,最头疼的是哪些致命且难以察觉的Bug。这些bug从哪来的? 在人月神话书中说:假设的不匹配是大多数致命和难以察觉的bug的主要来源。 假设来源于各个组成部分的开发者对概念的理解不一致。 为…...
Git的基础使用方法
本文最终功能: 1.从终端直接传输代码给仓库 2.用终端从仓库克隆文件 基本概念 我们先来理解下 Git 工作区、暂存区和版本库概念: 工作区:就是你在电脑里能看到的目录。 暂存区:英文叫 stage 或 index。一般存放在 .git 目录下的…...
轮胎厂相关笔记
一、术语 图解:https://news.yiche.com/hao/wenzhang/38498703/ 1、胚胎 在轮胎制造行业中,“胎胚”(也称“生胎”或“未硫化轮胎”)是指轮胎在硫化(高温高压固化)之前的半成品形态。它是轮胎成型的中间…...
