大语言模型的评测
大语言模型评测是评估这些模型在各种任务和场景下的性能和能力的过程。
能力
1. 基准测试(Benchmarking)
-
GLUE(General Language Understanding Evaluation):包含多个自然语言处理任务,如文本分类、情感分析、问答等,用于评估模型在不同任务上的性能。
-
SuperGLUE:GLUE的扩展版本,包含更复杂的任务,用于评估模型在更高级任务上的性能。
-
SQuAD(Stanford Question Answering Dataset): 用于评估模型在机器阅读理解任务上的性能,特别是问答任务。
2. 任务特定评测
-
文本生成:
- 使用BLEU、ROUGE等指标评估生成文本的质量。
- 人工评估生成文本的连贯性和相关性。
-
翻译:
- 使用BLEU、METEOR等指标评估翻译质量。
- 人工评估翻译的准确性和流畅性。
-
问答:
- 使用准确率、召回率等指标评估问答系统的性能。
- 人工评估答案的相关性和准确性。
3. 模型能力评测
-
常识推理:
- 评估模型在常识推理任务上的能力,如Winograd Schema Challenge。
-
逻辑推理:
- 评估模型在逻辑推理任务上的能力,如LAMBADA。
-
数学推理:
- 评估模型在数学问题解决上的能力,如MathQA。
4. 鲁棒性和偏见评测
-
鲁棒性:
- 评估模型在面对噪声、错误输入或对抗性样本时的性能。
- 使用对抗性测试和噪声注入等方法。
-
偏见和公平性:
- 评估模型在处理不同群体数据时的偏见和公平性。
- 使用公平性指标和偏见检测工具。
5. 用户反馈和人工评估
-
用户反馈:
- 收集用户对模型输出的反馈,了解模型在实际应用中的表现。
- 通过用户调查和反馈表收集数据。
-
人工评估:
-
由人类评估者对模型输出进行评估,特别是在自动评估指标不适用的情况下。
-
评估模型输出的连贯性、相关性和准确性。
依据为标准答案的类型,一般以下几种类型:
选项:常见于分类任务,判断题以及选择题,目前这类问题的数据集占比最大,有 MMLU, CEval 数据集等等,评估标准一般使用准确率–ACCEvaluator。
-
短语:常见于问答以及阅读理解任务,这类数据集主要包括 CLUE_CMRC, CLUE_DRCD, DROP 数据集等等,评估标准一般使用匹配率–EMEvaluator。
句子:常见于翻译以及生成伪代码、命令行任务中,主要包括 Flores, Summscreen, Govrepcrs, Iwdlt2017 数据集等等,评估标准一般使用 BLEU(Bilingual Evaluation Understudy)–BleuEvaluator。
段落:常见于文本摘要生成的任务,常用的数据集主要包括 Lcsts, TruthfulQA, Xsum 数据集等等,评估标准一般使用 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)–RougeEvaluator。
代码:常见于代码生成的任务,常用的数据集主要包括 Humaneval,MBPP 数据集等等,评估标准一般使用执行通过率以及 pass@k,目前 Opencompass 支持的有MBPPEvaluator、HumanEvalEvaluator。
性能
1. 性能评测
-
推理速度:
- 评估模型在不同硬件上的推理速度和效率。
- 使用吞吐量、延迟等指标。
-
资源消耗:
- 评估模型在推理和训练过程中对计算资源的消耗。
- 使用内存使用、计算时间等指标。
评估指标
常见的评估指标:
1. 文本生成
-
BLEU(Bilingual Evaluation Understudy):用于评估机器翻译和文本生成的质量,通过比较生成文本与参考文本之间的重叠程度来计算得分。BLEU计算的是生成文本与参考文本之间的n-gram精度,并结合一个惩罚因子来处理生成文本长度与参考文本长度之间的差异。
-
ROUGE(Recall-Oriented Understudy for Gisting Evaluation):用于评估文本摘要和生成的质量,通过计算生成文本与参考文本之间的重叠程度来计算得分。ROUGE计算的是生成文本与参考文本之间的n-gram召回率,并结合其他指标来评估生成文本的连贯性和相关性
-
CIDEr(Consensus-based Image Description Evaluation):用于评估图像描述生成的质量,通过计算生成描述与参考描述之间的共识度来计算得分。CIDEr计算的是生成描述与参考描述之间的n-gram共识度,并结合一个惩罚因子来处理生成描述长度与参考描述长度之间的差异
-
METEOR(Metric for Evaluation of Translation with Explicit ORdering):用于评估机器翻译和文本生成的质量,通过计算生成文本与参考文本之间的相似度来计算得分。
2. 分类和标签任务
-
准确率(Accuracy):正确预测的样本数占总样本数的比例。
-
精确率(Precision):正确预测为正类的样本数占预测为正类的样本数的比例。
-
召回率(Recall): 正确预测为正类的样本数占实际为正类的样本数的比例。
-
F1分数(F1 Score):精确率和召回率的调和平均值,用于综合评估分类性能。
3. 问答任务
-
准确率(Accuracy):正确回答的问题数占总问题数的比例。
-
EM(Exact Match):生成的答案与参考答案完全匹配的比例。
-
F1分数(F1 Score):通过计算生成答案与参考答案之间的重叠程度来计算得分。
4. 翻译任务
-
BLEU(Bilingual Evaluation Understudy):用于评估机器翻译的质量,通过比较生成翻译与参考翻译之间的重叠程度来计算得分。
-
METEOR(Metric for Evaluation of Translation with Explicit ORdering):用于评估机器翻译的质量,通过计算生成翻译与参考翻译之间的相似度来计算得分。
5. 鲁棒性和偏见评测
-
对抗性测试(Adversarial Testing):通过引入对抗性样本评估模型的鲁棒性。
-
公平性指标(Fairness Metrics):评估模型在处理不同群体数据时的公平性,如性别、种族等。
6. 推理速度和资源消耗
-
吞吐量(Throughput):模型在单位时间内处理的样本数。
-
延迟(Latency): 模型处理单个样本所需的时间。
-
内存使用(Memory Usage): 模型在推理和训练过程中对内存的消耗。
-
计算时间(Computational Time): 模型在推理和训练过程中所需的计算时间。
相关文章:
大语言模型的评测
大语言模型评测是评估这些模型在各种任务和场景下的性能和能力的过程。 能力 1. 基准测试(Benchmarking) GLUE(General Language Understanding Evaluation):包含多个自然语言处理任务,如文本分类、情感分…...
【Vue3】浅谈setup语法糖
Vue3 的 setup 语法糖是通过 <script setup> 标签启用的特性,它是对 Composition API 的进一步封装,旨在简化组件的声明式写法,同时保留 Composition API 的逻辑组织能力。以下是其核心概念和原理分析: 一、<script setu…...
EasyRTC嵌入式WebRTC技术与AI大模型结合:从ICE框架优化到AI推理
实时通信技术在现代社会中扮演着越来越重要的角色,从视频会议到在线教育,再到远程医疗,其应用场景不断拓展。WebRTC作为一项开源项目,为浏览器和移动应用提供了便捷的实时通信能力。而EasyRTC作为基于WebRTC的嵌入式解决方案&…...
如何管理路由器
一、管理路由器的必要性 1、需要修改拨号上网的密码。 2、需要修改WIFI的SSID名字和密码。 3、设置DHCP协议信息。 4、设置IP地址的过滤规则。 5、给某个设备连接设置网络限速。 二、常见的方式 (一)web网页方式 1、计算机用双绞线或者WIFI的方式连接路由器。 2、在计算机中打开…...
【NTN 卫星通信】低轨卫星通信需要解决的关键问题
1 低轨卫星通信需要考虑的关键问题 3GPP在开始阶段对低轨卫星通信需要面对的关键问题对架构的影响进行了探讨,主要在协议23.737中,我们来看看有哪些内容吧。 2 关键问题讨论 2.1 大型卫星覆盖区域的移动性管理 PLMN的覆盖区域受到HPLMN母国监管机构的限…...
DOM HTML:深入理解与高效运用
DOM HTML:深入理解与高效运用 引言 随着互联网的飞速发展,前端技术逐渐成为软件开发中的关键部分。DOM(文档对象模型)和HTML(超文本标记语言)是前端开发中的基石。本文将深入探讨DOM和HTML的概念、特性以及在实际开发中的应用,帮助读者更好地理解和使用这两项技术。 …...
如何进行OceanBase 运维工具的部署和表性能优化
本文来自OceanBase 用户的实践分享 随着OceanBase数据库应用的日益深入,数据量不断攀升,单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此,部署专门的运维工具、实施针对性的表性能优化策略,以及加强指标监测工作&…...
docker简介-学习与参考
docker Docker 是一个开源的应用容器引擎,基于 Go 语言并遵从 Apache2.0 协议开源。 Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。 容器是完全使用沙箱…...
AcWing 蓝桥杯集训·每日一题2025·密接牛追踪2
密接牛追踪2 农夫约翰有 N 头奶牛排成一排,从左到右依次编号为 1∼N。 不幸的是,有一种传染病正在蔓延。 最开始时,只有一部分奶牛受到感染。 每经过一个晚上,受感染的牛就会将病毒传染给它左右两侧的牛(如果有的话…...
LeetCode 每日一题 2025/2/24-2025/3/2
记录了初步解题思路 以及本地实现代码;并不一定为最优 也希望大家能一起探讨 一起进步 目录 2/24 1656. 设计有序流2/25 2502. 设计内存分配器2/26 1472. 设计浏览器历史记录2/27 2296. 设计一个文本编辑器2/28 2353. 设计食物评分系统3/1 131. 分割回文串3/2 132. …...
TeX Live 2025 最新版安装与中文环境配置全教程(Windows/Mac/Linux)
一、软件定位与特性 TeX Live 是由国际TeX用户组(TUG)维护的跨平台专业排版系统,支持LaTeX、XeLaTeX等多种排版引擎,广泛应用于学术论文、书籍出版等领域。2025版核心升级: 智能编译:自动检测编码错误并提…...
Android实现漂亮的波纹动画
Android实现漂亮的波纹动画 本文章讲述如何使用二维画布canvas和camera、矩阵实现二、三维波纹动画效果(波纹大小变化、画笔透明度变化、画笔粗细变化) 一、UI界面 界面主要分为三部分 第一部分:输入框,根据输入x轴、Y轴、Z轴倾…...
JAVA学习笔记038——bean的概念和常见注解标注
什么是bean? Bean 就是 被 Spring 管理的对象,就像工厂流水线上生产的“标准产品”。这些对象不是你自己 new 出来的,而是由 Spring 容器(一个超级工厂)帮你创建、组装、管理。 由 Component、Service、Controller 等注解标记的…...
自然语言处理NLP入门 -- 第十节NLP 实战项目 2: 简单的聊天机器人
一、为什么要做聊天机器人? 在互联网时代,我们日常接触到的“在线客服”“自动问答”等,大多是以聊天机器人的形式出现。它能帮我们快速回复常见问题,让用户获得及时的帮助,并在一定程度上减少人工客服的压力。 同时&…...
【网络安全 | 渗透工具】小程序反编译分析源码 | 图文教程
未经许可,禁止转载。 本文仅供学习使用,严禁用于非法渗透测试,笔者不承担任何责任。 文章目录 1、下载Proxifier2、下载反编译工具unveilr3、寻找小程序文件包4、对文件包进行反编译5、对源码进行分析6、渗透思路6.1、查找敏感信息泄露6.2、解析加解密逻辑6.3、枚举 API 接口…...
uniapp 系统学习,从入门到实战(六)—— 样式与布局
全篇大概 4700 字(含代码),建议阅读时间 30min 📚 目录 Flex 布局在 UniApp 中的应用响应式设计与适配多端使用 SCSS 提升样式开发效率实战案例演示总结 1. Flex 布局在 UniApp 中的应用 1.1 基础布局实现 通过 display: flex 快速构建弹性容器&#…...
‘ts-node‘ 不是内部或外部命令,也不是可运行的程序
新建一个test.ts文件 let message: string = Hello World; console.log(message);如果没有任何配置的前提下,会报错’ts-node’ 不是内部或外部命令,也不是可运行的程序。 此时需要安装一下ts-node。 npm install...
mysql 全方位安装教程
下载 MySQL 【官网下载地址】 注意要选择较大的哪个安装包,小的安装包是一个安装器。 我们不用登录,直接下载 直接运行下载好的安装包 MySQL如果是 安装包安装, 可以图形化界面自主配置 如果是压缩包解压, 可以配置 配置文件, 可以解压安装到指定的…...
22-接雨水
给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 方法一:双指针法 思路 使用两个指针 left 和 right 分别指向数组的两端,同时记录左边的最大高度 leftMax 和右边的最大高度 rig…...
使用Spring Boot与达梦数据库(DM)进行多数据源配置及MyBatis Plus集成
使用Spring Boot与达梦数据库(DM)进行多数据源配置及MyBatis Plus集成 在现代企业级应用开发中,处理多个数据源是一个常见的需求。本文将详细介绍如何使用Spring Boot结合达梦数据库(DM),并通过MyBatis Plus来简化数据库操作&…...
安宝特方案丨XRSOP人员作业标准化管理平台:AR智慧点检验收套件
在选煤厂、化工厂、钢铁厂等过程生产型企业,其生产设备的运行效率和非计划停机对工业制造效益有较大影响。 随着企业自动化和智能化建设的推进,需提前预防假检、错检、漏检,推动智慧生产运维系统数据的流动和现场赋能应用。同时,…...
学习STC51单片机31(芯片为STC89C52RCRC)OLED显示屏1
每日一言 生活的美好,总是藏在那些你咬牙坚持的日子里。 硬件:OLED 以后要用到OLED的时候找到这个文件 OLED的设备地址 SSD1306"SSD" 是品牌缩写,"1306" 是产品编号。 驱动 OLED 屏幕的 IIC 总线数据传输格式 示意图 …...
根据万维钢·精英日课6的内容,使用AI(2025)可以参考以下方法:
根据万维钢精英日课6的内容,使用AI(2025)可以参考以下方法: 四个洞见 模型已经比人聪明:以ChatGPT o3为代表的AI非常强大,能运用高级理论解释道理、引用最新学术论文,生成对顶尖科学家都有用的…...
浅谈不同二分算法的查找情况
二分算法原理比较简单,但是实际的算法模板却有很多,这一切都源于二分查找问题中的复杂情况和二分算法的边界处理,以下是博主对一些二分算法查找的情况分析。 需要说明的是,以下二分算法都是基于有序序列为升序有序的情况…...
MySQL用户和授权
开放MySQL白名单 可以通过iptables-save命令确认对应客户端ip是否可以访问MySQL服务: test: # iptables-save | grep 3306 -A mp_srv_whitelist -s 172.16.14.102/32 -p tcp -m tcp --dport 3306 -j ACCEPT -A mp_srv_whitelist -s 172.16.4.16/32 -p tcp -m tcp -…...
学习STC51单片机32(芯片为STC89C52RCRC)OLED显示屏2
每日一言 今天的每一份坚持,都是在为未来积攒底气。 案例:OLED显示一个A 这边观察到一个点,怎么雪花了就是都是乱七八糟的占满了屏幕。。 解释 : 如果代码里信号切换太快(比如 SDA 刚变,SCL 立刻变&#…...
dify打造数据可视化图表
一、概述 在日常工作和学习中,我们经常需要和数据打交道。无论是分析报告、项目展示,还是简单的数据洞察,一个清晰直观的图表,往往能胜过千言万语。 一款能让数据可视化变得超级简单的 MCP Server,由蚂蚁集团 AntV 团队…...
CSS设置元素的宽度根据其内容自动调整
width: fit-content 是 CSS 中的一个属性值,用于设置元素的宽度根据其内容自动调整,确保宽度刚好容纳内容而不会超出。 效果对比 默认情况(width: auto): 块级元素(如 <div>)会占满父容器…...
DingDing机器人群消息推送
文章目录 1 新建机器人2 API文档说明3 代码编写 1 新建机器人 点击群设置 下滑到群管理的机器人,点击进入 添加机器人 选择自定义Webhook服务 点击添加 设置安全设置,详见说明文档 成功后,记录Webhook 2 API文档说明 点击设置说明 查看自…...
Redis:现代应用开发的高效内存数据存储利器
一、Redis的起源与发展 Redis最初由意大利程序员Salvatore Sanfilippo在2009年开发,其初衷是为了满足他自己的一个项目需求,即需要一个高性能的键值存储系统来解决传统数据库在高并发场景下的性能瓶颈。随着项目的开源,Redis凭借其简单易用、…...
