当前位置: 首页 > news >正文

【生成式人工智能-八-大型语言模型的能力评估】

语言模型的能力评估

  • 评估难度来自哪里
    • 输出没办法确定
    • 给出选择题
    • 本身就没标准答案
  • 评估方法
    • 人力
    • 用语言模型来评估语言模型
      • 语言模型的偏爱
  • 评估语言模型的数据集
  • 评估模型的不同能力
    • 阅读长文的能力
    • 心智测验
    • 道德性测试
    • 安全性测试

通常情况下我们想到的语言模型能力评估,就是让模型输出答案,然后与标准答案进行比对,可是现实是,这很难评估模型能力,下面就介绍下评估的难度

评估难度来自哪里

输出没办法确定

准备一些标准的corpus,也就是所谓的Benchmark Corpus,输入模型后,比对模型输出,但是对于输出的评分很难界定得分,因为同一个输入本来就可以有两种答案,同一种答案也可以有两种不同的说法,所以这就很难界定输出的好坏。

给出选择题

为了解决上面的问题,你可以给出选择题,也确实有这样的benchmark,那问题解决了么?
仔细想想就知道没那么简单,比如答案是A B C D,那模型万一回复的是a,又或者模型不按照人的思路直接给出答案了呢,这样还是很难解决评分问题。
当然你可以告诉模型只要输出选项,但是我们之前讲过,如果加上限制,很可能模型的重点放在了只输出选项上,而不是模型能力本身,因为之前我们讲过,模型本身就是需要step by step才会讲的更好

本身就没标准答案

比如做摘要,这个本身就没有标准答案,跟答案不同不能认为不对或者不好。当然也有BLEU和ROUGE一些算法,它是计算相同的字数的分数的,但这个分数的评估结果,想想就知道依然不是很理想。

那真的没办法评估了么

评估方法

人力

这个毋庸置疑,目前网站上的模型排名也是人力排名的

用语言模型来评估语言模型

可以把标准答案和语言模型的输出一起给GPT,问它答案是否正确,或者直接问GPT 两个模型的输出哪个更好。曾经有人MT-Bench上用GPT4来衡量回复的好坏。看起来是解决了这个问题,但是这个回复客观么?

语言模型的偏爱

语言模型真的是有偏爱的,比如gpt就特别喜欢长一点的答案。

了解到评估难度之后,我们可以了解下我们评估可以使用的资料集

评估语言模型的数据集

下面是几个常用的评估数据集
在这里插入图片描述
到最后一个 Natural Instrucions 任务集已经包含1600多个任务了

有方法和能力之外,出了常见的正确与否,一些其他我们需要评估的能力。

评估模型的不同能力

阅读长文的能力

现在我们越来越希望模型能够记住更长的内容,所以就希望能够测试模型阅读长文的能力,测试模型在看过很长的文章之后还能不能记住它看到的内容。
分别在一篇很长的文章的开头、中间、结尾插入一句话(防止不同模型在对于不同输入中不同位置的关注度带来影响),然后看模型能否回答出来的出来
在这里插入图片描述
有人在GPT-4做了测试,它自己号称可以读128k token的内容,但是实际测试发现,小于64K的时候,无论是放在哪里都可以回答出来,但是如果文档真的是到了128K的时候,如果插入的话放在前面,那GPT-4是回答不出来问题的。下面这个图是在GPT上实验结果(纵轴是插入语句的位置,从上往下依次是文章开头到结尾,横轴是输入token长度)
在这里插入图片描述

心智测验

测验模型是否具心智能力,看模型是否具备人类的心智。
在这里插入图片描述
拿一些心智测验题目,看模型是否具备心智能力,当然这个过程里必须警惕它在之前已经看过类似的资料了。比如上面这个问题,如果仅仅是文字生成,就会输出到去箱子找球,但是真正具备心智的人是会回答篮子。
当然也有这样的测试集,不过目前模型的测试的结果都不是很理想,与人类差距很大

道德性测试

看模型是否会为了自己的目标,违背一些道德,做一些操作,MACHIAVELLI Benchmark就是这样的测试

安全性测试

相关文章:

【生成式人工智能-八-大型语言模型的能力评估】

语言模型的能力评估 评估难度来自哪里输出没办法确定给出选择题本身就没标准答案 评估方法人力用语言模型来评估语言模型语言模型的偏爱 评估语言模型的数据集评估模型的不同能力阅读长文的能力心智测验道德性测试安全性测试 通常情况下我们想到的语言模型能力评估,…...

Qt ts文件详解

Qt ts文件(Translation Source file:翻译源文件)是Qt框架中用于存储翻译文本和相关上下文信息的一种特定格式文件,它是Qt Linguist(语言家)工具使用的基础。Qt Linguist是Qt开发工具包中的一个应用程序&…...

操作系统 IO 相关知识

操作系统 IO 相关知识 阻塞与非阻塞同步与异步IO 和系统调用传统的 IODMAmmap 内存映射sendfilesplice 常用的 IO 模型BIO:同步阻塞 IONIO:同步非阻塞 IOIO 多路复用信号驱动 IOAIO:异步 IO 模型 IO 就是计算机内部与外部进行数据传输的过程&…...

C++_手写share_ptr

以下是一个简化版的 shared_ptr 的实现&#xff1a; #include <iostream> template <typename T> class SimpleSharedPtr { public:// 构造函数explicit SimpleSharedPtr(T* ptr nullptr) : ptr_(ptr), count_(ptr ? new size_t(1) : nullptr) {}// 拷贝构造函数…...

【启明智显方案分享】6.86寸高清显示屏音频效果器解决方案

一、项目概述 本方案旨在设计一款集成6.86寸高清触摸显示屏的音频效果器&#xff0c;通过HMI&#xff08;Human-Machine Interface&#xff09;芯片Model 4驱动&#xff0c;实现高清晰度的视觉交互。该设备不仅支持音乐、麦克风及温响音量的精细控制&#xff0c;还内置丰富的预…...

vue设置每次加载页面时展示一个双开门效果

一、首先创建一个双开门的蒙层组件 <!-- DoorOverlay.vue --> <template><div v-if"isVisible" class"door-overlay"><div class"door left-door"></div><div class"door right-door"></div&…...

简单的docker学习 第8章 docker常用服务安装

第8章 常用服务安装 本章主要学习最常用的&#xff0c;也是安装起来稍有些麻烦的 MySQL 与 Redis 两种服务器的Docker 安装。至于其它服务器的 Docker 安装&#xff0c;大家可自行查找资料。只要 MySQL 与 Redis这两类服务器学会了安装&#xff0c;其它服务器的安装基本也不会…...

01、MySQL-DDL(数据定义语言)

目录 1、查询 2、创建 3、修改 4、删除 1、查询 1、查询所有数据库 show databases; 2、查询当前数据库 select database(); 3、查询当前数据库中所有的表&#xff08;需要先进入这个数据库&#xff09; use d1; show tables; 4、查询表结构 desc users; 5、查询指定表的建…...

RT-Thread 操作系统 之 线程间同步 IO设备模型

RT-Thread 操作系统 之 线程间同步 IO设备模型 一、线程间同步1.1、信号量1.1.1、信号量结构体1.1.2、信号量的使用和管理1.1.3、信号量同步例程 1.2、互斥量1.2.1、互斥量的使用和管理 1.3、事件集1.3.1、事件集使用和管理方法1.3.2、事件集三个线程同步实例 二、IO设备模型2.…...

力扣leetcode移动0(C++)

给定一个数组 nums&#xff0c;编写一个函数将所有 0 移动到数组的末尾&#xff0c;同时保持非零元素的相对顺序。 请注意 &#xff0c;必须在不复制数组的情况下原地对数组进行操作。 示例 1: 输入: nums [0,1,0,3,12] 输出: [1,3,12,0,0]示例 2: 输入: nums [0] 输出: […...

阿里云部署open-webui实现openai代理服务

一、 环境准备 1. 阿里云服务器&#xff0c;ubuntu22系统 2. 外网服务器&#xff0c;linux系统 3. openai API Key 二、实际操作记录(阿里云服务器端) 1. 根据官方文档安装open-webui服务端: &#x1f680; Getting Started | Open WebUI 1. 如果服务器配置比较低&#xff0c;…...

你的工作环境,选对劳保鞋了吗?守护安全,从脚下开始!

在众多的工作场所中&#xff0c;我们穿梭于不同的工作环境&#xff0c;从繁忙的工厂车间到复杂的建筑工地&#xff0c;再到需要精细操作的实验室……每一步都承载着对安全的期许和对效率的追求。但你是否意识到&#xff0c;脚下那双不起眼的劳保鞋&#xff0c;其实是守护你安全…...

【Linux】编译器gcc/g++ 、程序翻译过程、动静态库

目录 1.gcc/g Linux编译器1.1. gcc与g的安装1.2. gcc与g用法1.2.1.gcc用法1.2.2. g用法 1.3. 程序翻译的过程1.3.1. 前提知识&#xff1a;1.3.2. 预处理&#xff08;语言种类不变&#xff09;条件编译用途&#xff1a; 1.3.3. 编译&#xff08;生成汇编语言&#xff09;1.3.4. …...

通义灵码-阿里云推出的AI智能编码助手

通义灵码体验地址 标题通义灵码是什么&#xff1f; 通义灵码是由阿里巴巴推出的基于通义大模型的智能编码辅助工具&#xff0c;提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解释、研发智能问答、异常报错排查等能力&#xff0c;并针对阿里云…...

构建智能生态,视频监控/安防监控EasyCVR视频汇聚流媒体技术在智能分析领域的应用

随着5G、AI、物联网&#xff08;IoT&#xff09;、云计算等技术的快速发展&#xff0c;万物互联的时代已经到来&#xff0c;全新的行业生态AIoT正在引领一场深刻的变革。在这场变革中&#xff0c;EasyCVR视频流媒体技术以其强大的视频处理、汇聚与融合能力&#xff0c;在智能分…...

LeetCode Hard|【460. LFU 缓存】

力扣题目链接 LFU全称是最不经常使用算法&#xff08;Least Frequently Used&#xff09;&#xff0c;LFU算法的基本思想和所有的缓存算法一样&#xff0c;一定时期内被访问次数最少的页&#xff0c;在将来被访问到的几率也是最小的。 相较于 LRU 算法&#xff0c;LFU 更加注重…...

积极参与全球能源科技前沿对话,海博思创推动绿色低碳发展

在能源转型与绿色低碳发展的全球浪潮中&#xff0c;国内领先的储能解决方案供应商海博思创以卓越的技术实力和前瞻性的战略眼光&#xff0c;站在了行业变革的前沿。公司不仅在国内外多个重要展会上大放异彩&#xff0c;更通过一系列技术创新与深度合作&#xff0c;为全球能源行…...

[工具]-ffmpeg-笔记

朋友有一个需求&#xff0c;将视频文件转化为音频文件、音频文件获取音频转化为文本文件。 思路&#xff1a;通过ffmpeg转化视频为音频&#xff0c;通过百度ai提供的voice_t_text接口提取语音文本&#xff0c;但是需要将音频分割成1分钟内的pcm编码 &#xff0c;采样率16000的…...

Android Fragment:详解,结合真实开发场景Navigation

目录 1&#xff09;Fragment是什么 2&#xff09;Fragment的应用场景 3&#xff09;为什么使用Fragment? 4&#xff09;Fragment如何使用 5&#xff09;Fragment的生命周期 6&#xff09;Android开发&#xff0c;建议是多个activity&#xff0c;还是activity结合fragment&…...

JavaWeb中的Servlet

本笔记基于【尚硅谷全新JavaWeb教程&#xff0c;企业主流javaweb技术栈】https://www.bilibili.com/video/BV1UN411x7xe?vd_sourcea91dafe0f846ad7bd19625e392cf76d8总结 Servlet Servlet简介 动态资源和静态资源 静态资源 无需在程序运行时通过代码运行生成的资源,在程序运…...

Lombok 的 @Data 注解失效,未生成 getter/setter 方法引发的HTTP 406 错误

HTTP 状态码 406 (Not Acceptable) 和 500 (Internal Server Error) 是两类完全不同的错误&#xff0c;它们的含义、原因和解决方法都有显著区别。以下是详细对比&#xff1a; 1. HTTP 406 (Not Acceptable) 含义&#xff1a; 客户端请求的内容类型与服务器支持的内容类型不匹…...

MFC内存泄露

1、泄露代码示例 void X::SetApplicationBtn() {CMFCRibbonApplicationButton* pBtn GetApplicationButton();// 获取 Ribbon Bar 指针// 创建自定义按钮CCustomRibbonAppButton* pCustomButton new CCustomRibbonAppButton();pCustomButton->SetImage(IDB_BITMAP_Jdp26)…...

Qt Widget类解析与代码注释

#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete ui; }//解释这串代码&#xff0c;写上注释 当然可以&#xff01;这段代码是 Qt …...

cf2117E

原题链接&#xff1a;https://codeforces.com/contest/2117/problem/E 题目背景&#xff1a; 给定两个数组a,b&#xff0c;可以执行多次以下操作&#xff1a;选择 i (1 < i < n - 1)&#xff0c;并设置 或&#xff0c;也可以在执行上述操作前执行一次删除任意 和 。求…...

解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错

出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上&#xff0c;所以报错&#xff0c;到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本&#xff0c;cu、torch、cp 的版本一定要对…...

在 Spring Boot 项目里,MYSQL中json类型字段使用

前言&#xff1a; 因为程序特殊需求导致&#xff0c;需要mysql数据库存储json类型数据&#xff0c;因此记录一下使用流程 1.java实体中新增字段 private List<User> users 2.增加mybatis-plus注解 TableField(typeHandler FastjsonTypeHandler.class) private Lis…...

Linux部署私有文件管理系统MinIO

最近需要用到一个文件管理服务&#xff0c;但是又不想花钱&#xff0c;所以就想着自己搭建一个&#xff0c;刚好我们用的一个开源框架已经集成了MinIO&#xff0c;所以就选了这个 我这边对文件服务性能要求不是太高&#xff0c;单机版就可以 安装非常简单&#xff0c;几个命令就…...

ZYNQ学习记录FPGA(一)ZYNQ简介

一、知识准备 1.一些术语,缩写和概念&#xff1a; 1&#xff09;ZYNQ全称&#xff1a;ZYNQ7000 All Pgrammable SoC 2&#xff09;SoC:system on chips(片上系统)&#xff0c;对比集成电路的SoB&#xff08;system on board&#xff09; 3&#xff09;ARM&#xff1a;处理器…...

【把数组变成一棵树】有序数组秒变平衡BST,原来可以这么优雅!

【把数组变成一棵树】有序数组秒变平衡BST,原来可以这么优雅! 🌱 前言:一棵树的浪漫,从数组开始说起 程序员的世界里,数组是最常见的基本结构之一,几乎每种语言、每种算法都少不了它。可你有没有想过,一组看似“线性排列”的有序数组,竟然可以**“长”成一棵平衡的二…...

TJCTF 2025

还以为是天津的。这个比较容易&#xff0c;虽然绕了点弯&#xff0c;可还是把CP AK了&#xff0c;不过我会的别人也会&#xff0c;还是没啥名次。记录一下吧。 Crypto bacon-bits with open(flag.txt) as f: flag f.read().strip() with open(text.txt) as t: text t.read…...