当前位置: 首页 > news >正文

【生成式人工智能-八-大型语言模型的能力评估】

语言模型的能力评估

  • 评估难度来自哪里
    • 输出没办法确定
    • 给出选择题
    • 本身就没标准答案
  • 评估方法
    • 人力
    • 用语言模型来评估语言模型
      • 语言模型的偏爱
  • 评估语言模型的数据集
  • 评估模型的不同能力
    • 阅读长文的能力
    • 心智测验
    • 道德性测试
    • 安全性测试

通常情况下我们想到的语言模型能力评估,就是让模型输出答案,然后与标准答案进行比对,可是现实是,这很难评估模型能力,下面就介绍下评估的难度

评估难度来自哪里

输出没办法确定

准备一些标准的corpus,也就是所谓的Benchmark Corpus,输入模型后,比对模型输出,但是对于输出的评分很难界定得分,因为同一个输入本来就可以有两种答案,同一种答案也可以有两种不同的说法,所以这就很难界定输出的好坏。

给出选择题

为了解决上面的问题,你可以给出选择题,也确实有这样的benchmark,那问题解决了么?
仔细想想就知道没那么简单,比如答案是A B C D,那模型万一回复的是a,又或者模型不按照人的思路直接给出答案了呢,这样还是很难解决评分问题。
当然你可以告诉模型只要输出选项,但是我们之前讲过,如果加上限制,很可能模型的重点放在了只输出选项上,而不是模型能力本身,因为之前我们讲过,模型本身就是需要step by step才会讲的更好

本身就没标准答案

比如做摘要,这个本身就没有标准答案,跟答案不同不能认为不对或者不好。当然也有BLEU和ROUGE一些算法,它是计算相同的字数的分数的,但这个分数的评估结果,想想就知道依然不是很理想。

那真的没办法评估了么

评估方法

人力

这个毋庸置疑,目前网站上的模型排名也是人力排名的

用语言模型来评估语言模型

可以把标准答案和语言模型的输出一起给GPT,问它答案是否正确,或者直接问GPT 两个模型的输出哪个更好。曾经有人MT-Bench上用GPT4来衡量回复的好坏。看起来是解决了这个问题,但是这个回复客观么?

语言模型的偏爱

语言模型真的是有偏爱的,比如gpt就特别喜欢长一点的答案。

了解到评估难度之后,我们可以了解下我们评估可以使用的资料集

评估语言模型的数据集

下面是几个常用的评估数据集
在这里插入图片描述
到最后一个 Natural Instrucions 任务集已经包含1600多个任务了

有方法和能力之外,出了常见的正确与否,一些其他我们需要评估的能力。

评估模型的不同能力

阅读长文的能力

现在我们越来越希望模型能够记住更长的内容,所以就希望能够测试模型阅读长文的能力,测试模型在看过很长的文章之后还能不能记住它看到的内容。
分别在一篇很长的文章的开头、中间、结尾插入一句话(防止不同模型在对于不同输入中不同位置的关注度带来影响),然后看模型能否回答出来的出来
在这里插入图片描述
有人在GPT-4做了测试,它自己号称可以读128k token的内容,但是实际测试发现,小于64K的时候,无论是放在哪里都可以回答出来,但是如果文档真的是到了128K的时候,如果插入的话放在前面,那GPT-4是回答不出来问题的。下面这个图是在GPT上实验结果(纵轴是插入语句的位置,从上往下依次是文章开头到结尾,横轴是输入token长度)
在这里插入图片描述

心智测验

测验模型是否具心智能力,看模型是否具备人类的心智。
在这里插入图片描述
拿一些心智测验题目,看模型是否具备心智能力,当然这个过程里必须警惕它在之前已经看过类似的资料了。比如上面这个问题,如果仅仅是文字生成,就会输出到去箱子找球,但是真正具备心智的人是会回答篮子。
当然也有这样的测试集,不过目前模型的测试的结果都不是很理想,与人类差距很大

道德性测试

看模型是否会为了自己的目标,违背一些道德,做一些操作,MACHIAVELLI Benchmark就是这样的测试

安全性测试

相关文章:

【生成式人工智能-八-大型语言模型的能力评估】

语言模型的能力评估 评估难度来自哪里输出没办法确定给出选择题本身就没标准答案 评估方法人力用语言模型来评估语言模型语言模型的偏爱 评估语言模型的数据集评估模型的不同能力阅读长文的能力心智测验道德性测试安全性测试 通常情况下我们想到的语言模型能力评估,…...

Qt ts文件详解

Qt ts文件(Translation Source file:翻译源文件)是Qt框架中用于存储翻译文本和相关上下文信息的一种特定格式文件,它是Qt Linguist(语言家)工具使用的基础。Qt Linguist是Qt开发工具包中的一个应用程序&…...

操作系统 IO 相关知识

操作系统 IO 相关知识 阻塞与非阻塞同步与异步IO 和系统调用传统的 IODMAmmap 内存映射sendfilesplice 常用的 IO 模型BIO:同步阻塞 IONIO:同步非阻塞 IOIO 多路复用信号驱动 IOAIO:异步 IO 模型 IO 就是计算机内部与外部进行数据传输的过程&…...

C++_手写share_ptr

以下是一个简化版的 shared_ptr 的实现&#xff1a; #include <iostream> template <typename T> class SimpleSharedPtr { public:// 构造函数explicit SimpleSharedPtr(T* ptr nullptr) : ptr_(ptr), count_(ptr ? new size_t(1) : nullptr) {}// 拷贝构造函数…...

【启明智显方案分享】6.86寸高清显示屏音频效果器解决方案

一、项目概述 本方案旨在设计一款集成6.86寸高清触摸显示屏的音频效果器&#xff0c;通过HMI&#xff08;Human-Machine Interface&#xff09;芯片Model 4驱动&#xff0c;实现高清晰度的视觉交互。该设备不仅支持音乐、麦克风及温响音量的精细控制&#xff0c;还内置丰富的预…...

vue设置每次加载页面时展示一个双开门效果

一、首先创建一个双开门的蒙层组件 <!-- DoorOverlay.vue --> <template><div v-if"isVisible" class"door-overlay"><div class"door left-door"></div><div class"door right-door"></div&…...

简单的docker学习 第8章 docker常用服务安装

第8章 常用服务安装 本章主要学习最常用的&#xff0c;也是安装起来稍有些麻烦的 MySQL 与 Redis 两种服务器的Docker 安装。至于其它服务器的 Docker 安装&#xff0c;大家可自行查找资料。只要 MySQL 与 Redis这两类服务器学会了安装&#xff0c;其它服务器的安装基本也不会…...

01、MySQL-DDL(数据定义语言)

目录 1、查询 2、创建 3、修改 4、删除 1、查询 1、查询所有数据库 show databases; 2、查询当前数据库 select database(); 3、查询当前数据库中所有的表&#xff08;需要先进入这个数据库&#xff09; use d1; show tables; 4、查询表结构 desc users; 5、查询指定表的建…...

RT-Thread 操作系统 之 线程间同步 IO设备模型

RT-Thread 操作系统 之 线程间同步 IO设备模型 一、线程间同步1.1、信号量1.1.1、信号量结构体1.1.2、信号量的使用和管理1.1.3、信号量同步例程 1.2、互斥量1.2.1、互斥量的使用和管理 1.3、事件集1.3.1、事件集使用和管理方法1.3.2、事件集三个线程同步实例 二、IO设备模型2.…...

力扣leetcode移动0(C++)

给定一个数组 nums&#xff0c;编写一个函数将所有 0 移动到数组的末尾&#xff0c;同时保持非零元素的相对顺序。 请注意 &#xff0c;必须在不复制数组的情况下原地对数组进行操作。 示例 1: 输入: nums [0,1,0,3,12] 输出: [1,3,12,0,0]示例 2: 输入: nums [0] 输出: […...

阿里云部署open-webui实现openai代理服务

一、 环境准备 1. 阿里云服务器&#xff0c;ubuntu22系统 2. 外网服务器&#xff0c;linux系统 3. openai API Key 二、实际操作记录(阿里云服务器端) 1. 根据官方文档安装open-webui服务端: &#x1f680; Getting Started | Open WebUI 1. 如果服务器配置比较低&#xff0c;…...

你的工作环境,选对劳保鞋了吗?守护安全,从脚下开始!

在众多的工作场所中&#xff0c;我们穿梭于不同的工作环境&#xff0c;从繁忙的工厂车间到复杂的建筑工地&#xff0c;再到需要精细操作的实验室……每一步都承载着对安全的期许和对效率的追求。但你是否意识到&#xff0c;脚下那双不起眼的劳保鞋&#xff0c;其实是守护你安全…...

【Linux】编译器gcc/g++ 、程序翻译过程、动静态库

目录 1.gcc/g Linux编译器1.1. gcc与g的安装1.2. gcc与g用法1.2.1.gcc用法1.2.2. g用法 1.3. 程序翻译的过程1.3.1. 前提知识&#xff1a;1.3.2. 预处理&#xff08;语言种类不变&#xff09;条件编译用途&#xff1a; 1.3.3. 编译&#xff08;生成汇编语言&#xff09;1.3.4. …...

通义灵码-阿里云推出的AI智能编码助手

通义灵码体验地址 标题通义灵码是什么&#xff1f; 通义灵码是由阿里巴巴推出的基于通义大模型的智能编码辅助工具&#xff0c;提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解释、研发智能问答、异常报错排查等能力&#xff0c;并针对阿里云…...

构建智能生态,视频监控/安防监控EasyCVR视频汇聚流媒体技术在智能分析领域的应用

随着5G、AI、物联网&#xff08;IoT&#xff09;、云计算等技术的快速发展&#xff0c;万物互联的时代已经到来&#xff0c;全新的行业生态AIoT正在引领一场深刻的变革。在这场变革中&#xff0c;EasyCVR视频流媒体技术以其强大的视频处理、汇聚与融合能力&#xff0c;在智能分…...

LeetCode Hard|【460. LFU 缓存】

力扣题目链接 LFU全称是最不经常使用算法&#xff08;Least Frequently Used&#xff09;&#xff0c;LFU算法的基本思想和所有的缓存算法一样&#xff0c;一定时期内被访问次数最少的页&#xff0c;在将来被访问到的几率也是最小的。 相较于 LRU 算法&#xff0c;LFU 更加注重…...

积极参与全球能源科技前沿对话,海博思创推动绿色低碳发展

在能源转型与绿色低碳发展的全球浪潮中&#xff0c;国内领先的储能解决方案供应商海博思创以卓越的技术实力和前瞻性的战略眼光&#xff0c;站在了行业变革的前沿。公司不仅在国内外多个重要展会上大放异彩&#xff0c;更通过一系列技术创新与深度合作&#xff0c;为全球能源行…...

[工具]-ffmpeg-笔记

朋友有一个需求&#xff0c;将视频文件转化为音频文件、音频文件获取音频转化为文本文件。 思路&#xff1a;通过ffmpeg转化视频为音频&#xff0c;通过百度ai提供的voice_t_text接口提取语音文本&#xff0c;但是需要将音频分割成1分钟内的pcm编码 &#xff0c;采样率16000的…...

Android Fragment:详解,结合真实开发场景Navigation

目录 1&#xff09;Fragment是什么 2&#xff09;Fragment的应用场景 3&#xff09;为什么使用Fragment? 4&#xff09;Fragment如何使用 5&#xff09;Fragment的生命周期 6&#xff09;Android开发&#xff0c;建议是多个activity&#xff0c;还是activity结合fragment&…...

JavaWeb中的Servlet

本笔记基于【尚硅谷全新JavaWeb教程&#xff0c;企业主流javaweb技术栈】https://www.bilibili.com/video/BV1UN411x7xe?vd_sourcea91dafe0f846ad7bd19625e392cf76d8总结 Servlet Servlet简介 动态资源和静态资源 静态资源 无需在程序运行时通过代码运行生成的资源,在程序运…...

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…...

Cursor实现用excel数据填充word模版的方法

cursor主页&#xff1a;https://www.cursor.com/ 任务目标&#xff1a;把excel格式的数据里的单元格&#xff0c;按照某一个固定模版填充到word中 文章目录 注意事项逐步生成程序1. 确定格式2. 调试程序 注意事项 直接给一个excel文件和最终呈现的word文件的示例&#xff0c;…...

<6>-MySQL表的增删查改

目录 一&#xff0c;create&#xff08;创建表&#xff09; 二&#xff0c;retrieve&#xff08;查询表&#xff09; 1&#xff0c;select列 2&#xff0c;where条件 三&#xff0c;update&#xff08;更新表&#xff09; 四&#xff0c;delete&#xff08;删除表&#xf…...

【JVM】- 内存结构

引言 JVM&#xff1a;Java Virtual Machine 定义&#xff1a;Java虚拟机&#xff0c;Java二进制字节码的运行环境好处&#xff1a; 一次编写&#xff0c;到处运行自动内存管理&#xff0c;垃圾回收的功能数组下标越界检查&#xff08;会抛异常&#xff0c;不会覆盖到其他代码…...

(转)什么是DockerCompose?它有什么作用?

一、什么是DockerCompose? DockerCompose可以基于Compose文件帮我们快速的部署分布式应用&#xff0c;而无需手动一个个创建和运行容器。 Compose文件是一个文本文件&#xff0c;通过指令定义集群中的每个容器如何运行。 DockerCompose就是把DockerFile转换成指令去运行。 …...

爬虫基础学习day2

# 爬虫设计领域 工商&#xff1a;企查查、天眼查短视频&#xff1a;抖音、快手、西瓜 ---> 飞瓜电商&#xff1a;京东、淘宝、聚美优品、亚马逊 ---> 分析店铺经营决策标题、排名航空&#xff1a;抓取所有航空公司价格 ---> 去哪儿自媒体&#xff1a;采集自媒体数据进…...

高防服务器能够抵御哪些网络攻击呢?

高防服务器作为一种有着高度防御能力的服务器&#xff0c;可以帮助网站应对分布式拒绝服务攻击&#xff0c;有效识别和清理一些恶意的网络流量&#xff0c;为用户提供安全且稳定的网络环境&#xff0c;那么&#xff0c;高防服务器一般都可以抵御哪些网络攻击呢&#xff1f;下面…...

【论文阅读28】-CNN-BiLSTM-Attention-(2024)

本文把滑坡位移序列拆开、筛优质因子&#xff0c;再用 CNN-BiLSTM-Attention 来动态预测每个子序列&#xff0c;最后重构出总位移&#xff0c;预测效果超越传统模型。 文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵&#xff08;S…...

JVM暂停(Stop-The-World,STW)的原因分类及对应排查方案

JVM暂停(Stop-The-World,STW)的完整原因分类及对应排查方案,结合JVM运行机制和常见故障场景整理而成: 一、GC相关暂停​​ 1. ​​安全点(Safepoint)阻塞​​ ​​现象​​:JVM暂停但无GC日志,日志显示No GCs detected。​​原因​​:JVM等待所有线程进入安全点(如…...

DeepSeek 技术赋能无人农场协同作业:用 AI 重构农田管理 “神经网”

目录 一、引言二、DeepSeek 技术大揭秘2.1 核心架构解析2.2 关键技术剖析 三、智能农业无人农场协同作业现状3.1 发展现状概述3.2 协同作业模式介绍 四、DeepSeek 的 “农场奇妙游”4.1 数据处理与分析4.2 作物生长监测与预测4.3 病虫害防治4.4 农机协同作业调度 五、实际案例大…...