当前位置: 首页 > news >正文

语言模型评价指标

1. BLEU(Bilingual Evaluation Understudy)

目标:衡量生成文本和参考文本之间的词汇相似性。

计算步骤:
  1. N-gram 匹配

    • 将生成文本和参考文本分解成 1-gram、2-gram、…、N-gram(通常取到 4-gram)。
    • 统计生成文本中的 N-gram 是否出现在参考文本中。
  2. 精确匹配率

    • 对每个 N-gram,计算生成文本中匹配的数量与总数量的比值:
      Precision n = 生成文本中匹配的 N-gram 数 生成文本中的 N-gram 总数 \text{Precision}_n = \frac{\text{生成文本中匹配的 N-gram 数}}{\text{生成文本中的 N-gram 总数}} Precisionn=生成文本中的 N-gram 总数生成文本中匹配的 N-gram 
  3. 加权平均

    • 对不同的 N-gram 精确率取加权几何平均(权重通常相等):
      BLEU N = exp ⁡ ( ∑ n = 1 N w n ⋅ log ⁡ ( Precision n ) ) \text{BLEU}_N = \exp\left(\sum_{n=1}^N w_n \cdot \log(\text{Precision}_n)\right) BLEUN=exp(n=1Nwnlog(Precisionn))
      其中, w n = 1 N w_n = \frac{1}{N} wn=N1
  4. 长度惩罚

    • 如果生成文本的长度与参考文本长度差距过大,BLEU 分数会受到惩罚:
      BP = { 1 , 生成文本长度 > 参考文本长度 exp ⁡ ( 1 − 参考文本长度 生成文本长度 ) , 否则 \text{BP} = \begin{cases} 1, & \text{生成文本长度} > \text{参考文本长度} \\ \exp\left(1 - \frac{\text{参考文本长度}}{\text{生成文本长度}}\right), & \text{否则} \end{cases} BP={1,exp(1生成文本长度参考文本长度),生成文本长度>参考文本长度否则
  5. 最终公式
    BLEU = BP ⋅ exp ⁡ ( ∑ n = 1 N w n ⋅ log ⁡ ( Precision n ) ) \text{BLEU} = \text{BP} \cdot \exp\left(\sum_{n=1}^N w_n \cdot \log(\text{Precision}_n)\right) BLEU=BPexp(n=1Nwnlog(Precisionn))


2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

目标:衡量生成文本覆盖参考文本的程度,更关注召回率

主要变体:
  1. ROUGE-N(基于 N-gram 的召回率):

    • 计算生成文本中匹配的 N-gram 占参考文本中 N-gram 的比例:
      ROUGE-N = 匹配的 N-gram 数量 参考文本中的 N-gram 总数 \text{ROUGE-N} = \frac{\text{匹配的 N-gram 数量}}{\text{参考文本中的 N-gram 总数}} ROUGE-N=参考文本中的 N-gram 总数匹配的 N-gram 数量
  2. ROUGE-L(基于最长公共子序列的匹配):

    • 计算生成文本与参考文本的最长公共子序列(LCS),然后基于 LCS 的长度计算召回率和精确率:
      R = LCS 参考文本长度 , P = LCS 生成文本长度 R = \frac{\text{LCS}}{\text{参考文本长度}}, \quad P = \frac{\text{LCS}}{\text{生成文本长度}} R=参考文本长度LCS,P=生成文本长度LCS
      ROUGE-L = ( 1 + β 2 ) ⋅ P ⋅ R R + β 2 ⋅ P \text{ROUGE-L} = \frac{(1 + \beta^2) \cdot P \cdot R}{R + \beta^2 \cdot P} ROUGE-L=R+β2P(1+β2)PR
      其中, β \beta β 是召回权重。
  3. ROUGE-S(基于跳跃的二元词对):

    • 计算生成文本和参考文本中,所有词对的匹配情况。

3. METEOR(Metric for Evaluation of Translation with Explicit ORdering)

目标:解决 BLEU 无法捕获语义相似性和顺序的重要性问题。

计算步骤:
  1. 匹配策略

    • 包括词形匹配(exact)、同义词匹配(synonymy)、词干匹配(stemming)。
    • 对生成文本中的每个词,找出参考文本中最优匹配。
  2. 精确率与召回率

    • 计算生成文本与参考文本的匹配精度(P)和召回率(R):
      P = 匹配的词数 生成文本的总词数 , R = 匹配的词数 参考文本的总词数 P = \frac{\text{匹配的词数}}{\text{生成文本的总词数}}, \quad R = \frac{\text{匹配的词数}}{\text{参考文本的总词数}} P=生成文本的总词数匹配的词数,R=参考文本的总词数匹配的词数
  3. 调和平均

    • 对 P 和 R 使用 F1 分数加权:
      F = ( 1 + β 2 ) ⋅ P ⋅ R R + β 2 ⋅ P F = \frac{(1 + \beta^2) \cdot P \cdot R}{R + \beta^2 \cdot P} F=R+β2P(1+β2)PR
  4. 惩罚因子

    • 考虑词序对齐情况,加入惩罚因子 (P_{\text{penalty}}),对不连贯的匹配施加惩罚:
      Penalty = γ ⋅ ( chunk 数量 匹配词数 ) 3 \text{Penalty} = \gamma \cdot \left(\frac{\text{chunk 数量}}{\text{匹配词数}}\right)^3 Penalty=γ(匹配词数chunk 数量)3
  5. 最终分数
    METEOR = F ⋅ ( 1 − Penalty ) \text{METEOR} = F \cdot (1 - \text{Penalty}) METEOR=F(1Penalty)


4. Perplexity

目标:衡量语言模型生成文本的连贯性和预测能力,表示模型对句子的不确定性。

计算公式:
  • 对于语言模型给定的句子 w 1 , w 2 , … , w N w_1, w_2, \ldots, w_N w1,w2,,wN,Perplexity 定义为:
    Perplexity = 2 − 1 N ∑ i = 1 N log ⁡ 2 P ( w i ∣ w 1 , … , w i − 1 ) \text{Perplexity} = 2^{-\frac{1}{N} \sum_{i=1}^N \log_2 P(w_i | w_1, \ldots, w_{i-1})} Perplexity=2N1i=1Nlog2P(wiw1,,wi1)
解释:
  1. 概率计算

    • P ( w i ∣ w 1 , … , w i − 1 ) P(w_i | w_1, \ldots, w_{i-1}) P(wiw1,,wi1) 表示模型预测第 i i i 个词的概率。
    • 高概率(模型更确定)对应低 Perplexity。
  2. 直观意义

    • Perplexity 越低,说明模型越能有效预测文本。
    • Perplexity 是对数似然的指数变换:
      Perplexity = exp ⁡ ( − 1 N ∑ i = 1 N log ⁡ P ( w i ) ) \text{Perplexity} = \exp\left(-\frac{1}{N} \sum_{i=1}^N \log P(w_i)\right) Perplexity=exp(N1i=1NlogP(wi))

相关文章:

语言模型评价指标

1. BLEU(Bilingual Evaluation Understudy) 目标:衡量生成文本和参考文本之间的词汇相似性。 计算步骤: N-gram 匹配: 将生成文本和参考文本分解成 1-gram、2-gram、…、N-gram(通常取到 4-gram&#xff…...

工程师 - MSYS2介绍

https://www.msys2.org/ MSYS2 是一系列工具和库,为您提供了一个易于使用的环境,用于构建、安装和运行本地 Windows 软件。 MSYS2 is a collection of tools and libraries providing you with an easy-to-use environment for building, installing an…...

算法基础三:插入排序

定义 插入排序(英语:Insertion Sort)是一种简单直观的排序算法。它的工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入。插入排序在实现上,通常采用…...

小米汽车加速出海,官网建设引领海外市场布局!

面对国内市场的饱和态势,中国企业出海步伐纷纷加速,小米也是其中的一员。Canalys数据显示,2024年第三季度,小米以13.8%的市场份额占比,实现了连续17个季度位居全球前三的成绩。 据“36 氪汽车”报道,小米汽…...

Python Polars快速入门指南:LazyFrames

前文已经介绍了Polars的Dataframe, Contexts 和 Expressions,本文继续介绍Polars的惰性API。惰性API是该库最强大的功能之一,使用惰性API可以设定一系列操作,而无需立即运行它们。相反,这些操作被保存为计算图,只在必要…...

什么是网络安全(Cybersecurity)?

不同组织机构对网络安全(Cybersecurity或Cyber Security)的定义不尽相同。从目标上来说,网络安全主要用于保护网络、计算机、移动设备、应用程序及数据等资产免受网络攻击,避免造成数据泄露、业务中断等安全问题。 网络钓鱼、勒索…...

VBA批量插入图片到PPT,一页一图

Sub InsertPicturesIntoSlides()Dim pptApp As ObjectDim pptPres As ObjectDim pptSlide As ObjectDim strFolderPath As StringDim strFileName As StringDim i As Integer 设置图片文件夹路径strFolderPath "C:\您的图片文件夹路径\" 请替换为您的图片文件夹路径…...

Pandas-DataFrame入门

文章目录 一. Pandas DataFrame简介二. 加载数据集1. 目的2. 步骤① 导包② 加载csv③ 查看数据类型及属性④ Pandas与Python常用数据类型对照 三. 查看部分数据1. 根据列名加载部分列数据① 加载一列数据,通过df[列名]方式获取② 加载多列数据,通过df[[…...

爬虫 - 爬取王者荣耀所有皮肤图片

结果展示 安装 pip install requests logger代码 import json import os import re from concurrent.futures import ThreadPoolExecutorimport requests from loguru import loggerdef parse_url(url, bFalse):try:headers {"User-Agent": "Mozilla/5.0 (Wi…...

【畅购商城】购物车模块之查看购物车

目录 分析 接口 后端实现 前端实现:显示页面 前端实现:显示购物车信息 分析 用户如果没有登录,购物车存放在浏览器端的localStorage处,且以数组的方式进行存储。用户如果登录了,购物车存放在redis中&#xff0c…...

Spring Boot 学习笔记

学习代码第一步&#xff1a;如何写 Hello world &#xff1f; 1、新建项目 新建一个 Maven Java 工程&#xff0c;在 pom.xml 文件中添加 Spring Boot Maven 依赖&#xff1a; <parent><groupId>org.springframework.boot</groupId><artifactId>spri…...

快速打造智能应用:从设计到上线的全流程指南

随着人工智能技术的快速发展&#xff0c;如何将大模型技术转化为实际应用成为了各行业关注的焦点。本文将以一个经典的 RAG&#xff08;检索增强生成&#xff09;知识问答系统为例&#xff0c;详细介绍从智能体设计到最终应用部署的全流程。通过结合阿里云的魔笔低代码平台和丰…...

Java-将一个大列表均分成多个小列表,每个小列表包含10个元素

要将一个大列表均分成多个小列表,每个小列表包含10个元素,可以使用多种方法。以下是几种常 见的方法: 方法一:使用 subList 这是你已经提到的方法,通过 subList 来获取子列表。 import java.util.ArrayList; import java.util.List;public class BatchProcessingExamp…...

tcp_rcv_synsent_state_process函数

tcp_rcv_synsent_state_process 是 Linux Kernel 中用于处理 TCP 连接在 SYN-SENT 状态下接收到报文的函数。这个函数在 TCP 三次握手阶段起到了至关重要的作用,处理了在客户端发送 SYN 请求之后收到服务器响应报文的各种情况。 以下是这个函数的解读和剖析: int tcp_rcv_sy…...

关于无线AP信道调整的优化(锐捷)

目录 一、信道优化的基本原则二、2.4G频段信道优化三、5G频段信道优化四、信道优化代码具体示例五、其他优化措施 一、信道优化的基本原则 信道优化旨在减少信道间的干扰&#xff0c;提高网络覆盖范围和信号质量。基本原则包括&#xff1a; 1. 选择合适的信道&#xff1a;根据…...

C#编写的金鱼趣味小应用 - 开源研究系列文章

今天逛网&#xff0c;在GitHub中文网上发现一个源码&#xff0c;里面有这个金鱼小应用&#xff0c;于是就下载下来&#xff0c;根据自己的C#架构模板进行了更改&#xff0c;最终形成了这个例子。 1、 项目目录&#xff1b; 2、 源码介绍&#xff1b; 1) 初始化&#xff1b; 将样…...

计算机网络|数据流向剖析与分层模型详解

文章目录 一、网络中的数据流向二、计算机网络通信模型1.OSI 模型2.TCP/IP 模型3.TCP/IP五层模型3.1 分层架构描述3.2各层地址结构3.3UDP数据包报头结构 三、总结 一、网络中的数据流向 在计算机网络中&#xff0c;数据的流向是指数据从发送端到接收端的传输路径。数据流向涉及…...

某些iphone手机录音获取流stream延迟问题 以及 录音一次第二次不录音问题

一些型号的iphone手机录音获取流stream延迟问题 以及 录音一次第二次不录音问题 延迟问题 navigator.mediaDevices.getUserMedia({ audio: true }) .then((stream) > {console.log(stream) }&#xff09;从开始到获取stream会有将近2s的延迟 导致按下按钮开始录音 会有前…...

gazebo_world 基本围墙。

如何使用&#xff1f; 参考gazebo harmonic的官方教程。 本人使用harmonic的template&#xff0c;在里面进行修改就可以分流畅地使用下去。 以下是world 文件. <?xml version"1.0" ?> <!--Try sending commands:gz topic -t "/model/diff_drive/…...

Ubuntu 上高效实现 Texlive 安装和管理

文章目录 介绍操作步骤1. 下载 Texlive 安装包2. 解压安装包3. 安装基础安装命令通用的 scheme 选项 4. 配置环境变量 使用 tlmgr 管理包总结 介绍 Texlive 是学术和技术文档编写的重要工具, 选择适合的安装方案能帮助您提升效率并减少磁盘空间占用. 本文将为您提供在 Ubuntu …...

浏览器访问 AWS ECS 上部署的 Docker 容器(监听 80 端口)

✅ 一、ECS 服务配置 Dockerfile 确保监听 80 端口 EXPOSE 80 CMD ["nginx", "-g", "daemon off;"]或 EXPOSE 80 CMD ["python3", "-m", "http.server", "80"]任务定义&#xff08;Task Definition&…...

Java 语言特性(面试系列1)

一、面向对象编程 1. 封装&#xff08;Encapsulation&#xff09; 定义&#xff1a;将数据&#xff08;属性&#xff09;和操作数据的方法绑定在一起&#xff0c;通过访问控制符&#xff08;private、protected、public&#xff09;隐藏内部实现细节。示例&#xff1a; public …...

【大模型RAG】Docker 一键部署 Milvus 完整攻略

本文概要 Milvus 2.5 Stand-alone 版可通过 Docker 在几分钟内完成安装&#xff1b;只需暴露 19530&#xff08;gRPC&#xff09;与 9091&#xff08;HTTP/WebUI&#xff09;两个端口&#xff0c;即可让本地电脑通过 PyMilvus 或浏览器访问远程 Linux 服务器上的 Milvus。下面…...

基于数字孪生的水厂可视化平台建设:架构与实践

分享大纲&#xff1a; 1、数字孪生水厂可视化平台建设背景 2、数字孪生水厂可视化平台建设架构 3、数字孪生水厂可视化平台建设成效 近几年&#xff0c;数字孪生水厂的建设开展的如火如荼。作为提升水厂管理效率、优化资源的调度手段&#xff0c;基于数字孪生的水厂可视化平台的…...

DeepSeek 技术赋能无人农场协同作业:用 AI 重构农田管理 “神经网”

目录 一、引言二、DeepSeek 技术大揭秘2.1 核心架构解析2.2 关键技术剖析 三、智能农业无人农场协同作业现状3.1 发展现状概述3.2 协同作业模式介绍 四、DeepSeek 的 “农场奇妙游”4.1 数据处理与分析4.2 作物生长监测与预测4.3 病虫害防治4.4 农机协同作业调度 五、实际案例大…...

在Mathematica中实现Newton-Raphson迭代的收敛时间算法(一般三次多项式)

考察一般的三次多项式&#xff0c;以r为参数&#xff1a; p[z_, r_] : z^3 (r - 1) z - r; roots[r_] : z /. Solve[p[z, r] 0, z]&#xff1b; 此多项式的根为&#xff1a; 尽管看起来这个多项式是特殊的&#xff0c;其实一般的三次多项式都是可以通过线性变换化为这个形式…...

解决:Android studio 编译后报错\app\src\main\cpp\CMakeLists.txt‘ to exist

现象&#xff1a; android studio报错&#xff1a; [CXX1409] D:\GitLab\xxxxx\app.cxx\Debug\3f3w4y1i\arm64-v8a\android_gradle_build.json : expected buildFiles file ‘D:\GitLab\xxxxx\app\src\main\cpp\CMakeLists.txt’ to exist 解决&#xff1a; 不要动CMakeLists.…...

Bean 作用域有哪些?如何答出技术深度?

导语&#xff1a; Spring 面试绕不开 Bean 的作用域问题&#xff0c;这是面试官考察候选人对 Spring 框架理解深度的常见方式。本文将围绕“Spring 中的 Bean 作用域”展开&#xff0c;结合典型面试题及实战场景&#xff0c;帮你厘清重点&#xff0c;打破模板式回答&#xff0c…...

在 Spring Boot 项目里,MYSQL中json类型字段使用

前言&#xff1a; 因为程序特殊需求导致&#xff0c;需要mysql数据库存储json类型数据&#xff0c;因此记录一下使用流程 1.java实体中新增字段 private List<User> users 2.增加mybatis-plus注解 TableField(typeHandler FastjsonTypeHandler.class) private Lis…...

面试高频问题

文章目录 &#x1f680; 消息队列核心技术揭秘&#xff1a;从入门到秒杀面试官1️⃣ Kafka为何能"吞云吐雾"&#xff1f;性能背后的秘密1.1 顺序写入与零拷贝&#xff1a;性能的双引擎1.2 分区并行&#xff1a;数据的"八车道高速公路"1.3 页缓存与批量处理…...