当前位置：首页 > news >正文

语言模型评价指标

news 2026/4/10 6:58:09

1. BLEU（Bilingual Evaluation Understudy）

目标：衡量生成文本和参考文本之间的词汇相似性。

计算步骤：

N-gram 匹配：
- 将生成文本和参考文本分解成 1-gram、2-gram、…、N-gram（通常取到 4-gram）。
- 统计生成文本中的 N-gram 是否出现在参考文本中。
精确匹配率：
- 对每个 N-gram，计算生成文本中匹配的数量与总数量的比值：
  $\text{Precision}_n = \frac{\text{生成文本中匹配的 N-gram 数}}{\text{生成文本中的 N-gram 总数}}$
加权平均：
- 对不同的 N-gram 精确率取加权几何平均（权重通常相等）：
  $\text{BLEU}_N = \exp\left(\sum_{n=1}^N w_n \cdot \log(\text{Precision}_n)\right)$
  其中， $w_n = \frac{1}{N}$ 。
长度惩罚：
- 如果生成文本的长度与参考文本长度差距过大，BLEU 分数会受到惩罚：
  $\text{BP} = \begin{cases} 1, & \text{生成文本长度} > \text{参考文本长度} \\ \exp\left(1 - \frac{\text{参考文本长度}}{\text{生成文本长度}}\right), & \text{否则} \end{cases}$
最终公式：
$\text{BLEU} = \text{BP} \cdot \exp\left(\sum_{n=1}^N w_n \cdot \log(\text{Precision}_n)\right)$

2. ROUGE（Recall-Oriented Understudy for Gisting Evaluation）

目标：衡量生成文本覆盖参考文本的程度，更关注召回率。

主要变体：

ROUGE-N（基于 N-gram 的召回率）：
- 计算生成文本中匹配的 N-gram 占参考文本中 N-gram 的比例：
  $\text{ROUGE-N} = \frac{\text{匹配的 N-gram 数量}}{\text{参考文本中的 N-gram 总数}}$
ROUGE-L（基于最长公共子序列的匹配）：
- 计算生成文本与参考文本的最长公共子序列（LCS），然后基于 LCS 的长度计算召回率和精确率：
  $\frac{\text{LCS}}{\text{参考文本长度}}, \quad P = \frac{\text{LCS}}{\text{生成文本长度}}$
  $\text{ROUGE-L} = \frac{(1 + \beta^2) \cdot P \cdot R}{R + \beta^2 \cdot P}$
  其中， $\beta$ 是召回权重。
ROUGE-S（基于跳跃的二元词对）：
- 计算生成文本和参考文本中，所有词对的匹配情况。

3. METEOR（Metric for Evaluation of Translation with Explicit ORdering）

目标：解决 BLEU 无法捕获语义相似性和顺序的重要性问题。

计算步骤：

匹配策略：
- 包括词形匹配（exact）、同义词匹配（synonymy）、词干匹配（stemming）。
- 对生成文本中的每个词，找出参考文本中最优匹配。
精确率与召回率：
- 计算生成文本与参考文本的匹配精度（P）和召回率（R）：
  $\frac{\text{匹配的词数}}{\text{生成文本的总词数}}, \quad R = \frac{\text{匹配的词数}}{\text{参考文本的总词数}}$
调和平均：
- 对 P 和 R 使用 F1 分数加权：
  $\frac{(1 + \beta^2) \cdot P \cdot R}{R + \beta^2 \cdot P}$
惩罚因子：
- 考虑词序对齐情况，加入惩罚因子 (P_{\text{penalty}})，对不连贯的匹配施加惩罚：
  $\text{Penalty} = \gamma \cdot \left(\frac{\text{chunk 数量}}{\text{匹配词数}}\right)^3$
最终分数：
$\text{METEOR} = F \cdot (1 - \text{Penalty})$

4. Perplexity

目标：衡量语言模型生成文本的连贯性和预测能力，表示模型对句子的不确定性。

计算公式：

对于语言模型给定的句子 $w_1, w_2, \ldots, w_N$ ，Perplexity 定义为：
$\text{Perplexity} = 2^{-\frac{1}{N} \sum_{i=1}^N \log_2 P(w_i | w_1, \ldots, w_{i-1})}$

解释：

概率计算：
- $P(w_i | w_1, \ldots, w_{i-1})$ 表示模型预测第 $i$ 个词的概率。
- 高概率（模型更确定）对应低 Perplexity。
直观意义：
- Perplexity 越低，说明模型越能有效预测文本。
- Perplexity 是对数似然的指数变换：
  $\text{Perplexity} = \exp\left(-\frac{1}{N} \sum_{i=1}^N \log P(w_i)\right)$

语言模型评价指标

1. BLEU（Bilingual Evaluation Understudy） 目标：衡量生成文本和参考文本之间的词汇相似性。计算步骤： N-gram 匹配： 将生成文本和参考文本分解成 1-gram、2-gram、…、N-gram（通常取到 4-gram&#xff…...

编程日记 2024/12/30 16:32:05

https://www.msys2.org/ MSYS2 是一系列工具和库，为您提供了一个易于使用的环境，用于构建、安装和运行本地 Windows 软件。 MSYS2 is a collection of tools and libraries providing you with an easy-to-use environment for building, installing an…...

编程日记 2024/12/30 16:30:02

算法基础三：插入排序

定义插入排序（英语：Insertion Sort）是一种简单直观的排序算法。它的工作原理是通过构建有序序列，对于未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。插入排序在实现上，通常采用…...

编程日记 2024/12/30 16:29:00

小米汽车加速出海，官网建设引领海外市场布局！

面对国内市场的饱和态势，中国企业出海步伐纷纷加速，小米也是其中的一员。Canalys数据显示，2024年第三季度，小米以13.8%的市场份额占比，实现了连续17个季度位居全球前三的成绩。据“36 氪汽车”报道，小米汽…...

编程日记 2024/12/30 16:26:58

Python Polars快速入门指南：LazyFrames

前文已经介绍了Polars的Dataframe, Contexts 和 Expressions，本文继续介绍Polars的惰性API。惰性API是该库最强大的功能之一，使用惰性API可以设定一系列操作，而无需立即运行它们。相反，这些操作被保存为计算图，只在必要…...

编程日记 2024/12/30 16:23:54

什么是网络安全（Cybersecurity）？

不同组织机构对网络安全（Cybersecurity或Cyber Security）的定义不尽相同。从目标上来说，网络安全主要用于保护网络、计算机、移动设备、应用程序及数据等资产免受网络攻击，避免造成数据泄露、业务中断等安全问题。网络钓鱼、勒索…...

编程日记 2024/12/30 16:21:51

VBA批量插入图片到PPT，一页一图

Sub InsertPicturesIntoSlides()Dim pptApp As ObjectDim pptPres As ObjectDim pptSlide As ObjectDim strFolderPath As StringDim strFileName As StringDim i As Integer 设置图片文件夹路径strFolderPath "C:\您的图片文件夹路径\" 请替换为您的图片文件夹路径…...

编程日记 2024/12/30 16:17:46

Pandas-DataFrame入门

文章目录一. Pandas DataFrame简介二. 加载数据集1. 目的2. 步骤① 导包② 加载csv③ 查看数据类型及属性④ Pandas与Python常用数据类型对照三. 查看部分数据1. 根据列名加载部分列数据① 加载一列数据，通过df[列名]方式获取② 加载多列数据，通过df[[…...

编程日记 2024/12/30 16:08:33

爬虫 - 爬取王者荣耀所有皮肤图片

结果展示安装 pip install requests logger代码 import json import os import re from concurrent.futures import ThreadPoolExecutorimport requests from loguru import loggerdef parse_url(url, bFalse):try:headers {"User-Agent": "Mozilla/5.0 (Wi…...

编程日记 2024/12/30 16:07:32

【畅购商城】购物车模块之查看购物车

目录分析接口后端实现前端实现：显示页面前端实现：显示购物车信息分析用户如果没有登录，购物车存放在浏览器端的localStorage处，且以数组的方式进行存储。用户如果登录了，购物车存放在redis中&#xff0c…...

编程日记 2024/12/30 16:04:25

Spring Boot 学习笔记

学习代码第一步：如何写 Hello world ？ 1、新建项目新建一个 Maven Java 工程，在 pom.xml 文件中添加 Spring Boot Maven 依赖： <parent><groupId>org.springframework.boot</groupId><artifactId>spri…...

编程日记 2024/12/30 15:59:18

快速打造智能应用：从设计到上线的全流程指南

随着人工智能技术的快速发展，如何将大模型技术转化为实际应用成为了各行业关注的焦点。本文将以一个经典的 RAG（检索增强生成）知识问答系统为例，详细介绍从智能体设计到最终应用部署的全流程。通过结合阿里云的魔笔低代码平台和丰…...

编程日记 2024/12/30 15:57:13

Java-将一个大列表均分成多个小列表，每个小列表包含10个元素

要将一个大列表均分成多个小列表，每个小列表包含10个元素，可以使用多种方法。以下是几种常见的方法：方法一：使用 subList 这是你已经提到的方法，通过 subList 来获取子列表。 import java.util.ArrayList; import java.util.List;public class BatchProcessingExamp…...

编程日记 2024/12/30 15:56:11

tcp_rcv_synsent_state_process函数

tcp_rcv_synsent_state_process 是 Linux Kernel 中用于处理 TCP 连接在 SYN-SENT 状态下接收到报文的函数。这个函数在 TCP 三次握手阶段起到了至关重要的作用，处理了在客户端发送 SYN 请求之后收到服务器响应报文的各种情况。以下是这个函数的解读和剖析： int tcp_rcv_sy…...

编程日记 2024/12/30 15:55:10

关于无线AP信道调整的优化（锐捷）

目录一、信道优化的基本原则二、2.4G频段信道优化三、5G频段信道优化四、信道优化代码具体示例五、其他优化措施一、信道优化的基本原则信道优化旨在减少信道间的干扰，提高网络覆盖范围和信号质量。基本原则包括： 1. 选择合适的信道：根据…...

编程日记 2024/12/30 15:51:05

C#编写的金鱼趣味小应用 - 开源研究系列文章

今天逛网，在GitHub中文网上发现一个源码，里面有这个金鱼小应用，于是就下载下来，根据自己的C#架构模板进行了更改，最终形成了这个例子。 1、项目目录； 2、源码介绍； 1) 初始化； 将样…...

编程日记 2024/12/30 15:47:00

计算机网络|数据流向剖析与分层模型详解

文章目录一、网络中的数据流向二、计算机网络通信模型1.OSI 模型2.TCP/IP 模型3.TCP/IP五层模型3.1 分层架构描述3.2各层地址结构3.3UDP数据包报头结构三、总结一、网络中的数据流向在计算机网络中，数据的流向是指数据从发送端到接收端的传输路径。数据流向涉及…...

编程日记 2024/12/30 15:42:55

某些iphone手机录音获取流stream延迟问题以及录音一次第二次不录音问题

一些型号的iphone手机录音获取流stream延迟问题以及录音一次第二次不录音问题延迟问题 navigator.mediaDevices.getUserMedia({ audio: true }) .then((stream) > {console.log(stream) }）从开始到获取stream会有将近2s的延迟导致按下按钮开始录音会有前…...

编程日记 2024/12/30 15:40:53

gazebo_world 基本围墙。

如何使用？ 参考gazebo harmonic的官方教程。本人使用harmonic的template，在里面进行修改就可以分流畅地使用下去。以下是world 文件. <?xml version"1.0" ?> <!--Try sending commands:gz topic -t "/model/diff_drive/…...

编程日记 2024/12/30 15:39:47

Ubuntu 上高效实现 Texlive 安装和管理

文章目录介绍操作步骤1. 下载 Texlive 安装包2. 解压安装包3. 安装基础安装命令通用的 scheme 选项 4. 配置环境变量使用 tlmgr 管理包总结介绍 Texlive 是学术和技术文档编写的重要工具, 选择适合的安装方案能帮助您提升效率并减少磁盘空间占用. 本文将为您提供在 Ubuntu …...

编程日记 2024/12/30 15:37:44

LumiPixel Canvas Quest光影魔法：不同光照条件下的人像生成效果

LumiPixel Canvas Quest光影魔法：不同光照条件下的人像生成效果 1. 光影的魅力：用光绘画的艺术摄影圈有句老话："摄影是用光的艺术"。这句话在AI生成领域同样适用。LumiPixel Canvas Quest通过精准的光照控制，让创作者…...

编程新知 2026/4/10 6:09:16

AI绘画工作流：OpenClaw+Phi-3-vision-128k-instruct实现提示词自动优化

AI绘画工作流：OpenClawPhi-3-vision-128k-instruct实现提示词自动优化 1. 为什么需要自动化提示词优化作为一名长期使用Stable Diffusion进行创作的数字艺术家，我发现自己每天要花费大量时间在提示词（prompt）的调试上。有时候为…...

编程新知 2026/4/10 5:25:28

开发者利器：OpenClaw+千问3.5-27B自动生成API文档

开发者利器：OpenClaw千问3.5-27B自动生成API文档 1. 为什么需要自动化API文档生成作为一个长期维护开源项目的开发者，我深刻体会到维护API文档的痛苦。每次代码更新后，手动同步文档不仅耗时，还容易遗漏细节。直到发现OpenClaw与…...

编程新知 2026/4/10 4:39:20

mutt-wizard疑难排解终极指南：常见错误与解决方案完全清单

mutt-wizard疑难排解终极指南：常见错误与解决方案完全清单【免费下载链接】mutt-wizard A system for automatically configuring mutt and isync with a simple interface and safe passwords 项目地址: https://gitcode.com/gh_mirrors/mu/mutt-wizard mu…...

编程新知 2026/4/10 3:45:28

OpenClaw资源监控：Qwen3.5-9B预警系统异常与自动处理

OpenClaw资源监控：Qwen3.5-9B预警系统异常与自动处理 1. 为什么需要智能化的资源监控去年夏天，我的开发机因为磁盘写满导致线上服务日志无法写入，造成了整整两小时的服务中断。这件事让我意识到：传统的监控告警系统存在两个致命…...

编程新知 2026/4/10 3:33:14

Claude Code 从零复刻教程 - 完整大纲

Claude Code 从零复刻教程 - 完整大纲本教程面向有 JavaScript 基础的开发者，通过 12 篇系列文章，从零构建一个类似 Claude Code 的 AI 编程助手 CLI 工具。目录教程简介技术栈系列大纲每篇教程结构学习路径教程简介什么是 Claude Code&#xff1…...

编程新知 2026/4/10 2:05:04

某大型园区服务集团薪酬体系与总额管控优化项目成功案例纪实

——对标市场、分类施策，构建支撑国际化转型的薪酬激励新机制【客户行业】园区服务；物业管理；文旅服务；国有企业【问题类型】薪酬体系改革；薪酬总额管控【客户背景】某大型园区服务集团隶属于某大型央企，位…...

编程新知 2026/4/10 1:25:41

OCAD应用：多重转换式断续变焦系统设计

多组转换型变焦系统可以实现多档断续变焦。设计时同时设计多重可打入活动组，在打入时随意转换。多组转换型的活动组可以放置在会聚光路中也可以在平行光路中。选择在平行光路中，可利用活动组的无焦性来回倒置获得放大缩小两种不同变焦效果。图1.多组转…...

编程新知 2026/4/10 1:25:41

告别格式烦恼：如何用Chrome扩展一键转换网页图片格式？

告别格式烦恼：如何用Chrome扩展一键转换网页图片格式？ 【免费下载链接】Save-Image-as-Type Save Image as Type is an chrome extension which add Save as PNG / JPG / WebP to the context menu of image. 项目地址: https://gitcode.com/gh_mirror…...

编程新知 2026/4/10 1:09:14

# MyBatis Mapper文件不想手动注册？启动时自动扫描conf目录，动态拼配置

MyBatis Mapper文件不想手动注册？启动时自动扫描conf目录，动态拼配置非科班野生程序员，深耕政务信息化20年。从VC到PB再到Java，自研框架browise也打磨了十几年。最近整理框架代码，发现不少有趣的决策，写出…...

编程新知 2026/4/10 0:18:39

1. BLEU（Bilingual Evaluation Understudy）

计算步骤：

2. ROUGE（Recall-Oriented Understudy for Gisting Evaluation）

主要变体：

3. METEOR（Metric for Evaluation of Translation with Explicit ORdering）

计算步骤：

4. Perplexity

计算公式：

解释：

相关文章：