当前位置：首页 > news >正文

【NLP】训练chatglm2的评价指标BLEU，ROUGE

news 2026/6/5 16:11:48

当进行一定程度的微调后，要评价模型输出的语句的准确性。由于衡量的对象是一个个的自然语言文本，所以通常会选择自然语言处理领域的相关评价指标。这些指标原先都是用来度量机器翻译结果质量的，并且被证明可以很好的反映待评测语句的准确性，主要包含4种：BLEU，METEOR，ROUGE，CIDEr。
本文只介绍BLEU，ROUGE两个指标，其他待补充。

1、BLEU

BLEU(Bilingual Evaluation understudy，双语互译质量评估)是一种流行的机器翻译评价指标，一种基于精确度的相似度量方法，用于分析候选译文中有多少 n 元词组出现在参考译文中（就是在判断两个句子的相似程度）
BLEU有许多变种，根据n-gram可以划分成多种评价指标，常见的评价指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种，其中n-gram指的是连续的单词个数为 n，BLEU-1衡量的是单词级别的准确性，更高阶的BLEU可以衡量句子的流畅性。

假设， $c_i$ 表示候选译文【也就是机器译文(candidate)】，该候选译文对应的一组参考译文【也就是人工译文(reference)】可以表示为 $\mathrm{S_{i}=\{s_{i1},s_{i2},\ldots,s_{im}\}}$ ；将候选译文 $c_i$ 中所有相邻的 n 个单词提取出来组成一个集合 $n - g r am$ ，一般取 $n = 1, 2, 3, 4$ ；用 $\omega_k$ 表示 $n - g r am$ 中的第 $k$ 个词组， $h_k(c_i)$ 表示第k个词组 $\omega_k$ 在候选译文 $c_i$ 中出现的次数， $h_k(s_{ij})$ 表示第 $k$ 个词组 $\omega_k$ ，在参考译文 $s_{ij}$ 中出现的次数。此时，在n-gram下，参考译文和候选译文 $c_i$ 的匹配度计算公式可以表示为：
$\mathrm{p_n}\left(\mathrm{c_i},\mathrm{S}\right)=\frac{\sum_{\mathrm{k}}\min\left(\mathrm{h_k}\left(\mathrm{c_i}\right),\max_{\mathrm{j}\in\mathrm{m}}\mathrm{h_k}\left(\mathrm{s_{ij}}\right)\right)}{\sum_{\mathrm{k}}\mathrm{h_k}\left(\mathrm{c_i}\right)}$

举例说明：
candidate：The cat sat on the mat.
reference：The cat is on the mat

在这里插入图片描述
$(candidate\text{和}reference\text{中匹配的}n-gram\text{的个数})/candidate\text{中}n-gram\text{的个数}$

一般来说, n 取值越大，参考译文就越难匹配上，匹配度就会越低. $1 - g r am$ 能够反映候选译文中有多少单词被单独翻译出来，也就代表了参考译文的充分性； $2 - g r am$ 、 $3 - g r am$ 、 $4 - g r am$ 值越高说明参考译文的可读性越好，也就代表了参考译文的流畅性。
当参考译文比候选译文长（单词更多）时，这种匹配机制可能并不准确，例如上面的参考译文如果是The cat，匹配度就会变成1，这显然是不准确的；为此我们引入一个惩罚因子。
$BP(c_i,s_{ij}) = \left\{\begin{matrix} 1\quad ,\quad l_{ci}>l_{s_{ij}} \\ {e^{l-\frac{l_{s_{ij}}}{l_{c_i}}},\quad l_{ci}~\leq l_{sij}} \end{matrix}\right.$
$l$ 表示各自的长度。最终，BLEU的计算公式就是
$\cdot \exp \left(\sum_{n=1}^Nw_n \log p_n \right)$
$w_n$ 代表每一个 n-gram 的权重，一般 $n$ 最大取4，所以 $w_n = 0.25$ 。

BLEU 更偏向于较短的翻译结果，它看重准确率而不注重召回率（n-gram 词组是从候选译文中产生的，参考译文中出现、候选译文中没有的词组并不关心）；原论文提议数据集多设置几条候选译文，4条比较好，但是一般的数据集只有一条。

2、ROUGE

BLEU 是统计机器翻译时代的产物，因为机器翻译出来的结果往往不通顺，所以BLEU更关注翻译结果的准确性和流畅度；到了神经网络翻译时代，神经网络很擅长脑补，自己就把语句梳理得很流畅了，这个时候人们更关心的是召回率，也就是参考译文中有多少词组在候选译文中出现了。

关于ROUGE（recall-oriented understanding for gisting evaluation），就是一种基于召回率的相似性度量方法，主要考察参考译文的充分性和忠实性，无法评价参考译文的流畅度，它跟BLEU的计算方式几乎一模一样，但是 n-gram 词组是从参考译文中产生的。分为4种类型：

ROUGE	解释
ROUGE-N	基于 N-gram 的共现（共同出现）统计
ROUGE-L	基于最长共有子句共现性精度和召回率 Fmeasure 统计
ROUGE-W	带权重的最长共有子句共现性精度和召回率 Fmeasure 统计
ROUGE-S	不连续二元组共现性精度和召回率 Fmeasure 统计

Rouge-1、Rouge-2、Rouge-N

论文[3]中对Rouge-N的定义是这样的：
在这里插入图片描述
分母是n-gram的个数，分子是参考摘要和自动摘要共有的n-gram的个数。直接借用文章[2]中的例子说明一下：
自动摘要 $Y$ （一般是自动生成的）：

the cat was found under the bed

参考摘要， $X 1$ （gold standard ，人工生成的）：

the cat was under the bed

summary的1-gram、2-gram如下，N-gram以此类推：
在这里插入图片描述
$Rouge\_1(X1,Y)=\dfrac66=1.0$ ，分子是待评测摘要和参考摘要都出现的1-gram的个数，分子是参考摘要的1-gram个数。（其实分母也可以是待评测摘要的，但是在精确率和召回率之间，我们更关心的是召回率Recall，同时这也和上面ROUGN-N的公式相同）
同样， $Rouge\_2(X1,Y)=\dfrac{4}{5}=0.8$

Rouge-L

L即是LCS(longest common subsequence，最长公共子序列)的首字母，因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下：
$R_{lcs}=\frac{LCS(X,Y)}m\quad(2)$
$P_{lcs}=\frac{LCS(X,Y)}{n}\quad(3)$
$F_{lcs}=\frac{(1+\beta^2)R_{lcs}P_{lcs}}{R_{lcs}+\beta^2P_{lcs}}\quad(4)$
其中 $L CS (X, Y)$ 是X和Y的最长公共子序列的长度，m,n分别表示参考摘要和自动摘要的长度（一般就是所含词的个数）， $R_{lcs}$ , $P_{lcs}$ 分别表示召回率和准确率。最后的 $F_{lcs}$ 即是我们所说的Rouge-L。在DUC中， $\beta$ 被设置为一个很大的数，所以 $Rouge\_L$ 几乎只考虑了 $R_{lcs}$ ，与上文所说的一般只考虑召回率对应。

参考文章：
[1].自动文摘评测方法：Rouge-1、Rouge-2、Rouge-L、Rouge-S
[2].What is ROUGE and how it works for evaluation of summaries?
[3].ROUGE:A Package for Automatic Evaluation of Summaries
[4].BLEU评估指标
[5].评价度量指标之BLEU，METEOR，ROUGE，CIDEr

【NLP】训练chatglm2的评价指标BLEU，ROUGE

1、BLEU

2、ROUGE

Rouge-1、Rouge-2、Rouge-N

Rouge-L

相关文章：

【NLP】训练chatglm2的评价指标BLEU，ROUGE

java+springboot+mysql员工工资管理系统

FL Studio Producer Edition 21 v21.0.3 Build 3517 Windows/mac官方中文版

探索Python数据容器之乐趣：列表与元组的奇妙旅程！

Python自动化实战之使用Pytest进行API测试详解

TCP的三次握手以及四次断开

目标检测YOLO实战应用案例100讲-基于视觉与激光雷达信息融合的智能车辆目标检测研究

Day 22 C++ STL常用容器——string容器

使用Socket实现UDP版的回显服务器

【MCU学习】GD32F427VG开发

Acwing.877 扩展欧几里得算法

基于自组织竞争网络的患者癌症发病预测(matlab代码)

golang mongodb

docker中的jenkins去配置sonarQube

企业如何实现自己的AI垂直大模型

Maven可选依赖和排除依赖简单使用

“深入探索JVM：Java虚拟机的工作原理解析“

Prometheus-各种exporter

小程序的 weiui的使用以及引入

git目录初始化，并拉取最新代码

信息系统项目管理师核心知识点精讲

Transient、QuickEye、VerifyEye傻傻分不清？一文讲透Ansys里三种眼图仿真方法的适用场景与避坑指南

学术写作创新突破！2026全流程AI论文工具精选指南

【MySQL数据库 | 第一篇】概述

腾讯 Marvis 初级使用教程——从安装到上手

AWS DevOps Agent 完全指南

3大突破性功能：用HiveWE革新你的魔兽争霸III地图创作体验

Python到Android的魔法之旅：5步将你的代码变成移动应用

通过Taotoken用量看板清晰追踪各模型的Token消耗情况

收藏2026版｜大模型应用开发入门全攻略，小白程序员转行AI避坑学习指南