当前位置：首页 > news >正文

生成式语言模型的文本生成评价指标(从传统的基于统计到现在的基于语义)

news 2026/5/26 11:54:52

文本生成评价指标

以 BLEU 为代表的基于统计的文本评价指标
基于 BERT 等预训练模型的文本评价指标

1.以 BLEU 为代表的基于统计的文本评价指标

1.BLEU(Bilingual Evaluation Understudy, 双语评估辅助工具)

所有评价指标的鼻祖，核心思想是比较候选译文和参考译文里的 n-gram 的重合程度，重合程度越高就认为译文质量越高。

unigram 用于衡量单词翻译的准确性，高阶 n-gram 用于衡量句子翻译的流畅性。

一般取 N = 1 ~ 4，然后加权平均

$\times exp(\sum_{n=1}^N W_n \times P_n)\\ \begin{aligned} BP= \begin{cases} 1 \\ exp(1-lr/lc) \end{cases} \end{aligned}\\ lc=机器翻译候选译文的长度\\ lr=最短的参考译文长度$
- $W_n$ 指的是 n-gram 权重，默认是均匀权重
- BP 是惩罚因子，如果译文的长度小于最短参考译文，则 BP 小于 1
- BLEU 的 1-gram 精确度表示译文忠于原文的程度，其他的 n-gram 表示翻译的流畅度
优点
- 易于计算，速度快。
- 应用范围广泛
缺点
- 不考虑语义、句子结构
- 不能很好的处理形态丰富的句子(所以论文中建议配备 4 条参考译文)
- BLEU 偏向于较短的翻译结果

2.ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

ROUGE 是 BLEU 的改进版，从名字上可以看出，他专注于召回率而非精确率。

即，他会查看有多少个参考译文中的 n 元词组出现在输出中。

ROUGE 大致分为四种(前两种常用)
- ROUGE-N(将 BLEU 的精确率优化为召回率)
- ROUGE-L(将 BLEU 的 n-gram 优化为公共子序列)
- ROUGE-W(将 ROUGE-L 的连续匹配给予更高的奖励)
- ROUGE-S(允许 n-gram 出现跳词(skip))
初衷
- 在 SMT(统计机器翻译) 时代，机器翻译效果很差，需要同时评价翻译的准确度和流畅度。
- 在 NMT(神经网络机器翻译) 时代，神经网络能力很强，翻译的结果大多都是通顺的，但是可能会一本正经的胡说八道
- ROUGE 的出现是为了解决 NMT 的漏翻问题(低召回率)。所以 ROUGE 只适合评价 NMT，不适用于 SMT，因为他不评价译文的流畅与否。

ROUGE-N
- N 指 N-gram，计算方式与 BLEU 类似，但是基于召回率
- ROUGE-N 主要统计 N-gram 上的召回率，对于 N-gram ，可以计算得到 ROUGE-N 的分数
  
  $ROUGE-N=\frac{\sum_{S\in \{ReferenceSummaries\}gram_N\in S}\sum_{gram_N\in S} Count_{match}(gram_N)} {\sum_{S\in \{ReferenceSummaries\}gram_N \in S}\sum_{gram_N \in S} Count(gram_n)}$
  - 分母是统计参考译文中的 N-gram 的个数；分子是统计参考译文与机器译文共有的 N-gram 个数
ROUGE-L
- ROUGE-L 中的 L 指最长公共子序列(Longest Common Subsequence, LCS)，ROUGE-L 计算的时候使用了机器译文 C 和参考译文 S 的最长公共子序列。
  
  $R_{LCS}=\frac{LCS(C,S)}{len(S)}\\ P_{LCS}=\frac{LCS(C,S)}{len(C)}\\ F_{LCS}=\frac{(1+\beta^2)R_{LCS}P_{LCS}}{R_{LCS}+\beta^2P_{LCS}}$
  - $R_{LCS}$ 表示召回率， $P_{LCS}$ 表示精确率， $F_{LCS}$ 就是 ROUGE-L
  - 一般 $\beta$ 会设置一个很大的数，因此 $F_{LCS}$ 几乎只考虑 $R_{LCS}$ (召回率)
ROUGE-W
ROUGE-S

2.基于语言模型的方法

1.PPL(困惑度)

它也可以用来比较两个语言模型在预测样本上的优劣。

低困惑度的概率分布模型或概率模型能更好地预测样本。

$PPL(W)=P(w_1w_2...w_N)^{-\frac1N}$

在对模型进行损失计算的时候，直接对损失去个指数就是 PPL 了

2.基于 BERT 的评分指标 → $BERT_{SCORE}$

核心思想：对两个生成句和参考句(WordPiece 进行 tokenize) 分别用 BERT 提取特征，然后对两个句子的每个词分别计算内积，得到一个相似性矩阵。基于这个矩阵，可以分别对参考句和生成句做一个最大相似性得分的累加然后归一化，得到 $BERT_{score}$ 的 precision 、 recall 和 F1

$R_{BERT}=\frac1{|x|}\sum_{x_i \in x} \max_{\hat{x}_j \in \hat{x}}x_i^T\hat{x}_j\\ P_{BERT}=\frac1{|\hat x|}\sum_{\hat x_j \in \hat x} \max_{x_i \in x}x_i^T \hat x_j\\ F_{BERT}=2\frac{P_{BERT}·R_{BERT}}{P_{BERT}+R_{BERT}}$

3.总结

BLEU
- 优点：计算速度，适合评估机器翻译等文本生成任务的准确性。依赖于 n-gram 匹配，所以对短文本评价友好
- 缺点：无法衡量语义，容易惩罚语义合理的表示；对自由度较高的生成任务表现不佳
- 使用场景：机器翻译、文本摘要，尤其是目标文本相对固定的情形
ROUGE
- 优点：对文本摘要任务适用，尤其是 ROUGE-L 可识别长的匹配序列，适合评估摘要生成中较长的语义片段
- 缺点：依赖表层匹配，缺乏对语义的深层次理解
- 使用场景：在摘要生成任务中表现良好
PPL
- 优点：可量化生成文本的流畅度，适合语言模型的评估
- 缺点：与人类理解不直接相关；低的 PPL 不保证高质量文本。
- 使用场景：适用于评估语言模型在训练数据上的拟合程度，对生成模型的流畅度衡量有效
$BERT_{score}$
- 优点：基于 BERT 等预训练模型，能捕获词汇和语义的相似度，弥补了传统表层指标的不足；对重组、同义表达的容忍度更高
- 缺点：计算较慢，依赖模型的复杂度；性能依赖于使用的预训练模型
- 使用场景：适合需要语义理解的生辰任务，如开放式问答和文本生成任务，在多样化表达中优异。
总结
- $B L E U$ 和 $RO U GE$ 更适合传统的，较为结构化的生成任务
- PPL 适合流畅度的评估
- $BERT_{score}$ 适合更深层次的语义对齐场景

生成式语言模型的文本生成评价指标(从传统的基于统计到现在的基于语义)

文本生成评价指标以 BLEU 为代表的基于统计的文本评价指标基于 BERT 等预训练模型的文本评价指标 1.以 BLEU 为代表的基于统计的文本评价指标 1.BLEU(Bilingual Evaluation Understudy, 双语评估辅助工具) 所有评价指标的鼻祖，核心思想是比较候选译文和参考…...

编程日记 2024/11/4 22:05:58

【网安案例学习】暴力破解攻击（Brute Force Attack）

### 案例与影响暴力破解攻击在历史上曾导致多次重大安全事件，特别是在用户数据泄露和账户被盗的案例中。随着计算能力的提升和密码管理技术的进步，暴力破解的威胁虽然有所减弱，但仍需警惕，特别是在面对高价值目标时。【故事一…...

编程日记 2024/11/4 22:04:54

时间序列预测（十八）——实现配置管理和扩展命令行参数解析器

如图，这是一个main,py文件，在此代码中，最开始定义了许多模型参数，为了使项目更加灵活和可扩展，便于根据不同的需求调整参数和配置，可以根据实际需要扩展参数和配置项。下面是如何实现配置管理和扩展命令行…...

编程日记 2024/11/4 22:01:51

Vue问题汇总解决

作者：fyupeng 技术专栏：☞ https://github.com/fyupeng 项目地址：☞ https://github.com/fyupeng/distributed-blog-system-api 留给读者我们经常在使用Vue开发遇到一些棘手的问题，解决后通常要进行总结，避免下次重复…...

编程日记 2024/11/4 21:59:47

Spark学习

Spark简介 1.Spark是什么首先spark是一个计算引擎，而不是存储工具，计算引擎有很多： 第一代：MapReduce廉价机器实现分布式大数据处理第二代：Tez基于MR优化了DAG，性能比MR快一些第三代：Spark…...

编程日记 2024/11/4 21:58:45

Python cv2抓取摄像头图片保存到本地 import cv2 import datetime, ossavePath "E:/Image/"if not os.path.exists(savePath):os.makedirs(savePath)cap cv2.VideoCapture(0) capture Falseif not cap.isOpened():print("无法打开摄像头")exit()while…...

编程日记 2024/11/4 21:57:44

L4.【LeetCode笔记】链表题的VS平台调试代码

不用调用87.【C语言】数据结构之链表的头插和尾插文章提到的头插函数记下这个模板代码,可用于在Visual Studio上调试出问题的测试用例如创建链表[1,2,3,4,5] #include <stdilb.h> // Definition for singly-linked list.struct ListNode {int val;struct ListNode *…...

编程日记 2024/11/4 21:56:43

JavaCV 之高斯滤波：图像降噪与细节保留的魔法

🧑 博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s…...

编程日记 2024/11/4 21:55:42

VsCode显示空格

ctrl shift p选择Preferences: Open User Settings (JSON) 加上"editor.renderWhitespace": "all" {"cmake.configureOnOpen": true,"files.encoding": "gb2312","editor.fontVariations": false,"edito…...

编程日记 2024/11/4 21:54:40

.Net C# 基于EFCore的DBFirst和CodeFirst

DBFirst和CodeFirst 1 概念介绍 1.1 DBFirst（数据库优先） 含义：这种模式是先创建数据库架构，包括表、视图、存储过程等数据库对象。然后通过实体框架（Entity Framework）等工具，根据已有的数据…...

编程日记 2024/11/4 21:52:31

w012基于springboot的社区团购系统设计

🙊作者简介：拥有多年开发工作经验，分享技术代码帮助学生学习，独立完成自己的项目或者毕业设计。代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件，帮助大学选题。赠送开题报告模板&#xff…...

编程日记 2024/11/4 21:49:27

笔记本降频超鬼锁屏0.39电脑卡到不行解决办法实操记录

1、最开始没发现cpu问题，我发现我电脑突然异常的卡顿，最开始我怀疑是不是微软win用久了或者自动更新导致的问题，于是自己重装了操作系统发现问题依然存在 2、我怀疑难道我的 cpu 内存固态硬盘其中一个有点问题？心想要是硬盘的…...

编程日记 2024/11/4 21:46:24

优选算法第四讲：前缀和模块

优选算法第四讲：前缀和模块 1.[模板]前缀和2.【模板】二维前缀和3.寻找数组的中心下标4.除自身以外数组的乘积5.和为k的子数组6.和可被k整除的子数组7.连续数组8.矩阵区域和 1.[模板]前缀和链接: link #include <iostream> #include <vector> using…...

编程日记 2024/11/4 21:45:22

ubuntu20.04 加固方案-设置限制su命令用户组

一、编辑/etc/pam.d/su配置文件打开终端。使用文本编辑器（如vim）编辑/etc/pam.d/su文件。 vim /etc/pam.d/su 二、添加配置参数在打开的配置文件的中，添加以下参数： auth required pam_wheel.so 创建 wheel 组并添加用户 …...

编程日记 2024/11/4 21:44:21

TDengine数据备份与恢复

TDengine数据备份与恢复一、数据备份和恢复介绍二、基于 taosdump 进行数据备份恢复三、基于 taosExplorer 进行数据备份恢复3.1 taosExplorer 的安装与配置3.2 使用taosExplorer 进行数据备份一、数据备份和恢复介绍官网地址：TDengine - 数据备份和恢复为了防止…...

编程日记 2024/11/4 21:43:20

2024最新的开源博客系统：vue3.x+SpringBoot 3.x 前后端分离

本文转载自：https://fangcaicoding.cn/article/54 大家好！我是方才，目前是8人后端研发团队的负责人，拥有6年后端经验&3年团队管理经验，截止目前面试过近200位候选人，主导过单表上10亿、累计上100亿数据…...

编程日记 2024/11/4 21:42:17

研究中的“异质性”、“异质性结果”是指？

“异质性”这个词在统计学和研究中指的是数据、现象或群体之间的差异，即不同个体、组别、区域或时间点的表现或特征并不相同。相对的概念是“同质性”，即所有个体或组别在某一方面表现相同或接近。异质性（Heterogeneity）的含义 …...

编程日记 2024/11/4 21:41:15

Springboot整合AOP和redis

aop pom.xml <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId> </dependency> 开启自动代理注意：在完成了引入AOP依赖包后，一般来说并不需要去做其他…...

编程日记 2024/11/4 21:40:14

freetype学习总结

freetype学习总结目录 freetype学习总结1. LCD显示字符问题引入2. freetype概念2.1 嵌入式设备使用FreeType的方法步骤2.2 嵌入式设备使用FreeType的注意事项 3. freetype官方C示例3.1 example1.c源码 4. 嵌入式设备上使用FreeType的简单示例4.1 简单示例代码4.2 代码分析 5. …...

编程日记 2024/11/4 21:37:07

上海亚商投顾：沪指缩量调整华为概念股午后爆发

上海亚商投顾前言：无惧大盘涨跌，解密龙虎榜资金，跟踪一线游资和机构资金动向，识别短期热点和强势个股。一.市场情绪市场全天震荡调整，沪指、深成指午后跌超1%，创业板指一度跌逾2%，尾盘跌幅有…...

编程日记 2024/11/4 21:33:02

IPFS去中心化存储实战指南：黑马程序员音乐播放器项目开发完整教程

IPFS去中心化存储实战指南：黑马程序员音乐播放器项目开发完整教程【免费下载链接】BlockChain 黑马程序员 120天全栈区块链开发开源教程项目地址: https://gitcode.com/gh_mirrors/blockchain95/BlockChain 你是否想过如何构建一个真正去中心化的音乐播放…...

编程新知 2026/5/26 4:46:24

用Python和MNE库玩转BCI Competition IV 2a脑电数据集：从数据加载到可视化全流程

用Python和MNE库玩转BCI Competition IV 2a脑电数据集：从数据加载到可视化全流程当你第一次接触脑电信号处理时，面对原始数据文件可能会感到无从下手。BCI Competition IV 2a数据集作为脑机接口领域的经典基准数据，包含了9名受试者四种运动想…...

编程新知 2026/5/26 2:59:48

【DeepSeek测试用例生成实战指南】：20年QA专家亲授5大高覆盖率生成模式与3个避坑红线

更多请点击： https://codechina.net 第一章：DeepSeek测试用例生成的核心价值与适用边界 DeepSeek系列大模型在代码理解与生成任务中展现出显著的上下文建模能力，其测试用例生成功能并非通用“黑盒测试器”，而是聚焦于**单元级、函…...

编程新知 2026/5/26 1:53:13

别只拿PotPlayer看片了！挖掘它的采集录制功能，做Switch游戏存档大师

别把PotPlayer当普通播放器！解锁它的Switch游戏录制黑科技你是否已经厌倦了在OBS、Bandicam等专业录制软件中反复调试参数的繁琐？是否想过那个每天用来看视频的PotPlayer，其实隐藏着令人惊喜的游戏录制能力？今天，我们…...

编程新知 2026/5/26 1:33:09

为什么鸿蒙 App 最终都会走向状态驱动？

子玥酱 （掘金 / 知乎 / CSDN / 简书同名） 大家好，我是子玥酱，一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂，目前在某国企负责前端软件研发相关工作，主要聚…...

编程新知 2026/5/25 23:08:49

如何快速上手Redux Dynamic Modules：5分钟完成Redux模块化改造

如何快速上手Redux Dynamic Modules：5分钟完成Redux模块化改造【免费下载链接】redux-dynamic-modules Modularize Redux by dynamically loading reducers and middlewares. 项目地址: https://gitcode.com/gh_mirrors/re/redux-dynamic-modules Redux Dyn…...

编程新知 2026/5/25 17:57:41

收藏｜2026年大模型算法岗崛起！程序员小白入门高薪赛道全攻略

前些年，算法岗位一直稳居技术圈高薪行列，无数程序员争相入局，也成为计算机专业毕业生求职首选方向。伴随大模型技术飞速迭代落地，行业就业格局迎来重大变革。如今含金量最高、人才缺口最大、长期发展潜力顶尖的岗位，已…...

编程新知 2026/5/25 17:21:44

Lovable内部工具开发方法论（从需求黑洞到用户自发推广的完整闭环）

更多请点击： https://kaifayun.com 第一章：Lovable内部工具开发方法论（从需求黑洞到用户自发推广的完整闭环） Lovable 方法论的核心不是交付功能，而是培育“工具依赖感”——当一线工程师在凌晨三点调试线上问题时&am…...

编程新知 2026/5/25 16:57:07

3分钟快速上手：bilibili-parse视频解析API终极指南

3分钟快速上手：bilibili-parse视频解析API终极指南【免费下载链接】bilibili-parse bilibili Video API 项目地址: https://gitcode.com/gh_mirrors/bi/bilibili-parse bilibili-parse是一款高效专业的B站视频解析工具，为开发者和内容创作者提供…...

编程新知 2026/5/25 15:54:17

Diablo Edit2：3步掌握暗黑破坏神2存档修改的终极秘籍

Diablo Edit2：3步掌握暗黑破坏神2存档修改的终极秘籍【免费下载链接】diablo_edit Diablo II Character editor. 项目地址: https://gitcode.com/gh_mirrors/di/diablo_edit 还在为暗黑破坏神2中刷装备的漫长过程感到疲惫吗？Diablo Edit2这款免费…...

编程新知 2026/5/25 15:47:54

生成式语言模型的文本生成评价指标(从传统的基于统计到现在的基于语义)

文本生成评价指标

1.以 BLEU 为代表的基于统计的文本评价指标

1.BLEU(Bilingual Evaluation Understudy, 双语评估辅助工具)

2.ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

2.基于语言模型的方法

1.PPL(困惑度)

2.基于 BERT 的评分指标 → $BERT_{SCORE}$

3.总结

相关文章：

生成式语言模型的文本生成评价指标(从传统的基于统计到现在的基于语义)

【网安案例学习】暴力破解攻击（Brute Force Attack）

时间序列预测（十八）——实现配置管理和扩展命令行参数解析器

Vue问题汇总解决

Spark学习

一些小细节代码笔记汇总

L4.【LeetCode笔记】链表题的VS平台调试代码

JavaCV 之高斯滤波：图像降噪与细节保留的魔法

VsCode显示空格

.Net C# 基于EFCore的DBFirst和CodeFirst

w012基于springboot的社区团购系统设计

笔记本降频超鬼锁屏0.39电脑卡到不行解决办法实操记录

优选算法第四讲：前缀和模块

ubuntu20.04 加固方案-设置限制su命令用户组

TDengine数据备份与恢复

2024最新的开源博客系统：vue3.x+SpringBoot 3.x 前后端分离

研究中的“异质性”、“异质性结果”是指？

Springboot整合AOP和redis

freetype学习总结

上海亚商投顾：沪指缩量调整华为概念股午后爆发

IPFS去中心化存储实战指南：黑马程序员音乐播放器项目开发完整教程

用Python和MNE库玩转BCI Competition IV 2a脑电数据集：从数据加载到可视化全流程

【DeepSeek测试用例生成实战指南】：20年QA专家亲授5大高覆盖率生成模式与3个避坑红线

别只拿PotPlayer看片了！挖掘它的采集录制功能，做Switch游戏存档大师

为什么鸿蒙 App 最终都会走向状态驱动？

如何快速上手Redux Dynamic Modules：5分钟完成Redux模块化改造

收藏｜2026年大模型算法岗崛起！程序员小白入门高薪赛道全攻略

Lovable内部工具开发方法论（从需求黑洞到用户自发推广的完整闭环）

3分钟快速上手：bilibili-parse视频解析API终极指南

Diablo Edit2：3步掌握暗黑破坏神2存档修改的终极秘籍

文本生成评价指标

1.以 BLEU 为代表的基于统计的文本评价指标

1.BLEU(Bilingual Evaluation Understudy, 双语评估辅助工具)

2.ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

2.基于语言模型的方法

1.PPL(困惑度)

2.基于 BERT 的评分指标 → B E R T S C O R E BERT_{SCORE} BERTSCORE​

3.总结

相关文章：

2.基于 BERT 的评分指标 → $BERT_{SCORE}$