当前位置：首页 > news >正文

评估大模型（LLM）摘要生成能力：方法、挑战与策略

news 2026/5/13 8:06:02

大语言模型（LLMs）有着强大的摘要生成能力，为信息快速提取和处理提供了便利。从新闻文章的快速概览到学术文献的要点提炼，LLMs 生成的摘要广泛应用于各个场景。然而，准确评估这些摘要的质量却颇具挑战。如何确定一个摘要是否精准、简洁且连贯，成为了研究者和开发者亟待解决的问题。本文将深入探讨评估 LLM（Agent-as-a-Judge：AI系统评估新思路）摘要的多种方法、面临的挑战以及应对策略。

一、评估 LLM 摘要的重要性

随着 LLMs 在摘要生成任务中的应用日益广泛，评估其生成摘要的质量至关重要。优质的摘要能够帮助用户迅速把握文本核心内容，节省大量阅读时间。在学术研究中，研究者可以通过准确的文献摘要快速筛选相关资料；在商业领域，决策者能够依据精准的行业报告摘要做出明智的决策。相反，低质量的摘要可能会误导用户，导致信息获取错误，甚至影响决策的准确性。准确评估 LLM 摘要（RAG(Retrieval-Augmented Generation)评测：评估LLM中的幻觉现象），不仅有助于用户选择更可靠的摘要工具，还能推动 LLMs 自身的优化与改进，促进自然语言处理技术的发展。

二、评估 LLM 摘要的难点

（一）摘要输出的开放性与主观性

与分类、实体提取等任务不同，摘要的输出具有开放性。一个好的摘要取决于流畅性、连贯性和一致性等定性指标，而这些指标难以进行定量测量。例如，摘要的相关性在很大程度上依赖于具体语境和受众需求。对于专业人士而言，与专业知识紧密相关的内容才是关键；而普通读者可能更关注通俗易懂的信息。这种主观性使得评估标准难以统一，增加了评估的难度。

（二）缺乏高质量的标注数据集

在评估 LLM 摘要时，创建用于对比的金标准数据集十分困难。以检索增强生成（RAG）为例，可以通过合成问答对的方式轻松创建数据集来评估检索器。但对于摘要生成任务，自动生成参考摘要并非易事，往往需要人工标注。虽然已有研究人员整理了一些摘要数据集，但这些数据集可能无法满足特定应用场景的需求，导致评估结果与实际应用存在偏差。

（三）现有评估指标的局限性

学术文献中的许多摘要评估指标并不适用于实际开发场景。一些基于神经网络训练的评估指标，如 Seahorse、Summac 等，模型体积庞大，运行成本高昂，难以大规模应用。而传统的评估指标，如 BLEU 和 ROUGE，主要基于精确的单词或短语匹配，适用于抽取式摘要评估。在面对 LLMs 生成的抽象式摘要时，由于这类摘要可能会对原文进行改写和重新表述，这些传统指标的评估效果不佳。

三、优秀摘要的关键特质

尽管评估 LLM 摘要存在诸多困难，但一个优秀的摘要通常具备以下关键特质：

（一）相关性

摘要应保留原文的重要观点和细节，能够准确反映原文的核心内容。在评估时，可以从精确率和召回率的角度考虑，即摘要中保留了多少原文的事实（召回率），以及摘要中的事实有多少能在原文中得到支持（精确率）。在保持摘要长度一定的情况下，召回率越高越好，但不能为了追求高召回率而使摘要长度与原文相近；同时，精确率应尽可能接近 100%，以避免生成虚假信息。

（二）简洁性

优秀的摘要信息密度高，不会多次重复相同观点，语言简洁明了。在实际评估中，可以通过实体密度这一指标来衡量。研究表明，人工创建的摘要以及人们偏好的 AI 生成摘要，实体密度约为 0.15 个实体 / 词元。偏离这一数值的摘要，无论是密度过高还是过低，都可能存在问题。可以通过计算摘要的实体密度，并与理想值进行比较，对偏离理想值的摘要进行惩罚。还可以使用句子模糊度指标，对模糊、未明确表述关键信息的句子进行惩罚，以确保摘要简洁有效。

（三）连贯性

摘要应结构合理、逻辑清晰，易于理解，而不是简单地堆砌压缩后的事实。在评估连贯性时，可以采用平均余弦相似度的方法，计算每第 n 个句子和第 n+2 个句子之间的平均余弦相似度。该数值越高，表明摘要的连贯性越好。通过这种方式，可以从量化的角度对摘要的连贯性进行评估。

（四）忠实性

摘要不能虚构原文未提及的信息，必须忠实于原文内容。在评估过程中，需要确保摘要中的所有信息都能在原文中找到依据，避免出现虚假信息，这对于保证摘要的可靠性至关重要。

四、DeepEval 框架及其摘要评估指标

DeepEval 是一个用户友好的 LLM 评估框架，在摘要评估方面具有一定的优势。它提供了许多关键 RAG 指标的现成实现，并且拥有灵活的基于思维链的 LLM 评判工具 GEval，方便用户定义自定义标准。其基础设施有助于组织和加速评估过程，能够快速在整个数据集上运行评估。

DeepEval 的摘要评估指标是一种无参考指标，只需输入原文和待评估的生成摘要。该指标实际上评估了两个关键部分：对齐度和覆盖率。在对齐度评估中，评估器 LLM 会从摘要中生成一系列声明，并判断这些声明在从原文提取的事实中得到支持的数量，从而得出对齐度分数；在覆盖率评估中，LLM 会从原文生成一系列评估问题，然后仅依据摘要尝试回答这些问题。若无法找到答案，则提示 “idk”，最后根据回答正确的问题数量得出覆盖率分数。最终的摘要分数为对齐度和覆盖率分数中的最小值。

五、改进 DeepEval 的摘要评估指标

尽管 DeepEval 的摘要评估指标提供了一个良好的起点，但仍存在一些问题，影响了评估的可靠性和有效性。

（一）覆盖率评估问题

当前，覆盖率评估中的问题被限制为是非问题，这种方式存在局限性。一方面，二元的是非问题限制了信息的表达，难以确定细微的定性要点；另一方面，若回答问题的 LLM 虚构了 “是” 的答案，评估器可能会错误地认为回答正确。因为在只有 “是”“否”“idk” 三种可能答案的情况下，虚构 “是” 的答案的可能性较高。此外，问题的表述方式可能会暗示答案为 “是”，进一步增加了虚构答案的风险。

针对这一问题，可以让 LLM 从原文生成开放式问题，即 “复杂问题”，并为每个问题赋予重要性评分。在评估时，使用另一个 LLM 对基于摘要生成的答案与基于原文生成的参考答案进行 0 - 5 分的相似度评分，并给出解释，以此来更准确地评估覆盖率。

（二）对齐度评估问题

在对齐度评估中，从原文提取事实的过程存在缺陷。当前，使用 LLM 从原文提取事实列表时，会导致部分事实被遗漏。而且，LLM 生成的事实列表具有不确定性，这会导致对齐度分数波动较大，无法公平地评判摘要的忠实性。例如，即使摘要中的某个细节在原文中存在，但如果未被提取到事实列表中，也可能被误判为不忠实。

为解决这一问题，可将整个原文输入到评估摘要声明的 LLM 中，而不是仅输入提取的事实列表。这样，在一次 LLM 调用中评估所有声明，既能保证评估的准确性，又不会显著增加令牌成本。

（三）最终分数计算问题

目前，最终分数取对齐度和覆盖率分数中的最小值，这可能会导致问题。由于覆盖率分数通常较低，即使对齐度分数发生较大变化（如从 1 降至 0.8），也可能不会影响最终分数。然而，对齐度分数的下降可能意味着摘要存在严重问题，如虚构声明。

为解决此问题，可以将最终分数改为 F1 分数，类似于机器学习分类中的 F1 分数计算方式，以综合考虑精确率和召回率的重要性。还可以根据实际需求调整精确率和召回率的权重，例如，若非常重视避免虚构信息，则可以提高精确率的权重。

六、综合评估指标体系的构建

在改进 DeepEval 摘要评估指标的基础上，可以进一步构建一个综合评估指标体系。除了上述改进的相关性和忠实性评估指标外，还应纳入简洁性和连贯性评估指标。

（一）简洁性评估指标

实体密度

通过计算摘要中实体数量与词元数量的比值，得到实体密度。与理想的实体密度 0.15 进行比较，对偏离该值的摘要进行惩罚。当实体密度过高时，摘要可能过于复杂；实体密度过低，则可能信息不足。
句子模糊度

将摘要拆分为句子，使用 LLM 对每个句子进行分类，判断其是否模糊。模糊句子是指未直接提及主要观点、使用模糊表述的句子。最终以模糊句子在总句子中的比例作为句子模糊度分数，该分数越高，说明摘要中模糊信息越多，简洁性越差。
重复性

利用 GEval 工具，以 LLM 作为评判器，判断摘要中是否存在不必要的重复信息。若存在重复的事实或主要观点，则认为摘要存在问题。在实际应用中，由于 LLM 的回答可能不稳定，需要进行提示工程优化，以提高评估的准确性。

（二）连贯性评估指标

采用平均余弦相似度方法，计算每第 n 个句子和第 n+2 个句子之间的平均余弦相似度。通过将句子转换为向量，计算向量之间的余弦相似度，进而得到连贯性分数。该分数越高，表明摘要中句子之间的逻辑联系越紧密，连贯性越好。

将这些评估指标整合为自定义指标后，可以在数据集上并行评估，一次性获取所有结果。但需要注意的是，对于一些指标，如连贯性和召回率，目前难以确定其对于摘要的 “最优” 值，只能通过比较不同 AI 生成摘要的分数来判断其优劣。

评估 LLM 摘要生成能力是一个复杂且具有挑战性的任务，需要综合考虑多个方面的因素。从摘要的相关性、简洁性、连贯性和忠实性等特质出发，改进现有评估指标，构建综合评估体系，能够更准确地评估 LLM 摘要的质量。然而，目前的评估方法仍存在一些不足之处，如部分指标缺乏明确的最优值，评估结果可能受到 LLM 本身的不确定性影响等。

未来，随着自然语言处理技术的不断发展，有望出现更先进的评估方法和技术。一方面，可以进一步优化评估指标，结合更多语义理解和上下文信息，提高评估的准确性；另一方面，探索更有效的数据集创建方法，减少人工标注的工作量，提高标注质量。还可以研究如何更好地利用多模态（MiniCPM-o 2.6：开源大型语言模型在多模态任务上超越GPT-4o和Claude 3.5）信息，如图片、音频等，辅助评估摘要质量。