顶会评测集解读-AlignBench: 大语言模型中文对齐基准
评测集社区 CompssHub 作为司南 OpenCompass大模型评测体系的重要组成部分,致力于简化并加快研究人员和行业人士搜索和使用评测集的过程。评测集社区 CompssHub 目前已收录了学科、推理、知识、代码等12个方向的评测集,欢迎大家探索。
为了将评测集社区 CompssHub 收录的优秀评测集更好的展现给大家,司南 OpenCompass 特别开展了顶会评测集解读系列,今天我们将解读 ACL 2024 Accepted Papers — AlignBench: Benchmarking Chinese Alignment of Large Language Models.
论文地址:
https://aclanthology.org/2024.acl-long.624.pdf
AlignBench 开源仓库:
https://github.com/THUDM/AlignBench
评测集社区 CompssHub:
https://hub.opencompass.org.cn/dataset-detail/AlignBench
摘要
在人工智能和自然语言处理领域的飞速发展中,大语言模型(LLMs)展现出令人惊叹的能力。然而,对于新兴的中文 LLMs,其对齐效果的评估仍然是一个亟待探索的领域。为了填补这一空白, AlignBench 应运而生,这是一个全面的、多维度的基准测试,专门用于评估 LLMs 在中文环境下的对齐情况。
AlignBench 的独特之处在于其精心设计的人机协作数据策划流程。它包含了八个主要类别,涵盖683个基于真实场景的查询,每个查询都配有经过人工验证的参考答案。此外,对于知识密集型的查询,AlignBench 还提供了来自可靠网络来源的证据,包括 URL 和引用,大大提高了评估的可靠性和真实性。
在评估方法上,AlignBench 采用了创新的规则校准多维 LLM-as-Judge方法,并结合了思维链(Chain-of-Thought)技术。这种方法不仅能生成解释性评价,还能给出最终评分,为研究人员提供了深入洞察LLMs表现的窗口。
本期顶会评测集解读让我们一起深入探讨 AlignBench 评测基准,揭示中文LLMs在对齐方面的潜力与挑战,推动中文自然语言处理技术迈向新高度!
介绍
在自然语言处理(NLP)领域,对齐(Alignment)已成为大型语言模型(LLMs)发展的关键挑战。随着ChatGPT等产品的兴起,LLMs在各种任务中展现出惊人的能力。然而,如何准确评估这些模型在中文环境下的对齐程度,一直是一个亟待解决的问题
针对上述问题,该团队提出了 AlignBench,这是一个全面的多维评测基准,用于评估中文 LLMs 的对齐能力。参考一个线上 LLM 服务,该团队建立了一个半自动化的数据策划流程并结合人类参与,以创建高质量的查询来构建 AlignBench。AlignBench 总结了一个包含 8 个主要类别的查询分类法,以全面覆盖和对齐真实场景的使用情况(参见图 1)。为了使评估模型生成客观和公正的评估,每个样本都附有一个经过人类修正的 LLM 生成的参考。为确保知识密集型查询(占 66.5%)的参考正确性,该团队要求注释员提供在网上搜索的包括 URL 和引用,最终合成参考文献。
为了增强评估的自动化,AlignBench 利用 GPT-4 作为其主要模型评估器,这有助于识别数据样本并通过逐点分结合 CoT 进行评估。不同于 MT-Bench 的是,AlignBench 进一步强调了评分中的规则校准和任务特定多维判断。实验表明,这些策略有助于 AlignBench 与人类判断更加一致并拥有更好的可解释性。基于 AlignBench,该团队评估了 17 个常见的中文 API LLMs 和开源 LLMs,并提供了这些模型在中文对齐能力的细致比较。
数据集
数据集构成
AlignBench 基于真实用户指令,将大语言模型(LLMs)的能力框架总结为 8 个主要类别,共包含 683 个样本。这种分类旨在进行系统性的评估,涵盖了 LLMs 在各种场景下的应用能力。如表 1 所示。
数据集构建
AlignBench 中的每个样本包含一个任务导向的查询、高质量的参考答案,以及它所属于的类别。详细的构建流程如下所述。
查询筛选:为了确保查询的多样性和真实性,该团队主要参考两个来源:在线聊天服务中的场景和研究人员撰写的挑战性问题。考虑到数据的噪声特性,该团队需要经过高标准的数据筛选流程:1) 任务导向: 查询应体现人类意图,并引导 LLMs 完成指定任务。2) 清晰度与流畅性: 查询应清晰易懂,要求应流畅表达。3) 复杂性与难度: 查询应对大多数 LLMs 来说具有挑战性,需要它们充分利用能力来全面解决。4) 去敏感化: 确保查询是安全的且不具敏感性。
参考答案的获取与改进:对于 AlignBench 的逐点评分,已有研究发现使用关键参考答案进行评分有助于提高 LLM-as-Judge 的可靠性(Zheng et al., 2023; Zhang et al., 2020)。因此,该团队决定提供由人类筛选的参考答案,以帮助评审者判断答案的正确性。然而,由于 AlignBench 被设计为具有挑战性且覆盖广泛,初步试验中人类注释者从零开始提供答案非常困难。因此,该团队首先利用 GPT-4 生成答案,然后要求人类注释者仔细审查、修订和完善这些答案,作为 AlignBench 的参考答案。为了确保参考答案的质量,特别是对于来自专业知识、数学和逻辑推理等类别的知识密集型查询,该团队明确要求注释者在验证过程中进行网络搜索。在搜索过程中,要求记录网页的 URL 和引用内容,以便撰写参考文献,如表 2 所示。
过滤与分类:为了区分强 LLMs 之间的评分,有必要过滤出更具挑战性的样本进行评估。因此,该团队使用了三种相对先进的支持中文的 LLMs,包括 GPT-3.5-turbo、ChatGLM APIs 和 Sparkdesk,作为该团队构建流程中的难度过滤器。该团队对这些模型进行评估,分析它们对处理过的查询的响应,然后利用 GPT-4 对答案进行评分。通过计算响应的平均分,并将其作为信号,该团队丢弃了获得最高平均分的 50% 查询,这表明它们的难度较低。这种方法确保了样本的细致和精准选择,有效地区分了不同能力的强 LLMs。
方法
AlignBench评估系统的核心是使用GPT-4作为主要评估模型。这种方法充分利用了强大LLM的理解和分析能力,但同时也面临着确保评判一致性和公正性的挑战。
因此,在 AlignBench 中,该团队设计了一种新颖的规则校准多维逐点 LLM-as-Judge 的方法,图 2 展示了一个例子。
逐点评分与思维链
在使用 LLM-as-Judge 时,之前研究已经实现了两种评分方法:逐点评分 (point-wise grading)(Zheng et al., 2023)和成对评分 (pairwise grading)(Li et al., 2023)。然而,先前的研究表明,逐点评分与人类意图一致性相比于成对评分更高,后者存在位置偏差。此外,考虑到评估效率,逐点评分在费用和时间方面具有优势。因此,AlignBench 也采用逐点评分。在评估过程中,输入查询、模型响应和人类筛选的参考答案,输出为多维分析解释和最终评分,范围从 1 到 10。由于评分任务涉及复杂推理,引入思维链(Chain-of-Thought)有助于提高评分的可靠性和可解释性。
规则校准参考
为使AI评判更接近人类评判习惯,该方法提供了详细的评分指南,明确定义了不同分数区间的标准。特别地,将参考答案设置为8分作为评分基准。这种规则校准机制有效提高了评分的区分度,使得评分分布更加合理,更接近人类评判的结果。
图 3 绘制了人类评审、一般评审和规则校准评审的累积分布,显示规则校准评审与人类评估的累积分布之间的差距更小。通常,规则校准评审的高分(9 和 10)数量明显少于一般评审,这与人类评分习惯一致,从而增强了 AlignBench 的区分能力。
多维分析
由于任务性质和特点各不相同,使用相同的评估标准来评估所有任务是不公平的。例如,写作任务应优先考虑创造力,而逻辑推理任务则主要需要逻辑连贯性。为了解决这一问题,该团队提出了一种多维评分方法来评估 LLM 的响应,针对具体任务量身定制评估,从而提供更全面和有条理的解释。它不仅给出评分,还提供了详细的分析过程,使评估结果更加可靠和可解释,为中文大语言模型的对齐评估提供了有力工具。
人类评估
为了验证该团队为 AlignBench 设计的规则校准多维逐点评分 LLM-as-Judge 的方法,该团队对 AlignBench 选定的查询进行了广泛的人类评估。主要关注两个方面:方法与人类评审的一致性,以及方法对于更具人类可解释性的结果的批判质量。
一致性评估
基准:实验中包含了两个稳健的基准比较,以评估该团队的方法。请注意,所有方法均使用 GPT-4 进行评估,以确保公平性。1) 一般评分: 采用 MT-bench 中的中文版评估提示;2) 规则校准评分: 为了更好地指导模型比较模型答案和参考答案,并减少评分差异,该团队将评分规则纳入评估过程。该方法包含五个评分区间,每个区间与特定的质量描述相关联。参考答案的评分设定为 8,作为相对评分基准。
分析:一致性实验的结果呈现在表 3 中。结果显示,该团队的规则校准多维逐点评分 LLM-as-Judge 的方法表现最佳,特别是在样本级皮尔逊相关指标和成对一致性(不含平局)指标上,从而证明了与人类评审的一致性极佳。此外值得注意的是,所有方法在系统级皮尔逊相关指标上均表现出色,表明 LLM-as-Judge 的可靠性和稳健性。
质量评估
先前的研究主要关注模型评审与人类评审在评估 LLM-as-Judge 方法时的一致性。然而评估在评分之前模型评审生成的解释质量也具有重要意义。为了评估方法生成的解释质量,以及确定最终评分,该团队进行了成对质量比较实验。
质量评估的结果呈现在表 4 中。结果表明,该团队的方法生成了最高质量的解释和有用的反馈,在成对比较中以高胜率击败了两个基准。此外,基于规则的评分在解释方面优于一般评分,该结果证明了评分规则能够提供明确的基于参考的标准,从而有助于清晰地比较参考答案和模型答案。
AlignBench 评测结果
基于 AlignBench 的 LLM-as-Judge 评分的有效性,该团队评测了多种 LLMs 的中文对齐能力。该团队使用 gpt-4-0613 作为评审模型来评估各个模型的表现。结果如表 5 所示,大多数闭源 LLMs 分数较高(超过或接近 6 分),表明这些 LLMs 在满足用户意图和提供高质量响应方面具有强大的能力,表现了优秀的对齐水平。对于中文 LLMs 而言,某些中文 LLMs 的表现与 gpt-3.5-turbo 相当,甚至略有超越,逐渐接近领先模型 gpt-4-1106-preview。
结论
在本文中,介绍了AlignBench,这是一个全面的多维度基准测试,用于评估大语言模型(LLMs)在中文环境下的对齐程度。该团队设计了一个可持续的、包含人工参与的数据策划流程,并改进了LLM作为评判者(LLM-as-Judge)的方法,使AlignBench能够对LLMs的中文对齐进行高质量的自动评估。
局限性
改进自动化 LLM-as-Judge
AlignBench 展示了利用 GPT-4 作为评审可以与人类评估实现相对高的一致性,但在一致性和细致度方面仍有很大改进空间。此外,研究表明 LLM-as-Judge 存在一些潜在的偏差,包括位置偏差、复杂度和自我增强等。这些偏差可能会影响对某些模型评估的正确性。
拓展主题与查询
尽管 AlignBench 在类别中拥有相对较大的查询集,但仍需要进一步丰富,以实现更稳定和可靠的 LLMs 评估。此外,AlignBench 目前未涵盖对长文本查询的评估。
司南 OpenCompass 将持续推动大模型评测的公正性和客观性,提供丰富的大模评测基准信息,以促进大语言模型技术的健康发展和持续创新。本篇解读的 AlignBench 评测集已在评测集社区 CompssHub 上线,欢迎大家点击了解更多!
https://hub.opencompass.org.cn/dataset-detail/AlignBench
同时,司南 OpenCompass 期待更多的社区用户在评测集社区 CompssHub 发布各专业领域的评测集,让您的学术成果在我们的平台上得到更多的关注与应用!
https://hub.opencompass.org.cn/home
相关文章:
顶会评测集解读-AlignBench: 大语言模型中文对齐基准
评测集社区 CompssHub 作为司南 OpenCompass大模型评测体系的重要组成部分,致力于简化并加快研究人员和行业人士搜索和使用评测集的过程。评测集社区 CompssHub 目前已收录了学科、推理、知识、代码等12个方向的评测集,欢迎大家探索。 为了将评测集社区…...
MySQL外键类型与应用场景总结:优缺点一目了然
前言: MySQL的外键简介:在 MySQL 中,外键 (Foreign Key) 用于建立和强制表之间的关联,确保数据的一致性和完整性。外键的作用主要是限制和维护引用完整性 (Referential Integrity)。 主要体现在引用操作发生变化时的处理方式&…...
【含开题报告+文档+PPT+源码】基于SpringBoot+Vue的网上书店管理系统的设计与实现
开题报告 本研究论文主要介绍了基于Spring Boot框架开发的全面网上书店管理系统的构建与实现。该系统以用户为核心,提供了丰富的个性化服务功能。首先,系统支持用户进行便捷的登录注册操作,并具备安全可靠的密码修改机制,同时允许…...
力扣面试题 - 40 迷路的机器人 C语言解法
题目: 设想有个机器人坐在一个网格的左上角,网格 r 行 c 列。机器人只能向下或向右移动,但不能走到一些被禁止的网格(有障碍物)。设计一种算法,寻找机器人从左上角移动到右下角的路径。 网格中的障碍物和空…...
ElementPlus 自定义封装 el-date-picker 的快捷功能
文章目录 需求分析 需求 分析 我们看到官网上给出的案例如下,但是不太满足我们用户想要的快捷功能,因为不太多,因此需要我们自己封装一些,方法如下 外部自定义该组件的快捷内容 export const getPickerOptions () > {cons…...
二百八十二、ClickHouse——删除Linux中的ClickHouse
一、目的 由于ClickHosue的库表发生变化,需要删除原有的表结构数据,才能直接把脚本里文件重新安装 二、删除步骤 1、关闭ClickHouse服务 systemctl stop clickhouse-server 2、卸载ClickHouse软件包 sudo yum remove clickhouse-server clickhouse…...
c++ 命名空间使用规则
之前一直没搞懂为什么c 用了using namespace std;就能直接调用内部的类,直接调用内部函数 今天试着实现了一下: #include <iostream>// 命名空间 namespace mp{ class point{public: // 构造函数point(int x 0, int y 0) : x(x), y(y) {}//…...
从 ELK Stack 到简单 — Elastic Cloud Serverless 上的 Elastic 可观察性
作者:来自 Elastic Bahubali Shetti, Chris DiStasio 宣布 Elastic Cloud Serverless 上的 Elastic Observability 正式发布 — 一款完全托管的可观察性解决方案。 随着组织规模的扩大,一个能够处理分布式云环境的复杂性并提供实时洞察的可观察性解决方…...
Pandas系列|第二期:Pandas中的数据结构
1.Pandas中的数据结构:Series和DataFrame Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。 Series 是一…...
Hadoop中MapReduce过程中Shuffle过程实现自定义排序
文章目录 Hadoop中MapReduce过程中Shuffle过程实现自定义排序一、引言二、实现WritableComparable接口1、自定义Key类 三、使用Job.setSortComparatorClass方法2、设置自定义排序器3、自定义排序器类 四、使用示例五、总结 Hadoop中MapReduce过程中Shuffle过程实现自定义排序 一…...
数位dp-acwing
题目:Windy数 1083. Windy数 - AcWing题库 分析 不能有前导0,初始化的时候需要有前导0,因为除了最高位数其他位数可以。 windy : 2 5 1 类似这样的数 第二位与第一位相差3 > 2 分类讨论 : 1. 位数跟 n 同位数 的…...
智慧园区小程序开发制作功能介绍
智慧园区小程序开发制作功能介绍 智慧园区小程序系统作为一款面向园区企业的一站式线上服务平台,可为企业提供数智化的园区办公服务。智慧园区小程序功能介绍 1、园区公告、政策信息查看足不出户掌握最新动态,“园区公告、政策信息”等信息。首页点击对应…...
STM32高级 物联网之Wi-Fi通讯
Wi-Fi基础知识 Wi-Fi由来 Wi-Fi,又称“无线网路”,是Wi-Fi联盟的商标,一个基于IEEE 802.11标准的无线局域网技术。“Wi-Fi”常写作“WiFi”或“Wifi”,但是这些写法并没有被Wi-Fi联盟认可。 Wi-Fi这个术语经常被误以为是指无线保真(Wireless Fidelity),类似历史悠久的…...
LLM预训练recipe — 摘要版
文章核心主题: 本文深入探讨了从零开始进行大型语言模型(LLM)预训练(pretrain)的各个环节,侧重方法论和实践细节,旨在普及预训练过程中的关键步骤、常见问题及避坑技巧,而非技术原理…...
波动理论、传输线和S参数网络
波动理论、传输线和S参数网络 传输线 求解传输线方程 对于传输线模型,我们通常用 R L G C RLGC RLGC 来表示: 其中 R R R 可以表示导体损耗,由于电子流经非理想导体而产生的能量损耗。 G G G 表示介质损耗,由于非理想电介质…...
nginx-1.23.2版本RPM包发布
nginx-1.23.2-0.x86_64.rpm用于CentOS7系统的安装,安装路径与编译安装是同一个路径。安装方法: 将nginx-1.23.2-0.x86_64.rpm上传至目标服务器,执行rpm -ivh nginx-1.23.2-0.x86_64.rpm命令进行安装。 卸载方法: 卸载前先将nginx服…...
如何用WPS AI提高工作效率
对于每位职场人而言,与Word、Excel和PPT打交道几乎成为日常工作中不可或缺的一部分。在办公软件的选择上,国外以Office为代表,而在国内,WPS则是不可忽视的一大选择。当年一代天才程序员求伯君创造了WPS,后面雷军把它装…...
LabVIEW应用在工业车间
LabVIEW作为一种图形化编程语言,以其强大的数据采集和硬件集成功能广泛应用于工业自动化领域。在工业车间中,LabVIEW不仅能够实现快速开发,还能通过灵活的硬件接口和直观的用户界面提升生产效率和设备管理水平。尽管其高成本和初期学习门槛可…...
Elasticsearch:normalizer
一、概述 Elastic normalizer是Elasticsearch中用于处理keyword类型字段的一种工具,主要用于对字段进行规范化处理,确保在索引和查询时保持一致性。 Normalizer与analyzer类似,都是对字段进行处理,但normalizer不会对字段进…...
动态规划子序列问题系列一>等差序列划分II
题目: 解析: 1.状态表示: 2.状态转移方程: 这里注意有个优化 3.初始化: 4.填表顺序: 5.返回值: 返回dp表总和 代码: public int numberOfArithmeticSlices(int[] nums) {in…...
web vue 项目 Docker化部署
Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段: 构建阶段(Build Stage):…...
智慧医疗能源事业线深度画像分析(上)
引言 医疗行业作为现代社会的关键基础设施,其能源消耗与环境影响正日益受到关注。随着全球"双碳"目标的推进和可持续发展理念的深入,智慧医疗能源事业线应运而生,致力于通过创新技术与管理方案,重构医疗领域的能源使用模式。这一事业线融合了能源管理、可持续发…...
聊聊 Pulsar:Producer 源码解析
一、前言 Apache Pulsar 是一个企业级的开源分布式消息传递平台,以其高性能、可扩展性和存储计算分离架构在消息队列和流处理领域独树一帜。在 Pulsar 的核心架构中,Producer(生产者) 是连接客户端应用与消息队列的第一步。生产者…...
【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现(服务端执行命令请求的过程 - 初始化服务器)
服务端执行命令请求的过程 【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生 初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...
新能源汽车智慧充电桩管理方案:新能源充电桩散热问题及消防安全监管方案
随着新能源汽车的快速普及,充电桩作为核心配套设施,其安全性与可靠性备受关注。然而,在高温、高负荷运行环境下,充电桩的散热问题与消防安全隐患日益凸显,成为制约行业发展的关键瓶颈。 如何通过智慧化管理手段优化散…...
return this;返回的是谁
一个审批系统的示例来演示责任链模式的实现。假设公司需要处理不同金额的采购申请,不同级别的经理有不同的审批权限: // 抽象处理者:审批者 abstract class Approver {protected Approver successor; // 下一个处理者// 设置下一个处理者pub…...
Git常用命令完全指南:从入门到精通
Git常用命令完全指南:从入门到精通 一、基础配置命令 1. 用户信息配置 # 设置全局用户名 git config --global user.name "你的名字"# 设置全局邮箱 git config --global user.email "你的邮箱example.com"# 查看所有配置 git config --list…...
AI语音助手的Python实现
引言 语音助手(如小爱同学、Siri)通过语音识别、自然语言处理(NLP)和语音合成技术,为用户提供直观、高效的交互体验。随着人工智能的普及,Python开发者可以利用开源库和AI模型,快速构建自定义语音助手。本文由浅入深,详细介绍如何使用Python开发AI语音助手,涵盖基础功…...
MyBatis中关于缓存的理解
MyBatis缓存 MyBatis系统当中默认定义两级缓存:一级缓存、二级缓存 默认情况下,只有一级缓存开启(sqlSession级别的缓存)二级缓存需要手动开启配置,需要局域namespace级别的缓存 一级缓存(本地缓存&#…...
Java 与 MySQL 性能优化:MySQL 慢 SQL 诊断与分析方法详解
文章目录 一、开启慢查询日志,定位耗时SQL1.1 查看慢查询日志是否开启1.2 临时开启慢查询日志1.3 永久开启慢查询日志1.4 分析慢查询日志 二、使用EXPLAIN分析SQL执行计划2.1 EXPLAIN的基本使用2.2 EXPLAIN分析案例2.3 根据EXPLAIN结果优化SQL 三、使用SHOW PROFILE…...
