当前位置: 首页 > article >正文

ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖

让 GPT-4 给两篇文章打分A 拿了 4 分、B 拿了 3 分。按常理 A 应该比 B 好吧但换成成对比较同一个模型却说 B 更好。更离谱的情况也有——A B C A 的石头剪刀布循环连传递性都守不住。这事还真不少见。北京大学、清华大学等八所高校的研究团队在ICLR 2026上提出了TrustJudge一个基于概率的评估框架。核心想法不复杂与其让模型吐一个离散分数了事不如把它内部的完整概率分布也用上。不用额外训练评估不一致性就降了一大截准确率还跟着涨了。论文链接https://arxiv.org/abs/2509.21117开源代码https://github.com/TrustJudge/TrustJudge01问题有多严重用大模型给其他模型当裁判已经是评估界的标配——MT-Bench 用单项评分AlpacaEval 用成对比较RLHF/GRPO 做偏好标注。但这个裁判的两种考法给出的结论经常打架。TrustJudge 的作者做了系统测量把问题量化成了两类评分-比较不一致Score-Comparison Inconsistency打分时 A 比 B 高拉到一起比较时又说 B 好。用 Llama-3.1-70B 测试不一致率 23.32%——差不多每四次评估就矛盾一次。成对传递性不一致Pairwise Transitivity Inconsistency成对比较出现循环偏好A B C A或者等价矛盾A B C 但 A ≠ C。Llama-3.1-70B 上的不一致率是 15.22%。图1左图展示不同评分策略下的平均熵右图展示成对比较中循环传递性与不等式传递性错误的分布图1右成对比较中不同类型传递性错误的分布图1左图是 Llama-3 系列在 1,200 条指令上的评分熵分布右图是成对比较中两种传递性错误的占比。02问题出在哪数据摆出来了接下来的问题是这两类不一致的根源是什么作者从信息论的角度做了归因。离散评分丢信息5 分制打分本质上是把模型心里的连续判断硬塞进几个整数格子里。比方说两条回复质量分别是 3.8 和 4.25 分制下都成了 4 分打分看不出差别。但拉到一起做比较模型是感知得到这 0.4 差距的——矛盾就这么来了。作者还在理论上证了一条存在两个不同的概率分布离散评分下完全相同但信息熵不同。换句话说离散化在结构上就一定会丢东西。模糊平局带来传递性问题做成对比较时模型对质量相近的回复经常给平局。但平局和平局不一样——有的是模型真觉得半斤八两有的纯粹是拿不准。这些含糊的平局在不同组合里不一致地冒出来A B、B C、但 A ≠ C 的情况就出现了。03TrustJudge 怎么做的思路说白了就一句话别只取模型吐出的那个离散答案把背后的概率分布也用起来。框架分两块分布敏感评分Distribution-Sensitive Scoring传统做法是让模型输出一个分数然后直接采纳。TrustJudge 不这样干把评分尺度从 5 分拉到 100 分先把粒度给够对所有候选分数的 logits 做 softmax得到一个完整的概率分布算加权期望作为最终分数效果就是原来 5 分制下都是 4 分的两条回复现在一个 3.82、一个 4.17差异保住了。跟 G-Eval 的区别在于TrustJudge 用 softmax 归一化确保概率和严格为 1不会被非评分 token 干扰。似然感知聚合Likelihood-Aware Aggregation成对比较这边TrustJudge 给了两种策略来打破平局策略一基于困惑度PPL-Based遇到平局时分别算 A 在前和 B 在前两种排列的困惑度选困惑度低的那个方向的结果——模型读起来更通顺的排列判断往往更靠谱策略二双向概率聚合把两个方向的偏好概率加起来取置信度最高的由于是两个方向聚合位置偏差position bias也在这个过程中被抵消了。04理论上也站得住上面的方法直觉上说得通但有没有更严格的保证作者给出了形式化的理论证明定理 1信息保持存在两个不同的概率分布离散评分无法区分但分布敏感评分可以。命题 1不确定性降低当裁判模型高度模糊时基于困惑度得到的置信分布的熵严格低于原始判断的最大熵一句话概括信息保留得更多了判断的不确定性降下去了。05实验结果实验数据来自 MT-Bench80题和 ArenaHard500题裁判模型覆盖 Llama-3 系列3B/8B/70B和 GPT-4o。主实验模型评分-比较不一致 CR (%)传递性不一致 NTR_{k5} (%)成对精确匹配 (%)Baseline →OursBaseline →OursBaseline →OursLlama-3.2-3B36.65 →29.1554.69 →17.7672.06 →78.91Llama-3.1-8B29.73 →23.7537.03 →8.4675.67 →81.68Llama-3.1-70B23.32 →14.8915.22 →4.4080.42 →81.61GPT-4o27.95 →22.6024.33 →6.0178.67 →81.51表1所有模型上两类不一致性都明显下降精确匹配率同步上升。其中 Llama-3.2-3B 的传递性不一致从 54.69% 直接降到 17.76%落差接近 37 个点。图2不同容忍度δ下的不一致性变化图2右不同容忍度δ下的传递性不一致变化图2不同容忍度 δ 下的不一致性对比。TrustJudge方块/三角在各个设置下都低于 Baseline虚线。消融实验为了搞清楚每个组件的贡献作者做了逐项消融这里额外加入了 GPT-3.5-Turbo 作为参考组件L-3.1-8BL-3.1-70BG-3.5-TurboG-4o单项评分 CR (%)5-scale Baseline29.7323.3224.3527.95 Softmax26.1017.0824.0325.50 100-scale24.5417.9422.1024.01成对比较 NTR_{k4} (%)Baseline20.267.2314.0111.70 Likelihood3.791.946.262.83 PPL-Based6.562.184.804.48表2逐个拆开看softmax 归一化和 100 分制对评分不一致各有贡献似然聚合和 PPL 方法对传递性不一致效果都很明显似然聚合整体略优。06换个模型还管用吗上面的主实验只用了 Llama-3 和 GPT-4o。一个自然的问题是换成别的架构还有效吗管用。作者把实验扩展到Qwen-2.57B/14B/32B、Gemma-22B/9B/27B、Llama-33B/8B/70B、GPT四个家族、共 12 个变体。图3跨架构泛化实验结果图3右跨架构传递性不一致的泛化结果图3四个模型家族上的不一致性对比。左图为评分-比较不一致右图为传递性不一致TrustJudge 在所有架构上都有改善。几个值得注意的点分布敏感评分的效果跟模型架构无关都能降不一致性。加上似然感知聚合后8B 模型的传递性甚至比未使用 TrustJudge 的 70B 模型更好。9B 的 Gemma 比 27B 的 Gemma 不一致性更低——不是越大越好。07推理模型反而更不靠谱一个意外发现专门练过推理能力的模型做评估时反而更容易自相矛盾。模型CR (%)(%)Llama-3.1-8B29.73 →23.7537.03 →8.46DeepSeek-R1-Distill-Llama-8B58.75 →49.2863.98 →18.50DeepSeek-R1 蒸馏版的评分-比较不一致率 58.75%是同参数量 Llama 的将近两倍。看起来在数学数据上做强化训练这件事是以评估能力为代价的。不过 TrustJudge 在这么高的不一致基线上依然有效CR 降了将近 10 个点传递性不一致从 63.98% 压到了 18.50%。08拿来做 Reward 也好使除了评估TrustJudge 还有一个实际用途给强化学习提供奖励信号。作者把它接到GRPOGroup Relative Policy Optimization上训练 Qwen2.5-7B-Instruct训练数据覆盖摘要、数学推理、指令遵循等一共 8,600 条。模型Avg Reward (Baseline协议)Avg Reward (TrustJudge协议)Qwen2.5-7B-Instruct原始0.55210.6114 Baseline Reward 训练0.53770.5980TrustJudge Reward 训练0.57060.6347表3用 Baseline 奖励训练的模型在两种协议下都没超过原始模型反而略降用 TrustJudge 奖励训练的模型两边都涨了。图4GRPO训练过程中的奖励曲线图4训练过程中的奖励变化。TrustJudge 的奖励信号全程高于 Baseline。图5各任务验证集奖励随训练步数的变化图5验证集上各任务的奖励曲线实线是 TrustJudge虚线是 Baseline。改善不是靠单个任务拉的是全面的。道理也好理解评估越一致奖励信号噪声越小模型学得越准。09光提高打分精度够不够看完前面的实验可能会有人问TrustJudge 里面既提高了评分粒度5分→100分又加了概率归一化。那要是我只做前者不做后者行不行图6评分粒度对不一致性的影响图65 分、10 分、100 分三档粒度下的不一致性变化。粒度越高不一致越低但在同一粒度下 TrustJudge虚线始终低于 Baseline实线。结论是提高粒度有帮助但光靠粒度不够。TrustJudge 赢在粒度提升 概率归一化两件事叠加到一起。10小结TrustJudge 做的事情可以用两句话讲清楚离散评分丢信息 → 改用分布敏感评分把概率分布的信息保住模糊平局坏传递性 → 改用似然感知聚合让模糊判定变得清晰实际效果上它不用训练开箱即用跨 Llama、GPT、Qwen、Gemma 四个架构都有效除了做评估接上 GRPO 当奖励信号也能用而且有理论证明兜底。说到底如果我们要让大模型来当裁判总得先确认这个裁判自己别前后矛盾才行。论文标题TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them作者Yidong Wang*, Yunze Song*, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Cunxiang Wang†, Wei Ye†, Shikun Zhang†单位北京大学、清华大学、新加坡国立大学、南京大学、卡内基梅隆大学、西湖大学、东南大学、东京科学大学作者简介本文共同第一作者王一栋北京大学和宋昀泽新加坡国立大学主要从事大语言模型评估与对齐研究。通讯作者叶蔚、张世琨北京大学和王存翔清华大学分别在自然语言处理、软件工程和知识推理等方向有长期积累。团队成员来自北大、清华、南大、NUS、CMU、西湖大学、东南大学、东京科学大学等多所高校长期关注 LLM 可信评估问题。论文链接https://arxiv.org/abs/2509.21117代码链接https://github.com/TrustJudge/TrustJudge

相关文章:

ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖

让 GPT-4 给两篇文章打分,A 拿了 4 分、B 拿了 3 分。按常理 A 应该比 B 好吧?但换成成对比较,同一个模型却说 "B 更好"。更离谱的情况也有——A > B > C > A 的"石头剪刀布"循环,连传递性都守不住。…...

8 个值得收藏的综合类在线工具网站

8 个值得收藏的综合类在线工具网站1. tool.lu:老牌开发者工具箱,胜在稳定tool.lu 是很多开发者都用过的老站。它的优势不在“花哨”,而在于工具体系比较成熟,像代码格式化、压缩、加密解密、时间处理、图片与图标处理这类高频需求…...

SEO_新手入门教程:如何从零开始学习SEO优化

SEO新手入门教程:如何从零开始学习SEO优化 在当今数字化时代,搜索引擎优化(SEO)已成为每一个希望在网络上脱颖而出的网站必不可少的技能。不论你是一个全新的网站主,还是一个希望提升现有网站流量的企业,了…...

微信小程序解包神器:wxappUnpacker 完整使用指南与源码还原技巧

微信小程序解包神器:wxappUnpacker 完整使用指南与源码还原技巧 【免费下载链接】wxappUnpacker 项目地址: https://gitcode.com/gh_mirrors/wxappu/wxappUnpacker 你是否曾经好奇过微信小程序背后的实现原理?或者想要学习优秀小程序的开发技巧却…...

别再傻傻分不清了!微信支付H5、JSAPI、Native三种模式到底怎么选?附服务商模式实战代码

微信支付三大模式深度解析:从技术选型到服务商实战 每次面对微信支付的H5、JSAPI和Native三种模式,不少开发者都会陷入选择困难症。去年我们团队在为一个连锁零售品牌做线上商城升级时,就因为在模式选择上判断失误,导致小程序支付…...

提示词工程精要:从角色设定到边界约束的完整设计框架

设计提示词(Prompt)是决定大语言模型回答质量的关键环节。好的提示词能让模型准确理解意图、输出符合预期的内容;糟糕的提示词则可能导致答非所问、格式混乱甚至“幻觉”。结合本研究的实践经验以及当前提示工程的主流方法,设计提…...

内页SEO优化与网站整体优化的关系是什么_网站内页的图片优化需要注意哪些

内页SEO优化与网站整体优化的关系是什么 在当前竞争激烈的互联网环境中,网站的整体优化和内页SEO优化密不可分。内页SEO优化是提升网站整体排名的关键环节,而网站整体优化则为内页SEO提供了坚实的基础。这两者之间的关系可以从多个方面进行探讨&#xf…...

UniApp安卓端MQTT连接踩坑记:mqtt.js 3.0版本与原生插件到底怎么选?

UniApp安卓端MQTT方案深度对比:从协议适配到性能优化的实战指南 去年接手一个智能家居控制项目时,我曾在mqtt.js和原生插件之间反复横跳。那个凌晨三点还在调试WSS协议的夜晚让我明白——技术选型从来不是非黑即白的选择题。本文将用真实项目经验&#…...

Vue Flow实战:如何为你的AI应用设计一个可嵌套循环的工作流节点?

Vue Flow高级实战:构建支持嵌套循环的AI工作流编辑器 在AI应用开发中,复杂业务流程往往需要可视化编排能力。想象一个场景:当用户输入触发多个条件判断时,系统需要循环执行某些操作直到满足特定条件,同时允许在循环内部…...

从论文到落地:剖析因果U-Net+波束形成在语音增强中的工程化细节与调优心得

因果U-Net与波束形成的工程实践:语音增强从实验室到产品的关键路径 在视频会议成为工作常态的今天,远场语音拾取质量直接决定了沟通效率。传统单通道降噪算法在小型会议室表现尚可,但当麦克风与声源距离超过3米,混响与噪声问题就会…...

别再为S7-200smart子程序里的定时器发愁了,试试这个BGN_ITIME的替代方案

S7-200smart子程序定时器难题的工程级解决方案 在工业自动化项目中,S7-200smart PLC因其性价比优势被广泛使用。但许多工程师在开发带参数子程序时,都会遇到一个令人头疼的限制——无法直接使用定时器指令。这个看似简单的功能缺失,往往导致…...

别再自己写Word转PDF了!用kkFileView 4.0.0开源项目快速搭建一个微服务接口

微服务架构下文档转换的最佳实践:kkFileView 4.0深度整合指南 在当今企业级应用开发中,文档格式转换是一个看似简单却暗藏玄机的技术需求。想象一下这样的场景:你的合同管理系统需要将动态生成的Word文档转换为PDF格式发送给客户,…...

STM32F103C8T6用软件IIC驱动SGP30传感器,手把手教你搞定室内空气质量监测

STM32F103C8T6软件IIC驱动SGP30传感器实战指南 在智能家居和健康监测领域,空气质量检测正成为越来越受关注的技术方向。本文将带你从零开始,使用STM32F103C8T6这款性价比极高的MCU,通过软件模拟I2C接口驱动SGP30空气质量传感器,构…...

告别模型臃肿:手把手教你用vLLM部署NVFP4量化的DeepSeek模型(附完整配置)

实战指南:NVFP4量化DeepSeek模型在vLLM中的高效部署 当你在深夜调试一个70B参数的模型时,服务器内存占用突然从480GB骤降到120GB——这不是魔法,而是NVFP4量化带来的真实效果。作为Blackwell架构引入的革命性4-bit格式,NVFP4正在…...

Firmament (FMT):以模型驱动重塑开源飞控开发范式

1. 为什么我们需要重新思考飞控开发方式 第一次接触无人机飞控开发的朋友,往往会被复杂的代码和调试过程吓到。传统开发模式下,开发者需要手动编写大量C/C代码来实现控制算法,调试时又得反复烧录固件、实地试飞。我见过不少团队花费80%时间在…...

如何用res-downloader轻松抓取全网资源?一站式视频音频下载工具详解

如何用res-downloader轻松抓取全网资源?一站式视频音频下载工具详解 【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader …...

Path of Building:流放之路玩家的终极Build规划指南

Path of Building:流放之路玩家的终极Build规划指南 【免费下载链接】PathOfBuilding Offline build planner for Path of Exile. 项目地址: https://gitcode.com/GitHub_Trending/pa/PathOfBuilding 还在为《流放之路》复杂的天赋树和装备搭配头疼吗&#x…...

第二部分:为什么要引入 Harness?

一个类比:把新手丢进没有文档的项目 想象你是一个刚入职的工程师,被丢进一个没有任何文档的项目里。 没有 README,代码里没有注释,没有人告诉你怎么跑测试,CI 配置文件藏在某个角落里。你能写出好代码吗? 也许能——如果你足够聪明又足够有耐心。但你会花大量时间在&q…...

避坑指南:ROS2+PCL+LOAM建图定位中,点云格式、体素滤波与G2O链接的那些坑

ROS2PCLLOAM实战避坑指南:从点云处理到精准定位的完整解决方案 在机器人自主导航领域,激光SLAM技术凭借其高精度和稳定性成为工业级应用的首选方案。本文将深入剖析ROS2环境下基于PCL和LOAM的建图定位全流程,针对开发者实际遇到的12类典型问…...

第一部分:模型很强,但为什么还是干不好活?

一个真实的失败现场 2025年,某创业公司的技术负责人李明遇到了一件让他困惑的事。 他订阅了 Claude Pro,GPT-4o 的 API key 也有,SWE-bench 排行榜上的数字他比谁都清楚——最强的 coding agent 在 Verified 数据集上已经能拿到 50-60% 的通过率。他觉得时机成熟了,可以放…...

Tacview自定义模型全攻略:从3D建模到实战应用(附F-500案例文件)

Tacview自定义模型全攻略:从3D建模到实战应用(附F-500案例文件) 当你在Tacview中看到那些精准还原的飞行器轨迹时,有没有想过如何将自己的3D模型融入这个强大的分析工具?本文将带你从零开始,完整掌握Tacvie…...

不只是CTF:把攻防世界Reversing题当‘活教材’,提升你的Linux二进制分析实战力

从CTF到实战:用x64Elf-100案例解锁Linux逆向工程核心技能 逆向工程常被视为黑客的专属领域,但它的价值远不止于破解几个CTF题目。当一位金融科技公司的安全工程师通过逆向分析阻止了针对交易系统的0day攻击,或当一位恶意软件研究员仅凭二进制…...

高级编程 第二节:生成器和迭代器

一、迭代器和可迭代对象 1、迭代器对象 定义: 类中定义了__iter__和__next__函数 __iter__函数返回self,也就是自身 __next__函数返回下一个数据,如果没有数据了,则要返回StopIteration的异常 满足这三个条件的对象,就是迭代器对象。 class MyRange():def __init__(…...

高级编程 第一节:Python中的时间处理

一、时间标准库:time 1、time库介绍 time库是Python中处理时间的标准库,提供获取系统时间并格式化输出功能,但是功能上,没有datatime库强大。 time库中相关概念: 时间戳:格林威治时间1970年01月01日00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数,…...

《SpaceOS:空间操作系统白皮书(终极封神版)》——从“像素认知”到“空间计算”,构建现实世界的智能操作体系

🚀《SpaceOS:空间操作系统白皮书(终极封神版)》——从“像素认知”到“空间计算”,构建现实世界的智能操作体系(镜像视界(浙江)科技有限公司原创技术体系)🔴 …...

智慧车站三维空间智能管控系统白皮书——构建“全域感知 × 连续认知 × 动态调度”的交通枢纽空间智能中枢

智慧车站三维空间智能管控系统白皮书——构建“全域感知 连续认知 动态调度”的交通枢纽空间智能中枢(镜像视界(浙江)科技有限公司空间计算技术体系支撑)一、项目背景:车站正在成为“超复杂空间系统”现代车站&#…...

智慧机场三维空间智能中枢系统白皮书——构建“全域感知 × 空间认知 × 智能调度”的下一代机场操作平台

智慧机场三维空间智能中枢系统白皮书——构建“全域感知 空间认知 智能调度”的下一代机场操作平台(镜像视界(浙江)科技有限公司空间计算技术体系支撑)一、项目背景:机场正在进入“复杂系统时代”现代机场已从单一交…...

【Matter】Ubuntu 22.04下chip-tool编译实战:避坑指南与代理配置详解

1. Ubuntu 22.04环境准备与基础配置 在开始编译Matter的chip-tool之前,我们需要先准备好Ubuntu 22.04的开发环境。这个环节虽然基础,但往往决定了后续编译过程的顺利程度。我曾在多个项目中验证过,一个干净的Ubuntu 22.04系统是最稳定的编译环…...

手把手教你用Docker-Compose安装Dify社区版(含国内镜像加速配置)

手把手教你用Docker-Compose安装Dify社区版(含国内镜像加速配置) 如果你正在探索大模型和Agent技术,想在本地搭建一个开发环境,Dify社区版是个不错的选择。作为一个开源的AI应用开发平台,Dify让开发者能够快速构建和部…...

SQLite Developer实战:如何高效管理Android开发中的.db文件(含数据导入导出技巧)

SQLite Developer实战:高效管理Android开发中的.db文件 在移动应用开发领域,数据存储始终是核心需求之一。对于Android开发者而言,SQLite作为轻量级的关系型数据库,因其零配置、无服务器特性而成为本地存储的首选方案。然而&…...