当前位置: 首页 > article >正文

【研发类-AI和ML开发Skills】advanced-evaluation 技能

本技能用于实现LLM作为评判者的生产级评估技术。当用户要求实现LLM-as-judge、比较模型输出、创建评估标准、缓解评估偏差或提及直接评分、成对比较、位置偏差、评估管道或自动化质量评估时应使用此技能。技能概述advanced-evaluation 技能涵盖了使用LLM作为评判者评估LLM输出的生产级技术。它综合了学术论文、行业实践和实际实施经验的研究成果转化为构建可靠评估系统的可操作模式。核心洞察LLM-as-a-Judge不是单一技术而是一系列方法每种方法适用于不同的评估场景。选择正确的方法并缓解已知偏差是本技能培养的核心能力。下载地址https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/advanced-evaluation主要功能直接评分Direct Scoring单个LLM在定义的量表上对一个响应进行评分适用于客观标准事实准确性、指令遵循、毒性检测成对比较Pairwise ComparisonLLM比较两个响应并选择更好的一个适用于主观偏好语气、风格、说服力偏差缓解识别并缓解LLM评判者的系统性偏差包括位置偏差、长度偏差、自我增强偏差、冗长偏差、权威偏差评估标准生成创建明确定义的评估标准将评估方差降低40-60%评估管道设计构建多层生产级评估系统指标选择框架根据评估任务结构选择合适的指标触发条件在以下情况下应该调用此技能:构建LLM输出的自动化评估管道比较多个模型响应以选择最佳响应在评估团队中建立一致的质量标准调试显示不一致结果的评估系统为提示或模型更改设计A/B测试为人工或自动化评估创建标准分析自动化与人工判断之间的相关性用户提及实现LLM-as-judge、比较模型输出、创建评估标准、缓解评估偏差用户提及直接评分、成对比较、位置偏差、评估管道或自动化质量评估使用场景场景1构建自动化评估管道当需要为LLM输出建立自动化质量评估系统时使用本技能设计多层评估管道包括标准加载、主要评分、偏差缓解和置信度评分。场景2模型输出比较当需要比较多个模型的响应以选择最佳响应时使用成对比较方法并通过位置交换来缓解位置偏差。场景3创建评估标准当需要为人工或自动化评估创建一致的评分标准时使用评估标准生成功能创建包含级别描述、特征、示例和边缘情况指导的标准。场景4调试评估系统当评估系统显示不一致结果时使用偏差识别和缓解技术诊断问题并通过置信度校准提高评估可靠性。处理过程1. 评估方法选择根据评估任务结构选择合适的评估方法直接评分适用于客观标准事实准确性、指令遵循、格式合规性成对比较适用于偏好或质量判断语气、风格、说服力、创造力参考评估适用于摘要与源比较、翻译与参考比较2. 直接评分实现直接评分需要三个组件明确的标准、校准的量表和结构化输出格式。标准定义名称、描述、权重量表校准1-3量表最低认知负荷、1-5量表标准Likert、1-10量表高粒度但难以校准提示结构任务描述、原始提示、响应、标准、指令、输出格式思维链要求所有评分提示必须在评分前要求理由研究显示这可将可靠性提高15-25%3. 成对比较实现成对比较在偏好评估中本质上更可靠但需要偏差缓解。位置偏差缓解协议第一轮A在前B在后、第二轮B在前A在后、一致性检查、最终裁决置信度校准两次通过一致时置信度为平均置信度不一致时置信度为0.5裁决为TIE4. 评估标准生成明确定义的评估标准可将评估方差降低40-60%。级别描述每个分数级别的明确边界特征定义每个级别的可观察特征示例每个级别的代表性文本可选但有价值边缘情况模糊情况的指导评分指南一致应用的一般原则5. 偏差识别与缓解LLM评判者表现出必须主动缓解的系统性偏差位置偏差第一位置的响应在成对比较中获得优待。缓解交换位置评估两次使用多数投票或一致性检查长度偏差较长的响应被评为更高无论质量如何。缓解明确提示忽略长度长度标准化评分自我增强偏差模型对自己输出的评分更高。缓解使用不同模型进行生成和评估冗长偏差详细解释获得更高分数即使不必要。缓解特定标准标准惩罚无关细节权威偏差自信、权威的语气被评为更高无论准确性如何。缓解要求证据引用事实核查层输入要求使用此技能时,用户需要提供:待评估的LLM响应原始提示Prompt评估标准可选如未提供将生成评估量表可选默认1-5评估方法偏好直接评分或成对比较领域特定要求可选输出说明技能将提供:结构化评分结果JSON格式每个标准的分数和理由证据引用改进建议置信度分数位置一致性分析成对比较评估标准文档如需要生成使用示例示例1直接评分评估准确性{criterion: Factual Accuracy,score: 5,evidence: [Correctly identifies axial tilt as primary cause,Correctly explains differential sunlight by hemisphere,No factual errors present],justification: Response accurately explains the cause of seasons with correct scientific reasoning. Both the axial tilt and its effect on sunlight distribution are correctly described.,improvement: Could add the specific tilt angle (23.5°) for completeness.}示例2成对比较与位置交换{winner: B,confidence: 0.7,positionConsistency: {consistent: true,firstPassWinner: B,secondPassWinner: B}}最佳实践始终在评分前要求理由- 思维链提示可将可靠性提高15-25%始终在成对比较中交换位置- 单次比较会被位置偏差破坏将量表粒度与标准特异性匹配- 没有详细级别描述不要使用1-10量表分离客观和主观标准- 客观使用直接评分主观使用成对比较包含置信度分数- 校准到位置一致性和证据强度明确定义边缘情况- 模糊情况会导致最大的评估方差使用领域特定标准- 通用标准产生通用不太有用的评估根据人工判断验证- 自动化评估只有与人工评估相关时才有价值监控系统性偏差- 按标准、响应类型、模型跟踪分歧模式为迭代设计- 评估系统通过反馈循环改进常见反模式反模式没有理由的评分问题评分缺乏基础难以调试或改进解决方案始终在评分前要求基于证据的理由反模式单次成对比较问题位置偏差破坏结果解决方案始终交换位置并检查一致性反模式过载标准问题测量多个事物的标准不可靠解决方案一个标准 一个可测量方面反模式缺少边缘情况指导问题评估者对模糊情况的处理不一致解决方案在标准中包含边缘情况及明确指导反模式忽略置信度校准问题高置信度的错误判断比低置信度更糟糕解决方案校准置信度到位置一致性和证据强度指标选择框架任务类型主要指标次要指标二元分类通过/失败Recall, Precision, F1Cohens κ有序量表1-5评分Spearmans ρ, Kendalls τCohens κ (加权)成对偏好一致性率, 位置一致性置信度校准多标签Macro-F1, Micro-F1每标签precision/recall相关技能context-fundamentals- 评估提示需要有效的上下文结构tool-design- 评估工具需要正确的模式和错误处理context-optimization- 评估提示可以优化令牌效率evaluation基础 - 本技能扩展了基础评估概念参考资源Eugene Yan: Evaluating the Effectiveness of LLM-EvaluatorsJudging LLM-as-a-Judge (Zheng et al., 2023)G-Eval: NLG Evaluation using GPT-4 (Liu et al., 2023)Large Language Models are not Fair Evaluators (Wang et al., 2023)技能元数据创建日期2024-12-24最后更新2024-12-24作者Muratcan Koylan版本1.0.0风险等级safe来源community限制说明仅当任务明确匹配上述范围时使用此技能不要将输出视为环境特定验证、测试或专家评审的替代品如果缺少所需输入、权限、安全边界或成功标准请停止并请求澄清

相关文章:

【研发类-AI和ML开发Skills】advanced-evaluation 技能

本技能用于实现LLM作为评判者的生产级评估技术。当用户要求"实现LLM-as-judge"、"比较模型输出"、"创建评估标准"、"缓解评估偏差",或提及直接评分、成对比较、位置偏差、评估管道或自动化质量评估时,应使用此技…...

别再死记硬背了!用这套‘一声二声’口诀,5分钟搞定26个字母自然拼读发音

5分钟掌握英语自然拼读的黄金法则:声调定位法解密 当孩子第一次面对英语单词时,字母与发音之间的神秘联系往往成为最大的障碍。传统的逐个字母记忆法不仅效率低下,更让学习者陷入"学完就忘"的恶性循环。经过多年教学实践&#xff0…...

DolphinDB分布式表:创建与管理

目录摘要一、分布式表概述1.1 什么是分布式表1.2 分布式表特点1.3 分布式表 vs 内存表二、创建分布式表2.1 创建分布式数据库2.2 创建分布式表2.3 创建维度表三、数据写入3.1 批量写入3.2 并行写入3.3 流式写入四、数据查询4.1 基本查询4.2 分区裁剪4.3 聚合查询4.4 分布式计算…...

VOFA+不止看波形:手把手教你搭建PID算法自动化测试与数据记录平台

VOFA实战:构建PID算法自动化测试与数据分析工作流 调试PID控制器就像在黑暗房间里寻找电灯开关——你永远不知道下一次调整会带来更亮的光明还是彻底的黑暗。传统的手动调参方式不仅效率低下,更难以系统性地评估参数组合对系统性能的影响。本文将带你用V…...

YOLOV8语义分割注意力机制改进:全网首发--使用ACA跨分支注意力增强特征表达(方案3)

1. 工程简介 🚀 本工程基于 Ultralytics 框架扩展,面向语义分割与 YOLO 系列模型改进实验。核心特点是通过切换 yaml 配置文件,即可快速完成不同网络结构的训练、对比与验证,无需为每个模型单独编写训练脚本。 当前已支持的主要模型家族 🧩 语义分割模型:UNet、UNet+…...

Python文件自动分类整理工具:基于规则引擎与插件化架构实现

1. 项目概述:告别混乱,让文件管理自动化如果你和我一样,每天都要和电脑里堆积如山的文件打交道,那么“文件管理”这四个字,大概率会引发一阵头疼。下载文件夹里塞满了从网页上随手保存的图片、文档、压缩包&#xff0c…...

NVIDIA Profile Inspector 终极指南:3个步骤解锁显卡隐藏性能

NVIDIA Profile Inspector 终极指南:3个步骤解锁显卡隐藏性能 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 如果你正在寻找一种方法来深度优化NVIDIA显卡的游戏性能,那么NVIDI…...

Nintendo Switch大气层1.7.1:解锁游戏主机无限潜能的完整指南

Nintendo Switch大气层1.7.1:解锁游戏主机无限潜能的完整指南 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable 想让你手中的Switch游戏机拥有更多神奇功能吗?&#x…...

文本生成结构化数据:rookie_text2data项目解析与应用实践

1. 项目概述与核心价值最近在数据科学和机器学习社区里,一个名为jaguarliuu/rookie_text2data的项目引起了我的注意。乍一看这个标题,你可能会觉得它又是一个“文本转数据”的工具,但当我深入探究其代码和设计理念后,发现它远不止…...

PDF转Markdown工具:原理、实现与应用实践

1. 项目概述:从PDF到Markdown的优雅转换如果你经常需要处理技术文档、论文或者从网上下载的电子书,那你一定对PDF这种格式又爱又恨。爱的是它格式稳定,在任何设备上打开都一个样;恨的是它内容封闭,想从中提取文字、代码…...

QTTabBar深度解析:Windows资源管理器标签化扩展的架构设计与实战指南

QTTabBar深度解析:Windows资源管理器标签化扩展的架构设计与实战指南 【免费下载链接】qttabbar QTTabBar is a small tool that allows you to use tab multi label function in Windows Explorer. https://www.yuque.com/indiff/qttabbar 项目地址: https://git…...

CubeMX配置FreeRTOS的隐藏坑点:为什么你的HAL库时钟源必须改?

CubeMX配置FreeRTOS的隐藏坑点:为什么你的HAL库时钟源必须改? 在STM32开发中,CubeMX和FreeRTOS的组合堪称黄金搭档,但当你第一次在CubeMX中启用FreeRTOS时,可能会被一个黄色警告吓到:"建议为HAL库选择…...

UniQL框架:LLM模型边缘端高效压缩与部署实战

1. 项目背景与核心价值在大型语言模型(LLM)应用爆发式增长的今天,模型部署的硬件门槛成为制约技术落地的关键瓶颈。UniQL框架的诞生直击这一痛点——它通过创新的压缩技术,让参数量庞大的LLM模型能够在手机、嵌入式设备等边缘端高…...

老设备改造实战:用一台闲置的西门子200PLC+步进驱动器,给老旧设备加装简易定位功能

老设备改造实战:用闲置西门子200PLC步进驱动器实现简易定位功能 在工业车间里,那些服役多年的老设备往往因为缺乏自动化功能而逐渐被边缘化。但事实上,通过巧妙的改造,这些"老伙计"完全可以焕发新生。本文将分享一个真实…...

CVAT 3D标注实战:手把手教你用长方体标注点云数据(附Velodyne格式处理)

CVAT 3D标注实战:从Velodyne点云到精准长方体标注的全流程解析 在自动驾驶和机器人感知领域,3D点云数据的精确标注是模型训练的基础环节。CVAT作为开源的计算机视觉标注工具,其3D标注功能为处理激光雷达数据提供了专业解决方案。本文将深入探…...

2026反爬终极防线:JA4+指纹检测全解析,90%爬虫的致命克星

在爬虫与反爬的永恒对抗中,技术的迭代速度永远超出想象。从最基础的IP封禁、User-Agent校验,到Cookie追踪、行为分析,再到曾经不可一世的JA3 TLS指纹检测,每一代反爬技术的出现都曾让大批爬虫失效。 进入2026年,一种名…...

AI技能包安全审查:静态分析与启发式规则实践

1. 项目概述:一个轻量级的AI技能包安全审查工具最近在折腾一些AI Agent相关的项目,比如OpenClaw这类开源框架,发现一个挺有意思的痛点:当你需要给AI系统“安装”或“上传”新的技能(Skill)时,这…...

工业级实战:基于YOLOv11的设备指示灯与按键状态识别全流程

在工业自动化领域,设备状态点检是保障生产安全、预防设备故障的核心环节。传统的人工点检方式存在效率低、主观性强、漏检率高、无法24小时连续作业等诸多痛点,尤其在高危、高噪音、高辐射的恶劣环境下,人工点检更是面临巨大的安全风险。 随着…...

Claude Skills深度解析:如何通过技能包将AI助手升级为专业生产力工具

1. 项目概述:Claude Skills 是什么,以及它能解决什么问题如果你和我一样,日常重度依赖 Claude 这类 AI 助手来处理工作流,那你肯定也遇到过类似的瓶颈:Claude 很聪明,但有时候它处理特定、复杂任务的方式&a…...

Claude Code插件生态中心Build with Claude:一站式AI编程助手增强平台

1. 项目概述:Claude Code的插件生态中心如果你和我一样,日常开发重度依赖Claude Code,那你肯定遇到过这样的场景:想找个能自动生成符合规范的Git提交信息的命令,或者需要一个精通Python性能优化的专家级Agent来审查代码…...

TTRV方法:视觉语言模型的测试时强化学习技术

1. 项目概述TTRV(Test-Time Reinforcement for Vision-language models)方法是近期在视觉语言模型领域兴起的一种创新性技术思路。简单来说,它让模型在测试阶段也能持续学习和优化,就像人类在实际应用中不断调整自己的判断一样。我…...

LLM智能体决策中的不确定性量化与优化实践

1. 不确定性量化:智能体决策的基石问题当大型语言模型(LLM)作为智能体的"大脑"参与决策时,其输出的不确定性就像天气预报中的降水概率——知道"明天下雨概率70%"比单纯判断"会下雨"包含更多决策价值…...

Perfex CRM技能管理模块:实现基于员工能力的智能任务分配

1. 项目概述与核心价值如果你正在使用Perfex CRM,并且感觉它的默认界面或某些功能模块用起来不够顺手,或者想为你的团队定制一些独特的业务逻辑,那么你很可能已经接触过“技能”这个概念。今天要聊的这个项目——yasserstudio/perfex-crm-ski…...

微生物组多组学分析Pipeline崩溃于R 4.5?——紧急排查清单(内存泄漏定位/Seurat v5冲突/AnVIL云环境适配失败)

更多请点击: https://intelliparadigm.com 第一章:微生物组多组学分析Pipeline在R 4.5环境下的系统性崩溃现象 R 4.5发布后,大量依赖Bioconductor 3.19及旧版metagenomeSeq、phyloseq、MultiAssayExperiment的微生物组多组学Pipeline出现不…...

Harness大爆发!揭秘连接LLM与外界的“超级引擎”

文章深入探讨了新兴概念Harness在智能体(Agent)构建中的核心作用。Harness被视为连接大语言模型(LLM)与外部世界的“运行支撑系统”,是一套将不可控的通用模型转化为可靠、可审计、可扩展的生产级智能体的外部基础设施…...

OpenClaw出圈背后:AI的“养虾”时代,结构化信息与动态工作流将如何重塑未来?

OpenClaw的火爆反映了AI领域对结构化信息价值的重视。文章指出,将资料结构化处理能提升AI效果,Skill间结构关联可搭建知识体系。同时,工作流正从固定脚本模式向AI调度、脚本执行的动态模式演变,AI负责调度与异常处理,脚…...

手把手教你用示波器实测LVDS/CML信号:从波形解读到故障排查(附实测图)

手把手教你用示波器实测LVDS/CML信号:从波形解读到故障排查(附实测图) 在高速数字电路设计中,LVDS(低电压差分信号)和CML(电流模式逻辑)是两种广泛应用的电平标准。它们凭借低功耗、…...

别再死记硬背公式了!用Python手动画出5G NR Type I码本的波束方向图

用Python动态绘制5G NR Type I码本波束方向图:从公式到可视化实战 在5G NR物理层设计中,码本(codebook)是实现高效波束赋形的核心工具。Type I码本作为基础方案,其参数配置直接影响着波束的指向性和覆盖范围。传统学习…...

开源机器人抓取系统OpenClaw Atlas:从硬件设计到算法实现全解析

1. 项目概述:当机械臂遇上开源AI大脑最近在机器人圈子里,一个名为“OpenClaw Atlas”的项目引起了我的注意。这个项目由开发者 Joshua Warren 在 GitHub 上开源,核心是将一个名为“OpenClaw”的机械爪,与一个名为“Atlas”的机器人…...

LLM应用的提示词版本管理2026:像管代码一样管Prompt

Prompt也是需要版本管理的"代码" 绝大多数团队的Prompt管理现状是这样的:- 散落在各种Python文件的字符串常量里- 粘贴在Notion或飞书文档的某个页面上- 保存在某个工程师的本地文件夹里- 没有人知道当前生产环境用的是哪个版本当Prompt出了问题&#xf…...