当前位置：首页 > article >正文

【研发类-AI和ML开发Skills】advanced-evaluation 技能

article 2026/5/6 0:54:23

本技能用于实现LLM作为评判者的生产级评估技术。当用户要求实现LLM-as-judge、比较模型输出、创建评估标准、缓解评估偏差或提及直接评分、成对比较、位置偏差、评估管道或自动化质量评估时应使用此技能。技能概述advanced-evaluation 技能涵盖了使用LLM作为评判者评估LLM输出的生产级技术。它综合了学术论文、行业实践和实际实施经验的研究成果转化为构建可靠评估系统的可操作模式。核心洞察LLM-as-a-Judge不是单一技术而是一系列方法每种方法适用于不同的评估场景。选择正确的方法并缓解已知偏差是本技能培养的核心能力。下载地址https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/advanced-evaluation主要功能直接评分Direct Scoring单个LLM在定义的量表上对一个响应进行评分适用于客观标准事实准确性、指令遵循、毒性检测成对比较Pairwise ComparisonLLM比较两个响应并选择更好的一个适用于主观偏好语气、风格、说服力偏差缓解识别并缓解LLM评判者的系统性偏差包括位置偏差、长度偏差、自我增强偏差、冗长偏差、权威偏差评估标准生成创建明确定义的评估标准将评估方差降低40-60%评估管道设计构建多层生产级评估系统指标选择框架根据评估任务结构选择合适的指标触发条件在以下情况下应该调用此技能:构建LLM输出的自动化评估管道比较多个模型响应以选择最佳响应在评估团队中建立一致的质量标准调试显示不一致结果的评估系统为提示或模型更改设计A/B测试为人工或自动化评估创建标准分析自动化与人工判断之间的相关性用户提及实现LLM-as-judge、比较模型输出、创建评估标准、缓解评估偏差用户提及直接评分、成对比较、位置偏差、评估管道或自动化质量评估使用场景场景1构建自动化评估管道当需要为LLM输出建立自动化质量评估系统时使用本技能设计多层评估管道包括标准加载、主要评分、偏差缓解和置信度评分。场景2模型输出比较当需要比较多个模型的响应以选择最佳响应时使用成对比较方法并通过位置交换来缓解位置偏差。场景3创建评估标准当需要为人工或自动化评估创建一致的评分标准时使用评估标准生成功能创建包含级别描述、特征、示例和边缘情况指导的标准。场景4调试评估系统当评估系统显示不一致结果时使用偏差识别和缓解技术诊断问题并通过置信度校准提高评估可靠性。处理过程1. 评估方法选择根据评估任务结构选择合适的评估方法直接评分适用于客观标准事实准确性、指令遵循、格式合规性成对比较适用于偏好或质量判断语气、风格、说服力、创造力参考评估适用于摘要与源比较、翻译与参考比较2. 直接评分实现直接评分需要三个组件明确的标准、校准的量表和结构化输出格式。标准定义名称、描述、权重量表校准1-3量表最低认知负荷、1-5量表标准Likert、1-10量表高粒度但难以校准提示结构任务描述、原始提示、响应、标准、指令、输出格式思维链要求所有评分提示必须在评分前要求理由研究显示这可将可靠性提高15-25%3. 成对比较实现成对比较在偏好评估中本质上更可靠但需要偏差缓解。位置偏差缓解协议第一轮A在前B在后、第二轮B在前A在后、一致性检查、最终裁决置信度校准两次通过一致时置信度为平均置信度不一致时置信度为0.5裁决为TIE4. 评估标准生成明确定义的评估标准可将评估方差降低40-60%。级别描述每个分数级别的明确边界特征定义每个级别的可观察特征示例每个级别的代表性文本可选但有价值边缘情况模糊情况的指导评分指南一致应用的一般原则5. 偏差识别与缓解LLM评判者表现出必须主动缓解的系统性偏差位置偏差第一位置的响应在成对比较中获得优待。缓解交换位置评估两次使用多数投票或一致性检查长度偏差较长的响应被评为更高无论质量如何。缓解明确提示忽略长度长度标准化评分自我增强偏差模型对自己输出的评分更高。缓解使用不同模型进行生成和评估冗长偏差详细解释获得更高分数即使不必要。缓解特定标准标准惩罚无关细节权威偏差自信、权威的语气被评为更高无论准确性如何。缓解要求证据引用事实核查层输入要求使用此技能时,用户需要提供:待评估的LLM响应原始提示Prompt评估标准可选如未提供将生成评估量表可选默认1-5评估方法偏好直接评分或成对比较领域特定要求可选输出说明技能将提供:结构化评分结果JSON格式每个标准的分数和理由证据引用改进建议置信度分数位置一致性分析成对比较评估标准文档如需要生成使用示例示例1直接评分评估准确性{criterion: Factual Accuracy,score: 5,evidence: [Correctly identifies axial tilt as primary cause,Correctly explains differential sunlight by hemisphere,No factual errors present],justification: Response accurately explains the cause of seasons with correct scientific reasoning. Both the axial tilt and its effect on sunlight distribution are correctly described.,improvement: Could add the specific tilt angle (23.5°) for completeness.}示例2成对比较与位置交换{winner: B,confidence: 0.7,positionConsistency: {consistent: true,firstPassWinner: B,secondPassWinner: B}}最佳实践始终在评分前要求理由- 思维链提示可将可靠性提高15-25%始终在成对比较中交换位置- 单次比较会被位置偏差破坏将量表粒度与标准特异性匹配- 没有详细级别描述不要使用1-10量表分离客观和主观标准- 客观使用直接评分主观使用成对比较包含置信度分数- 校准到位置一致性和证据强度明确定义边缘情况- 模糊情况会导致最大的评估方差使用领域特定标准- 通用标准产生通用不太有用的评估根据人工判断验证- 自动化评估只有与人工评估相关时才有价值监控系统性偏差- 按标准、响应类型、模型跟踪分歧模式为迭代设计- 评估系统通过反馈循环改进常见反模式反模式没有理由的评分问题评分缺乏基础难以调试或改进解决方案始终在评分前要求基于证据的理由反模式单次成对比较问题位置偏差破坏结果解决方案始终交换位置并检查一致性反模式过载标准问题测量多个事物的标准不可靠解决方案一个标准一个可测量方面反模式缺少边缘情况指导问题评估者对模糊情况的处理不一致解决方案在标准中包含边缘情况及明确指导反模式忽略置信度校准问题高置信度的错误判断比低置信度更糟糕解决方案校准置信度到位置一致性和证据强度指标选择框架任务类型主要指标次要指标二元分类通过/失败Recall, Precision, F1Cohens κ有序量表1-5评分Spearmans ρ, Kendalls τCohens κ (加权)成对偏好一致性率, 位置一致性置信度校准多标签Macro-F1, Micro-F1每标签precision/recall相关技能context-fundamentals- 评估提示需要有效的上下文结构tool-design- 评估工具需要正确的模式和错误处理context-optimization- 评估提示可以优化令牌效率evaluation基础 - 本技能扩展了基础评估概念参考资源Eugene Yan: Evaluating the Effectiveness of LLM-EvaluatorsJudging LLM-as-a-Judge (Zheng et al., 2023)G-Eval: NLG Evaluation using GPT-4 (Liu et al., 2023)Large Language Models are not Fair Evaluators (Wang et al., 2023)技能元数据创建日期2024-12-24最后更新2024-12-24作者Muratcan Koylan版本1.0.0风险等级safe来源community限制说明仅当任务明确匹配上述范围时使用此技能不要将输出视为环境特定验证、测试或专家评审的替代品如果缺少所需输入、权限、安全边界或成功标准请停止并请求澄清

【研发类-AI和ML开发Skills】advanced-evaluation 技能

相关文章：

【研发类-AI和ML开发Skills】advanced-evaluation 技能

别再死记硬背了！用这套‘一声二声’口诀，5分钟搞定26个字母自然拼读发音

DolphinDB分布式表：创建与管理

VOFA+不止看波形：手把手教你搭建PID算法自动化测试与数据记录平台

YOLOV8语义分割注意力机制改进：全网首发--使用ACA跨分支注意力增强特征表达（方案3）

Python文件自动分类整理工具：基于规则引擎与插件化架构实现

NVIDIA Profile Inspector 终极指南：3个步骤解锁显卡隐藏性能

Nintendo Switch大气层1.7.1：解锁游戏主机无限潜能的完整指南

文本生成结构化数据：rookie_text2data项目解析与应用实践

PDF转Markdown工具：原理、实现与应用实践

QTTabBar深度解析：Windows资源管理器标签化扩展的架构设计与实战指南

CubeMX配置FreeRTOS的隐藏坑点：为什么你的HAL库时钟源必须改？

UniQL框架：LLM模型边缘端高效压缩与部署实战

老设备改造实战：用一台闲置的西门子200PLC+步进驱动器，给老旧设备加装简易定位功能

CVAT 3D标注实战：手把手教你用长方体标注点云数据（附Velodyne格式处理）

2026反爬终极防线：JA4+指纹检测全解析，90%爬虫的致命克星

AI技能包安全审查：静态分析与启发式规则实践

工业级实战：基于YOLOv11的设备指示灯与按键状态识别全流程

Claude Skills深度解析：如何通过技能包将AI助手升级为专业生产力工具

Claude Code插件生态中心Build with Claude：一站式AI编程助手增强平台

TTRV方法：视觉语言模型的测试时强化学习技术

LLM智能体决策中的不确定性量化与优化实践

Perfex CRM技能管理模块：实现基于员工能力的智能任务分配

微生物组多组学分析Pipeline崩溃于R 4.5？——紧急排查清单（内存泄漏定位/Seurat v5冲突/AnVIL云环境适配失败）

Harness大爆发！揭秘连接LLM与外界的“超级引擎”

OpenClaw出圈背后：AI的“养虾”时代，结构化信息与动态工作流将如何重塑未来？

手把手教你用示波器实测LVDS/CML信号：从波形解读到故障排查（附实测图）

别再死记硬背公式了！用Python手动画出5G NR Type I码本的波束方向图

开源机器人抓取系统OpenClaw Atlas：从硬件设计到算法实现全解析

LLM应用的提示词版本管理2026：像管代码一样管Prompt