当前位置: 首页 > article >正文

RAGAS中RAG评估指标简单介绍

一、RAGAS 的评估指标分工评估环节RAGAS 指标衡量什么计算公式逻辑检索评估上下文精度 (Context Precision)检索结果中有用信息是否排在前列衡量排序质量相关文档数 / 检索文档总数上下文召回率 (Context Recall)标准答案中的信息有多少被检索到了衡量信息覆盖率可从上下文推断的claims数 / ground truth总claims数上下文相关性 (Context Relevancy)检索到的上下文与用户问题的相关程度惩罚冗余信息。不看答案只看检索到的信息和用户问题的相关程度得分有用句数/文档句数。如果检索了一堆不相关的东西到上下文即使答案正确这个指标的得分也不会高。提取关键句子数 / 上下文总句子数生成评估忠实度 (Faithfulness)生成答案是否完全基于检索到的上下文检测幻觉。得分被支持的声明数/总声明数如果检索到的是错误的文档块只要回答是完全基于检索的上下文那么忠实度也为1。可从上下文推断的claims数 / 答案总claims数答案相关性 (Answer Relevancy)生成答案是否直接回答了用户问题惩罚不完整或冗余。这个的设计很巧妙不需要检索文档只需要原始问题和大模型生成的答案测法是让llm看着答案反向才这个答案回答的是什么问题生成好几个问题然后用embedding模型算这些反向推测出来的问题和原始问题的余弦相似度取平均。基于生成的反向问题与原始问题的语义相似度二、表格中的名词解释1.标准答案Ground Truth通俗解释Ground Truth 就是标准答案是你在评估时用来对比的“黄金标准”。在RAG评估中Ground Truth 通常由人工提前标注好代表针对某个问题的最正确、最完整的答案。举例问题巴黎是哪个国家的首都Ground Truth巴黎是法国的首都。你RAG系统生成的答案会以这个 Ground Truth 为参照来评估生成的内容是否正确、信息是否完整。2. “主张” (Claims)通俗解释主张就是一个独立的、不可再分的事实陈述。它通常是包含“主语-谓语-宾语”的完整短句。把 Ground Truth 拆解成主张是为了精确评估信息覆盖情况。如果不拆分直接对比两段长文本很难知道模型是漏掉了哪个具体信息点。举例假设 Ground Truth 是巴黎是法国的首都也是欧洲重要的文化中心。这句话可以拆成两个独立的主张主张编号主张内容说明主张1巴黎是法国的首都。完整的事实陈述主张2巴黎是欧洲重要的文化中心。另一个独立的事实为什么主张必须是“原子化”的因为评估需要粒度足够细。如果Ground Truth中包含了5个事实点而检索上下文只覆盖了其中3个那上下文召回率就是3/5 0.6。不拆分成主张就无法量化这种部分覆盖的情况。3. 如何从 Ground Truth 中提取主张在RAGAS的实现中这一步通常由LLM大语言模型自动完成不需要人工操作。RAGAS会调用你配置的LLM发送一个提示词Prompt要求模型将给定的Ground Truth拆解成多个独立的短句。给LLM的提示词示意请将以下标准答案拆解成多个独立的、原子化的事实主张。每个主张应是一个完整的短句不可再分。标准答案巴黎是法国的首都也是欧洲重要的文化中心塞纳河贯穿市中心。期望输出巴黎是法国的首都。巴黎是欧洲重要的文化中心。塞纳河贯穿巴黎市中心。4. 完整示例从 Ground Truth 到 召回率计算假设你的RAG系统要回答请介绍图灵在二战期间的贡献。步骤内容Ground Truth (标准答案)图灵在二战期间破解了德国Enigma密码并在布莱切利公园设计了Bombe机。提取主张 (LLM自动完成)主张1图灵在二战期间破解了德国Enigma密码。主张2图灵在布莱切利公园设计了Bombe机。检索上下文 (你的系统返回)图灵在布莱切利公园工作他的Bombe机极大加速了Enigma密码的破译。逐一验证主张1破解了Enigma密码→ 检索上下文中提到了Enigma密码的破译→ ✅被覆盖主张2设计了Bombe机→ 检索上下文中提到他的Bombe机→ ✅被覆盖计算上下文召回率2 / 2 1.0(100%)关键注意事项提取的准确性取决于LLM能力弱模型可能拆分不合理过粗或过细影响评估准确性。建议使用GPT-4、Claude-3或同等级别的模型来执行提取。主张的粒度需要一致性理想的主语应该是名词短语而非代词。例如主张应为巴黎是法国的首都而非它是法国的首都否则后续语义匹配容易出错。语义匹配 vs 字面匹配验证主张是否被覆盖时不是简单做字符串包含判断而是计算语义相似度。例如破解了Enigma密码和Enigma密码的破译语义相同会被判定为覆盖。简单总结Ground Truth是评估用的标准答案主张是把标准答案拆解成的独立事实点。RAGAS用这些主张来精确计算检索器到底找回了多少关键信息也就是上下文召回率。检索分数低 生成分数低→ 检索器没找回正确文档生成器也没有可用的信息检索分数高 生成分数低→ 检索对了但生成器没有正确利用上下文需要优化Prompt或模型检索分数低 生成分数高→ 这种情况很少见通常意味着生成器在依赖自身知识而非检索结果存在幻觉风险三、如何利用这些指标定位问题你可以把这四项指标看作一张“体检报告”通过它们的组合来分析系统瓶颈如果出现这种情况说明优化方向精确度低检索排序不佳有用的信息被淹没在无关内容里。优化向量检索模型、调整重排Rerank策略或修改分块方式。召回率低检索器漏掉了关键信息知识库覆盖不全。优化分块Chunk策略、增加检索数量Top-K或使用混合检索。忠实度低模型在“编答案”产生了幻觉。优化Prompt强调基于事实、更换更有纪律性的模型。相关性低模型理解能力不足答非所问或废话连篇。优化Prompt、提高检索质量或更换更强的模型。

相关文章:

RAGAS中RAG评估指标简单介绍

一、RAGAS 的评估指标分工评估环节RAGAS 指标衡量什么计算公式逻辑检索评估上下文精度 (Context Precision)检索结果中有用信息是否排在前列,衡量排序质量相关文档数 / 检索文档总数上下文召回率 (Context Recall)标准答案中的信息有多少被检索到了,衡量…...

3分钟掌握Win11Debloat:让你的Windows 11性能飙升44%的终极优化指南

3分钟掌握Win11Debloat:让你的Windows 11性能飙升44%的终极优化指南 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to dec…...

色盲视角下的连通块问题:用Python和BFS两种解法复现米哈游暑期实习笔试

色盲视角下的连通块问题:Python与BFS双解剖析 引言:当算法遇见色盲视角 在算法面试中,网格搜索类问题一直是高频考点。而这道来自米哈游的笔试题,巧妙地将连通块问题与色盲视角结合,不仅考察基础算法能力,更…...

【独家首发】Spring Boot 4.0 Agent-Ready 架构压力测试报告:17个Agent并发加载Case中,仅2个通过JFR+AsyncProfiler双重验证

第一章:Spring Boot 4.0 Agent-Ready 架构避坑指南Spring Boot 4.0 引入了原生支持 Java Agent 的运行时契约(Agent-Ready),旨在为可观测性、AOP 增强、字节码热替换等场景提供标准化接入点。但该能力并非开箱即用,若未…...

终极指南:免费解锁群晖NAS人脸识别功能,让旧设备焕发新生

终极指南:免费解锁群晖NAS人脸识别功能,让旧设备焕发新生 【免费下载链接】Synology_Photos_Face_Patch Synology Photos Facial Recognition Patch 项目地址: https://gitcode.com/gh_mirrors/sy/Synology_Photos_Face_Patch 还在为群晖相册无法…...

AD7124调试避坑实录:从SPI速率到电源隔离,我的8个实战教训

AD7124调试避坑实录:从SPI速率到电源隔离,我的8个实战教训 作为一名长期奋战在精密测量前线的嵌入式工程师,最近在工业温度监测项目中与AD7124这款24位Σ-Δ ADC的深度较量,让我积累了远超数据手册的技术认知。本文将用工程日志的…...

低查重AI教材写作神器来袭,一键生成专业教材,节省大量编写时间!

在准备写教材之前,选择合适的工具就像是一场“纠结大戏”! 如果用办公软件来制作教材,功能显得特别单一,框架构建和格式设置都得手动完成;而要是选择一些专业的编写工具,操作就很复杂,学习起来…...

金蝶云星空K3Cloud实战:手把手教你搞定生产退料单WEBAPI自定义(附完整C#代码)

金蝶云星空K3Cloud生产退料单WEBAPI深度开发实战 业务场景与技术挑战 在制造业ERP与MES系统集成过程中,生产退料单的自动化处理一直是企业数字化转型的关键环节。金蝶云星空作为国内领先的ERP解决方案,其标准API接口虽然提供了基础的下推功能&#xff0c…...

Vue Antd Admin架构实战:如何构建高性能企业级中后台系统

Vue Antd Admin架构实战:如何构建高性能企业级中后台系统 【免费下载链接】vue-antd-admin 🐜 Ant Design Pros implementation with Vue 项目地址: https://gitcode.com/gh_mirrors/vu/vue-antd-admin Vue Antd Admin是一个基于Vue 2.x和Ant Des…...

别再为IRF堆叠脑裂发愁了!手把手教你用LACP MAD给H3C交换机上个双保险

H3C IRF堆叠架构下LACP MAD高可用方案实战解析 在企业级网络架构中,核心交换机的可靠性直接决定了整个业务系统的稳定性。当采用H3C IRF(Intelligent Resilient Framework)堆叠技术将多台物理交换机虚拟化为单一逻辑设备时,虽然提…...

别再手动导数据了!用Kettle 9.2零代码搞定MySQL表同步(附JDBC驱动避坑指南)

零代码数据同步革命:Kettle 9.2全流程实战与深度优化指南 每次手动编写SQL脚本同步数据时,你是否经历过字段映射错位、数据类型不匹配的噩梦?当凌晨三点被报警短信惊醒,发现数据同步任务因驱动版本问题而卡死,这种崩溃…...

用LVGL官方Demo给你的STM32 TFT屏快速做个UI原型:以Widgets Demo为例

用LVGL官方Demo为STM32 TFT屏构建高效UI原型:Widgets Demo实战指南 在智能家居控制面板或工业HMI设备的开发初期,UI原型验证往往是最耗时的环节之一。传统做法需要从零开始设计按钮、滑块、图表等基础组件,而LVGL(Light and Versa…...

openKylin 2.0 SP2第三次更新:优化关键模块,新增装包功能提升速度

openKylin 2.0 SP2更新:聚焦关键模块优化今天,OpenAtom openKylin社区正式推送openKylin 2.0 SP2第三次更新升级。此次更新重点针对用户反馈较多的问题,对系统更新、开明软件包格式、KARE兼容环境、软件商店、不可变系统等多个系统关键模块进…...

AssetRipper完全指南:三步掌握Unity资源提取终极工具

AssetRipper完全指南:三步掌握Unity资源提取终极工具 【免费下载链接】AssetRipper GUI Application to work with engine assets, asset bundles, and serialized files 项目地址: https://gitcode.com/GitHub_Trending/as/AssetRipper 你是否曾面对Unity项…...

终极免费激活方案:5分钟搞定Windows与Office永久激活的完整指南

终极免费激活方案:5分钟搞定Windows与Office永久激活的完整指南 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为系统激活烦恼吗?KMS_VL_ALL_AIO智能激活脚本为您提…...

claude学习

后面会随着对claude的学习加深会逐渐更新的 文章目录后面会随着对claude的学习加深会逐渐更新的前言一、claude的三种模式二、阿里云千锤百炼前言 https://www.bilibili.com/video/BV1wuQEBDEN8/?spm_id_from333.337.search-card.all.click&vd_sourceeb433c8780bdd700f49…...

魔兽争霸3优化升级指南:5分钟解锁现代游戏体验

魔兽争霸3优化升级指南:5分钟解锁现代游戏体验 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸3在现代电脑上的糟糕表现而烦…...

STK覆盖分析进阶:如何用Python创建多层高度网格,评估低轨星座对空域的多维度覆盖?

STK覆盖分析进阶:Python实现低轨星座三维空域覆盖评估实战指南 在低轨星座系统设计中,覆盖性能评估是核心环节。传统二维平面分析已无法满足对无人机、高空气球等不同高度目标的精细化服务评估需求。本文将深入探讨如何利用STK与Python联合仿真&#xff…...

Cesium开发避坑指南:搞懂屏幕、世界、经纬度坐标转换的3个核心场景

Cesium开发避坑指南:搞懂屏幕、世界、经纬度坐标转换的3个核心场景 在三维地理信息系统的开发中,坐标转换就像不同语言之间的翻译工作。想象一下,当用户点击屏幕上的一个点,系统需要理解这个二维像素位置对应真实世界中的哪个三维…...

从零搭建一个流水灯:手把手教你用Proteus找齐所有必需元件

从零搭建流水灯:Proteus元件查找实战指南 第一次打开Proteus时,面对琳琅满目的元件库,很多初学者都会感到无从下手。记得我刚开始学习单片机时,光是找一个普通的电阻就花了半小时,更别提完成整个电路了。本文将带你用项…...

MusicFree终极歌词系统指南:如何实现多源歌词聚合与智能匹配

MusicFree终极歌词系统指南:如何实现多源歌词聚合与智能匹配 【免费下载链接】MusicFree 插件化、定制化、无广告的免费音乐播放器 项目地址: https://gitcode.com/GitHub_Trending/mu/MusicFree 在音乐播放器开发中,歌词显示是提升用户体验的关键…...

深度实战OBS背景移除:AI智能抠像技术重塑专业直播体验

深度实战OBS背景移除:AI智能抠像技术重塑专业直播体验 【免费下载链接】obs-backgroundremoval An OBS plugin for removing background in portrait images (video), making it easy to replace the background when recording or streaming. 项目地址: https://…...

终极音频解锁指南:qmcdump让QQ音乐文件自由播放

终极音频解锁指南:qmcdump让QQ音乐文件自由播放 【免费下载链接】qmcdump 一个简单的QQ音乐解码(qmcflac/qmc0/qmc3 转 flac/mp3),仅为个人学习参考用。 项目地址: https://gitcode.com/gh_mirrors/qm/qmcdump 你是否在QQ音…...

别再买万用表了!手把手教你用51单片机和ADC0809自制一个高精度数字电压表(附完整代码)

51单片机ADC0809实战:从零打造高精度数字电压表 记得三年前我第一次接触电子测量设备时,被市面上动辄上千元的数字万用表价格吓了一跳。作为一名电子爱好者兼穷学生,我开始思考:能否用最基础的51单片机和ADC0809模数转换器&#x…...

告别网络依赖:Android原生TTS+讯飞引擎实现纯离线中英语音合成

告别网络依赖:Android原生TTS讯飞引擎实现纯离线中英语音合成 在移动应用开发中,语音合成技术(TTS)已成为提升用户体验的重要功能。然而,大多数云服务方案存在隐私泄露风险,且依赖稳定网络连接。本文将深入…...

Visual C++ Redistributable AIO:一站式解决Windows运行库问题的终极方案

Visual C Redistributable AIO:一站式解决Windows运行库问题的终极方案 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist Visual C Redistributable AI…...

egergergeeert FLUX路线优势展示:复杂提示词如‘rim light on silver hair’精准响应

egergergeeert FLUX路线优势展示:复杂提示词如rim light on silver hair精准响应 1. 效果惊艳的FLUX路线 egergergeeert文生图镜像采用FLUX技术路线,在复杂提示词理解方面展现出显著优势。当输入"rim light on silver hair"这类专业摄影术语…...

Python零基础到精通教程,高级特性教程

本文聚焦 Python 最实用、最能简化代码、提升效率的高级特性,避开晦涩理论,全是工作 / 面试高频用法,学完能直接写出简洁、优雅、高性能的 Python 代码。适合有 Python 基础,想进阶代码水平的学习者,每个特性都配可直接…...

3步掌握暗黑2存档编辑器:轻松修改角色与物品

3步掌握暗黑2存档编辑器:轻松修改角色与物品 【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 你是否曾经在暗黑破坏神2中,因为角色属性分配不当而懊恼?是否想尝试不同的装备组合却苦于没有合适…...

深入TMS320F28335 GPIO:从寄存器手册到代码,手把手教你玩转LED控制

TMS320F28335 GPIO深度解析:从寄存器到LED控制的硬核实践 第一次接触TI的C2000系列DSP时,我被其强大的实时控制能力和丰富的外设所吸引。但真正开始编程时,却发现要驾驭这颗芯片,必须深入理解其底层硬件机制。本文将带你从寄存器层…...