当前位置：首页 > news >正文

【自动化利器】12个评估大语言模型（LLM）质量的自动化框架

news 2025/7/12 9:21:57

LLM评估是指在人工智能系统中评估和改进语言和语言模型的过程。在人工智能领域，特别是在自然语言处理（NLP）及相关领域，LLM评估具有至高无上的地位。通过评估语言生成和理解模型，LLM评估有助于细化人工智能驱动的语言相关任务和应用程序，确保在语言发挥关键作用的各种场景中增强准确性和适应性。

LLM大模型CI Devops与传统软件的不同之处

随着大模型的版本升级和应用的持续，对大模型的评估也绝非一次性，而是需要多次迭代的过程。建立一个有效的、可持续的评估过程非常重要。如今，许多大模型服务通过LLMOps实现了CI、CE、CD（持续集成、持续评估、持续部署），大大提高了大模型的可用性。

评测框架

为评估大模型在不同应用程序中的质量，可以借鉴一些有效的项目。下面列举了一些受到广泛认可框架，如：Microsoft Azure AI Studio中的Prompt Flow、结合LangChain的Weights Biases、LangChain的LangSmith、Confidence-ai的DeepEval、TruEra等等。

1）Azure AI Studio(Microsoft)

Azure AI Studio是一个用于构建、评估和部署AGI以及自定义Copilots的一体化AI平台。

自行索取资料：

Azure AI Studio

Evaluation of generative AI applications with Azure AI Studio - Azure AI Studio | Microsoft Learn

2）Prompt Flow (Microsoft)

Prompt Flow是一套用于简化基于LLM的人工智能应用的开发工具，缩短端到端的开发周期，支持从构思、原型设计、测试和评估到生产、部署和监控的一体化开发流程。它还提供了一个VS Code扩展，基于UI的交互式流程设计器。

自行索取资料：

GitHub - microsoft/promptflow: Build high-quality LLM apps - from prototyping, testing to production deployment and monitoring.

Quick start — Prompt flow documentation (microsoft.github.io)

3）Weights & Biases(Weights & Biases)

这是一个机器学习平台，用于快速跟踪实验、对数据集进行版本和迭代、评估模型性能、复制模型、可视化结果和发现回归，并与同事共享成果。

自行索取资料：

W&B Docs | Weights & Biases Documentation (wandb.ai)

https://docs.wandb.ai/tutorials

https://learn.deeplearning.ai/evaluating-debugging-generative-ai

https://docs.wandb.ai/tutorials

4）LangSmith (LangChain)

可以帮助用户跟踪和评估大语言模型的应用和AI Agent，以帮助用户实现从大模型的原型到生产环境。

自行索取资料：

LangSmith

Files within /evaluation/

5）TruLens (TruEra)

TruLens提供了一套用于开发和监控神经网络（包括LLM）的工具。可以使用TruLens-Eval评估LLM和基于LLM的应用程序，以及使用TruLens-Explain的深度学习可解释性。

自行索取资料：

GitHub - truera/trulens: Evaluation and Tracking for LLM Experiments

https://www.trulens.org/trulens_eval/getting_started/

https://learn.deeplearning.ai/building-evaluating-advanced-rag

6）Vertex AI Studio (Google)

Vertex AI Studio可以用于评估通用大模型和优化后的生成式AI模型的性能。它使用一组指标对您提供的评估数据集对模型进行评估。

自行索取资料：

https://cloud.google.com/vertex-ai?hl=zh

https://cloud.google.com/vertex-ai/docs/generative-ai/models/evaluate-models?hl=zh-cn

7）Amazon Bedrock

Amazon Bedrock支持用于大模型的评估。模型评估作业的执行结果可以用于对比选型，帮助选择最适合下游生成式AI模型。模型评估作业支持大型语言模型（LLM）的常见功能，例如：文本生成、文本分类、问答和文本摘要等。

自行索取资料：

https://docs.aws.amazon.com/bedrock/latest/userguide/what-is-bedrock.html

https://docs.aws.amazon.com/bedrock/latest/userguide/model-evaluation.html

8）DeepEval (Confident AI)

这是一个用于评估LLM的开源框架。它类似于Pytest，但专门用于单元测试LLM输出。DeepEval结合了最新的研究，根据G-Eval，幻象，答案相关性，RAGAS等指标评估LLM输出，它使用LLM和其他各种NLP模型，在您的机器上本地运行以进行评估。无论您的应用程序是通过RAG或微调，LangChain或LlamaIndex实现的，DeepEval都可以覆盖您。有了它，你可以轻松地确定最佳超参数，以改善你的RAG管道，防止即时漂移，甚至可以放心地从OpenAI过渡到托管你自己的Llama2。

自行索取资料：

https://github.com/confident-ai/deepeval

https://github.com/confident-ai/deepeval/tree/main/examples

9）Parea AI

Parea可以帮助AI工程师构建可靠的、可落地的LLM应用程序。Parea提供了用于调试、测试、评估和监控基于LLM的应用程序。

自行索取资料：

https://docs.parea.ai/evaluation/overview

https://docs.parea.ai/blog/eval-metrics-for-llm-apps-in-prod

10）test-suite-sql-eval

test-suite-sql-eval是一个开源的基于精简测试集的Text-to-SQL语义评估框架。项目包含11个文本到SQL任务的测试套件评估指标。与现有的其他度量方法相比，该方法能够有效地计算语义准确度的上界。在我们的EMNLP 2020论文中提出了这一点：使用蒸馏测试套件对文本到SQL进行语义评估。

自行索取资料：

https://github.com/taoyds/test-suite-sql-eval

11）RAGAs

Ragas是一个可帮助评估检索增强生成（RAG）的框架。RAG表示一类使用外部数据来增强LLM上下文的LLM应用程序。现有的工具和框架可以帮助您构建这些管道，但评估它并量化管道性能可能很困难。这就是Ragas（RAG评估）的用武之地。

自行索取资料：

https://github.com/explodinggradients/ragas

12）ARES

这是一个检索增强生成（RAG）系统的自动评估框架。

自行索取资料：

https://github.com/stanford-fut

相关文章：

【自动化利器】12个评估大语言模型（LLM）质量的自动化框架

LLM评估是指在人工智能系统中评估和改进语言和语言模型的过程。在人工智能领域，特别是在自然语言处理（NLP）及相关领域，LLM评估具有至高无上的地位。通过评估语言生成和理解模型，LLM评估有助于细化人工智能驱动的语言相…...

编程日记 2024/11/6 3:33:54

【1】基础概念

文章目录一、特点二、基础语法注意三、官方编程指南四、go 语言标准库 API 一、特点 golang 一个 go 文件都要归属到一个包，需要进行申明。天然的并发：golang 从语言层面支持大并发。每个 go 文件都必须要归属到一个包中。执行 go 文件：go …...

编程日记 2024/11/6 3:24:44

HTML 文档规范与解析模式：DOCTYPE、＜html＞标签以及结构化页面

文章目录 `<!DOCTYPE html>` 文档类型声明标准模式与怪异模式HTML5 的简化声明`<html>` 标签`<head>` 标签`<body>` 标签小结<!DOCTYPE html> 文档类型声明在 HTML 文档中，<!DOCTYPE html> 是一个重要的文档类型声明，主要用于告知浏览…...

编程日记 2024/11/6 3:23:44

大模型微调技术 --＞脉络

Step1:脉络微调技术从最早期的全模型微调演变成如今的各种参数高效微调(PEFT)方法，背后是为了应对大模型中的计算、存储和数据适应性的挑战 1.为什么有微调？ 深度学习模型越来越大，尤其是 NLP 中的预训练语言模型(BERT, GPT)系列。如果从…...

编程日记 2024/11/6 3:21:40

不要只知道deepl翻译，这里有10个专业好用的翻译工具等着你。

deepl翻译的优点还是有很多的，比如翻译的准确性很高，支持翻译的语言有很多，并且支持翻译文件和文本。但是现在翻译工具那么多，大家需要翻译的场景也有很多，怎么能只拥有一个翻译工具呢。所以在这里我帮助大家寻找了一波…...

编程日记 2024/11/6 3:20:38

第二节管道符、重定向与环境变量

1.重定向技术的 5 种模式 （1）标准覆盖输出重定向 （2）标准追加输出重定向 （3）错误覆盖输出重定向 （4）错误追加输出重定向 （5）输入重定向2.输入输出重定向输入…...

编程日记 2024/11/6 3:19:38

Linux 服务器使用指南：从入门到登录

🌟快来参与讨论💬，点赞👍、收藏⭐、分享📤，共创活力社区。 🌟 🚩博主致力于用通俗易懂且不失专业性的文字，讲解计算机领域那些看似枯燥的知识点🚩 目录一…...

编程日记 2024/11/6 3:18:36

QT 如何使QLabel的文字垂直显示

想要实现QLabel文字的垂直显示，可以通过使用“文字分割填充换行符”的方式来实现QLabel文字垂直显示的效果，下面是效果图： 具体实现代码： #include "mainwindow.h" #include "ui_mainwindow.h"MainWindow:…...

编程日记 2024/11/6 3:17:35

蓬勃发展：移动开发——关于软件开发你需要知道些什么

一、前言移动开发一直都是软件开发领域中最有趣的领域之一，这是因为： 1、移动开发为“只有一个人”的开发团队提供了一个非常独特的机会，让他可以在相对较短的时间内建立一个实际的、可用的、有意义的应用程序； 2、移动开发也代…...

编程日记 2024/11/6 3:16:34

1095. 山脉数组中查找目标值

目录题目解法lambda在这是怎么用的？ 题目 （这是一个交互式问题 ） 你可以将一个数组 arr 称为山脉数组当且仅当： arr.length > 3 存在一些 0 < i < arr.length - 1 的 i 使得： arr[0] < arr[1] <…...

编程日记 2024/11/6 3:15:33

【深度学习】InstantIR：图片高清化修复

InstantIR——借助即时生成参考的盲图像修复新方法作者：Jen-Yuan Huang 等近年来，随着深度学习和计算机视觉技术的飞速发展，图像修复技术取得了令人瞩目的进步。然而，对于未知或复杂退化的图像进行修复，仍然是一个充满挑战的任务。针对这一难题，研究者们提出了 Insta…...

编程日记 2024/11/6 3:14:31

推荐一款PowerPoint转Flash工具：iSpring Suite

iSpring Suite是一款PowerPoint转Flash工具，使用iSpring Suite 8可以轻松的将PPT演示文档转换为对Web友好的Flash影片格式。软件界面简洁，使用方便。为什么要转换成flash格式呢?Flash格式的最大特点是体积小巧、易于分发，兼容所有的操作系统…...

编程日记 2024/11/6 3:12:28

如何搭建汽车行业AI知识库：定义+好处+方法步骤

在汽车行业，大型车企面临着员工众多、价值链长、技术密集和知识传播难等挑战。如何通过有效的知识沉淀与应用，提升各部门协同效率，快速响应客户咨询，降低销售成本，并开启体系化、可持续性的知识管理建设，成…...

编程日记 2024/11/6 3:11:27

创新材料科技：铜冷却壁助力高炉节能降耗

高炉用铜冷却壁是高炉内部的一种构件，通常用于高炉的炉身部分。它的主要功能是在高炉冶炼过程中冷却炉壁，以防止炉壁过热。铜冷却壁通常由铜制成，因为铜具有良好的导热性和耐腐蚀性，能够有效地将热量从高炉内部传导到外部&#xf…...

编程日记 2024/11/6 3:10:26

Proteus中单片机IO口外接LED输出低电平时，引脚却一直保持高电平的问题（已解决）

文章目录前言解决方法后记前言一个排阻接八个 LED，方便又省事，但出现了P1端口输出低电平后，仿真引脚却一直显示红色保持高电平不变，用电压表测量显示 2V 左右。这是仿真的问题，在用开发板时是不会遇到的&#xff…...

编程日记 2024/11/6 3:09:25

Obsidian vs Typora

引言近来几日，自己也算是用了一段时间的Obsidian了，也是有资格来说一下使用感受了。当前感觉是自己未来很长一段时间将会一直使用Obsidian了。 Typora vs Obsidian Typora 优点整体好看，简洁，所见即所得缺点：…...

编程日记 2024/11/6 3:07:22

非线性数据结构之图

一、有向图（Directed Graph） 1. 定义有向图是一个由顶点（节点）和有方向的边（弧）组成的图。在有向图中，每条边都有一个起点和一个终点，表示从一个顶点到另一个顶点的关系。 2. 特…...

编程日记 2024/11/6 3:06:21

vue3项目history模式部署404处理，使用 historyApiFallback 中间件支持单页面应用路由

vue3项目history模式部署404处理，使用 historyApiFallback 中间件支持单页面应用路由在现代的 web 开发中，单页面应用（SPA）变得越来越流行。这类应用通常依赖于客户端路由来提供流畅的用户体验，但在服务器端&#xf…...

编程日记 2024/11/6 3:03:19

不同的科技查新机构之间有什么区别？

科技查新，作为一种确保科研项目新颖性、先进性的重要手段，在现代科研活动中扮演着至关重要的角色。然而，在众多提供科技查新服务的机构中，它们之间的区别究竟体现在哪些方面呢？本文将从服务内容、专业领域、权威性与客…...

编程日记 2024/11/6 3:01:16

Pycharm，2024最新专业版下载安装配置详细教程！

先来一段官方介绍，PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外，该IDE提供了一些高级功能…...

编程日记 2024/11/6 2:57:11

DockerHub与私有镜像仓库在容器化中的应用与管理

哈喽，大家好，我是左手python！ Docker Hub的应用与管理 Docker Hub的基本概念与使用方法 Docker Hub是Docker官方提供的一个公共镜像仓库，用户可以在其中找到各种操作系统、软件和应用的镜像。开发者可以通过Docker Hub轻松获取所…...

编程新知 2025/6/27 0:59:29

【入坑系列】TiDB 强制索引在不同库下不生效问题

文章目录背景SQL 优化情况线上SQL运行情况分析怀疑1：执行计划绑定问题？尝试：SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景项目中使用 TiDB 数据库，并对 SQL 进行优化了，添加了强制索引。 UAT 环境已经生效，但 PROD 环境强制索…...

编程新知 2025/7/7 23:29:41

渗透实战PortSwigger靶场-XSS Lab 14：大多数标签和属性被阻止

<script>标签被拦截我们需要把全部可用的 tag 和 event 进行暴力破解 XSS cheat sheet： https://portswigger.net/web-security/cross-site-scripting/cheat-sheet 通过爆破发现body可以用再把全部 events 放进去爆破这些 event 全部可用 <body onres…...

编程新知 2025/7/10 7:05:58

苍穹外卖--缓存菜品

1.问题说明用户端小程序展示的菜品数据都是通过查询数据库获得，如果用户端访问量比较大，数据库访问压力随之增大 2.实现思路通过Redis来缓存菜品数据，减少数据库查询操作。缓存逻辑分析： ①每个分类下的菜品保持一份缓存数据…...

编程新知 2025/7/8 6:05:27

TRS收益互换：跨境资本流动的金融创新工具与系统化解决方案

一、TRS收益互换的本质与业务逻辑 （一）概念解析 TRS（Total Return Swap）收益互换是一种金融衍生工具，指交易双方约定在未来一定期限内，基于特定资产或指数的表现进行现金流交换的协议。其核心特征包括&am…...

编程新知 2025/7/3 9:50:42

css的定位（position）详解：相对定位绝对定位固定定位

在 CSS 中，元素的定位通过 position 属性控制，共有 5 种定位模式：static（静态定位）、relative（相对定位）、absolute（绝对定位）、fixed（固定定位）和…...

编程新知 2025/7/6 1:55:51

04-初识css

一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...

编程新知 2025/7/11 1:36:04

自然语言处理——Transformer

自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，但是它有一个很大的缺陷——很难并行化。我们可以考虑用CNN来替代RNN，但是…...

编程新知 2025/6/21 6:23:38

CRMEB 框架中 PHP 上传扩展开发：涵盖本地上传及阿里云 OSS、腾讯云 COS、七牛云

目前已有本地上传、阿里云OSS上传、腾讯云COS上传、七牛云上传扩展扩展入口文件文件目录 crmeb\services\upload\Upload.php namespace crmeb\services\upload;use crmeb\basic\BaseManager; use think\facade\Config;/*** Class Upload* package crmeb\services\upload* …...

编程新知 2025/7/9 8:24:54

SpringCloudGateway 自定义局部过滤器

场景： 将所有请求转化为同一路径请求（方便穿网配置）在请求头内标识原来路径，然后在将请求分发给不同服务 AllToOneGatewayFilterFactory import lombok.Getter; import lombok.Setter; import lombok.extern.slf4j.Slf4j; impor…...

编程新知 2025/7/9 3:11:47