当前位置: 首页 > news >正文

AI测试:人工智能模型的核心测试指标,分类判别、目标检测、图像分割、定量计算分别有哪些指标?

在前面的人工智能测试技术系列文章中,我们详细介绍了人工智能测试的技术方法和实践流程。在了解人工智能测试方法后,我们需要进一步学习和研究如何衡量这些方法的有效性,即人工智能模型测试指标的选择。测试指标的选择主要取决于模型的类型和模型的实施计划。对于AI医学影像辅助诊疗、自动驾驶等特定类型智能模型的测试,我们应如何选择和理解测试指标?本篇文章,我们将以AI医学影像辅助诊疗模型为例,讨论用于评价人工智能模型测试性能的关键指标,了解这些指标是如何帮助我们理解人工智能模型表现的。

一般来说,AI医学影像辅助诊疗、自动驾驶、零售业货架监控、安全监控等视觉识别模型的性能指标根据不同的技术和业务场景,主要包含分类判别、目标检测、图像分割与定量计算四方面。

分类判别(Discrimination):在AI医学影像辅助诊疗系统中,判别分类的主要任务是区分医学影像中的不同病变组织,如区分良性和恶性肿瘤,其性能指标包括准确率、灵敏度等。在多分类场景,需要将多分类产品的性能指标评估问题转化成多个二分类问题,对各级计算得到的准确度、敏感度、特异度、精确度、AUC值分别进行加权平均,从而得到整个多分类人工智能系统的综合指标。

图像分割(Image Segmentation): 图像分割要求人工智能在医学影像中准确地勾勒出病变区域的边界,性能指标包括分割的准确度、边缘误差、完整性、运算速度等。

目标检测(Object Detection): 目标检测旨在识别影像中特定的病变位置,并对其进行定位。这一任务的性能指标包括定位精确度、召回率、平均精度以及检测的置信度阈值等。

定量计算(Quantitative Computation): 定量计算涉及从医学影像中提取有关病变的量化信息,如体积、表面积、纹理特征等,性能指标包括计算的准确性、重复性和可靠性等。

下面,我们以AI医学影像辅助诊疗系统为例对各任务场景下的测试指标进行一一介绍:

1.分类判别任务的评价指标

一般来说,AI医学影像辅助模型广泛采用的核心评价指标包括准确率、精确率、召回率、特异性、F-measure分数和AUC—ROC曲线。

准确率 (Accuracy):衡量模型整体正确识别的能力,即在所有样本中,模型能够正确识别的比例。准确率虽然直观,但在数据类别不平衡时会出现不够准确的问题。比如,如果大多数样本都是正常影像,模型即使对所有异常影像都判断错误,准确率也可能很高。

精确率(precision):衡量在模型预测为正类(如疾病)的样本中,实际为正类的比例。精确率高意味着模型预测的正类结果中大部分是正确的,有助于减少误诊,但可能会漏诊一些实际患病的患者。

召回率 (Recall)或敏感性(Sensitivity):指在所有实际为正类(如疾病)的样本中,模型正确预测为正类的样本比例。在医学影像诊断系统中,召回率越高,模型漏诊的可能性越小,但可能会伴随着较高的误诊率(即模型可能将一些健康样本误识别为阳性)。

特异性(Specificity):衡量的是模型识别出真实负类(健康)样本的能力,即在所有实际健康的患者中,模型能够正确识别出的比例。特异性高意味着误诊风险低,对于需要避免不必要的医疗干预的场景,特异性非常重要。高特异性可以减少不必要的治疗和患者的心理压力。

F-measure分数:是精确率和召回率的平均值,可以更全面地评估模型在分类任务中的表现。当F1值接近1时,说明模型在精确率和召回率之间取得了较好的平衡,对于医学影像辅助诊断系统来说,这既减少了假阳性导致的过度治疗风险,也减少了假阴性导致的治疗延误风险。

其中,True Positives(TP):正确识别出的正类别样本数量;

True Negatives(TN):正确识别出的负类别样本数量;

False Negatives(FN):正类别样本被错误预测为负类别样本数量;

False Positives(FP):负类别样本被错误地预测为正类别样本数量;

Total Positives:实际的正类别样本数量;

Total Negatives:实际的负类别样本数量;

AUC-ROC曲线:AUC(Area Under Curve)是ROC(Receiver Operating Characteristic)曲线下的面积。AUC是用于评估分类模型性能的指标,衡量模型将正例(疾病)排在负例(非疾病)样本之前的能力。AUC值越接近1,表示模型的性能越好,能够在不同的分类阈值下都保持较高的真阳性率和较低的假阳性率。AUC-ROC曲线可以直观比较不同模型的性能,帮助我们找到最佳的分类阈值,以平衡真阳性和假阳性的数量,适应不同的临床需求。

这些指标为软件测试人员提供了关于模型性能的全面视角。在实际应用中,需要根据具体情况权衡这些指标。例如,对于肺癌筛查,我们可能希望模型具有高召回率以尽可能找出所有潜在患者,同时保持一定的精确率以减少不必要的进一步检查。而在健康人群的体检中,可能会更注重精确率,以避免不必要的恐慌和医疗干预。

2.图像分割任务的评价指标

在医学影像领域,图像分割任务旨在通过人工智能系统精确描绘出病变区域。

医学影像关键部位的分割在疾病诊断是关键的步骤之一,精确的分割对提高系统的最终性能非常重要。对于AI医学影像系统的图片分割任务,除了上述的准确度、完整性、召回率、特异性等指标,还有以下关键的评价指标可以反映出人工智能系统在图像分割场景中的性能。

分割准确度(Segmentation Accuracy):是衡量分割效果最直接的一个指标,通常通过计算预测分割区域与真实分割区域之间的重合度(如Dice系数、Jaccard指数)来评估。

Dice系数(Dice Coefficient):衡量两个集合相似度的一种方法,适用于二值图像。计算公式为:

其中,A和B分别是预测分割区域和真实分割区域,∣A∩B∣是两个集合的交集大小,∣A∣和∣B∣分别是两个集合的大小。Dice系数取值范围在0到1之间,越接近1表示分割效果越好。

Jaccard指数(Jaccard Index):同样是衡量两个集合相似度的一个指标,适用于多分类情况。计算公式为:

A和B同样是预测分割区域和真实分割区域,∣A∩B∣是两个集合的交集大小,∣A∪B∣是两个集合的并集大小。Jaccard指数的取值范围也是0到1之间。

平均边缘误差(Average Edge Error, AEE):用于评估分割边缘与真实边缘之间的误差。计算方法可以是计算所有边缘像素点的预测位置与真实位置之间的平均欧氏距离。

3.目标检测任务的评价指标

在医学影像领域,目标检测是指在医学影像中自动识别和定位出特定的病变区域,例如肿瘤、病变等,并对其大小、形状、边缘等特征进行量化分析,辅助诊断。在目标检测任务中,系统会比较预测框与金标准框(即由专业医生标记的实际病灶区域)之间的位置关系。这个过程涉及判断预测框是否准确地包含了病灶区域。为了进行这一步,系统会使用一系列的检出指标。

平均精度(AP):平均精度是在不同的置信度阈值下,检测到的病变区域的平均精度,是PR曲线与坐标轴围成的面积。它是通过计算每个阈值下的精确度和召回率,以精确率为 y 轴和召回率为 x 轴,绘制PR(Precision-Recall)曲线得出的。AP的计算公式为:

其中,Pi表示精确度,Ri表示召回率,n是在不同置信度阈值下计算的点数。

MAP:各个类别AP的平均值,代表了在当前多个类别下能达到的平均精度。

此外,敏感度(真阳性率)、特异度(真阴性率)等上述指标同样可以量化预测框与金标准框之间的重合程度和位置偏差,评估病灶检测的准确性。

4.定量计算任务的评价指标

定量计通常涉及对影像中的特定区域或特征进行精确测量,提供关于病变性质、大小、形状和其他相关属性的数值信息,获得对疾病的量化理解。

对于乳腺癌钼靶影像,人工智能模型可以计算出乳腺肿块的边缘特征(肿块边缘的光滑程度、是否存在毛刺征象等)、肿块的密度、肿块的体积、肿块内的微钙化灶数量等,在这些指标的帮助下,我们能够对乳腺肿块的性质进行更为精确的判断,辅助医生进行诊断和治疗。

为了确保人工智能医学影像系统的定量计算结果的准确性,通常会使用性绝对误差和相对误差两个常用指标。绝对误差是指系统测量值与实际值(金标准值)之间的差异,而相对误差则是绝对误差与实际值的比例。这些指标可以帮助医生和测试人员了解系统的准确性。

医疗影像AI模型的评估指标是一个多方面的决策过程,需要综合考虑数据特性、疾病类型、临床需求、模型预期用途、实际应用的可行性以及法规标准。在实际应用中,我们往往会根据具体需求和不同业务场景选择合适的评估指标,结合多个指标对模型进行全面评估。

我们在医疗、汽车领域拥有丰富的人工智能测试经验。具备大量的数据模型和经过训练的测试数据集,如果您有人工智能测试技术交流、人工智能工具选型、人工智能模型训练、人工智能行业数据集等需求,可私信我,一起技术交流。

参考文献

[1] 李康. 基于深度学习的医学影像病灶检测算法研究.2024.

[2] 李曼,滕依杉,郭佳颖,等.基于人工智能的医学影像辅助诊断类软件监管与评测方法研究.2022.

[3] 郑光远,刘峡壁,韩光辉.医学影像计算机辅助检测与诊断系统综述.2018.

[4] 薄靖宇.基于深度学习的肺炎医学影像自动识别与检测技术研究.2022.

(本文引用部分内容版权属于原作者,仅作交流探讨,如有侵权请联系删除。谢绝转载)

相关文章:

AI测试:人工智能模型的核心测试指标,分类判别、目标检测、图像分割、定量计算分别有哪些指标?

在前面的人工智能测试技术系列文章中,我们详细介绍了人工智能测试的技术方法和实践流程。在了解人工智能测试方法后,我们需要进一步学习和研究如何衡量这些方法的有效性,即人工智能模型测试指标的选择。测试指标的选择主要取决于模型的类型和…...

探索LLM世界:新手小白的学习路线图

随着人工智能的发展,语言模型(Language Models, LLM)在自然语言处理(NLP)领域的应用越来越广泛。对于新手小白来说,学习LLM不仅能提升技术水平,还能为职业发展带来巨大的机遇。那么,…...

Linux基础命令大全 持续更新中......

最近重新学习了linux基础知识,并整理出了以下内容,以供参考 最近几日后续会持续更新内容哦 用户管理 加括号的代表可以不写 useradd (参数选项) 用户名 添加新用户 passwd (参数选项) 用户名 用…...

CPU的起源与发展历程

CPU的起源与发展历程 文章目录 CPU的起源与发展历程前言指令概念电子管(真空管)体系结构冯诺依曼架构哈佛架构 晶体管集成电路指令集与微架构微处理器x86架构CISC与RISC的提出MIPS架构ARM架构RISC-V架构FPGA 总结 前言 ​ 从古至今,人类为了…...

【C语言】 二叉树创建(结构体,先序遍历,中序遍历,后续遍历)

二叉树的创建:首先先定义一个结构体,里面包含数据(data),指向左子树的指针(L),指向右子树的指针(R)三个部分 在创建树的函数中,首先先输入…...

【和相同的二元子数组】python刷题记录

R2-前缀和专题 目录 前缀和哈希表 双指针 ps: 第一眼过去,这题应该能用双指针解出来,应该也能用前缀和解题。 前缀和哈希表 适用于 nums[i] 值不固定为 0 和 1 的其他情况 class Solution:def numSubarraysWithSum(self, nums: List[int], goal: i…...

【单片机毕业设计选题24087】-基于北斗系统的智能路灯

系统功能: 系统操作说明: 上电后OLED显示 “欢迎使用智能路灯系统请稍后”,两秒后显示Connecting...表示 正在连接阿里云,正常连接阿里云后显示第一页面,如长时间显示Connecting...请 检查WiFi网络是否正确。 系统分为四种模…...

[Docker][Docker常用命令]详细讲解

目录 1.帮助命令2.镜像命令3.容器命令4.卷命令5.常用命令 1.帮助命令 docker version # 显示docker的版本信息 docker info # 显示docker的系统信息,包括镜像和容器的数量 docker 命令 --help # 某条命令的帮助命令2.镜像命令 查看所有本地的主机上的镜像…...

onlyoffice用nginx反向代理

我对于onlyoffice的需求就是当个在线编辑器使用。在集成react的时候之前都是写的绝对路径的地址,这样在需要迁移应用的时候就造成了巨大的麻烦,所以我决定用nginx做反向代理,这样我集成的时候就不用每次都修改源码中的地址了。 一开始写的代…...

JavaScript字符串转换成base64编码方法

// base64编码表 const base64EncodeChars ref<string>("ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789/" );/*** base64编码* param {Object} str*/ const base64encode (str: string) > {let result "";// 循环遍历字符串…...

25.惰性队列

介绍 消费者由于各种原因而致使长时间不能消费消息造成堆积。比如有一百万条消息发送到mq中&#xff0c;消费者这时宕机了不能消费消息&#xff0c;造成了消息堆积。惰性队列就有必要了。 正常情况下&#xff0c;消息保存在内存中。消费者从内存中读取消息消费&#xff0c;速…...

ControlNet on Stable Diffusion

ControlNet on Stable Diffusion 笔记来源&#xff1a; 1.Adding Conditional Control to Text-to-Image Diffusion Models 2.How to Use OpenPose & ControlNet in Stable Diffusion 3.ControlNet与DreamBooth&#xff1a;生成模型的精细控制与主体保持 4.Introduction t…...

源码编译安装,及nginx服务控制、监控块

1.源码编译安装&#xff1a; [root17dns ~]# wget https://nginx.org/download/nginx-1.27.0.tar.gz 2.解压&#xff1a; [root17dns ~]# tar -zxvf nginx-1.27.0.tar.gz 3.安装gcc等工具 [root17dns ~]# yum -y install gcc gcc-c [root17dns ~]# yum -y install make lrzsz …...

在react中使用wangeditor富文本

官方文档 wangeditor5在线文档 依赖安装&#xff08;react框架&#xff09; yarn add wangeditor/editor # 或者 npm install wangeditor/editor --saveyarn add wangeditor/editor-for-react # 或者 npm install wangeditor/editor-for-react --save在React 中使用wangEditor …...

拉提查合创5步玩转git工具协作代码开发

1 工具使用场景 开发团队使用git版本管理工具&#xff0c;进行协作代码开发过程中&#xff0c;最常用的场景为&#xff1a; &#xff08;1&#xff09;拉取代码 将git远端仓库最新代码拉取到本地。 &#xff08;2&#xff09;提交代码 将本地新增修改的代码提交至git远端仓库中…...

React特点

React 是一个用于构建用户界面的 JavaScript 库&#xff0c;由 Facebook 开发并维护。React 的特点主要体现在以下几个方面&#xff1a; 声明式&#xff08;Declarative&#xff09;&#xff1a;React 使你能够以一种声明的方式来描述你的 UI&#xff0c;这使得代码更加容易理解…...

鸿蒙(HarmonyOS)自定义Dialog实现时间选择控件

一、操作环境 操作系统: Windows 11 专业版、IDE:DevEco Studio 3.1.1 Release、SDK:HarmonyOS 3.1.0&#xff08;API 9&#xff09; 二、效果图 三、代码 SelectedDateDialog.ets文件/*** 时间选择*/ CustomDialog export struct SelectedDateDialog {State selectedDate:…...

学习008-02-04-08 Localize UI Elements(本地化UI元素)

Localize UI Elements&#xff08;本地化UI元素&#xff09; This lesson explains how to localize an XAF application. It describes how to translate UI elements into German and create a multi-language application. 本课介绍如何本地化XAF应用程序。它描述了如何将U…...

如何系统的学习C++和自动驾驶算法

给大家分享一下我的学习C和自动驾驶算法视频&#xff0c;收藏订阅都很高。打开下面的链接&#xff0c;就可以看到所有的合集了&#xff0c;订阅一下&#xff0c;下次就能找到了。 【C面试100问】第七十四问&#xff1a;STL中既然有了vector为什么还需要array STL中既然有了vec…...

typescript 定义类

/* js class 和 ts class 的区别 ---------------------------- | 语言 | js | ts | ---------------------------| | 公有 | 有 | jspublic | ---------------------------| | 私有 | 无 | private | ---------------------------| | 静态 | …...

设计模式和设计原则回顾

设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...

SkyWalking 10.2.0 SWCK 配置过程

SkyWalking 10.2.0 & SWCK 配置过程 skywalking oap-server & ui 使用Docker安装在K8S集群以外&#xff0c;K8S集群中的微服务使用initContainer按命名空间将skywalking-java-agent注入到业务容器中。 SWCK有整套的解决方案&#xff0c;全安装在K8S群集中。 具体可参…...

rknn优化教程(二)

文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK&#xff0c;开始写第二篇的内容了。这篇博客主要能写一下&#xff1a; 如何给一些三方库按照xmake方式进行封装&#xff0c;供调用如何按…...

Cesium1.95中高性能加载1500个点

一、基本方式&#xff1a; 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...

Python爬虫实战:研究feedparser库相关技术

1. 引言 1.1 研究背景与意义 在当今信息爆炸的时代,互联网上存在着海量的信息资源。RSS(Really Simple Syndication)作为一种标准化的信息聚合技术,被广泛用于网站内容的发布和订阅。通过 RSS,用户可以方便地获取网站更新的内容,而无需频繁访问各个网站。 然而,互联网…...

江苏艾立泰跨国资源接力:废料变黄金的绿色供应链革命

在华东塑料包装行业面临限塑令深度调整的背景下&#xff0c;江苏艾立泰以一场跨国资源接力的创新实践&#xff0c;重新定义了绿色供应链的边界。 跨国回收网络&#xff1a;废料变黄金的全球棋局 艾立泰在欧洲、东南亚建立再生塑料回收点&#xff0c;将海外废弃包装箱通过标准…...

Matlab | matlab常用命令总结

常用命令 一、 基础操作与环境二、 矩阵与数组操作(核心)三、 绘图与可视化四、 编程与控制流五、 符号计算 (Symbolic Math Toolbox)六、 文件与数据 I/O七、 常用函数类别重要提示这是一份 MATLAB 常用命令和功能的总结,涵盖了基础操作、矩阵运算、绘图、编程和文件处理等…...

【JavaSE】绘图与事件入门学习笔记

-Java绘图坐标体系 坐标体系-介绍 坐标原点位于左上角&#xff0c;以像素为单位。 在Java坐标系中,第一个是x坐标,表示当前位置为水平方向&#xff0c;距离坐标原点x个像素;第二个是y坐标&#xff0c;表示当前位置为垂直方向&#xff0c;距离坐标原点y个像素。 坐标体系-像素 …...

用docker来安装部署freeswitch记录

今天刚才测试一个callcenter的项目&#xff0c;所以尝试安装freeswitch 1、使用轩辕镜像 - 中国开发者首选的专业 Docker 镜像加速服务平台 编辑下面/etc/docker/daemon.json文件为 {"registry-mirrors": ["https://docker.xuanyuan.me"] }同时可以进入轩…...

九天毕昇深度学习平台 | 如何安装库?

pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子&#xff1a; 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...