AI测试:人工智能模型的核心测试指标,分类判别、目标检测、图像分割、定量计算分别有哪些指标?
在前面的人工智能测试技术系列文章中,我们详细介绍了人工智能测试的技术方法和实践流程。在了解人工智能测试方法后,我们需要进一步学习和研究如何衡量这些方法的有效性,即人工智能模型测试指标的选择。测试指标的选择主要取决于模型的类型和模型的实施计划。对于AI医学影像辅助诊疗、自动驾驶等特定类型智能模型的测试,我们应如何选择和理解测试指标?本篇文章,我们将以AI医学影像辅助诊疗模型为例,讨论用于评价人工智能模型测试性能的关键指标,了解这些指标是如何帮助我们理解人工智能模型表现的。
一般来说,AI医学影像辅助诊疗、自动驾驶、零售业货架监控、安全监控等视觉识别模型的性能指标根据不同的技术和业务场景,主要包含分类判别、目标检测、图像分割与定量计算四方面。
分类判别(Discrimination):在AI医学影像辅助诊疗系统中,判别分类的主要任务是区分医学影像中的不同病变组织,如区分良性和恶性肿瘤,其性能指标包括准确率、灵敏度等。在多分类场景,需要将多分类产品的性能指标评估问题转化成多个二分类问题,对各级计算得到的准确度、敏感度、特异度、精确度、AUC值分别进行加权平均,从而得到整个多分类人工智能系统的综合指标。
图像分割(Image Segmentation): 图像分割要求人工智能在医学影像中准确地勾勒出病变区域的边界,性能指标包括分割的准确度、边缘误差、完整性、运算速度等。
目标检测(Object Detection): 目标检测旨在识别影像中特定的病变位置,并对其进行定位。这一任务的性能指标包括定位精确度、召回率、平均精度以及检测的置信度阈值等。
定量计算(Quantitative Computation): 定量计算涉及从医学影像中提取有关病变的量化信息,如体积、表面积、纹理特征等,性能指标包括计算的准确性、重复性和可靠性等。
下面,我们以AI医学影像辅助诊疗系统为例对各任务场景下的测试指标进行一一介绍:
1.分类判别任务的评价指标
一般来说,AI医学影像辅助模型广泛采用的核心评价指标包括准确率、精确率、召回率、特异性、F-measure分数和AUC—ROC曲线。
准确率 (Accuracy):衡量模型整体正确识别的能力,即在所有样本中,模型能够正确识别的比例。准确率虽然直观,但在数据类别不平衡时会出现不够准确的问题。比如,如果大多数样本都是正常影像,模型即使对所有异常影像都判断错误,准确率也可能很高。
精确率(precision):衡量在模型预测为正类(如疾病)的样本中,实际为正类的比例。精确率高意味着模型预测的正类结果中大部分是正确的,有助于减少误诊,但可能会漏诊一些实际患病的患者。
召回率 (Recall)或敏感性(Sensitivity):指在所有实际为正类(如疾病)的样本中,模型正确预测为正类的样本比例。在医学影像诊断系统中,召回率越高,模型漏诊的可能性越小,但可能会伴随着较高的误诊率(即模型可能将一些健康样本误识别为阳性)。
特异性(Specificity):衡量的是模型识别出真实负类(健康)样本的能力,即在所有实际健康的患者中,模型能够正确识别出的比例。特异性高意味着误诊风险低,对于需要避免不必要的医疗干预的场景,特异性非常重要。高特异性可以减少不必要的治疗和患者的心理压力。
F-measure分数:是精确率和召回率的平均值,可以更全面地评估模型在分类任务中的表现。当F1值接近1时,说明模型在精确率和召回率之间取得了较好的平衡,对于医学影像辅助诊断系统来说,这既减少了假阳性导致的过度治疗风险,也减少了假阴性导致的治疗延误风险。

其中,True Positives(TP):正确识别出的正类别样本数量;
True Negatives(TN):正确识别出的负类别样本数量;
False Negatives(FN):正类别样本被错误预测为负类别样本数量;
False Positives(FP):负类别样本被错误地预测为正类别样本数量;
Total Positives:实际的正类别样本数量;
Total Negatives:实际的负类别样本数量;
AUC-ROC曲线:AUC(Area Under Curve)是ROC(Receiver Operating Characteristic)曲线下的面积。AUC是用于评估分类模型性能的指标,衡量模型将正例(疾病)排在负例(非疾病)样本之前的能力。AUC值越接近1,表示模型的性能越好,能够在不同的分类阈值下都保持较高的真阳性率和较低的假阳性率。AUC-ROC曲线可以直观比较不同模型的性能,帮助我们找到最佳的分类阈值,以平衡真阳性和假阳性的数量,适应不同的临床需求。

这些指标为软件测试人员提供了关于模型性能的全面视角。在实际应用中,需要根据具体情况权衡这些指标。例如,对于肺癌筛查,我们可能希望模型具有高召回率以尽可能找出所有潜在患者,同时保持一定的精确率以减少不必要的进一步检查。而在健康人群的体检中,可能会更注重精确率,以避免不必要的恐慌和医疗干预。
2.图像分割任务的评价指标
在医学影像领域,图像分割任务旨在通过人工智能系统精确描绘出病变区域。
医学影像关键部位的分割在疾病诊断是关键的步骤之一,精确的分割对提高系统的最终性能非常重要。对于AI医学影像系统的图片分割任务,除了上述的准确度、完整性、召回率、特异性等指标,还有以下关键的评价指标可以反映出人工智能系统在图像分割场景中的性能。
分割准确度(Segmentation Accuracy):是衡量分割效果最直接的一个指标,通常通过计算预测分割区域与真实分割区域之间的重合度(如Dice系数、Jaccard指数)来评估。
Dice系数(Dice Coefficient):衡量两个集合相似度的一种方法,适用于二值图像。计算公式为:

其中,A和B分别是预测分割区域和真实分割区域,∣A∩B∣是两个集合的交集大小,∣A∣和∣B∣分别是两个集合的大小。Dice系数取值范围在0到1之间,越接近1表示分割效果越好。
Jaccard指数(Jaccard Index):同样是衡量两个集合相似度的一个指标,适用于多分类情况。计算公式为:

A和B同样是预测分割区域和真实分割区域,∣A∩B∣是两个集合的交集大小,∣A∪B∣是两个集合的并集大小。Jaccard指数的取值范围也是0到1之间。
平均边缘误差(Average Edge Error, AEE):用于评估分割边缘与真实边缘之间的误差。计算方法可以是计算所有边缘像素点的预测位置与真实位置之间的平均欧氏距离。
3.目标检测任务的评价指标
在医学影像领域,目标检测是指在医学影像中自动识别和定位出特定的病变区域,例如肿瘤、病变等,并对其大小、形状、边缘等特征进行量化分析,辅助诊断。在目标检测任务中,系统会比较预测框与金标准框(即由专业医生标记的实际病灶区域)之间的位置关系。这个过程涉及判断预测框是否准确地包含了病灶区域。为了进行这一步,系统会使用一系列的检出指标。
平均精度(AP):平均精度是在不同的置信度阈值下,检测到的病变区域的平均精度,是PR曲线与坐标轴围成的面积。它是通过计算每个阈值下的精确度和召回率,以精确率为 y 轴和召回率为 x 轴,绘制PR(Precision-Recall)曲线得出的。AP的计算公式为:

其中,Pi表示精确度,Ri表示召回率,n是在不同置信度阈值下计算的点数。
MAP:各个类别AP的平均值,代表了在当前多个类别下能达到的平均精度。
此外,敏感度(真阳性率)、特异度(真阴性率)等上述指标同样可以量化预测框与金标准框之间的重合程度和位置偏差,评估病灶检测的准确性。
4.定量计算任务的评价指标
定量计通常涉及对影像中的特定区域或特征进行精确测量,提供关于病变性质、大小、形状和其他相关属性的数值信息,获得对疾病的量化理解。
对于乳腺癌钼靶影像,人工智能模型可以计算出乳腺肿块的边缘特征(肿块边缘的光滑程度、是否存在毛刺征象等)、肿块的密度、肿块的体积、肿块内的微钙化灶数量等,在这些指标的帮助下,我们能够对乳腺肿块的性质进行更为精确的判断,辅助医生进行诊断和治疗。
为了确保人工智能医学影像系统的定量计算结果的准确性,通常会使用性绝对误差和相对误差两个常用指标。绝对误差是指系统测量值与实际值(金标准值)之间的差异,而相对误差则是绝对误差与实际值的比例。这些指标可以帮助医生和测试人员了解系统的准确性。
医疗影像AI模型的评估指标是一个多方面的决策过程,需要综合考虑数据特性、疾病类型、临床需求、模型预期用途、实际应用的可行性以及法规标准。在实际应用中,我们往往会根据具体需求和不同业务场景选择合适的评估指标,结合多个指标对模型进行全面评估。
我们在医疗、汽车领域拥有丰富的人工智能测试经验。具备大量的数据模型和经过训练的测试数据集,如果您有人工智能测试技术交流、人工智能工具选型、人工智能模型训练、人工智能行业数据集等需求,可私信我,一起技术交流。
参考文献
[1] 李康. 基于深度学习的医学影像病灶检测算法研究.2024.
[2] 李曼,滕依杉,郭佳颖,等.基于人工智能的医学影像辅助诊断类软件监管与评测方法研究.2022.
[3] 郑光远,刘峡壁,韩光辉.医学影像计算机辅助检测与诊断系统综述.2018.
[4] 薄靖宇.基于深度学习的肺炎医学影像自动识别与检测技术研究.2022.
(本文引用部分内容版权属于原作者,仅作交流探讨,如有侵权请联系删除。谢绝转载)
相关文章:
AI测试:人工智能模型的核心测试指标,分类判别、目标检测、图像分割、定量计算分别有哪些指标?
在前面的人工智能测试技术系列文章中,我们详细介绍了人工智能测试的技术方法和实践流程。在了解人工智能测试方法后,我们需要进一步学习和研究如何衡量这些方法的有效性,即人工智能模型测试指标的选择。测试指标的选择主要取决于模型的类型和…...
探索LLM世界:新手小白的学习路线图
随着人工智能的发展,语言模型(Language Models, LLM)在自然语言处理(NLP)领域的应用越来越广泛。对于新手小白来说,学习LLM不仅能提升技术水平,还能为职业发展带来巨大的机遇。那么,…...
Linux基础命令大全 持续更新中......
最近重新学习了linux基础知识,并整理出了以下内容,以供参考 最近几日后续会持续更新内容哦 用户管理 加括号的代表可以不写 useradd (参数选项) 用户名 添加新用户 passwd (参数选项) 用户名 用…...
CPU的起源与发展历程
CPU的起源与发展历程 文章目录 CPU的起源与发展历程前言指令概念电子管(真空管)体系结构冯诺依曼架构哈佛架构 晶体管集成电路指令集与微架构微处理器x86架构CISC与RISC的提出MIPS架构ARM架构RISC-V架构FPGA 总结 前言 从古至今,人类为了…...
【C语言】 二叉树创建(结构体,先序遍历,中序遍历,后续遍历)
二叉树的创建:首先先定义一个结构体,里面包含数据(data),指向左子树的指针(L),指向右子树的指针(R)三个部分 在创建树的函数中,首先先输入…...
【和相同的二元子数组】python刷题记录
R2-前缀和专题 目录 前缀和哈希表 双指针 ps: 第一眼过去,这题应该能用双指针解出来,应该也能用前缀和解题。 前缀和哈希表 适用于 nums[i] 值不固定为 0 和 1 的其他情况 class Solution:def numSubarraysWithSum(self, nums: List[int], goal: i…...
【单片机毕业设计选题24087】-基于北斗系统的智能路灯
系统功能: 系统操作说明: 上电后OLED显示 “欢迎使用智能路灯系统请稍后”,两秒后显示Connecting...表示 正在连接阿里云,正常连接阿里云后显示第一页面,如长时间显示Connecting...请 检查WiFi网络是否正确。 系统分为四种模…...
[Docker][Docker常用命令]详细讲解
目录 1.帮助命令2.镜像命令3.容器命令4.卷命令5.常用命令 1.帮助命令 docker version # 显示docker的版本信息 docker info # 显示docker的系统信息,包括镜像和容器的数量 docker 命令 --help # 某条命令的帮助命令2.镜像命令 查看所有本地的主机上的镜像…...
onlyoffice用nginx反向代理
我对于onlyoffice的需求就是当个在线编辑器使用。在集成react的时候之前都是写的绝对路径的地址,这样在需要迁移应用的时候就造成了巨大的麻烦,所以我决定用nginx做反向代理,这样我集成的时候就不用每次都修改源码中的地址了。 一开始写的代…...
JavaScript字符串转换成base64编码方法
// base64编码表 const base64EncodeChars ref<string>("ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789/" );/*** base64编码* param {Object} str*/ const base64encode (str: string) > {let result "";// 循环遍历字符串…...
25.惰性队列
介绍 消费者由于各种原因而致使长时间不能消费消息造成堆积。比如有一百万条消息发送到mq中,消费者这时宕机了不能消费消息,造成了消息堆积。惰性队列就有必要了。 正常情况下,消息保存在内存中。消费者从内存中读取消息消费,速…...
ControlNet on Stable Diffusion
ControlNet on Stable Diffusion 笔记来源: 1.Adding Conditional Control to Text-to-Image Diffusion Models 2.How to Use OpenPose & ControlNet in Stable Diffusion 3.ControlNet与DreamBooth:生成模型的精细控制与主体保持 4.Introduction t…...
源码编译安装,及nginx服务控制、监控块
1.源码编译安装: [root17dns ~]# wget https://nginx.org/download/nginx-1.27.0.tar.gz 2.解压: [root17dns ~]# tar -zxvf nginx-1.27.0.tar.gz 3.安装gcc等工具 [root17dns ~]# yum -y install gcc gcc-c [root17dns ~]# yum -y install make lrzsz …...
在react中使用wangeditor富文本
官方文档 wangeditor5在线文档 依赖安装(react框架) yarn add wangeditor/editor # 或者 npm install wangeditor/editor --saveyarn add wangeditor/editor-for-react # 或者 npm install wangeditor/editor-for-react --save在React 中使用wangEditor …...
拉提查合创5步玩转git工具协作代码开发
1 工具使用场景 开发团队使用git版本管理工具,进行协作代码开发过程中,最常用的场景为: (1)拉取代码 将git远端仓库最新代码拉取到本地。 (2)提交代码 将本地新增修改的代码提交至git远端仓库中…...
React特点
React 是一个用于构建用户界面的 JavaScript 库,由 Facebook 开发并维护。React 的特点主要体现在以下几个方面: 声明式(Declarative):React 使你能够以一种声明的方式来描述你的 UI,这使得代码更加容易理解…...
鸿蒙(HarmonyOS)自定义Dialog实现时间选择控件
一、操作环境 操作系统: Windows 11 专业版、IDE:DevEco Studio 3.1.1 Release、SDK:HarmonyOS 3.1.0(API 9) 二、效果图 三、代码 SelectedDateDialog.ets文件/*** 时间选择*/ CustomDialog export struct SelectedDateDialog {State selectedDate:…...
学习008-02-04-08 Localize UI Elements(本地化UI元素)
Localize UI Elements(本地化UI元素) This lesson explains how to localize an XAF application. It describes how to translate UI elements into German and create a multi-language application. 本课介绍如何本地化XAF应用程序。它描述了如何将U…...
如何系统的学习C++和自动驾驶算法
给大家分享一下我的学习C和自动驾驶算法视频,收藏订阅都很高。打开下面的链接,就可以看到所有的合集了,订阅一下,下次就能找到了。 【C面试100问】第七十四问:STL中既然有了vector为什么还需要array STL中既然有了vec…...
typescript 定义类
/* js class 和 ts class 的区别 ---------------------------- | 语言 | js | ts | ---------------------------| | 公有 | 有 | jspublic | ---------------------------| | 私有 | 无 | private | ---------------------------| | 静态 | …...
MT管理器安卓版,APK逆向修改神器,APP提取APK教程。
今天算是比较郁闷的一天,作为互联网上算是最老的一批写用户,如果你是带人学习互联网的大佬,估计你都会放弃我这种年龄段的人,不过我还是活下来了,像我们这样的80、90后还有一大批活下来了。 AI出来了给人的引影响很大…...
提升openclaw开发效率:用快马一键生成算法调试与可视化工具
最近在优化openclaw机械爪控制算法时,发现调试过程特别耗时。每次修改参数后,都要重新编译代码、运行测试,还要手动记录数据。为了提升效率,我用InsCode(快马)平台快速搭建了一个可视化调试工具,效果出乎意料的好。分享…...
OpenClaw技能开发入门:为Qwen3-14b_int4_awq扩展自定义功能
OpenClaw技能开发入门:为Qwen3-14b_int4_awq扩展自定义功能 1. 为什么需要自定义技能? 去年冬天,我花了整整两周时间手动整理公司项目的技术文档。每天重复着复制、粘贴、格式调整的机械操作,直到偶然发现OpenClaw这个开源自动化…...
AssetRipper终极指南:轻松提取Unity游戏资源的完整教程
AssetRipper终极指南:轻松提取Unity游戏资源的完整教程 【免费下载链接】AssetRipper GUI Application to work with engine assets, asset bundles, and serialized files 项目地址: https://gitcode.com/GitHub_Trending/as/AssetRipper 还在为无法获取Uni…...
DOL-CHS-MODS:一站式游戏体验优化整合方案
DOL-CHS-MODS:一站式游戏体验优化整合方案 【免费下载链接】DOL-CHS-MODS Degrees of Lewdity 整合 项目地址: https://gitcode.com/gh_mirrors/do/DOL-CHS-MODS 方案价值:为何选择整合方案 DOL-CHS-MODS 提供了一种智能化的游戏资源整合解决方案…...
Ostrakon-VL-8B在VMware虚拟机中的一站式部署与性能调优
Ostrakon-VL-8B在VMware虚拟机中的一站式部署与性能调优 想在本地隔离环境里跑通一个强大的多模态大模型,比如Ostrakon-VL-8B,但又不想折腾物理机或者担心影响主系统?VMware虚拟机是个不错的选择。不过,在虚拟机里部署AI应用&…...
2026免费降AI率工具Top10:一键去机味 首选这款稳过检测
现在写论文用AI辅助早已是常态,但随之而来的AIGC检测卡得越来越严,熬了好几天改出来的稿子要是被判定AI率超标,打回重写都是轻的,耽误答辩进度才最让人头疼。 所以降AI、降低AI率已经成了毕业生的必备技能,只是市面上…...
Phi-4-mini-reasoning vLLM服务加固:限流熔断、输入清洗、输出长度约束配置
Phi-4-mini-reasoning vLLM服务加固:限流熔断、输入清洗、输出长度约束配置 1. 模型服务概述 Phi-4-mini-reasoning 是一个基于合成数据构建的轻量级开源模型,专注于高质量、密集推理的数据,并进一步微调以提高更高级的数学推理能力。该模型…...
Simulink双矢量MPC实战:从郭磊磊论文到可运行的Matlab Function代码(调制模型预测控制详解)
Simulink双矢量MPC实战:从理论到代码的完整实现路径 当我在实验室第一次尝试复现郭磊磊老师那篇经典论文时,面对12种矢量组合和复杂的PWM生成逻辑,完全不知从何下手。经过三个月的反复试验和代码调试,终于摸清了从论文公式到可运行…...
DS1881对数型数字电位器I²C驱动详解
1. DS1881 数字电位器驱动深度解析:面向嵌入式系统的IC对数型精密控制方案1.1 器件本质与工程定位DS1881 是 Dallas Semiconductor(后被 Maxim Integrated 收购)推出的单通道 IC 接口对数型数字电位器,其核心价值不在于“可编程电…...
