当前位置：首页 > article >正文

深度学习PyTorch之13种模型精度评估公式及调用方法

article 2026/3/16 11:57:40

深度学习pytorch之22种损失函数数学公式和代码定义
深度学习pytorch之19种优化算法（optimizer）解析
深度学习pytorch之4种归一化方法（Normalization）原理公式解析和参数使用
深度学习pytorch之简单方法自定义9类卷积即插即用
实时语义分割之BiSeNetv2（2020）结构原理解析及建筑物提取实践

文章目录

摘要
- 1. Accuracy Score
- 2. Balanced Accuracy
- 3. Brier Score Loss
- 4. Cohen's Kappa
- 5. F1/F-beta Score
- 6. Hamming Loss
- 7. Hinge Loss
- 8. Jaccard Score
- 9. Log Loss
- 10. Matthews Correlation
- 11. Precision
- 12. Recall
- 13. Zero-One Loss
关键参数说明
可执行代码示例

摘要

模型训练后需要评估模型性能，因此需要了解各种评估指标的具体用法和背后的数学原理，本博客以清晰的格式呈现分类任务评估指标的名称、调用示例、公式说明。

1. Accuracy Score

调用方式：

from sklearn.metrics import accuracy_score
acc = accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)

公式：

Accuracy = (TP + TN) / (TP + TN + FP + FN)

2. Balanced Accuracy

调用方式：

from sklearn.metrics import balanced_accuracy_score
bal_acc = balanced_accuracy_score(y_true, y_pred, sample_weight=None, adjusted=False)

公式：

Balanced Accuracy = (Recall_Class1 + Recall_Class2 + … +Recall_ClassN) / N
调整后版本：BalancedAcc_adj = (BalancedAcc - 1/N) / (1 -1/N)

3. Brier Score Loss

调用方式：

from sklearn.metrics import brier_score_loss
brier = brier_score_loss(y_true, y_prob, sample_weight=None, pos_label=1)

公式：

Brier Score = 1/N * Σ(y_true_i - y_prob_i)^2

（适用于概率预测的校准度评估）

4. Cohen’s Kappa

调用方式：

from sklearn.metrics import cohen_kappa_score
kappa = cohen_kappa_score(y1, y2, labels=None, weights=None, sample_weight=None)

公式：

κ = (p_o - p_e) / (1 - p_e) 其中 p_o 为观察一致率，p_e 为期望一致率

5. F1/F-beta Score

调用方式：

from sklearn.metrics import f1_score, fbeta_score
f1 = f1_score(y_true, y_pred, average='weighted', zero_division=0)
fbeta = fbeta_score(y_true, y_pred, beta=0.5, average='macro')

公式：

Fβ = (1 + β²) * (precision * recall) / (β² * precision + recall) 当 β=1
时为 F1 Score

6. Hamming Loss

调用方式：

from sklearn.metrics import hamming_loss
hamming = hamming_loss(y_true, y_pred, sample_weight=None)

公式：

Hamming Loss = 1/N * Σ(预测错误的标签数 / 总标签数) （多标签任务专用）

7. Hinge Loss

调用方式：

from sklearn.metrics import hinge_loss
hinge = hinge_loss(y_true, pred_decision, labels=None, sample_weight=None)

公式：

Hinge Loss = max(0, 1 - y_true * pred_decision) 的平均值（SVM模型常用）

8. Jaccard Score

调用方式：

from sklearn.metrics import jaccard_score
jaccard = jaccard_score(y_true, y_pred, average='samples')

公式：

Jaccard = TP / (TP + FP + FN)

即IOU，多用于图像分割评估

9. Log Loss

调用方式：

from sklearn.metrics import log_loss
logloss = log_loss(y_true, y_pred, eps=1e-15, normalize=True, labels=None)

公式：

Log Loss = -1/N * Σ[y_true_i * log(y_pred_i) + (1-y_true_i) *log(1-y_pred_i)]

交叉熵损失，需概率预测输入

10. Matthews Correlation

调用方式：

from sklearn.metrics import matthews_corrcoef
mcc = matthews_corrcoef(y_true, y_pred, sample_weight=None)

公式：

MCC = (TPTN - FPFN) / √((TP+FP)(TP+FN)(TN+FP)(TN+FN))

适用于类别不平衡的二分类

11. Precision

调用方式：

from sklearn.metrics import precision_score
precision = precision_score(y_true, y_pred, average='weighted', zero_division=0)

公式：

Precision = TP / (TP + FP)

12. Recall

调用方式：

from sklearn.metrics import recall_score
recall = recall_score(y_true, y_pred, average='macro', zero_division=0)

公式：

Recall = TP / (TP + FN)

13. Zero-One Loss

调用方式：

from sklearn.metrics import zero_one_loss
zero_one = zero_one_loss(y_true, y_pred, normalize=True)

公式：

Zero-One Loss = 1 - Accuracy

直接统计错误预测比例

关键参数说明

参数	说明
average	计算方式：None（各类单独计算）、‘micro’（全局统计）、‘macro’（各类平均）、‘weighted’（按支持数加权）
zero_division	处理除零情况：0（返回0）、1（返回1）或’warn’（返回0并警告）
sample_weight	样本权重数组
pos_label	指定正类标签（仅二分类有效）
labels	指定要评估的类别列表
beta	F-beta中召回率的权重（>1侧重召回率，<1侧重精确率）

可执行代码示例

以下程序采用常用的accuracy, precision, recall, f1对分类结果进行评估，注意替换下列文件夹，两个文件夹内均为8位单波段影像，采用相同命名。

label_dir = ‘label’ # 替换为实际路径
pred_dir = ‘pred’ # 替换为实际路径

import os
import numpy as np
from PIL import Image
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
import matplotlib.pyplot as pltdef load_images_and_labels(label_dir, pred_dir):"""读取标签图像和预测图像，假设它们的像素值代表类别标签。:param label_dir: 实际标签图像的文件夹路径:param pred_dir: 预测标签图像的文件夹路径:return: 实际标签和预测标签的列表"""labels = []preds = []# 获取文件列表label_files = sorted(os.listdir(label_dir))pred_files = sorted(os.listdir(pred_dir))# 遍历每个图像文件加载标签和预测for label_file, pred_file in zip(label_files, pred_files):label_path = os.path.join(label_dir, label_file)pred_path = os.path.join(pred_dir, pred_file)# 加载图像并转换为灰度label_img = Image.open(label_path).convert('L')  # 灰度图pred_img = Image.open(pred_path).convert('L')  # 灰度图# 假设灰度值代表类标签label = np.array(label_img)pred = np.array(pred_img)# 扁平化数组，以便计算评估指标labels.extend(label.flatten())preds.extend(pred.flatten())return np.array(labels), np.array(preds)def evaluate_model(labels, preds):"""计算模型的评估指标:param labels: 实际标签:param preds: 预测标签"""# 计算评估指标accuracy = accuracy_score(labels, preds)precision = precision_score(labels, preds, average='weighted', zero_division=0)recall = recall_score(labels, preds, average='weighted', zero_division=0)f1 = f1_score(labels, preds, average='weighted', zero_division=0)# 打印评估指标print(f"Accuracy: {accuracy:.4f}")print(f"Precision: {precision:.4f}")print(f"Recall: {recall:.4f}")print(f"F1 Score: {f1:.4f}")# 可选：绘制混淆矩阵from sklearn.metrics import confusion_matriximport seaborn as snscm = confusion_matrix(labels, preds)sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=np.unique(labels), yticklabels=np.unique(labels))plt.title('Confusion Matrix')plt.xlabel('Predicted')plt.ylabel('True')plt.show()if __name__ == "__main__":# 设置实际标签和预测标签的文件夹路径label_dir = 'label'  # 替换为实际路径pred_dir = 'pred'  # 替换为实际路径# 加载标签和预测数据labels, preds = load_images_and_labels(label_dir, pred_dir)# 评估模型evaluate_model(labels, preds)

输出结果：
Accuracy: 0.9681
Precision: 0.9686
Recall: 0.9681
F1 Score: 0.9683

绘制混淆矩阵：
在这里插入图片描述

深度学习PyTorch之13种模型精度评估公式及调用方法

深度学习pytorch之22种损失函数数学公式和代码定义深度学习pytorch之19种优化算法（optimizer）解析深度学习pytorch之4种归一化方法（Normalization）原理公式解析和参数使用深度学习pytorch之简单方法自定义9类卷积即插即用实时…...

编程日记 2026/3/16 11:57:40

tomcat单机多实例部署

一、部署方法多实例可以运行多个不同的应用，也可以运行相同的应用，类似于虚拟主机，但是他可以做负载均衡。方式一： 把tomcat的主目录挨个复制，然后把每台主机的端口给改掉就行了。优点是最简单最直接，…...

编程日记 2026/3/16 11:57:40

Java开发者如何接入并使用DeepSeek

目录一、准备工作二、添加DeepSeek SDK依赖三、初始化DeepSeek客户端四、数据上传与查询五、数据处理与分析六、实际应用案例七、总结【博主推荐】：最近发现了一个超棒的人工智能学习网站，内容通俗易懂，风格风趣幽默&#xff…...

编程日记 2026/3/16 11:57:39

win10电脑鼠标速度突然变的很慢？

电脑鼠标突然变很慢，杀毒检测后没问题，鼠标设置也没变，最后发现可能是误触鼠标的“DPI”调节键。 DPI调节键在鼠标滚轮下方，再次点击即可恢复正常鼠标速度。如果有和-的按键，速度变快，-速度变慢。图源&…...

编程日记 2026/3/16 11:57:48

第四次CCF-CSP认证（含C++源码）

第四次CCF-CSP认证第一道（easy）思路及AC代码第二道（easy）思路及AC代码遇到的问题第三道（mid）思路及AC代码第一道（easy） 题目链接思路及AC代码这题就是将这个矩阵旋转之后输出…...

编程日记 2026/3/16 11:57:48

Netty基础—1.网络编程基础一

大纲 1.什么是OSI开放系统互连 2.OSI七层模型各层的作用 3.TCP/IP协议的简介 4.TCP和UDP的简介 5.TCP连接的三次握手 6.TCP连接的四次挥手 7.TCP/IP中的数据包 8.TCP通过确认应答与序列号提高可靠性 9.HTTP请求的传输过程 10.HTTP协议报文结构 11.Socket、短连接、长…...

编程日记 2026/3/12 22:28:14

【理想解法学习笔记】

目录理想解法原理简介算法步骤属性值规范化方法代码示例理想解法原理简介 TOPSIS(Technique for Order Preference by Simi larity to IdealSolution)法是一种逼近理想解的排序方法。其基本的处理思路是：首先建立初始化决策矩阵，而后基于规范化后的初…...

编程日记 2026/2/14 15:36:12

98.在 Vue3 中使用 OpenLayers 根据 Resolution 的不同显示不同的地图

在 Vue3 中使用 OpenLayers 根据 Resolution 的不同显示不同的地图前言在 Web GIS（地理信息系统）应用开发中，地图的 Resolution（分辨率）是一个重要的概念。不同的 Resolution 适用于不同的地图层级，有时…...

编程日记 2026/3/16 11:58:18

一、前言 1. 官网 1.1 Vaultwarden https://github.com/dani-garcia/vaultwarden https://github.com/wcjxixi/Vaultwarden-Wiki-Chn https://hub.docker.com/r/vaultwarden/server https://rs.ppgg.in/ # Vaultwarden Wiki 中文版 https://geekdaxue.co/read/Vaultward…...

编程日记 2026/2/5 9:06:18

Smart contract -- 自毁合约

在区块链开发中，Solidity 语言提供了强大的功能，其中自毁合约是一个独特且重要的特性。今天，就让我们深入探讨一下 Solidity 中的自毁合约，以及如何使用 selfdestruct 函数。注意：使用继承时请确保代码的正确性&#…...

编程日记 2026/2/25 7:43:33

unity学习64，第3个小游戏：一个2D跑酷游戏

目录学习参考素材资源导入 1 创建项目 1.1 创建1个2D项目 1.2 导入素材 2 背景图bg 2.0 bg素材 2.1 创建背景 2.2 修改素材，且修改摄像机等 2.2.1 修改导入的原始prefab素材 2.2.2 对应调整摄像机 2.2.3 弄好背景 2.3 背景相关脚本实现 2.3.1 错误…...

编程日记 2026/3/16 11:58:15

Python Flask 在网页应用程序中处理错误和异常

Python Flask 在网页应用程序中处理错误和异常 Python Flask 在网页应用程序中处理错误和异常 Python Flask 在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。…...

编程日记 2026/3/14 11:03:00

模板方法模式的C++实现示例

核心思想模板方法设计模式是一种行为设计模式，它定义了一个算法的框架，并将某些步骤的具体实现延迟到子类中。通过这种方式，模板方法模式允许子类在不改变算法结构的情况下重新定义算法的某些步骤。模板方法模式的核心在于： …...

编程日记 2026/2/14 17:19:40

水下机器人推进器PID参数整定与MATLAB仿真

水下机器人推进器PID参数整定与MATLAB仿真 1. PID控制原理目标：通过调节比例（P）、积分（I）、微分（D）参数，使推进器输出力快速稳定跟踪期望值。传递函数（示例）：推进器动力学模型可简化为： [ G(s) = \frac{K}{\tau s + 1} \cdot e^{-Ts} ] 其中：K为增益，τ为时间常…...

编程日记 2026/2/20 7:31:25

在本地部署DeepSeek等大模型时，需警惕的潜在安全风险

在本地部署DeepSeek等大模型时，尽管数据存储在本地环境（而非云端），但仍需警惕以下潜在安全风险： 1. 模型与数据存储风险未加密的存储介质：若训练数据、模型权重或日志以明文形式存储，可能被物…...

编程日记 2026/3/16 13:33:38

智能焊机监测系统：打造工业安全的数字化盾牌

在现代工业生产中，焊机作为核心设备之一，其稳定性和安全性直接关系到生产效率和产品质量。德州迪格特科技有限公司推出的智能焊机监测系统，通过先进的技术手段，为工业生产构筑了一道坚固的安全防线。智能监测，保障焊…...

编程日记 2026/2/15 21:04:42

【redis】string类型相关操作：SET、GET、MSET、MGET、SETNX、SETEX、PSETEX

文章目录二进制存储编码转换SET 和 GETSETGET MSET 和 MGETSETNX、SETEX 和 PSETEX Redis 所有的 key 都是字符串，value 的类型是存在差异的二进制存储 Redis 中的字符串，直接就是按照二进制数据的方式存储的不仅仅可以存储文本数据，还可…...

编程日记 2026/3/12 3:22:20

GaussDB安全配置指南：从认证到防御的全方面防护

一、引言随着企业数据规模的扩大和云端化进程加速，数据库安全性成为运维的核心挑战之一。GaussDB作为一款高性能分布式数据库，提供了丰富的安全功能。本文将从认证机制、权限控制、数据加密、审计日志等维度，系统性地讲解如何加固 Ga…...

编程日记 2026/3/11 11:23:44

总结学习课程

1. 数据加载与预处理 PyTorch工具加载和预处理数据（如MNIST数据集）。 2. 定义模型 - 使用nn.Module构建神经网络，定义各层和前向传播。 3. 损失函数与优化器： 选择损失函数（如交叉熵损失）和优化…...

编程日记 2026/2/21 10:25:33

Ubuntu20.04搭建gerrit code review

一、环境准备 1. 安装 Java 环境‌ Gerrit 依赖 Java 运行环境（推荐 JDK 8）： sudo apt install openjdk-11-jdk 验证安装： java -version ‌2. 安装 Git sudo apt install git ‌3. 可选依赖数据库‌：Gerrit …...

编程日记 2026/3/16 11:57:55

MacOS安装FFmpeg和FFprobe

按照网上很多教程安装，结果都失败了，后来才发现是路径问题，其实安装过程很简单（无奈） 第一步： 在官网下载打开页面后，可以看到FFmpeg、FFprobe、FFplay和FFserver的下载图标第二步&#xff1…...

编程日记 2026/3/16 11:58:18

Redis7系列：设置开机自启

前面的文章讲了Redis和Redis Stack的安装，随着服务器的重启，导致Redis 客户端无法连接。原来的是Redis没有配置开机自启。此文记录一下如何配置开机自启。 1、修改配置文件前面的Redis和Redis Stack的安装的文章中已经讲了redis.config的配置&#xf…...

编程日记 2026/3/16 11:57:49

SpringAI介绍及本地模型使用方法

博客原文地址前言 Spring在Java语言中一直稳居高位，与AI的洪流碰撞后也产生了一些有趣的”化学反应“，当然你要非要说碰撞属于物理反应也可以， 在经历了一系列复杂的反应方程后，Spring家族的新成员——SpringAI，就…...

编程日记 2026/3/15 19:02:26

Zookeeper实践指南

Zookeeper实践指南 1. 什么是 Zookeeper？ Zookeeper 是 Apache 旗下的一个开源分布式协调框架，主要用于解决分布式系统中的一致性问题，提供高效可靠的分布式数据管理能力。 1.1 Zookeeper 的核心特性顺序一致性：客户端的更新…...

编程日记 2026/2/28 16:23:34

Unity 基础知识总结（持续更新中...）

引擎基础 Unity有哪几个主要窗口？ Scene窗口用于场景搭建和UI界面拼接 Game窗口游戏运行预览 Hierarchy窗口查看和调整场景对象层级结构 Project窗口游戏工程资源 Inspector创建属性查看器，属性设置、脚本组件挂载 Unity提供了几种光源…...

编程日记 2026/2/15 4:46:25

IDEA接入阿里云百炼中免费的通义千问[2025版]

安装deepseek 上一篇文章IDEA安装deepseek最新教程2025中说明了怎么用idea安装codeGPT插件，并接入DeepSeek，无奈接入的官方api已经不能使用了，所以我们尝试从其他地方接入阿里云百炼https://bailian.console.aliyun.com/ 阿里云百炼‌是阿…...

编程日记 2026/3/12 17:48:29

中级网络工程师面试题参考示例（1）

一、基础理论 1. OSI七层模型与TCP/IP四层模型的区别是什么？请举例说明第三层（网络层）和第四层（传输层）的核心协议。参考答案： OSI七层模型分为物理层、数据链路层、网络层、传输层、会话层、表示层、应用…...

编程日记 2026/2/18 11:12:44

主流大语言模型中Token的生成过程本质是串行的

主流大语言模型中Token的生成过程本质是串行的 flyfish 1. 串行生成自回归模型的核心逻辑： 大模型（如GPT-2）采用自回归架构，每个Token的生成必须基于已生成的完整历史序列。例如，生成“今天天气很好”时&#xff1a…...

编程日记 2026/2/27 4:30:24

3.03-3.09 Web3 游戏周报：Sunflower Land 周留存率 74.2%，谁是本周最稳链游？

回顾上周的区块链游戏概况，查看 Footprint Analytics 与 ABGA 最新发布的数据报告。【3.03–3.09】Web3 游戏行业动态 Sui 背后开发公司 Mysten Labs 宣布收购游戏开发平台 ParasolYescoin 创始人因合伙人纠纷被警方带走，案件升级为刑事案件Animoca B…...

编程日记 2026/3/16 11:57:49

高级java每日一道面试题-2025年2月18日-数据库篇-MySQL 如何做到高可用方案?

如果有遗漏,评论区告诉我进行补充面试官: MySQL 如何做到高可用方案? 我回答: 在Java高级面试中，讨论MySQL如何实现高可用性方案是一个重要话题。这不仅涉及到数据库的稳定性和可靠性，还关系到系统的整体性能和用户体验。以下是结合提供的信息进行综…...

编程日记 2026/3/12 2:26:12

文章目录

摘要

1. Accuracy Score

2. Balanced Accuracy

3. Brier Score Loss

4. Cohen’s Kappa

5. F1/F-beta Score

6. Hamming Loss

7. Hinge Loss

8. Jaccard Score

9. Log Loss

10. Matthews Correlation

11. Precision

12. Recall

13. Zero-One Loss

关键参数说明

可执行代码示例

相关文章：