当前位置：首页 > news >正文

深度学习：Pytorch常见损失函数Loss简介

news 2026/2/11 3:41:16

深度学习：Pytorch常见损失函数Loss简介

L1 Loss
MSE Loss
SmoothL1 Loss
CrossEntropy Loss
Focal Loss

此篇博客主要对深度学习中常用的损失函数进行介绍，并结合Pytorch的函数进行分析，讲解其用法。

L1 Loss

L1 Loss计算预测值和真值的平均绝对误差。

$Loss(y,\hat{y}) = |y-\hat{y}|$

Pytorch函数：

torch.nn.L1Loss(size_average=None, reduce=None, reduction='mean')

参数：

size_average (bool, optional) – 此参数已弃用；
reduce (bool, optional) – 此参数已弃用；
reduction (str, optional) – 由以下三个参数选其一：‘none’ | ‘mean’ | ‘sum’. ‘none’：不对各个元素的误差处理， ‘mean’：输出是各个元素误差的平均值，‘sum’：输出是将各个元素的误差求和。默认：‘mean’。

MSE Loss

MSE Loss计算预测值和真值的均方误差。

$Loss(y,\hat{y}) = (y-\hat{y})^2$

Pytorch函数：

torch.nn.MSELoss(size_average=None, reduce=None, reduction='mean')

参数：

size_average (bool, optional) – 此参数已弃用。
reduce (bool, optional) – 此参数已弃用。
reduction (str, optional) – 由以下三个参数选其一：‘none’ | ‘mean’ | ‘sum’. ‘none’：不对各个元素的误差处理， ‘mean’：输出是各个元素误差的平均值，‘sum’：输出是将各个元素的误差求和。默认：‘mean’。

SmoothL1 Loss

在训练初期，当预测值和真值相差较大时，损失函数的值较大，容易导致训练不稳定，为了防止梯度爆炸（梯度值是指损失函数对输入的导数，梯度爆炸是指梯度值很大），同时当预测值和真值相差较小时，梯度值足够小，可以使用SmoothL1 Loss，它可以视作L1 Loss和L2 Loss（MSE Loss）的结合，计算公式如下：

$KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ Loss(y,\hat{y}…$

Pytorch函数：

torch.nn.SmoothL1Loss(size_average=None, reduce=None, reduction='mean', beta=1.0)

参数：

size_average (bool, optional) – 此参数已弃用。
reduce (bool, optional) – 此参数已弃用。
reduction (str, optional) – 由以下三个参数选其一：‘none’ | ‘mean’ | ‘sum’. ‘none’：不对各个元素的误差处理， ‘mean’：输出是各个元素误差的平均值，‘sum’：输出是将各个元素的误差求和。默认：‘mean’。
beta ( float ,optional) – 指定 L1 Loss和 L2 Loss之间变化的阈值。该值必须是非负数。默认值：1.0

CrossEntropy Loss

CrossEntropy Loss是在处理分类问题中常用的一种损失函数，如二分类和多分类。此函数来源于信息论中的交叉熵概念，用于衡量两个预估概率分布和真实概率分布之间的差异。交叉熵损失函数公式如下：
（1）对于二分类问题：
$Loss(y,\hat{y}) = -\sum_{i=1}^{n}(y_ilog(\hat{y_i})+(1-y_i)log(1-\hat{y_i}))$
其中， $y$ 是真值， $\hat{y}$ 是预测值，n是样本的数量，每个样本都会计算一个损失，如果reduction是‘mean’，那么会对所有样本的损失求平均；如果reduction是‘sum’，那么会对所有样本的损失求和。
（2）对于多分类问题：
$Loss(y,\hat{y}) = - \sum_{i=1}^{n}\sum_{j=1}^{m}y_{ij}log(\hat{y_{ij}})$
其中， $y_{ij}$ 是第i个样本的真实标签在第j类的概率， $\hat{y_{ij}}$ 是第i个样本预测为第j类的概率，n是样本数量，m是类别的数量，每个样本都会计算一个损失，如果reduction是‘mean’，那么会对所有样本的损失求平均；如果reduction是‘sum’，那么会对所有样本的损失求和。

Pytorch函数：

torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=- 100, reduce=None, reduction='mean', label_smoothing=0.0)

参数：

weight (Tensor, optional) – 为每个类指定的手动缩放权重。如果给定，则必须是大小为C的张量。
size_average (bool, optional) – 此参数已弃用。
ignore_index (int, optional) – 指定被忽略且不会对输入梯度产生影响的目标值。
reduce (bool, optional) – 此参数已弃用。
reduction (str, optional) – 由以下三个参数选其一：‘none’ | ‘mean’ | ‘sum’. ‘none’：不对各个元素的误差处理， ‘mean’：输出是各个元素误差的平均值，‘sum’：输出是将各个元素的误差求和。默认：‘mean’。
label_smoothing (float, optional) – [0.0, 1.0] 中的浮点数。指定计算损失时的平滑量，其中 0.0 表示不平滑。默认值: 0.0.

Focal Loss

Focal Loss主要用来处理正负样本（特别是前景和背景样本的分类）不均衡的问题。样本不均衡会导致训练效率低，甚至可能会导致模型退化。Focal Loss可以视为对CrossENtropy Loss增加权重加以平衡（增加预测概率小的样本权重，其对应的损失函数值变大；反而降低预测概率大的样本权重，其对应的损失函数值变小）。参考公式如下：
$Loss(y,\hat{y}) = - \sum_{i=1}^{n}\sum_{j=1}^{m}(1-\hat{y_{ij}})^{\gamma}y_{ij}log(\hat{y_{ij}})$
其中， $\gamma$ 常取2.

深度学习：Pytorch常见损失函数Loss简介

深度学习：Pytorch常见损失函数Loss简介

L1 Loss

MSE Loss

SmoothL1 Loss

CrossEntropy Loss

Focal Loss

相关文章：

深度学习：Pytorch常见损失函数Loss简介

【Android-java】Parcelable 是什么？

Spring整合MyBatis小实例（转账功能）

List集合的对象传输的两种方式

海外媒体发稿：软文写作方法方式？一篇好的软文理应合理规划？

【秋招】算法岗的八股文之机器学习

为什么list.sort()比Stream().sorted()更快？

SQL账户SA登录失败，提示错误:18456

Linux 终端操作命令（1）

java与javaw运行jar程序

安装和配置 Home Assistant 教程 HACS Homkit 米家等智能设备接入

解决 Android Studio 的 Gradle 面板上只有关于测试的 task 的问题

安全杂记 - 复现nodejs沙箱绕过

信息安全事件分类分级指南

Vue系列第八篇：echarts绘制柱状图和折线图

SQL-每日一题【1164. 指定日期的产品价格】

memcpy、memmove、memcmp、memset函数的作用与区别

socket 到底是个啥

奥威BI—数字化转型首选，以数据驱动企业发展

vue中swiper使用

在rocky linux 9.5上在线安装 docker

2025盘古石杯决赛【手机取证】

拉力测试cuda pytorch 把 4070显卡拉满

第 86 场周赛：矩阵中的幻方、钥匙和房间、将数组拆分成斐波那契序列、猜猜这个单词

Map相关知识

LeetCode - 199. 二叉树的右视图

JS设计模式(4)：观察者模式

嵌入式学习笔记DAY33（网络编程——TCP）

windows系统MySQL安装文档

【安全篇】金刚不坏之身：整合 Spring Security + JWT 实现无状态认证与授权