当前位置：首页 > news >正文

损失函数——交叉熵损失（Cross-entropy loss）

news 2025/7/7 15:32:56

交叉熵损失（Cross-entropy loss）是深度学习中常用的一种损失函数，通常用于分类问题。它衡量了模型预测结果与实际结果之间的差距，是优化模型参数的关键指标之一。以下是交叉熵损失的详细介绍。

假设我们有一个分类问题，需要将输入数据x分为C个不同的类别。对于每个输入数据x，我们定义一个C维的向量y^，其中y^i表示x属于第i个类别的概率。我们的目标是使得y^尽可能接近真实的标签y的概率分布。

假设真实标签y是一个C维的向量，其中只有一个元素为1，其余元素为0，表示x属于第k个类别。那么，我们可以使用交叉熵损失来衡量模型预测结果和真实标签之间的差距。交叉熵损失的公式如下：

$L\left ( x,y \right ) = -\sum _{i=1}^{C}x_{_{i}} log y_{i}$

其中，xi表示真实标签的第i个元素，yi表示模型预测x属于第i个类别的概率。

交叉熵损失的本质是衡量两个概率分布之间的距离。其中一个概率分布是真实标签y的分布，另一个是模型预测的概率分布y^。对于每个类别i，yi表示真实标签x属于第i个类别的概率，y^i表示模型预测x属于第i个类别的概率。当两个概率分布越接近时，交叉熵损失越小，表示模型预测结果越准确。

交叉熵损失是一种凸函数，通常使用梯度下降等优化算法来最小化它。在深度学习中，交叉熵损失是常见的分类损失函数之一，广泛应用于图像分类、语音识别等任务中。

在PyTorch中，交叉熵损失可以使用torch.nn.CrossEntropyLoss实现。该函数将输入数据视为模型输出的概率分布，将目标标签视为类别索引，并计算这些概率与实际标签之间的交叉熵损失。

以下是一个示例代码片段，说明如何使用torch.nn.CrossEntropyLoss计算交叉熵损失：

import torch# 创建模型输出和目标标签
output = torch.randn(10, 5)  # 10个样本，5个类别
target = torch.tensor([1, 0, 4, 2, 3, 1, 0, 4, 2, 3])  # 目标类别索引# 创建交叉熵损失函数
criterion = torch.nn.CrossEntropyLoss()# 计算损失
loss = criterion(output, target)print(loss)

在训练中，你可以使用torch.nn.CrossEntropyLoss作为损失函数来优化模型。假设你已经有一个PyTorch模型和训练数据集，以下是一个简单的训练循环示例，它使用交叉熵损失函数来训练模型：

import torch
import torch.nn as nn
import torch.optim as optim# 定义模型
class MyModel(nn.Module):def __init__(self):super(MyModel, self).__init__()self.fc1 = nn.Linear(10, 5)self.fc2 = nn.Linear(5, 2)def forward(self, x):x = self.fc1(x)x = nn.functional.relu(x)x = self.fc2(x)return xmodel = MyModel()# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.1)# 训练循环
for epoch in range(num_epochs):for batch_idx, (data, target) in enumerate(train_loader):optimizer.zero_grad()output = model(data)loss = criterion(output, target)loss.backward()optimizer.step()if batch_idx % log_interval == 0:print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(epoch, batch_idx * len(data), len(train_loader.dataset),100. * batch_idx / len(train_loader), loss.item()))

在这个例子中，MyModel是一个简单的两层全连接神经网络。训练循环通过从数据集中加载数据批次，使用optimizer.zero_grad()清空梯度，计算模型输出和损失，使用loss.backward()计算梯度并使用optimizer.step()更新模型参数。每个epoch结束时，模型将在测试集上进行评估，以检查其在新数据上的泛化能力。

在这个训练循环中，我们使用nn.CrossEntropyLoss()作为损失函数，并传递模型输出和目标标签作为参数。loss.backward()计算梯度并将梯度传播回模型中的参数，从而使优化器能够更新这些参数以最小化损失。

损失函数——交叉熵损失（Cross-entropy loss）

相关文章：

损失函数——交叉熵损失（Cross-entropy loss）

电商ERP接口erp进销存接口

leetcode 922. 按奇偶排序数组 II

Unity四叉树地图

【unity插件】OpenFracture插件实现物体破裂和切割

Spring Security实现登录

小狐狸ChatGPT付费创作系统1.9.7独立版 + H5端 + 小程序前端增加AI绘画+GPT4接口

双目测距联合YOLOv8 项目总结

Windows提权：利用MSSQL数据库，Oracle数据库

linux常见的二十多个指令

内蒙古自治区住房和城乡建设分析及解决方案

JavaEE进阶5/25（属性注入）

【Java学习记录-4】相关名词和概念记录（持续更新）

《程序员面试金典（第6版）》面试题 16.25. LRU 缓存（自定义双向链表，list库函数，哈希映射）

kong网关启用jwt认证插件

day12 - 图像修复

1720_Linux学习中的问题处理

七人拼团系统开发模式详解

CPU性能优化：分支预测

过滤器Filter，拦截器Interceptor

微信小程序之bind和catch

使用van-uploader 的UI组件，结合vue2如何实现图片上传组件的封装

数据链路层的主要功能是什么

CocosCreator 之 JavaScript/TypeScript和Java的相互交互

return this；返回的是谁

AirSim/Cosys-AirSim 游戏开发（四）外部固定位置监控相机

[ACTF2020 新生赛]Include 1(php://filter伪协议)

基于Java+VUE+MariaDB实现（Web）仿小米商城

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的----NTFS源代码分析--重要

云原生周刊：k0s 成为 CNCF 沙箱项目