当前位置：首页 > news >正文

为什么要用“交叉熵”做损失函数

news 2026/2/9 13:40:32

大家好啊，我是董董灿。

今天看一个在深度学习中很枯燥但很重要的概念——交叉熵损失函数。

作为一种损失函数，它的重要作用便是可以将“预测值”和“真实值(标签)”进行对比，从而输出 loss 值，直到 loss 值收敛，可以认为神经网络模型训练完成。

那么这个所谓的“交叉熵”到底是什么，为什么它可以用来作为损失函数呢？

1、熵与交叉熵

“交叉熵”包含了“交叉”和“熵”这两部分。

关于“熵”的描述在理解熵的本质一文中有更详细的说明。总的来说，熵可以用来衡量一个随机变量的不确定性，数学上可表示为：

H(i) = - ∑ P(i) * log(P(i))

对于上面的公式，我们稍微变一下形，将负号和 log(P(i)) 看做一个变量，得到：

PP(i) = -log(p(i))

那么熵的公式就可以写作：

H(i) = ∑ P(i) * PP(i)

此时熵的公式中，P(i) 和 PP(i) 是服从相同的概率分布。因此，熵H(i)就变成了事件 PP(i) 发生的数学期望，通俗理解为均值。

熵越大，表示事件发生的不确定性越大。

而交叉熵是用于比较两个概率分布之间的差异，对于两个概率分布 P 和 Q 而言，交叉熵定义为：

H(i) = ∑ P(i) * Q(i)

此时，P(i) 和 Q(i) 服从两种不同的概率分布，交叉熵的“交叉”就体现在这。

其中 P(i) 为真实分布，也就是训练过程中标签的分布；Q(i) 为预测分布，也就是模型每轮迭代输出的预测结果的分布。

交叉熵越小，表示两个概率分布越接近。

从而模型预测结果就越接近真实标签结果，说明模型训练收敛了。

关于更细节的数学原理，可以查看熵的本质，不过我们也可以不用深究，理解上述结论就可以。

2、交叉熵作为损失函数

假设有一个动物图像数据集，其中有五种不同的动物，每张图像中只有一只动物。

我们将每张图像都使用 one-hot 编码来标记动物。对one-hot编码不清楚的可以移步这里有个你肯定能理解的one-hot。

上图是对动物分类进行编码后的表格，我们可以将一个one-hot 编码视为每个图像的概率分布，那么：

第一个图像是狗的概率分布是 1.0 (100%)。

对于第二张图是狐狸的概率分布是1.0（100%）。

以此类推，此时，每个图像的熵都为零。

换句话说，one-hot 编码标签 100% 确定地告诉我们每张图像有哪些动物：第一张图片不可能 90% 是狗，10% 是猫，因为它100%是狗。

因为这是训练的标签，是固定下来的确定分布。

现在，假设有一个神经网络模型来对这些图像进行预测，在神经网络执行完一轮训练迭代后，它可能会对第一张图像（狗）进行如下分类：

该分类表明，第一张图像越 40%的概率是狗，30%的概率是狐狸，5%的概率是马，5%的概率是老鹰，20%的概率是松鼠。

但是，单从图像标签上看，它100%是一只狗，标签为我们提供了这张图片的准确的概率分布。

那么，此时如何评价模型预测的效果呢？

我们可以计算利用标签的one-hot编码作为真实概率分布 P，模型预测的结果作为 Q 来计算交叉熵：

结果明显高于标签的零熵，说明预测结果并不是很好。

继续看另一个例子。

假设模型经过了改良，在完成一次推理或者一轮训练后，对第一张图得到了如下的预测，也就是说这张图有98%的概率是狗，这个标签的100%已经差的很少了。

我们依然计算交叉熵：

可以看到交叉熵变得很低，随着预测变得越来越准确，交叉熵会下降，如果预测是完美的，它就会变为零。

基于此理论，很多分类模型都会利用交叉熵作为模型的损失函数。

在机器学习中，由于多种原因（比如更容易计算导数），对数 log 的计算大部分情况下是使用基数 e 而不是基数 2 ，对数底的改变不会引起任何问题，因为它只改变幅度。

最近开通另一个计算机视觉从入门到调优的专栏，感兴趣的小伙伴可以查看：计算机视觉从入门到调优

为什么要用“交叉熵”做损失函数

大家好啊，我是董董灿。今天看一个在深度学习中很枯燥但很重要的概念——交叉熵损失函数。作为一种损失函数，它的重要作用便是可以将“预测值”和“真实值(标签)”进行对比，从而输出 loss 值，直到 loss 值收敛，可以…...

编程日记 2023/11/13 7:08:05

【Android】Android apk 逆向编译

链接：https://pan.baidu.com/s/14r5s9EJwQgeLK5cCb1Gq1Q 提取码：qdqt 解压jadx 在 lib 文件内找到 jadx-gui-1.4.7.jar 打开cmd 执行 ：java -jar jadx-gui-1.4.7.jar示列：...

编程日记 2023/11/13 7:07:03

04-详解SpringBoot自动装配的原理,依赖属性配置的实现,源码分析

自动装配原理依赖属性配置提供Bean用来封装配置文件中对应属性的值 Data public class Cat {private String name;private Integer age; }Data public class Mouse {private String name;private Integer age; }cartoon:cat:name: "图多盖洛"age: 5mouse:name: …...

编程日记 2023/11/13 7:06:03

[100天算法】-不同路径 III（day 73）

题目描述在二维网格 grid 上，有 4 种类型的方格：1 表示起始方格。且只有一个起始方格。 2 表示结束方格，且只有一个结束方格。 0 表示我们可以走过的空方格。 -1 表示我们无法跨越的障碍。返回在四个方向（上、下、左、右&#…...

编程日记 2023/11/13 7:05:02

【c++随笔12】继承

【c随笔12】继承一、继承1、继承的概念2、3种继承方式3、父类和子类对象赋值转换4、继承中的作用域——隐藏5、继承与友元6、继承与静态成员二、继承和子类默认成员函数1、子类构造函数二、子类拷贝构造函数3、子类的赋值重载4、子类析构函数三、单继承、多继承、菱形继承1…...

编程日记 2023/11/13 7:04:00

Excel中使用数据验证、OFFSET实现自动更新式下拉选项

在excel工作簿中，有两个Sheet工作表。 Sheet1： Sheet2（数据源表）： 要实现Sheet1中的“班级”内容，从数据源Sheet2中获取并形成下拉选项，且Sheet2中“班级”内容更新后，Sheet1中“班…...

编程日记 2023/11/13 7:03:00

Android修行手册 - 可变参数中星号什么作用（冷知识）

点击跳转>Unity3D特效百例点击跳转>案例项目实战源码点击跳转>游戏脚本-辅助自动化点击跳转>Android控件全解手册点击跳转>Scratch编程案例点击跳转>软考全系列 👉关于作者专注于Android/Unity和各种游戏开发技巧，以及各种资源分享&…...

编程日记 2023/11/13 7:01:59

Python与ArcGIS系列（三）视图缩放

目录 0 简述1 在所有图层中缩放至所选要素2 在单独图层中缩放至所选要素3 改变地图范围0 简述本篇介绍如何利用arcpy实现缩放视图到所选要素以及改变地图范围功能。对于以及创建的选择集数据，通常需要进行缩放以更好地显示所选要素，要素缩放可分为两种：第一种是在所有图层…...

编程日记 2023/11/13 7:00:58

[ASP]数据库编辑与管理V1.0

本地测试：需要运行 ASP专业调试工具（自己搜索下载） 默认登陆口令：admin 修改口令：打开index.asp找到第3行把admin"admin"改成其他，如admin"abc123" 程序功能齐全，代码精简…...

编程日记 2023/11/13 6:59:57

MyBatis Plus整合Redis实现分布式二级缓存

MyBatis缓存描述 MyBatis提供了两种级别的缓存， 分别时一级缓存和二级缓存。一级缓存是SqlSession级别的缓存，只在SqlSession对象内部存储缓存数据，如果SqlSession对象不一样就无法命中缓存，二级缓存是mapper级别的缓存&#xff…...

编程日记 2023/11/13 6:58:55

如何帮助 3D CAD 设计师实现远程办公

当 3D CAD 设计师需要远程办公时，他们可能需要更强的远程软件，以满足他们的专业需求。比如高清画质，以及支持设备重定向、多显示器支持等功能。3D CAD 设计师如何实现远程办公？接下来我们跟随 Platinum Tank Group 的故事来了解一…...

编程日记 2023/11/13 6:57:54

如何在 Idea 中修改文件的字符集（如：UTF-8）

以 IntelliJ IDEA 2023.2 (Ultimate Edition) 为例，如下： 点击左上角【IntelliJ IDEA】->【Settings…】，如下图： 从弹出页面的左侧导航中找到【Editor】->【File Encodings】，并将 Global Encoding、Project E…...

编程日记 2023/11/13 6:56:53

【C++】单例模式【两种实现方式】

目录一、了解单例模式前的基础题 1、设计一个类，不能被拷贝 2、设计一个类，只能在堆上创建对象 3、设计一个类，只能在栈上创建对象 4、设计一个类，不能被继承二、单例模式 1、单例模式的概念 2、单例模式的两种实现方式 …...

编程日记 2023/11/13 6:55:52

php的api接口token简单实现

<?php // 生成 Token function generateToken() {$token bin2hex(random_bytes(16)); // 使用随机字节生成 tokenreturn $token; } // 存储 Token（这里使用一个全局变量来模拟存储） $tokens []; // 验证 Token function validateToken($token) {gl…...

编程日记 2023/11/13 6:54:50

CCNA课程实验-13-PPPoE

目录实验条件网络拓朴需求配置实现基础配置模拟运营商ISP配置ISP的DNS配置出口路由器OR基础配置PC1基础配置出口路由器OR配置PPPOE拨号创建NAT(PAT端口复用) PC1测试结果实验条件网络拓朴需求 OR使用PPPoE的方式向ISP发送拨号的用户名和密码，用户名&#xf…...

编程日记 2023/11/13 6:53:49

cocosCreator 之 Bundle使用

版本： v3.4.0 语言： TypeScript 环境： Mac Bundle简介全名 Asset Bundle(简称AB包)，自cocosCreator v2.4开始支持，用于作为资源模块化工具。允许开发者根据项目需求将贴图、脚本、场景等资源划分在 Bundle 中&am…...

编程日记 2023/11/13 6:52:45

分类网络搭建示例

搭建CNN网络本章我们来学习一下如何搭建网络，初始化方法，模型的保存，预训练模型的加载方法。本专栏需要搭建的是对分类性能的测试，所以这里我们只以VGG为例。请注意，这里定义的只是一个简陋的版本，后续一…...

编程日记 2023/11/13 6:51:44

为 Ubuntu 虚拟机构建 SSH 服务器

以校园网环境和VMware为例，关键步骤如下： 安装 SSH 服务： 打开 Ubuntu 虚拟机。打开终端。输入命令 sudo apt-get update 更新软件包列表。输入命令 sudo apt-get install openssh-server 安装 SSH 服务。配置 SSH 服务： 编辑配…...

编程日记 2023/11/13 6:49:42

SpringBoot--中间件技术-2：整合redis，redis实战小案例，springboot cache，cache简化redis的实现，含代码

SpringBoot整合Redis 实现步骤导pom文件坐标  <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId> </dependency>yaml主配置文件，配置…...

编程日记 2023/11/13 6:48:41

linux rsyslog配置文件详解

1.rsyslog配置文件简介 linux rsyslog配置文件/etc/rsyslog.conf分为三部分：MODULES、GLOBAL DIRECTIVES、RULES ryslog模块说明模块说明MODULES指定接收日志的协议和端口。若要配置日志服务器，则需要将相应的配置项注释去掉。GLOBAL DIRECTIVES主要用来配置日志模版。指定…...

编程日记 2023/11/13 6:47:39

VB.net复制Ntag213卡写入UID

本示例使用的发卡器：https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...

编程新知 2026/2/9 6:48:28

oracle与MySQL数据库之间数据同步的技术要点

Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异，它们的数据同步要求既要保持数据的准确性和一致性，又要处理好性能问题。以下是一些主要的技术要点： 数据结构差异数据类型差异&#xff…...

编程新知 2026/1/11 0:40:53

Nuxt.js 中的路由配置详解

Nuxt.js 通过其内置的路由系统简化了应用的路由配置，使得开发者可以轻松地管理页面导航和 URL 结构。路由配置主要涉及页面组件的组织、动态路由的设置以及路由元信息的配置。自动路由生成 Nuxt.js 会根据 pages 目录下的文件结构自动生成路由配置。每个文件都会对…...

编程新知 2026/2/9 4:13:22

AI编程--插件对比分析：CodeRider、GitHub Copilot及其他

AI编程插件对比分析：CodeRider、GitHub Copilot及其他随着人工智能技术的快速发展，AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者，分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...

编程新知 2026/2/9 2:15:44

【论文阅读28】-CNN-BiLSTM-Attention-（2024）

本文把滑坡位移序列拆开、筛优质因子，再用 CNN-BiLSTM-Attention 来动态预测每个子序列，最后重构出总位移，预测效果超越传统模型。文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵（S…...

编程新知 2026/2/2 3:06:53

【Redis】笔记｜第8节｜大厂高并发缓存架构实战与优化

缓存架构代码结构代码详情功能点： 多级缓存，先查本地缓存，再查Redis，最后才查数据库热点数据重建逻辑使用分布式锁，二次查询更新缓存采用读写锁提升性能采用Redis的发布订阅机制通知所有实例更新本地缓存适用读多…...

编程新知 2026/1/26 3:45:28

Qemu arm操作系统开发环境

使用qemu虚拟arm硬件比较合适。步骤如下： 安装qemu apt install qemu-system安装aarch64-none-elf-gcc 需要手动下载，下载地址：https://developer.arm.com/-/media/Files/downloads/gnu/13.2.rel1/binrel/arm-gnu-toolchain-13.2.rel1-x…...

编程新知 2026/1/31 9:18:40

Elastic 获得 AWS 教育 ISV 合作伙伴资质，进一步增强教育解决方案产品组合

作者：来自 Elastic Udayasimha Theepireddy (Uday), Brian Bergholm, Marianna Jonsdottir 通过搜索 AI 和云创新推动教育领域的数字化转型。我们非常高兴地宣布，Elastic 已获得 AWS 教育 ISV 合作伙伴资质。这一重要认证表明，Elastic 作为 …...

编程新知 2026/2/7 16:38:17

macOS 终端智能代理检测

🧠 终端智能代理检测：自动判断是否需要设置代理访问 GitHub 在开发中，使用 GitHub 是非常常见的需求。但有时候我们会发现某些命令失败、插件无法更新，例如： fatal: unable to access https://github.com/ohmyzsh/oh…...

编程新知 2026/1/22 15:34:33

JDK 17 序列化是怎么回事

如何序列化？其实很简单，就是根据每个类型，用工厂类调用。逐个完成。没什么漂亮的代码，只有有效、稳定的代码。代码中调用toJson toJson 代码 mapper.writeValueAsString ObjectMapper DefaultSerializerProvider 一堆实…...

编程新知 2026/2/7 4:19:21

1、熵与交叉熵

2、交叉熵作为损失函数

相关文章：