当前位置：首页 > article >正文

损失函数理解（二）——交叉熵损失

article 2026/2/28 13:23:17

损失函数的目的是为了定量描述不同模型（例如神经网络模型和人脑模型）的差异。

交叉熵，顾名思义，与熵有关，先把模型换成熵这么一个数值，然后用这个数值比较不同模型之间的差异。

为什么要做这一步转换，原因是要直接比较两个模型，前提是两个模型是同一种类型，比如都是高斯分布，我们可以比较均值和方差。但现实中，我们要比较的两种模型往往不是同一种类型，甚至我们都不知道是什么类型。所以我们通过熵实现不同类型概率模型的公度。

熵的前置知识

1. 信息量

衡量一个信息有没有信息量，不是看这个消息你知不知道，关键是看能带来多少确定性，也可以说能消除多少不确定性。

例如有8支队伍参加比赛，其中一支队伍名为“AI小队”。理论上来说，“AI小队”夺冠概率为1/8。但如果告诉你“AI小队”夺冠了，夺冠概率从1/8变为百分之百；但如果告诉你“AI小队”进入总决赛了，夺冠概率从1/8变为1/2，但直观上感觉这个信息量不如夺冠信息的信息量高。

通过上述例子我们大概能明白不同的信息，含有的信息量是不同的。那如何定义信息量呢？

***题外话***

所谓定义，就是人为规定它的意义，给出一个表达式，至于这个表达式为什么这么写而不那么写，原因是最先提出的人就是这么写的，并且逻辑得到了自洽，后人为了统一标准，便沿用了这个定义。你也可以给出自己的定义，但为了让体系自洽，可能其他与该定义相关的表达式就要重写。

首先，从直观上来说，一件事发生的概率越低，其包含的信息量越大；反之一件事发生的概率越大，包含的信息量越少。例如，我告诉你太阳每天东升西落，这对你来说没有任何信息量，因为这件事情的概率是1；但假如我告诉你下一期双色球中奖号码是某某某（假如是正确的话），那这个消息的信息量就很大了。因此信息量与事件发生的概率是相关的。

其次，假如一个事件可以被分解成多个事件，该事件的信息量等于多个事件信息量的和。现在我们假设 $f(x)$ 是信息量的一个表达式，根据上面举的例子，该表达式应该满足如下要求：

$f$ (AI小队夺冠（进决赛且赢得决赛）) = $f$ （AI小队进入决赛）+ $f$ （AI小队进入决赛后还赢了决赛）

$f(\frac{1}{8})=f(\frac{1}{4} \times \frac{1}{2})=f(\frac{1}{4})+f(\frac{1}{2})$

乘法变加法，熟悉的感觉，是log！！！信息量能不能定义成 $log(P_{i})$ 呢，其中 $P_{i}$ 为事件 $i$ 发生的概率。如此以来第二个条件满足了，但是这样的话信息量会随着事件发生概率的增大而增大，那怎么办呢？加个负号。

所以如果我们把一个事件的信息量定义为如下公式，逻辑就能自洽：

$H_{i}=-log(P_{i})$

通常我们log以2为底，计算出的信息量的单位是比特（bit）。原因是计算机是二进制的，我们的信息量衡量了一个信息的最短编码（不理解的同学可忽略）。

2.熵

通过上面的分析，我们给出了信息量的定义。信息量可以理解成一个事件从原来的不确定性变得确定难度有多大，信息量比较大说明难度比较高。熵的理解也类似，不过熵衡量的不是某个具体事件，而是一个系统中所有的事件，即一个系统从原来的不确定到确定，其难度有多大。

我们可以把一场比赛看作一个系统。假如两个实力相近的队伍比赛，两只队伍胜利的概率都是 $\frac{1}{2}$ ，那这两只队伍赢球的信息量都是：

$I=-log_{2}\frac{1}{2}=1$

但如果是两只实力悬殊的队伍比赛，队伍A胜利的概率是99%，队伍B胜利的概率为1%，那两只队伍赢球的信息量分别为：

$I_{A}=-log_{2}\frac{99}{100}\approx 0.0145$

$I_{B}=-log_{2}\frac{1}{100}\approx 6.6439$

那球赛的熵是两只队伍赢球的信息量的加和么？

显然不是，因为如果是加和的话，实力悬殊队伍的比赛结果相对来说是确定的，大概率是实力强的队伍赢得比赛，所以它的不确定性是低的，但此时它的熵却是高的，所以熵并不是信息量的简单加和。

我们需要考虑每个事件对系统贡献的信息量，事件只有发生了，才会贡献信息量，所以系统的熵定义为信息量的期望：

$H:= E(I)\\\\=\sum _{i=1}^{m}p_{i}I_{i}\\\\=\sum _{i=1}^{m}p_{i}(-log_{2}p_{i})\\\\=-\sum _{i=1}^{m}p_{i}\cdot log_{2}p_{i}$

3.相对熵（KL散度）

我们的目的是要比较两个模型，最简单的方法就是把概率模型的熵计算出来然后直接比较熵的数值，但并不是所有概率模型我们都能求熵。因此引出另外一个概念——相对熵，也叫KL散度，其定义如下：

$D_{KL}(P||Q)\\\\:=\sum _{i=1}^{m}p_{i}\cdot (I_{Q_{i}}-I_{P_{i}})\\\\=\sum _{i=1}^{m}p_{i}\cdot((-log_{2}q_{i})-(-log_{2}p_{i}))\\\\=\sum _{i=1}^{m}p_{i}\cdot(-log_{2}q_{i})-\sum _{i=1}^{m}p_{i}\cdot(-log_{2}p_{i})\\\\=H(P,Q)-H(P)$

KL散度等于0表明两个分布是一样的，不等于0表示两者有差别。其中 $Q$ 和 $P$ 分别表示两个概率分布， $D_{KL}(P||Q)$ 表示以 $P$ 为基准（ $P$ 在前），用 $Q$ 近似 $P$ 式损失了多少信息， $I_{Q_{i}}$ 表示某个事件在系统Q中的信息量， $H(P,Q)$ 表示交叉熵， $H(P)$ 表示概率分布 $P$ 的熵，我们以 $P$ 为基准的话，这个值是不会变的。

由公式可知， $H(P,Q)$ 和 $H(P)$ 都是大于0的，但是两者谁更大呢？这是很重要的，因为如果KL散度大于零，要使得KL越接近于0，就得让交叉熵越小；如果KL散度小于0，要使得KL散度越接近于0，就得让交叉熵越大。

吉布斯不等式已经证明KL散度是恒大于等于0的（感兴趣的小伙伴可自行检索证明过程），那现在我们如果想让概率分布 $Q$ 接近 $P$ ，只需要最小化两者的交叉熵即可，也就是说交叉熵可作为损失函数对模型进行优化。

通过前置知识，我们引出了交叉熵，并且明白了为什么交叉熵可以衡量两个概率分布之间的差异，也就是说可以用作损失函数。那么在神经网络中，我们该如何利用交叉熵呢？首先我们回顾一下交叉熵的定义：

$H(P,Q)=\sum _{i=1}^{m}p_{i}\cdot(-log_{2}q_{i})$

我们只需要用训练神经网络场景中的变量替换公式中的变量即可。

$m$ 表示分类的个数，在判断图像是不是猫的二分类任务中， $i$ 的取值只有两个，即 $i=1$ 表示图像是猫， $i=2$ 表示图像不是猫；对应的， $p_{i}$ 表示每个事件发生的概率，即当前图像是猫的概率和不是猫的概率，在模型训练场景中，我们以人脑中的概率模型为基准，即以标签为基准，所以 $p_{1}=y$ ， $p_{2}=(1-y)$ ，其中 $y$ 表示人类给图像的标签，是猫为1，不是猫为0； $q$ 则对应模型预测的当前图像是猫的概率，即 $\widehat{y}$ ，而不是猫的概率就是 $(1-\widehat{y})$ ，所以交叉熵用于神经网络中的形式如下：

$H=-[y\cdot log_{2}\widehat{y}+(1-y)\cdot log_{2}(1-\widehat{y})]$

当然这里是二分类的情况，如果是多分类，交叉熵可进一步写为：

$H=-\sum _{i=1}^{m}y_{i}\cdot log(\widehat{y_{i}})$

其中 $i$ 表示类别数， $y_{i}$ 表示是类别 $i$ 的概率（标签）， $\widehat{y_{i}}$ 表示模型预测的是类别 $i$ 的概率。

至此，我们通过信息量和熵引出交叉熵，并介绍了交叉熵是如何用于损失计算的，希望能够对有需要的伙伴提供帮助，如果文中有歧义或者有错误的地方，欢迎大家在评论区指出！

损失函数理解（二）——交叉熵损失

损失函数的目的是为了定量描述不同模型（例如神经网络模型和人脑模型）的差异。交叉熵，顾名思义，与熵有关，先把模型换成熵这么一个数值，然后用这个数值比较不同模型之间的差异。为什么要做这一步转换&…...

编程日记 2026/2/21 0:53:10

基于随机森林回归预测葡萄酒质量

基于随机森林回归预测葡萄酒质量 1.作者介绍2.随机森林算法与数据集介绍2.1定义2.2核心思想2.3主要步骤2.4数据集介绍 3.算法实现3.1数据加载与探索3.2数据可视化3.3数据预处理（标准化、划分训练/测试集）3.4模型训练与优化（随机森林回归超参…...

编程日记 2026/2/14 4:08:45

【Qt】QWidget属性2

🏠个人主页：Yui_ 🍑操作环境：Qt Creator 🚀所属专栏：Qt 文章目录 1. windowOpacity属性2. cursor属性2.1 自定义光标 3. font属性4.tooltip属性5. focusPolicy属性6. 总结由于QWidget的常见属性实在太多&a…...

编程日记 2026/2/13 7:37:51

OpenGL ES -＞乒乓缓冲，计算只用两个帧缓冲对象(Frame Buffer Object)+叠加多个滤镜作用后的Bitmap

乒乓缓冲核心思想不使用乒乓缓冲，如果要每个滤镜作用下的绘制内容，也就是这个滤镜作用下的帧缓冲，需要创建一个Frame Buffer Object加上对应的Frame Buffer Object Texture使用乒乓缓冲，只用两个Frame Buffer Object加上对应的F…...

编程日记 2026/2/18 14:41:34

数据库练习2

目录 1.向heros表中新增一列信息，添加一些约束，并尝试查询一些信息 2.课堂代码练习 3.题目如下一、单表查询 1、显示所有职工的基本信息。 2、查询所有职工所属部门的部门号，不显示重复的部门号。 3、求出所有职工的人数。 4…...

编程日记 2026/2/20 13:59:28

macOS Sequoia 15.3 一直弹出“xx正在访问你的屏幕”

🙅 问题描述 macOS 系统升级后（15.2或者15.3均出现过此问题），不管是截图还是开腾讯会议，只要跟捕捉屏幕有关，都一直弹出这个选项，而且所有软件我都允许访问屏幕了，这个不是询问是否…...

编程日记 2026/2/20 17:47:45

OpenCV图像拼接（1）自动校准之校准旋转相机的函数calibrateRotatingCamera()

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述 cv::detail::calibrateRotatingCamera 是OpenCV中用于校准旋转相机的函数。它特别适用于那种相机相对于一个固定的场景进行纯旋转运动的情况&…...

编程日记 2026/2/19 11:48:28

Conda常用命令汇总（持续更新中）

原文章：安装和使用Miniconda来管理Python环境-CSDN博客一、Miniconda的使用 Miniconda没有GUI界面，只能通过conda命令对Python环境和软件包进行管理，所以这里主要介绍一下conda的常用命令。 1. Conda相关 (1)查询conda版本 conda --vers…...

编程日记 2026/2/19 23:09:53

C# 调用 VITS，推理模型将文字转wav音频调试 -数字人分支

Microsoft.ML.OnnxRuntime.OnnxRuntimeException: [ErrorCode:InvalidArgument] Input name: input_name is not in the metadata在 Microsoft.ML.OnnxRuntime.InferenceSession.LookupInputMetadata(String nodeName) 位置 D:\a\_work\1\s\csharp\src\Microsoft.ML.OnnxRuntim…...

编程日记 2026/2/21 8:18:52

Java锁等待唤醒机制

在 Java 并发编程中，锁的等待和唤醒机制至关重要，通常使用 wait()、notify() 和 notifyAll() 来实现线程间的协调。本文将详细介绍这些方法的用法，并通过示例代码加以说明。 1. wait()、notify() 与 notifyAll() 在 Java 中，Obj…...

编程日记 2026/2/15 14:49:56

Docker Compose 常用命令详解

Docker Compose 常用命令详解 Docker Compose 是 Docker 官方提供的一个用于管理多个容器的工具，可以使用 docker-compose.yml 文件定义和运行多容器应用。本篇博客将详细介绍 Docker Compose 的常用命令，帮助你更高效地管理容器。 1. docker compose u…...

编程日记 2026/2/28 1:46:31

C站算法技能题-题解(javascript)

切面条 const 切面条 (n10)>{return 2 ** n 1; } 切面条(0) 2 切面条(1) 3 切面条(2) 5 切面条(10) 1025大衍数列 const 大衍数列 (n100) > {let ans []for(let i1;i<n;i){if(i%2 0){ans.push((i ** 2 ) / 2)}else{ans.push((i ** 2 - 1) / 2)}}return ans…...

编程日记 2026/2/21 16:29:38

【Docker系列一】Docker 简介

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan 的首页,持续学…...

编程日记 2026/2/19 12:30:53

C++进阶——封装红黑树实现map和set

目录 1、源码及框架分析 2、模拟实现map和set 2.1 复用的红黑树框架及Insert 2.2 iterator的实现 2.2.1 iterator的核心源码 2.2.2 iterator的实现思路 2.3 map支持[ ] 2.4 map和set的代码实现 2.4.1 MyMap.h 2.4.2 MySet.h 2.4.3 RBTree.h 2.4.4 Test.cpp 1、源码及…...

编程日记 2026/2/19 12:43:02

python基础-02-列表+序列数据类型

文章目录【README】【4】python列表【4.1】列表数据类型【4.1.1】用索引取得列表中的单个值【4.1.2】负数索引【4.1.3】利用切片获取子列表【4.1.4】用索引改变列表中的值【4.1.5】列表连接与复制【4.1.6】del语句删除列表中的元素【4.2】使用列表【4.2.1】列表用于循环【补充…...

编程日记 2026/2/19 20:15:03

‘闭包‘, ‘装饰器‘及其应用场景

‘闭包’, 装饰器’及其应用场景一, 闭包及其应用场景图解闭包的定义概述: 内部函数使用了外部函数的变量, 这种写法就称之为闭包. 格式: def 外部函数名(形参列表):外部函数的(局部)变量def 内部函数名(形参列表):内部函数的(局部)变量return 内部函数名前提条件: …...

编程日记 2026/2/23 6:56:34

IDEA 快捷键ctrl+shift+f 无法全局搜索内容的问题及解决办法

本篇文章主要讲解IDEA、phpStrom、webStrom、pyCharm等jetbrains系列编辑器无法进行全局搜索内容问题的主要原因及解决办法。日期：2025年3月22日作者：任聪聪现象描述： 1.按下ctrlshiftf 输入法转为了繁体。 2.快捷键ctrlshiftr 可以全局检…...

编程日记 2026/2/21 6:13:39

Java——Random库

一、作用 Random库——生成随机数二、实现步骤 1.导包：import java.util.Random; #快捷键：“Random”回车键 2.取得随机数：Random 变量1 new Random(); 3.调用随机数：类型变量2 变量1.nextInt(n); （代表变量…...

编程日记 2026/2/21 5:06:16

【通过Groovy去热修复线上逻辑】1.执行线上数据修复 2.写工具

1.执行groovy // 实际执行的话, 我们是通过vue提交的 http://localhost:8080/groovy/execute?scriptimport com.example.groovytest.controller.LoginController; LoginController.num251222 还有个技巧: 而执行执行的，则是: 写的工具什么的，想直接使…...

编程日记 2026/2/18 20:57:25

Powershell WSL导出导入ubuntu22.04.5子系统

导出Linux子系统导出位置在C盘下，根据自己的实际情况更改即可Write-Host "export ubuntu22.04.5" -ForegroundColor Green wsl --export Ubuntu-22.04 c:\Ubuntu-22.04.tar 导入Linux子系统好处是目录可用在任意磁盘路径，便于迁移不同的设备之间Write-Host &quo…...

编程日记 2026/2/13 23:58:09

【005安卓开发方案调研】之Flutter+Dart技术开发安卓

基于2025年国内移动开发环境现状，结合多份行业分析报告和技术文档，对FlutterDart开发安卓应用的技术成熟度和生态适配性分析如下： 一、技术成熟度评估 1. 跨平台能力达到生产级标准 Flutter的Skia自渲染引擎和Dart的AOT/JIT双编译模式&…...

编程日记 2026/2/18 22:59:31

论文笔记（七十三）Gemini Robotics: Bringing AI into the Physical World

Gemini Robotics: Bringing AI into the Physical World 文章概括1. 引言2. Gemini 2.0的具身推理2.1. 具身推理问答（ERQA）基准测试2.2. Gemini 2.0的具身推理能力2.3. Gemini 2.0支持零样本和少样本机器人控制 3. 使用 Gemini Robotics 执行机器人动作3…...

编程日记 2026/2/18 7:32:47

AI + 医疗 Qwq大模型离线本地应用

通义千问Qwq-32b-FP16可用于社区医院、乡镇卫生院、诊所等小型医疗机构，替代专业合理用药系统，作为药品知识库，实现以下功能： 药品信息智能查询：检索药品的详细说明书、适应症、禁忌症、不良反应及药物相互作用等关键信…...

编程日记 2026/2/17 10:19:35

Vue 3 项目实现国际化指南 i18n

引言在开发现代 Web 应用时，国际化（Internationalization，简称 i18n）已经成为一个不可或缺的功能。无论是面向全球用户的商业网站，还是需要支持多语言的企业应用，良好的国际化支持都能显著提升用户体验。本…...

编程日记 2026/2/16 13:31:05

元音辅音及其字母组合发音

文章目录单元音长元音/ɑː//ɔ://u://i://ɜː/// 短元音/ʌ//ɒ//ʊ//ɪ//ə//e/ 双元音/eɪ//aɪ//ɔɪ//ɪə//eə//ʊə//əʊ//aʊ/ 辅音3个鼻辅音m n ŋ 5个独立浊辅音w j r l h 20个清浊相对的辅音s zʃ ʒf vθ p bt dk gts dztʃ dʒtr dr 以下是列举的部分字母组合…...

编程日记 2026/2/18 2:41:59

【Vitis AIE】FPGA图像处理 11 双线性插值 Bilinear Interpolation

双线性插值 https://github.com/Xilinx/Vitis-Tutorials/tree/2024.2/AI_Engine_Development/AIE/Design_Tutorials/11-Bilinear_Interpolation 简介双线性插值是一种使用重复线性插值来插值两个变量函数的方法。它通常用于以下应用： 图像处理和计算机视觉&…...

编程日记 2026/2/14 22:42:08

Linux | 安装 Samba将ubuntu 的存储空间指定为windows 上的一个磁盘

01 安装 samba 文件来实现。比如把我们 ubuntu 的存储空间指定为我们 windows 上的一个磁盘，然后我们在这个磁盘里面创建 .c 文件，进行我们代码的修改和编写，可以安装 samba 文件来实现。 samba 是一种网络共享服务，可以通过网络访问我们指定的文件夹 02 第一步：下…...

编程日记 2026/2/18 3:17:48

一文说清预训练与微调：AI的双重训练法则

什么是预训练？ 预训练是大型语言模型训练的第一步。它在资金和计算能力的支持下，通过深入分析大量的文本数据，使模型建立起语言的基本构架。在这一阶段，模型通过学习海量的书籍、文章和网页，识别出语言的语法、句法和…...

编程日记 2026/2/18 20:43:47

solana增加流动性和删除流动性

在 Solana 区块链上增加和删除流动性通常通过去中心化交易所（DEX）实现，例如 Raydium 或 Orca。以下是详细的操作流程和注意事项： 一、增加流动性步骤： 1. 连接钱包使用支持 Solana 的钱包（如 Phantom、…...

编程日记 2026/2/18 20:38:34

996引擎-接口测试：音效测试NPC

996引擎-接口测试：音效测试NPC 参考资料local offset = 1 -- 默认偏移量function main(player, newOffset)offset = newOffset or offset -- 更新偏移量local buttonWidth =...

编程日记 2026/2/17 11:56:56

相关文章：