当前位置：首页 > article >正文

交叉熵在机器学习中的应用解析

article 2026/2/8 6:05:15

文章目录

- 核心概念
- - 香农信息量（自信息）
  - 熵（Entropy）
  - KL散度（Kullback-Leibler Divergence）
  - 交叉熵
- 在机器学习中的应用
- - 作为损失函数
  - - 对于二分类（Binary Classification）：
    - 对于多分类（Multiclass Classification）：
    - 多标签分类（Multi-label Classification）
  - 其他应用场景
  - 实例
  - - 手撸计算
    - 实现示例（PyTorch）
    - 注意事项
  - 直观解释
  - 为什么用交叉熵？
  - 变体与改进

交叉熵（Cross-Entropy）是信息论和机器学习中的一个重要概念，用于衡量两个概率分布之间的差异。它在分类任务（如逻辑回归、神经网络）中常作为损失函数使用。

核心概念

香农信息量（自信息）

对于一个具有概率 $P (x)$ 的事件 $x$ ，其信息量 $I (x)$ 定义为：
$I(x) = -\log_b P(x)$
其中：

$log_b$ 是以 $b$ 为底的对数，常用的底数有：
- $b = 2$ ：信息量单位为比特（bit）。
- $b = e$ ：信息量单位为奈特（nat）。
- $b = 10$ ：信息量单位为哈特（hart）。
信息量 $I (x)$ 表示事件 $x$ 发生时所携带的信息的多少，概率越低的事件信息量越大。

熵（Entropy）

熵（平均信息量）
熵是随机变量不确定性的度量，定义为信息量的期望：
$-\sum_{x \in X} P(x) \log_b P(x)$
对于连续随机变量，熵可以表示为：
$-\int_{-\infty}^{\infty} p(x) \log_b p(x) \, dx$
其中 ( p(x) ) 是概率密度函数。
表示一个概率分布自身的不确定性。对于离散分布 $P$ ，熵定义为：
$-\sum_{i} P(x_i) \log P(x_i)$

熵越大，不确定性越高。

KL散度（Kullback-Leibler Divergence）

衡量两个分布 $P$ （真实分布）和 $Q$ （预测分布）的差异：
$D_{KL}(P \| Q) = \sum_{i} P(x_i) \log \frac{P(x_i)}{Q(x_i)}$

KL散度非负，且不对称。
当 $P = Q$ 时，交叉熵最小，等于 $P$ 的熵。

交叉熵

交叉熵是熵与KL散度的组合：
$D_{KL}(P \| Q) = -\sum_{i} P(x_i) \log Q(x_i)$

当 $P$ 是真实分布（如one-hot标签）， $Q$ 是模型预测时，最小化交叉熵等价于最小化KL散度。

在机器学习中的应用

作为损失函数

对于二分类（Binary Classification）：

公式
$-\frac{1}{N} \sum_{i=1}^N \left[ y_i \log(p_i) + (1-y_i) \log(1-p_i) \right]$
其中 $y_i \in \{0,1\}$ 是真实标签， $p_i$ 是模型预测为正类的概率。
场景
逻辑回归、神经网络二分类输出层（如Sigmoid激活）。

对于多分类（Multiclass Classification）：

公式（分类交叉熵，Categorical Cross-Entropy）
$-\frac{1}{N} \sum_{i=1}^N \sum_{c=1}^C y_{i,c} \log(p_{i,c})$
- $y_{i,c}$ ：样本 $i$ 属于类别 $c$ 的真实标签（one-hot编码）。
- $p_{i,c}$ ：模型预测样本 $i$ 属于类别 $c$ 的概率。
场景
Softmax输出层配合交叉熵（如ResNet、Transformer的分类头）。

多标签分类（Multi-label Classification）

特点：每个样本可能属于多个类别，使用二元交叉熵对每个类别独立计算损失。
公式：
$-\frac{1}{N} \sum_{i=1}^N \sum_{c=1}^C \left[ y_{i,c} \log(p_{i,c}) + (1-y_{i,c}) \log(1-p_{i,c}) \right]$

其他应用场景

生成模型：GAN中判别器的损失函数常使用交叉熵衡量真实/生成分布的差异。
语言模型：预测下一个词的概率分布（如BERT、GPT的预训练目标）。
强化学习：策略梯度方法中优化策略分布与最优分布的交叉熵。

实例

手撸计算

假设真实分布 $P = [1, 0]$ （类别1），模型预测 $Q = [0.8, 0.2]$ ：
$\cdot \log(0.8) - 0 \cdot \log(0.2) \approx 0.223$
若预测更差（如 $ Q = [0.3, 0.7] $）：
$\cdot \log(0.3) \approx 1.203$

实现示例（PyTorch）

import torch.nn as nn# 二分类
loss_fn = nn.BCELoss()  # 需手动Sigmoid
loss_fn = nn.BCEWithLogitsLoss()  # 内置Sigmoid# 多分类
loss_fn = nn.CrossEntropyLoss()  # 输入为logits（无需Softmax）

注意事项

数值稳定性：计算 $\log(p)$ 时可能溢出，通常框架会自动处理（如添加微小偏移 $\epsilon$ ）。
概率归一化：确保模型输出符合概率分布（如通过Softmax或Sigmoid）。

直观解释

当预测概率 $Q$ 与真实分布 $P$ 一致时，交叉熵最小（等于 $P$ 的熵）。
预测越偏离真实，交叉熵越大。

为什么用交叉熵？

梯度友好性：
- 对于Softmax输出，交叉熵的梯度为 $\frac{\partial L}{\partial z_i} = p_i - y_i$ ，避免了均方误差（MSE）的梯度消失问题（当 $p_i$ 接近0或1时，MSE梯度极小）。
概率解释：直接优化模型输出的概率分布与真实分布的差异，与最大似然估计（MLE）等价。天然适配分类任务的概率输出。
处理不平衡数据：可通过加权交叉熵（Weighted Cross-Entropy）调整类别权重。

变体与改进

标签平滑（Label Smoothing）：防止模型对标签过度自信，将真实标签从1调整为 $1-\epsilon$ ，其余类别分配 $\epsilon/(C-1)$ 。
Focal Loss：解决类别不平衡问题，降低易分类样本的权重：
$-\alpha_t (1-p_t)^\gamma \log(p_t)$
（ $\gamma$ 为调节因子， $\alpha_t$ 为类别权重）。

理解交叉熵的关键是掌握其与熵、KL散度的关系，以及如何通过最小化它来使模型逼近真实分布。