当前位置：首页 > article >正文

强化学习入门：交叉熵方法数学推导

article 2026/2/8 10:58:51

前言

最近想开一个关于强化学习专栏，因为DeepSeek-R1很火，但本人对于LLM连门都没入。因此，只是记录一些类似的读书笔记，内容不深，大多数只是一些概念的东西，数学公式也不会太多，还望读者多多指教。本次阅读书籍为：马克西姆的《深度强化学习实践》。
限于篇幅原因，请读者首先看下历史文章：
马尔科夫过程
马尔科夫奖励过程
马尔科夫奖励过程二
RL框架Gym简介
Gym实现CartPole随机智能体
本篇开始，将介绍第一个RL算法，交叉熵算法。

1、交叉熵公式推导

1.1.前置基础

在介绍交叉熵算法之前，为了防止读者对交叉熵算法由来有疑惑，因此，先简单介绍下数学公式推导：
$E_{x \sim p(x)}[H(x)]=\int_{x}p(x)H(x)dx$
在上述公式中： $p (x)$ 是所有可能策略概率分布，而 $H (x)$ 是采取x策略所获得的奖励值。而目的则是得到奖励值的期望，也就是将其积分。
但由于直接计算 $p (x)$ 很难，因此我们希望找到一个 $q (x)$ 来逼近 $p (x)$ ，则此时公式变成：
$E_{x \sim p(x)}[H(x)]=\int_{x}p(x)H(x)dx=\int_{x}q(x)\frac{p(x)}{q(x)}H(x)dx=E_{x \sim q(x)}[q(x)\frac{p(x)}{q(x)}H(x)]$
然后根据KL散度来逐步用 $q (x)$ 来逼近 $p (x)$ ，KL散度定义为：
$E_{x \sim p_(x)}log \frac{p(x)}{q(x)} = E_{x \sim p(x)}log(p(x)) - E_{x \sim p(x)}log(q(x))$
则在上述公式中：第一项为熵，由于跟优化目标无关，可以忽略；第二项为交叉熵，即深度学习中通常的损失函数。

1.2.推导迭代公式

根据公式1可以得出：
$E_{x \sim p(x)}[H(x)] = E_{x \sim q_i(x)}\left[\frac{p(x)}{q_i(x)} H(x)\right]$
之后可以使用重要采样来重写 KL 散度。重要采样是一种通过另一个分布 $q_i(x)$ 来估计期望的方法。具体来说:
$E_{x \sim p(x)}[f(x)] = \int f(x) p(x) \, dx = \int f(x) \frac{p(x)}{q_i(x)} q_i(x) \, dx = E_{x \sim q_i(x)}\left[f(x) \frac{p(x)}{q_i(x)}\right]$

将这个思想应用到 KL 散度上:
$\| q_{i+1}(x)) = E_{x \sim p(x)} \log \frac{p(x)}{q_{i+1}(x)} = E_{x \sim q_i(x)}\left[\log \frac{p(x)}{q_{i+1}(x)} \cdot \frac{p(x)}{q_i(x)}\right]$

进一步展开表达式:
$\| q_{i+1}(x)) = E_{x \sim q_i(x)}\left[\frac{p(x)}{q_i(x)} \left(\log p(x) - \log q_{i+1}(x)\right)\right]$

将表达式分离为两部分:
$\| q_{i+1}(x)) = E_{x \sim q_i(x)}\left[\frac{p(x)}{q_i(x)} \log p(x)\right] - E_{x \sim q_i(x)}\left[\frac{p(x)}{q_i(x)} \log q_{i+1}(x)\right]$

注意到第一部分 $E_{x \sim q_i(x)}\left[\frac{p(x)}{q_i(x)} \log p(x)\right]$ 是关于 $q_{i+1}(x)$ 的常数项，因此我们在最小化 KL 散度时可以忽略这一部分:
$\min_{q_{i+1}(x)} KL(p(x) \| q_{i+1}(x)) = \min_{q_{i+1}(x)} -E_{x \sim q_i(x)}\left[\frac{p(x)}{q_i(x)} \log q_{i+1}(x)\right]$

为了与原始问题中的 $H (x)$ 结合，假设 $H (x) = 1$ （即没有额外的权重）。如果 $\neq 1$ ，则可以在目标函数中包含 $H (x)$ :
$\min_{q_{i+1}(x)} -E_{x \sim q_i(x)}\left[\frac{p(x)}{q_i(x)} H(x) \log q_{i+1}(x)\right]$

则最终迭代公式为：
$q_{i+1}(x) = \arg\min -E_{x \sim q_i(x)} \frac{p(x)}{q_i(x)} H(x) \log q_{i+1}(x)$

2、转化到RL

根据上节推导出的公式，换元得到RL的损失函数：
$\pi_{i+1}(a|s) = \arg\min -E_{z \sim \pi_i(a|s)} \frac{p(x)}{\pi_i(a|s)} H(x) \log \pi_{i+1}(a|s)$
在上述公式中， $p (x) H (x)$ 可以用指示函数替代，超过阈值为1，否则奖励为0。最终通过SGD就能得到一个 $\pi$ 最优策略模型，进而逼近真实的分布。

总结

本篇的公式比较多，我也有点儿懵逼，可以不用深入理解。下一篇将交叉熵方法用到CartPole智能体看看效果变得如何。

强化学习入门：交叉熵方法数学推导

前言

1、交叉熵公式推导

1.1.前置基础

1.2.推导迭代公式

2、转化到RL

总结

相关文章：

强化学习入门：交叉熵方法数学推导

CSS3 的特性

Vue前端篇——Vue 3的watch深度解析

行为型设计模式之Mediator（中介者）

三维图形、地理空间、激光点云渲染技术术语解析笔记

从webrtc到janus简介

JVM 核心概念深度解析

api将token设置为环境变量

SIFT算法详细原理与应用

AlphaDrive：通过强化学习和推理释放自动驾驶中 VLM 的力量

【八股消消乐】如何解决SQL线上死锁事故

如何使用 HTML、CSS 和 JavaScript 随机更改图片颜色

html如何在一张图片上的某一个区域做到点击事件

Java数据校验：确保数据完整性和正确性

Java-IO流之序列化与反序列化详解

机器学习14-迁移学习

CAN通信收发测试（USB2CAN模块测试实验）

小白初学SpringBoot记录

OSCP备战-BSides-Vancouver-2018-Workshop靶机详细步骤

PDF转Markdown/JSON软件MinerU最新1.3.12版整合包下载

Android第十三次面试总结基础

【深入学习Linux】System V共享内存

编程基础：执行流

理解非结构化文档：将 Reducto 解析与 Elasticsearch 结合使用

算法训练第十天

2种官方方法关闭Windows防火墙

[面试精选] 0094. 二叉树的中序遍历

股指期货期权交易规则是什么？

学习笔记(23): 机器学习之数据预处理Pandas和转换成张量格式[1]

2025年6月6日第一轮