当前位置：首页 > article >正文

基于“蘑菇书”的强化学习知识点（四）：贝尔曼方程

article 2026/5/9 17:54:48

贝尔曼方程

- 摘要
- - 贝尔曼方程（Bellman Equation）详解
  - 1. 核心思想
  - 2. 基本概念
  - 3. 贝尔曼方程的两种形式
  - - (1) 状态值函数的贝尔曼方程
    - (2) 动作值函数的贝尔曼方程
  - 4. 贝尔曼最优方程（Bellman Optimality Equation）
  - 5. 示例：网格世界（Grid World）
  - - 详细解释与分步计算示例
    - 5.1 环境设定
    - 5.2 贝尔曼方程的目标
    - 5.3 状态转移分析
    - 5.4 贝尔曼方程展开
    - 5.5 建立其他状态的方程
    - 5.6 联立方程求解
    - - 迭代1：所有状态值初始化为0
      - 迭代2：更新其他状态值
      - **迭代3**：继续更新
    - 5.7 结果解释
    - 总结
  - 6. 贝尔曼方程的意义
  - 总结

摘要

本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析！具体内容请阅读蘑菇书EasyRL！

对应蘑菇书EasyRL——2.2.2 贝尔曼方程

贝尔曼方程（Bellman Equation）详解

贝尔曼方程是强化学习中的核心数学工具，用于递归地分解状态或动作的价值，将当前决策的即时奖励与未来状态的长期价值相结合。它是动态规划（Dynamic Programming）和强化学习算法（如 Q-learning、策略迭代）的理论基础。

1. 核心思想

贝尔曼方程的核心思想是：
一个状态（或动作）的价值 = 即时奖励 + 未来奖励的折扣期望值
通过递归地将复杂问题拆解为子问题，最终形成可计算的表达式。

2. 基本概念

状态值函数（State Value Function）：
表示在策略 $\pi$ 下，从状态 $s$ 出发的长期预期累积奖励，记为 $V^\pi(s)$ 。
动作值函数（Action Value Function）：
表示在策略 $\pi$ 下，从状态 $s$ 执行动作 $a$ 后的长期预期累积奖励，记为 $Q^\pi(s, a)$ 。
折扣因子（Discount Factor）：
记为 $\gamma \in [0, 1]$ ，用于权衡即时奖励与未来奖励的重要性（通常 $\gamma < 1$ 避免无限累积）。

3. 贝尔曼方程的两种形式

(1) 状态值函数的贝尔曼方程

$V^\pi(s) = \mathbb{E}_\pi \left[ R(s, a) + \gamma \sum_{s'} P(s' \mid s, a) V^\pi(s') \right]$

解释：
当前状态 $s$ 的价值等于：
1. 即时奖励 $R (s, a)$ （执行动作 $a$ 后的直接收益）；
2. 加上所有可能下一状态 $s^{'}$ 的未来奖励期望值，按转移概率 $\mid s, a)$ 加权，并乘以折扣因子 $\gamma$ 。

(2) 动作值函数的贝尔曼方程

$Q^\pi(s, a) = R(s, a) + \gamma \mathbb{E}_\pi \left[ \sum_{s'} P(s' \mid s, a) \sum_{a'} \pi(a' \mid s') Q^\pi(s', a') \right]$

解释：
动作 $a$ 在状态 $s$ 下的价值等于：
1. 即时奖励 $R (s, a)$ ；
2. 加上所有可能下一状态 $s^{'}$ 和动作 $a^{'}$ 的未来奖励期望值，按转移概率和策略概率加权。

4. 贝尔曼最优方程（Bellman Optimality Equation）

贝尔曼最优方程描述了在最优策略 $\pi^*$ 下的值函数关系：
$V^*(s) = \max_a \left[ R(s, a) + \gamma \sum_{s'} P(s' \mid s, a) V^*(s') \right]$ $Q^*(s, a) = R(s, a) + \gamma \sum_{s'} P(s' \mid s, a) \max_{a'} Q^*(s', a')$

核心思想：
最优策略会选择使当前动作的即时奖励 + 未来最大可能奖励最大化的动作。

5. 示例：网格世界（Grid World）

详细解释与分步计算示例

为了更清晰地说明网格世界例子中 $V^\pi(s_0) \approx 2.1$ 的计算过程，我们完全通过文字描述和公式推导来展示，无需依赖图片。

5.1 环境设定

网格布局：
一个 3x3 的网格，状态编号如下（按行优先）：
```
s6 | s7 | s8（终点，奖励+10）
s3 | s4 | s5
s0 | s1 | s2
```
- 初始状态：机器人位于中心 $s_0$ 。
- 终点状态： $s_8$ ，到达后回合结束，奖励+10。
- 其他移动：每步奖励为-1（惩罚机器人移动耗时）。
- 动作：上、下、左、右。若移动导致出界，则留在原地。
- 策略：随机策略（各方向概率均为 25%）。
- 折扣因子： $\gamma = 0.9$ 。

5.2 贝尔曼方程的目标

计算在随机策略下，状态 $s_0$ 的值函数 $V^\pi(s_0)$ 。根据贝尔曼方程：
$V^\pi(s) = \sum_a \pi(a|s) \left[ R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^\pi(s') \right]$
对于随机策略， $\pi(a|s) = 0.25$ （四个方向概率均等）。

5.3 状态转移分析

从 $s_0$ 出发的四个动作：

向上：移动到 $s_3$ ，奖励-1。
向下： $s_0$ 的下方是网格外，因此留在 $s_0$ ，奖励-1。
向左： $s_0$ 的左方是网格外，因此留在 $s_0$ ，奖励-1。
向右：移动到 $s_1$ ，奖励-1。

因此，从 $s_0$ 出发的所有可能转移为：
$\begin{cases} s_0 \xrightarrow{\text{上}} s_3, & R = -1 \\ s_0 \xrightarrow{\text{下}} s_0, & R = -1 \\ s_0 \xrightarrow{\text{左}} s_0, & R = -1 \\ s_0 \xrightarrow{\text{右}} s_1, & R = -1 \\ \end{cases}$

5.4 贝尔曼方程展开

将贝尔曼方程应用于 $s_0$ ：
$V^\pi(s_0) = 0.25 \left[ (-1 + 0.9 V^\pi(s_3)) \right] + 0.25 \left[ (-1 + 0.9 V^\pi(s_0)) \right] + 0.25 \left[ (-1 + 0.9 V^\pi(s_0)) \right] + 0.25 \left[ (-1 + 0.9 V^\pi(s_1)) \right]$
化简后：
$V^\pi(s_0) = 0.25 \times 4 \times (-1) + 0.25 \times 0.9 \left[ V^\pi(s_3) + V^\pi(s_0) + V^\pi(s_0) + V^\pi(s_1) \right]$
$V^\pi(s_0) = -1 + 0.225 \left[ V^\pi(s_3) + V^\pi(s_0) + V^\pi(s_0) + V^\pi(s_1) \right]$

5.5 建立其他状态的方程

为了求解 $V^\pi(s_0)$ ，需为其他相关状态（如 $s_1, s_3, s_5$ ）建立方程。

(1) 状态 $s_1$ 的方程

动作分析：
- 向上：移动到 $s_4$ ，奖励-1。
- 向下：出界，留在 $s_1$ ，奖励-1。
- 向左：移动到 $s_0$ ，奖励-1。
- 向右：移动到 $s_2$ ，奖励-1。
贝尔曼方程：
$V^\pi(s_1) = -1 + 0.225 \left[ V^\pi(s_4) + V^\pi(s_1) + V^\pi(s_0) + V^\pi(s_2) \right]$

(2) 状态 $s_3$ 的方程

动作分析：
- 向上：移动到 $s_6$ ，奖励-1。
- 向下：移动到 $s_0$ ，奖励-1。
- 向左：出界，留在 $s_3$ ，奖励-1。
- 向右：移动到 $s_4$ ，奖励-1。
贝尔曼方程：
$V^\pi(s_3) = -1 + 0.225 \left[ V^\pi(s_6) + V^\pi(s_0) + V^\pi(s_3) + V^\pi(s_4) \right]$

(3) 状态 $s_5$ 的方程

动作分析：
- 向上：移动到 $s_8$ ，奖励+10（终止状态）。
- 向下：移动到 $s_2$ ，奖励-1。
- 向左：移动到 $s_4$ ，奖励-1。
- 向右：出界，留在 $s_5$ ，奖励-1。
贝尔曼方程：
$V^\pi(s_5) = 0.25 \left[ (10 + 0.9 \times 0) \right] + 0.25 \left[ (-1 + 0.9 V^\pi(s_2)) \right] + 0.25 \left[ (-1 + 0.9 V^\pi(s_4)) \right] + 0.25 \left[ (-1 + 0.9 V^\pi(s_5)) \right]$
由于 $s_8$ 是终止状态，其值函数 $V^\pi(s_8) = 0$ ，因此：
$V^\pi(s_5) = 0.25 \times 10 + 0.25 \times (-1 + 0.9 V^\pi(s_2)) + 0.25 \times (-1 + 0.9 V^\pi(s_4)) + 0.25 \times (-1 + 0.9 V^\pi(s_5))$
化简后：
$V^\pi(s_5) = 2.5 + 0.225 \left[ V^\pi(s_2) + V^\pi(s_4) + V^\pi(s_5) \right] - 0.75$
$V^\pi(s_5) = 1.75 + 0.225 \left[ V^\pi(s_2) + V^\pi(s_4) + V^\pi(s_5) \right]$

5.6 联立方程求解

假设所有非终点状态的初始值函数为0，通过迭代法逐步逼近真实值。以下是简化后的迭代过程：

迭代1：所有状态值初始化为0

$V_0(s_0) = 0, \quad V_0(s_1) = 0, \quad V_0(s_2) = 0, \quad V_0(s_3) = 0, \quad V_0(s_4) = 0, \quad V_0(s_5) = 0$
代入方程计算 $V_1(s_0)$ ：
$V_1(s_0) = -1 + 0.225 \times (0 + 0 + 0 + 0) = -1$

迭代2：更新其他状态值

类似地，计算 $V_1(s_1) = -1$ , $V_1(s_3) = -1$ , $V_1(s_5) = 1.75$ 。
重新计算 $V_2(s_0)$ ：
$V_2(s_0) = -1 + 0.225 \times (-1 + -1 + -1 + -1) = -1 + 0.225 \times (-4) = -1.9$

迭代3：继续更新

经过多次迭代后，值函数逐渐收敛。最终，经过约10次迭代，得到近似解。（实际计算需解线性方程组或编程实现迭代，此处为简化说明）。

5.7 结果解释

正值含义：尽管每步奖励为-1，但机器人有一定概率（通过随机策略）到达终点 $s_8$ 获得+10奖励，因此长期期望累积奖励为正值。
折扣因子影响： $\gamma = 0.9$ 表示未来奖励的权重较高，鼓励机器人尽快到达终点。
策略优化方向：若采用确定性策略（如始终向右或向上），值函数会更高。

总结

明确状态转移和奖励机制；
为每个状态建立贝尔曼方程；
通过迭代法或矩阵求逆解线性方程组。
实际应用中，通常使用动态规划（如策略迭代）或时序差分学习（如 Q-learning）自动完成这一过程。

6. 贝尔曼方程的意义

理论价值：为值函数提供了递归定义，使强化学习问题可解。
实际应用：
- 动态规划：通过迭代更新值函数（如策略迭代、值迭代）。
- 时序差分学习（TD Learning）：结合贝尔曼方程进行在线学习（如 Q-learning）。
- 深度强化学习：用神经网络逼近值函数（如 DQN）。

总结

贝尔曼方程是强化学习中连接即时奖励与长期价值的桥梁，通过递归分解问题，为策略评估和优化提供了数学基础。理解它是掌握 Q-learning、策略梯度等算法的关键步骤。