当前位置：首页 > news >正文

马尔科夫决策过程

news 2026/4/2 22:09:17

马尔科夫决策过程

贝尔曼方程

贝尔曼方程（Bellman Equation）是动态规划中的一个核心概念，用于解决最优决策问题。贝尔曼方程通过递归的方式，将问题分解为子问题，从而使得最优策略的求解变得可行。贝尔曼方程广泛应用于马尔科夫决策过程（MDP）中，用于计算状态值或行动值。

贝尔曼方程的基本形式

在马尔科夫决策过程中，贝尔曼方程有两种主要形式：状态价值函数形式和行动价值函数形式。

1. 状态价值函数形式

状态价值函数 ( V(s) ) 表示在状态 ( s ) 下，遵循策略 ( \pi ) 所能获得的预期累计奖励。对于一个给定的策略 ( \pi )，贝尔曼方程为：
$V^\pi(s) = \sum_{a \in A} \pi(a \mid s) \sum_{s' \in S} P(s' \mid s, a) \left[ R(s, a) + \gamma V^\pi(s') \right]$
其中：

$\pi(a \mid s)：在状态 s 下选择动作 a 的概率$
$\mid s, a) ：在状态 s 下采取动作 a 后转移到状态 s' 的概率。$
$R (s, a) ：在状态 s 下采取动作 a 所获得的即时奖励$
$\gamma ：折现因子，用于平衡当前奖励与未来奖励。$

最优状态价值函数 ( V^*(s) ) 是在所有策略中使得状态 ( s ) 下累计奖励最大的价值函数：

$V^*(s) = \max_a \sum_{s' \in S} P(s' \mid s, a) \left[ R(s, a) + \gamma V^*(s') \right]$

2. 行动价值函数形式

行动价值函数 ( Q(s, a) ) 表示在状态 ( s ) 下采取动作 ( a ) 后，遵循策略 ( \pi ) 所能获得的预期累计奖励。贝尔曼方程为：

$Q^\pi(s, a) = \sum_{s' \in S} P(s' \mid s, a) \left[ R(s, a) + \gamma \sum_{a' \in A} \pi(a' \mid s') Q^\pi(s', a') \right]$
最优行动价值函数 ( Q^*(s, a) ) 是在所有策略中使得在状态 ( s ) 下采取动作 ( a ) 后累计奖励最大的价值函数：

$Q^*(s, a) = \sum_{s' \in S} P(s' \mid s, a) \left[ R(s, a) + \gamma \max_{a'} Q^*(s', a') \right]$

贝尔曼方程的应用

贝尔曼方程在求解最优策略时具有重要作用，特别是在以下方面：

价值迭代：
$通过反复更新状态价值函数 V(s)，直到收敛到最优值 V^*(s) ，从而找到最优策略。$
策略迭代：
$V^\pi(s) ）和策略改进，逐步逼近最优策略 \pi^* 。$
Q-learning：
$\pi^* 。$

总结

贝尔曼方程通过递归地定义价值函数，将复杂的决策问题分解为一系列更简单的子问题。这使得在不确定环境中求解最优策略成为可能，是动态规划和强化学习中的关键工具。