当前位置：首页 > news >正文

强化学习算法总结 2

news 2026/5/20 23:44:08

强化学习算法总结 2

4.动态规划

待解决问题分解成若干个子问题，先求解子问题，然后得到目标问题的解

需要知道整个状态转移函数和价值函数，状态空间离散且有限

策略迭代：
- 策略评估:贝尔曼期望方程来得到一个策略的 $V (s)$
- 策略提升:
价值迭代

4.1 策略迭代算法

策略评估

$\sum_a \pi(a|s)Q(s,a) = \sum_a \pi(a|s)(r(a,s)+ \gamma\sum_s P(s'|s,a)V^\pi(S'))$

知道状态转移函数和未来状态价值就可以估计当前的状态：我们只需要求解 $V (s)$

这里就是利用贝尔曼方程，来不断地更新 $V (s)$ ,
$V(S)^{k+1} = \sum_a \pi(a|s)Q(s,a) = \sum_a \pi(a|s)(r(a,s)+ \gamma\sum_s P(s'|s,a)V^k(S'))$

策略提升

只要当前状态下的策略的得到的状态动作函数比 $V (S)$ 高一些
$\pi'(s) = argmax_aQ^\pi(s,a)$
策略迭代

$\pi^0 策略评估 V\pi_0（S）策略提升 \pi^1$

代码
- 策略评估

$\ \max \ >\theta \ do: \\ \ max = 0 \\ \ for \ s \ in \ range(S):\\ \ v = V(s)（所有Q(s,a）求和)\\ \ V(S) = (bellman fuction)\\ \ max = max(max,V(s) - v)$

* 策略提升

$for\ s\ in\ S：\\ \pi (s) = argmax(Q(s,a))$

4.2 价值迭代算法

$V^{k+1}(s) = max_a\{ r(s,a)+\gamma\sum_sPV^k\}$

可以理解为只执行一轮的策略迭代算法

5 时序差分算法

在数据分布未知的情况下来对模型进行更新，通过智能体与环境的交互进行学习。无模型的强化学习。

在线强化学习：使用当前策略下采样得到的数据进行学习
离线强化学习：使用经验回访池

5.1 时序差分

$V(S_t) = V(s_t) +\alpha[G_t - V(s_t)]$

$G_t$ 表示整个序列采集结束之后，得到的回报。而很多时候我们是没有办法
$V(s_t) += \alpha[r_t + \gamma V(s_{t+1}) -V(s_t) ]$
用时序差分法估计到了状态价值函数 $V (s)$

5.2 SARSA

$\alpha[r(s,a) + \gamma Q(s,a) - Q(s,a)]$

$$
\begin{equation}
\pi(a|s)=\left{
\begin{aligned}
argmax(Q(s,a))& \ & if \ prob < \ 1- \epsilon \
random & \ & \

\end{aligned}
\right.
\end{equation}
$$

5.3 多步Sarsa

MC方法是无偏估计但是方差比较大

TD 是有偏估计，因为每一个对下一个状态的价值都是估计的
$Q(s_t,a_t)+= \alpha[ r_t + \gamma Q(s_{t+1}) + \gamma^2 Q(s_{t+2})+ \gamma^3 Q(s_{t+3})... -Q(s,a) ]$
代码实现上，是前几次不执行只是进行数据的收集，第n次开始进行多步Sarsa

5.4 Q-learning

$\alpha[r(s,a) + \gamma max_aQ(s,a) - Q(s,a)]$

Q-learning的时序差分算法在算下一个状态的Q的时候会取最大的那个

Sarsa会先 $\epsilon -greedy$ 选择s，a然后计算TD_error,然后估计Q(s’,a’)(比如放在环境中跑一下）

Q-learning next_s和a之后，会找到最大的Q(s’,a’),不依赖于 $\epsilon -greedy$ 的a

在线策略算法和离线策略算法

在线策略算法：行为策略（采样数据的策略）和目标策略（用于更新的策略）是同一个策略

离线策略算法：行为策略和目标策略并不是同一个策略

7 DQN算法

Q网络的损失函数
$w^* = argmin_w \frac{1}{2N}\sum_{i=1}^N[r_i+\gamma max_i Q_w(s'_i,a') - Q_w(s_i,a_i)]$

经验回放

制作一个数据回放缓冲区，每次环境中得到的<s,a,r,s’>都进行存放
目标网络

采用TD_error作为我们的误差，但是包含着网络的输出，所以在更新网络参数的时候，目标也在不断地更新

因为优化目标是让
$\rightarrow r+\gamma max Q(s'+a')$

强化学习算法总结 2

4.动态规划

4.1 策略迭代算法

4.2 价值迭代算法

5 时序差分算法

5.1 时序差分

5.2 SARSA

5.3 多步Sarsa

5.4 Q-learning

7 DQN算法

相关文章：