当前位置：首页 > news >正文

# [0705] Task06 DDPG 算法、PPO 算法、SAC 算法【理论 only】

news 2025/7/8 1:55:22

easy-rl PDF版本笔记整理 P5、P10 - P12
joyrl 比对补充 P11 - P13
OpenAI 文档整理 ⭐ https://spinningup.openai.com/en/latest/index.html

在这里插入图片描述

最新版PDF下载
地址：https://github.com/datawhalechina/easy-rl/releases
国内地址(推荐国内读者使用)：
链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6a

easy-rl 在线版本链接 (用于 copy 代码)
参考链接 2：https://datawhalechina.github.io/joyrl-book/

其它：
【勘误记录链接】
——————
5、深度强化学习基础 ⭐️
开源内容：https://linklearner.com/learn/summary/11
——————————

在这里插入图片描述
图片来源

近端策略优化（proximal policy optimization，PPO）

同策略：要学习的智能体和与环境交互的智能体是相同的。
异策略：要学习的智能体和与环境交互的智能体不相同

策略梯度：需要很多时间采样数据

同策略 $~~~\overset{重要性采样}{\Longrightarrow}~~~$ 异策略

PPO：避免两个分布相差太多。同策略算法
1、本来的优化项 $J(\theta,\theta^\prime)$
2、约束项： $\theta$ 和 $\theta^\prime$ 输出动作的 KL 散度 ( $\theta$ 和 $\theta^\prime$ 越相似越好)

PPO 有一个前身：信任区域策略优化（trust region policy optimization，TRPO）
TRPO 很难处理，因为它把 KL 散度约束当作一个额外的约束，没有放在目标函数里，所以很难计算。因此我们一般就用 PPO，而不使用 TRPO 。PPO 与 TRPO 的性能差不多，但 PPO 在实现上比 TRPO 容易得多。

KL 散度：动作的距离。执行某个动作的概率分布 的距离。

PPO 算法有两个主要的变种：近端策略优化惩罚（PPO-penalty）和近端策略优化裁剪（PPO-clip）。

在这里插入图片描述

——————————
P10 稀疏奖励问题
1、设计奖励。需要领域知识
把最终奖励分配到每个相关动作上，如何呢？

2、好奇心
内在好奇心模块（intrinsic curiosity module，ICM）
输入： $a_t,s_t$
输出： $\hat s_{t+1}$
网络的预测值 $\hat s_{t+1}$ 与真实值 $s_{t+1}$ 越不相似， $r_t^i$ 越大

$r_t^i$ ：未来的状态越难以被预测，动作的奖励越大。鼓励冒险和探索。

指标过于单一，可能只学到无用的

特征提取器（feature extractor）

网络 2：
输入：向量 ${\bm \phi}(s_{t})$ 和 ${\bm \phi}(s_{t+1})$

预测动作 $\hat a$ 与真正动作越接近越好。

在这里插入图片描述

3、课程学习

简单 ——> 困难

逆课程学习（reverse curriculum learning）：
从最终最理想的状态 [我们称之为黄金状态（gold state）] 开始，依次去寻找距离黄金状态最近的状态作为想让智能体达到的阶段性的“理想”状态。当然，我们会在此过程中有意地去掉一些极端的状态，即太简单、太难的状态。

4、分层强化学习（hierarchical reinforcement learning，HRL）
将智能体的策略分为高层次策略和低层次策略，高层次策略根据当前状态决定如何执行低层次策略。

————————
P11 模仿学习
不清楚奖励的场景

模仿学习（imitation learning，IL）
示范学习（learning from demonstration）
学徒学习（apprenticeship learning）
观察学习（learning by watching）

有明确的奖励：棋类游戏、电玩
无法给出明确的奖励：聊天机器人

收集专家示范：人类开车的记录、人的对话

反推，专家是因为什么样的奖励函数才会采取这些行为。
逆强化学习是先找出奖励函数，找出奖励函数以后，再用强化学习找出最优演员。

第三人称视角模仿学习（third person imitation learning）技术

————————
P12 深度确定性策略梯度（deep deterministic policy gradient，DDPG）

在这里插入图片描述

使用了经验回放异策略

消融实验【控制变量法】分析每一个约束条件对于对战结果的影响。

joyrl：

DDPG_连续

在需要确定性策略且连续动作空间的前提下，这类算法将是比较稳定的基线算法

连续动作空间的 DQN

深度确定性策略梯度算法 (deep deterministic policy gradient， DDPG)

经验回放机制可以减少样本之间的相关性，提高样本的有效利用率，并且增加训练的稳定性。

缺点：
1、无法用于离散动作空间
2、高度依赖超参数
3、高度敏感的初始条件。影响算法的收敛性和性能
4、易陷入局部最优。

由于采用了确定性策略，可能会导致算法陷入局部最优，难以找到全局最优策略。为了增加探索性，需要采取一些措施，如加入噪声策略或使用其他的探索方法。

软更新的好处是更加平滑缓慢，可以避免因权重更新过于迅速而导致的震荡，同时降低训练发散的风险。

双延迟确定性策略梯度算法 (twin delayed DDPG， TD3)

双延迟确定性策略梯度算法

三点改进：双 Q 网络、延迟更新、躁声正则
双 Q 网络：两个 Q 网络，取 Q 值较小的。应对 Q 值的过估计问题，提高算法的稳定性和收敛性。

延迟更新：让 actor 的更新频率低于 critic 的更新频率

三思而后行

噪声更像是一种正则化的方式，使得值函数更新更加平滑

OpenAI Gym 库_摆杆直立 Pendulum_TD3

OpenAI 关于 TD3 的文档界面链接

TD3 论文PDF 链接

PPO_连续/离散动作空间【OpenAI 201708】

强化学习中最为泛用的 PPO 算法
离散 + 连续
快速稳定，调参简单
基线算法

遇事不决 PPO

在实践中一般用 clip 约束，因为它更简单，计算成本较低，而且效果也更好。

off-policy 算法由于可以利用历史经验，一般使用经验回放来存储和重复利用之前的经验，数据利用效率较高。

PPO 是 on-policy 算法

虽然重要性采样部分使用了旧的 actor 采样的样本，但我们并没有直接使用这些样本去更新策略，而是使用重要性采样先将数据分布不同导致的误差进行了修正，即使两者样本分布之间的差异尽可能地缩小。换句话说，就可以理解为重要性采样之后的样本虽然是由旧策略采样得到的，但可以近似为从更新后的策略中得到的，即我们要优化的 actor 和采样的 actor 是同一个。

——————————————————

—— OpenAI 文档_PPO

OpenAI 文档
论文 arXiv 界面链接： Proximal Policy Optimization Algorithms

PPO： on-policy 算法、适用于离散或连续动作空间。可能局部最优

PPO 的动机与 TRPO 一样：如何利用现有的数据在策略上采取最大可能的改进 step，而不会改动过大而意外导致性能崩溃？
TRPO 试图用一种复杂的二阶方法来解决这个问题，PPO 则是一种一阶方法，它使用了一些其他技巧来保持新策略与旧策略的接近。
PPO方法的实现要简单得多，而且从经验上看，其执行效果至少与 TRPO 一样好。

PPO 有两种主要的变体：PPO-Penalty 和 PPO-Clip。

PPO-Penalty 近似地解决了像 TRPO 这样的 KL 约束更新，但在目标函数中惩罚了 KL-divergence，而不是使其成为硬约束，并在训练过程中自动调整惩罚系数，使其适当缩放。
PPO-Clip 在目标函数中没有 KL-divergence，也没有约束。而是依靠对目标函数的特定裁剪来去除新策略远离旧策略的激励。
PPO-Clip (OpenAl 使用的主要变体)。

在这里插入图片描述

PPO-Clip 算法伪码

在这里插入图片描述

算法： PPO-Clip
1：输入：初始策略参数 $\theta_0$ ，初始值函数参数 $\phi_0$
2： ${\bf for} ~ k=0,1,2,\dots~ {\bf do}$ ：
3：通过在环境中运行策略 $\pi_k=\pi(\theta_k)$ 收集轨迹集 ${\cal D}_k=\{\tau_i\}$
4：计算奖励 (rewards-to-go) $\hat R_t~~~~~$ ▢ $\hat R_t$ 的计算规则
5：计算优势估计，基于当前值函数 $V_{\phi_k}$ 的 $\hat A_t$ (使用任何优势估计方法) ▢ 当前有哪些优势估计方法？
6：通过最大化 PPO-Clip 目标函数更新策略：

$~~~~~~~~~~~\theta_{k+1}=\arg\max\limits_\theta\frac{1}{|{\cal D}_k|T}\sum\limits_{\tau\in{\cal D}_k}\sum\limits_{t=0}^T\min\Big(\frac{\pi_{\theta} (a_t|s_t)}{\pi_{\theta_k}(a_t|s_t)}A^{\pi_{\theta_k}}(s_t,a_t),g(\epsilon,A^{\pi_{\theta_k}}(s_t,a_t))\Big)$ ▢ 策略更新公式如何确定？

$\pi_{\theta_k}$ ：更新前的策略参数向量。重要性采样。从旧的策略采样。

一般随机梯度上升 + Adam
7：均方误差回归拟合值函数:

$~~~~~~~~~~~\phi_{k+1}=\arg \min\limits_\phi\frac{1}{|{\cal D}_k|T}\sum\limits_{\tau\in{\cal D}_k}\sum\limits_{t=0}^T\Big(V_\phi(s_t)-\hat R_t\Big)^2$

一般梯度下降
8： $\bf end ~for$

$\dots$ $~~~\dots$

$g(\epsilon,A)=\left\{\begin{aligned}&(1+\epsilon)A ~~~~&A\geq0\\ &(1-\epsilon)A&A<0\end{aligned}\right.$

在这里插入图片描述

论文里的优势估计：

$\hat A_t=-V(s_t)+\underbrace{r_t+\gamma r_{t+1}+\cdots+\gamma^{T-t+1}r_{T-1}+\gamma^{T-t}V(s_T)}_{\textcolor{blue}{\hat R_t???}}$

在这里插入图片描述

令 $\Delta_t =r_t+\gamma V(s_{t+1})-V(s_t)$
则 $r_t=\Delta_t - \gamma V(s_{t+1})+V(s_t)$

代入 $\hat A_t$ 表达式

$\begin{aligned}\hat A_t&=-V(s_t)+r_t+\gamma r_{t+1}+\gamma^2 r_{t+2}+\cdots+\gamma^{T-t}r_{T-2}+\gamma^{T-t+1}r_{T-1}+\gamma^{T-t}V(s_T)\\ &=-V(s_t)+r_t+\gamma r_{t+1}+\cdots+\gamma^{T-t+1}r_{T-1}+\gamma^{T-t}V(s_T)\\ &=-V(s_t)+\\ & ~~~~~~~\Delta_t - \gamma V(s_{t+1})+V(s_t)+\\ & ~~~~~~~\gamma (\Delta_{t+1} - \gamma V(s_{t+2})+V(s_{t+1}))+\\ & ~~~~~~~\gamma^2(\Delta_{t+2} - \gamma V(s_{t+3})+V(s_{t+1}))+\\ & ~~~~~~~\cdots+\\ & ~~~~~~~\gamma^{T-t}(\Delta_{T-t} - \gamma V(s_{T-t+1})+V(s_{T-t}))+\\ & ~~~~~~~\gamma^{T-t+1}(\Delta_{T-1} - \gamma V(s_T)+V(s_{T-1}))+\\ & ~~~~~~~\gamma^{T-t}V(s_T)\\ &=\Delta_t+\gamma\Delta_{t+1}+\gamma^2\Delta_{t+2}+\cdots+\gamma^{T-t}\Delta_{T-t}+\gamma^{T-t+1}\Delta_{T-1}\end{aligned}$

在这里插入图片描述

通过消除策略大幅改变的诱因，clipping 起到了正则化的作用。超参数 $\epsilon$ 对应于新策略与旧策略之间的距离。

这种 clipping 最终仍有可能得到一个与旧策略相去甚远的新策略，在这里的实现中，我们使用了一个特别简单的方法：提前停止。如果新策略与旧策略的平均 KL -散度超过一个阈值，我们就停止执行梯度步骤。

PPO 目标函数简单推导链接
PPO-Clip 的目标函数为：

$L^{\rm CLIP}_{\theta_k}(\theta)=\underset{s, a\sim\theta_k}{\rm E}\Bigg[\min\Bigg(\frac{\pi_\theta(a|s)}{\pi_{\theta_k}(a|s)}A^{\theta_k}(s, a), {\rm clip}\Big(\frac{\pi_\theta(a|s)}{\pi_{\theta_k}(a|s)},1-\epsilon, 1+\epsilon\Big)A^{\theta_k}(s, a)\Bigg)\Bigg]$

$\underset{s, a\sim\theta_k}{\rm E}$ $~~~\underset{s, a\sim\theta_k}{\rm E}$

第 $k$ 次迭代的策略参数 $\theta_k$ ， $\epsilon$ 为小的超参数。
设 $\epsilon\in(0,1)$ ，定义
$F(r,A,\epsilon)\doteq\min\Bigg(rA,{\rm clip}(r,1-\epsilon,1+\epsilon)A\Bigg)$
当 $A\geq0$
$\begin{aligned}F(r,A,\epsilon)&=\min\Bigg(rA,{\rm clip}(r,1-\epsilon,1+\epsilon)A\Bigg)\\ &=A\min\Bigg(r,{\rm clip}(r,1-\epsilon,1+\epsilon)\Bigg)\\ &=A\min\Bigg(r,\left\{\begin{aligned}&1+\epsilon~~&r\geq1+\epsilon\\ &r &r\in(1-\epsilon,1+\epsilon)\\ &1-\epsilon &r\leq1-\epsilon\\ \end{aligned}\right\}\Bigg)\\ &=A\left\{\begin{aligned}&\min(r,1+\epsilon)~~&r\geq1+\epsilon\\ &\min(r,r) &r\in(1-\epsilon,1+\epsilon)\\ &\min(r,1-\epsilon) &r\leq1-\epsilon\\ \end{aligned}\right\}\\ &=A\left\{\begin{aligned}&1+\epsilon~~&r\geq1+\epsilon\\ &r &r\in(1-\epsilon,1+\epsilon)\\ &r &r\leq1-\epsilon\\ \end{aligned}\right\}~~~~~\textcolor{blue}{根据右侧的范围}\\ &=A\min(r, 1+\epsilon)\\ &=\min\Bigg(rA, (1+\epsilon)A\Bigg) \end{aligned}$

当 $A < 0$
$\begin{aligned}F(r,A,\epsilon)&=\min\Bigg(rA,{\rm clip}(r,1-\epsilon,1+\epsilon)A\Bigg)\\ &=A\textcolor{blue}{\max}\Bigg(r,{\rm clip}(r,1-\epsilon,1+\epsilon)\Bigg)\\ &=A\max\Bigg(r,\left\{\begin{aligned}&1+\epsilon~~&r\geq1+\epsilon\\ &r &r\in(1-\epsilon,1+\epsilon)\\ &1-\epsilon &r\leq1-\epsilon\\ \end{aligned}\right\}\Bigg)\\ &=A\left\{\begin{aligned}&\max(r,1+\epsilon)~~&r\geq1+\epsilon\\ &\max(r,r) &r\in(1-\epsilon,1+\epsilon)\\ &\max(r,1-\epsilon) &r\leq1-\epsilon\\ \end{aligned}\right\}\\ &=A\left\{\begin{aligned}&r~~&r\geq1+\epsilon\\ &r &r\in(1-\epsilon,1+\epsilon)\\ &1-\epsilon &r\leq1-\epsilon\\ \end{aligned}\right\}~~~~~\textcolor{blue}{根据右侧的范围}\\ &=A\max(r, 1-\epsilon)\\ &=\textcolor{blue}{\min}\Bigg(rA,(1-\epsilon)A\Bigg) \end{aligned}$

综上：可定义 $g(\epsilon,A)$
$g(\epsilon,A)=\left\{\begin{aligned}&(1+\epsilon)A ~~~~&A\geq0\\ &(1-\epsilon)A&A<0\end{aligned}\right.$

为什么这样定义就可以让新策略不至于离旧策略过远？
重要性采样方法有效要求新策略 $\pi_\theta(a|s)$ 和旧策略 $\pi_{\theta_k}(a|s)$ 两个分布不能差距过大

1、当 advantage 优势为正

$L(s,a,\theta_k, \theta)=\min\Bigg(\frac{\pi_\theta(a|s)}{\pi_{\theta_k}(a|s)}, 1+\epsilon\Bigg)A^{\pi_{\theta_k}}(s, a)$
优势函数：发现某个状态-动作对奖励多 ——> 增大该状态-动作对的权重。

当状态-行动对 $(s, a)$ 的优势是正的，则如果行动 $a$ 更有可能执行，即如果 $\pi_\theta(a|s)$ 增加，目标就会增加。
该项中的 min 限制了目标函数只能增大到某个值
一旦 $\pi_\theta(a|s)>(1+\epsilon)\pi_{\theta_k}(a|s)$ ， min 触发，限制该项值为 $(1+\epsilon)\pi_{\theta_k}(a|s)$ 。
the new policy does not benefit by going far away from the old policy.
新策略不会因远离旧策略而受益。

2、当 advantage 优势为负

$L(s,a,\theta_k, \theta)=\max\Bigg(\frac{\pi_\theta(a|s)}{\pi_{\theta_k}(a|s)}, 1-\epsilon\Bigg)A^{\pi_{\theta_k}}(s, a)$

当某个状态-行动对 $(s, a)$ 的优势是负的，则如果执行行动 $a$ 的可能性更小，即如果 $π_\theta(a|s)$ 减小，目标函数就会增加。但是该项中的 max 限制了目标函数可以增加到多少。
一旦 $\pi_\theta(a|s)<(1-\epsilon)\pi_{\theta_k}(a|s)$ ， max 触发，限制该项值为 $(1-\epsilon)\pi_{\theta_k}(a|s)$ 。

再次说明：the new policy does not benefit by going far away from the old policy.
新策略不会因远离旧策略而受益。

TD3_仅连续： Twin Delayed Deep Deterministic Policy Gradient 【ICML 2018 （加拿大）麦吉尔大学】

在这里插入图片描述
图片来源

OpenAI 文档_TD3
论文链接

虽然 DDPG 有时可以实现出色的性能，但在超参数和其他类型的调优方面，它通常是不稳定的。
一个常见的 DDPG 失败模式是，学习到的 Q 函数开始显著高估 Q 值，然后导致策略中断，因为它利用了 Q 函数中的误差。
双延迟 DDPG (Twin Delayed DDPG， TD3) 是一种通过引入三个关键技巧来解决此问题的算法:
1、截断的双 Q 学习。

TD3 学习两个 Q 函数而不是一个(因此是 “twin”)，并使用两个 Q 值中较小的一个来形成 Bellman 误差损失函数中的目标。

2、策略更新延迟。

TD3 更新策略(和目标网络) 的频率低于 Q 函数。论文建议 Q 函数每更新两次，更新一次策略。

3、目标策略平滑。

TD3 在目标动作中添加噪声，通过平滑动作变化中的 Q 使策略更难利用 Q 函数的误差。

TD3 是一个 off-policy 算法；只能用于具有连续行动空间的环境。

TD3 算法伪码

在这里插入图片描述

算法： TD3
用随机参数 $\theta_1, \theta_2, \phi$ 初始化 critic 网络 $Q_{\theta_1},Q_{\theta_2}$ ，和 actor 网络 $\pi_\phi$
初始化目标网络 $\theta_1^\prime\leftarrow\theta_1, \theta_2^\prime\leftarrow\theta_2, \phi^\prime\leftarrow \phi$
初始化回放缓冲集 $\cal B$
${\bf for}~t=1 ~{\bf to} ~T$ ：
选择带探索噪声的动作 $a\sim\pi_\phi(s)+\epsilon,~~\epsilon\sim {\cal N}(0,\sigma)$ ，观测奖励 $r$ 和新的状态 $s^\prime$
将 transition 元组 $s^\prime)$ 存到 $\cal B$ 中
从 $\cal B$ 中抽样小批次的 $N$ 个 transitions $s^\prime)$
$~~~~~~\widetilde a\leftarrow \pi_{\phi^\prime}(s^\prime)+\epsilon,~~\epsilon\sim{\rm clip}({\cal N}(0,\widetilde \sigma),-c,c)$
$~~~~~~y\leftarrow r+\gamma \min\limits_{i=1,2}Q_{\theta_i^\prime}(s^\prime,\widetilde a)$
更新 critics $\theta_i\leftarrow\arg\min\limits_{\theta_i}N^{-1}\sum(y-Q_{\theta_i}(s, a))^2$
${\bf if}~t~ \% ~d$ ：
通过确定性策略梯度更新 $\phi$
$~~~~~~~~~~~~~~~~~\nabla _\phi J(\phi)=N^{-1}\sum\nabla_aQ_{\theta_1}(s, a)|_{a=\pi_\phi(s)}\nabla_\phi\pi_\phi(s)$
更新目标网络：
$~~~~~~~~~~~~~~~~~\theta_i^\prime\leftarrow\tau\theta_i+(1-\tau)\theta_i^\prime~~~~~$ $\tau$ ：目标更新率
$~~~~~~~~~~~~~~~~~\phi^\prime\leftarrow\tau\phi+(1-\tau)\phi^\prime$
$~~~~~~{\bf end ~if}$
${\bf end ~for}$

Soft Actor-Critic：SAC_连续/离散动作空间【Google Brain 最新版本 201906】

在这里插入图片描述

图片来源

最大化策略的熵，从而使得策略更加鲁棒。

确定性策略 是指在给定相同状态下，总是选择相同的动作
随机性策略 则是在给定状态下可以选择多种可能的动作

	确定性策略	随机性策略
定义	同样的状态，执行同样的动作	同样的状态，可能执行不同的动作
优点	稳定、可重复	避免陷入局部最优解，提高全局搜索的能力
缺点	缺乏探索性、易被对手抓到	可能会导致策略的收敛速度较慢，影响效率和性能。

实际应用中，如果有条件的话，我们会尽量使用随机性策略，诸如 A2C、PPO 等等，因为它更加灵活，更加鲁棒，更加稳定。

最大熵强化学习认为，即使我们目前有了成熟的随机性策略，即 AC 一类的算法，但是还是没有达到最优的随机。因此，它引入了一个信息熵的概念，在最大化累积奖励的同时最大化策略的熵，使得策略更加鲁棒，从而达到最优的随机性策略。

——————————————————

—— OpenAI 文档_SAC

OpenAI 文档_SAC 界面链接

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor, Haarnoja et al, 201808 ICML 2018
Soft Actor-Critic Algorithms and Applications, Haarnoja et al, 201901
Learning to Walk via Deep Reinforcement Learning, Haarnoja et al, 201906 RSS2019

Soft Actor Critic (SAC) 以 off-policy 方式优化随机策略。

DDPG + 随机策略优化

不是 TD3 的直接继承者 (几乎同时发表)。

它包含了 clipped double-Q 技巧，并且由于 SAC 的策略的固有随机性，它也最终受益于目标策略平滑。

SAC 的一个核心特征是 entropy regularization 熵正则化。
该策略被训练为最大化期望回报和熵之间的权衡，熵是策略随机性的度量。
这与探索和利用之间的权衡有密切的联系：熵的增加导致更多的探索，这可以加速后续的学习。它还可以防止策略过早收敛到一个坏的局部最优。

既可用于连续动作空间，也可用于离散动作空间。

在熵-正则化强化学习中，智能体在每个时间步获得与该时间步策略的熵成正比的奖励。
此时 RL 问题描述为:

$\pi^*=\arg\max\limits_\pi \underset{\tau\sim\pi}{\rm E}\Big[\sum\limits_{t=0}^\infty\gamma^t\Big(R(s_t,a_t,s_{t+1})\textcolor{blue}{+\alpha H(\pi(·|s_t))}\Big)\Big]$

其中 $\alpha > 0$ 为权衡系数。
包括每个时间步的熵奖励的状态值函数 $V^\pi$ 为:

$V^\pi(s)=\underset{\tau\sim\pi}{\rm E}\Big[\sum\limits_{t=0}^\infty\gamma^t\Big(R(s_t,a_t,s_{t+1})+\alpha H(\pi(·|s_t))\Big)\Big|s_0=s\Big]$

包括除了第一个时间步以外的每个时间步的熵奖励的动作值函数 $Q^\pi$ :

$Q^\pi(s,a)=\underset{\tau\sim\pi}{\rm E}\Big[\sum\limits_{t=0}^\infty\gamma^t\Big(R(s_t,a_t,s_{t+1})+\alpha \sum\limits_{t=1}^\infty H(\pi(·|s_t))\Big)\Big|s_0=s,a_0=a\Big]$

有些论文的 $Q^\pi$ 包含第一个时间步的熵奖励

$V^\pi$ 和 $Q^\pi$ 间的关系为：

$V^\pi(s)=\underset{a\sim\pi}{\rm E}[Q^\pi(s, a)]+\alpha H(\pi(·|s))$

关于 $Q^\pi$ 的贝尔曼公式为：

$\begin{aligned}Q^\pi(s, a)&=\underset{s^\prime \sim P \atop a^\prime\sim \pi}{\rm E}[R(s,a,s^\prime)+\gamma\big(Q^\pi(s^\prime,a^\prime)+\alpha H(\pi(·|s^\prime))\big)]\\ &=\underset{s^\prime \sim P}{\rm E}[R(s,a,s^\prime)+\gamma V^\pi(s^\prime)]\end{aligned}$

SAC 同时学习一个策略 $π_\theta$ 和两个 $Q$ 函数 $Q_{\phi_1}, Q_{\phi_2}$ 。
目前标准的 SAC 有两种变体：一种使用固定的熵正则化系数 $\alpha$ ，另一种通过在训练过程中改变 $\alpha$ 来强制熵约束。
OpenAI 的文档使用具有固定熵正则化系数的版本，但实践中通常更喜欢熵约束的变体。

如下图，在 $\alpha$ 固定版本中，除了最后一个图有较明显的优势，其它只是略有优势，基本和 $\alpha$ 学习版本持平；而在 $\alpha$ 学习版本有优势的中间两图，优势较明显。

在这里插入图片描述
图片来源

SAC VS TD3:

相同点：
1、两个 Q 函数都是通过回归到单个共享目标的 MSBE (Mean Squared Bellman Error) 最小化来学习的。
2、利用目标 Q-网络计算共享目标，并对训练过程中的 Q-网络参数进行 polyak 平均得到目标 Q-网络。
3、共享目标使用了被截断的双 Q 技巧。

不同点：
1、SAC 包含熵正则化项
2、SAC 的目标中使用的下一状态的动作来自当前策略，而不是目标策略。
3、没有明确的目标策略平滑。TD3 训练一个确定性策略，它通过向下一状态的动作添加随机噪声来实现平滑。SAC 训练的是一个随机策略，来自随机性的噪声足以获得类似的效果。

SAC 算法伪码

在这里插入图片描述

算法： Soft Actor-Critic SAC
输入： $\theta_1,\theta_2,\phi~~~~~$ 初始化参数
参数初始化：
初始化目标网络权重： $\bar \theta_1\leftarrow\theta_1, \bar \theta_2\leftarrow\theta_2$
回放池初始化为空： ${\cal D}\leftarrow\emptyset$
${\bf for}$ 每次迭代 ${\bf do}$ ：
${\bf for}$ 每个环境 step ${\bf do}$ ：
从策略中抽样动作： $a_t\sim\pi_\phi(a_t|s_t)~~~~~$ ▢ 这里的 $\pi_\phi(a_t|s_t)$ 如何定义？
从环境中抽样 transition： $s_{t+1}\sim p(s_{t+1}|s_t,a_t)$
将 transition 存到回放池： ${\cal D}\leftarrow{\cal D}~\cup~\{(s_t,a_t,r(s_t,a_t),s_{t+1})\}$
${\bf end ~for}$
${\bf for}$ 每个梯度 step ${\bf do}$ ：
更新 $Q$ 函数参数：对于 $i\in\{1,2\}$ ， $\theta_i\leftarrow\theta_i-\lambda_Q\hat \nabla_{\theta_i}J_Q(\theta_i)~~~~~$ ▢ 这里的 $J_Q(\theta_i)$ 如何定义？
更新策略权重： $\phi\leftarrow\phi-\lambda_\pi\hat \nabla_\phi J_\pi (\phi)~~~~~$ ▢ 这里的 $J_\pi (\phi)$ 如何定义？
调温度： $\alpha\leftarrow\alpha-\lambda\hat\nabla_\alpha J(\alpha)~~~~~$ ▢ 这里的 $J(\alpha)$ 如何定义？如何理解这里的 temperature 温度
更新目标网络权重：对于 $i\in\{1,2\}$ ， $\bar \theta_i\leftarrow \tau \theta_i-(1-\tau)\bar \theta_i~~~~~$ ▢ 如何理解这里的 $\tau$ ？ ——> 目标平滑系数
${\bf end ~for}$
${\bf end ~for}$
输出： $\theta_1,\theta_1,\phi~~~~~$ 优化好的参数