当前位置：首页 > news >正文

一、智能体强化学习——强化学习基础

news 2026/2/11 0:41:26

1.1 强化学习与深度学习的基本概念

1.1.1 强化学习的核心思想

什么是强化学习？

强化学习（Reinforcement Learning, RL）：指在与环境（Environment）的反复交互中，智能体（Agent）通过“试错”获取经验，并依据获得的奖励（Reward）学习出最优策略（Policy），以期在未来的决策中取得最大化的累积回报（Return）。
核心要素
1. 智能体（Agent）：在环境中执行动作的主体；
2. 环境（Environment）：Agent 与之交互的外部世界；
3. 状态（State）：环境在某一时刻的刻画，Agent 能观测到或部分观测到；
4. 动作（Action）：Agent 针对所处状态执行的操作；
5. 奖励（Reward）：环境对 Agent 所执行动作的反馈信号，用来衡量动作的好坏；
6. 策略（Policy）：Agent 在任意给定状态下选择动作的规则或函数 $ $\pi(a|s)$ )；
7. 目标：在整个交互过程中累积尽可能多的奖励（或最大化期望折扣累积奖励）。

强化学习与监督/无监督学习的区别

监督学习（Supervised Learning）
- 有“正确标签”作为监督信息；
- 训练目标是最小化预测与标签之间的损失（如分类错误率、回归均方差）。
无监督学习（Unsupervised Learning）
- 无任何标签信息，尝试从数据中发现分布结构或聚类模式；
- 常见应用：聚类、降维、异常检测等。
强化学习（Reinforcement Learning）
- 没有直接的“正确动作”标签，只有环境给出的奖励信号；
- 学习是通过“试错”来迭代地调整策略，以期获得最大累计回报；
- 当前动作会影响未来的状态和奖励，存在时间与序列上的依赖。

强化学习的基本流程

Agent 根据某种策略 $\pi$ 选择动作 $a_t$ ；
环境执行该动作并返回下一状态 $s_{t+1}$ 与即时奖励 $r_t$ ；
Agent 更新自己的策略或价值函数；
重复交互直到任务结束（或达到最大时间步数）。

这个反复交互与决策-反馈的过程是强化学习最突出的特点。不断从环境中“试错”并更新策略，以适应不确定或动态的外界。

1.1.2 深度学习基础回顾

为了将强化学习扩展到高维、复杂的状态空间（如图像、文本），往往需要借助 深度神经网络 来进行函数逼近。此时就进入了 深度强化学习（Deep Reinforcement Learning, DRL） 的范畴。以下是深度学习的几个关键概念：

神经网络结构
- 通常由多层线性或卷积、循环等结构堆叠，加上激活函数（ReLU、Sigmoid、Tanh 等）构成；
- 可以视为一个可微分的函数 $f_\theta(x)$ ，其中 $\theta$ 表示模型参数（权重和偏置）。
梯度下降与损失函数
- 损失函数（Loss Function）：衡量预测与目标之间差异的函数，常见如均方误差、交叉熵；
- 梯度下降（Gradient Descent）：利用目标函数相对于参数的梯度来迭代更新参数；
- 优化器（Optimizer）：SGD、Adam、RMSProp 等都是常用的梯度下降算法变体，用于加速收敛、提升稳定性。
深度学习在强化学习中的角色
- 函数逼近器：将状态作为输入，输出价值（Q 值）或动作的概率分布；
- 特征提取：通过卷积网络或其他结构，从原始高维数据（如图像）中提取有用的特征。

结合深度学习后，强化学习能够应对高维连续状态、复杂的感知和控制任务，如 Atari 游戏、机器人操控、自动驾驶等场景。

1.2 马尔可夫决策过程（MDP）

1.2.1 MDP 基本定义

强化学习通常用 马尔可夫决策过程（Markov Decision Process, MDP） 来建模。MDP 是一个五元组 $\langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle$ ：

状态空间 $\mathcal{S}$
- 系统可能处于的所有状态的集合（离散或连续）。
动作空间 $\mathcal{A}$
- Agent 可执行的所有动作集合（离散或连续）。
转移概率 $P(s_{t+1} | s_t, a_t)$
- 从状态 $s_t$ 执行动作 $a_t$ 后进入下一状态 $s_{t+1}$ 的概率分布。
- “马尔可夫性质”表示：下一状态只与当前状态和当前动作有关，与过去的历史无关。
奖励函数 $R(s_t, a_t, s_{t+1})$
- 执行动作后得到的奖励，可简化成 $R (s, a)$ 或 $R (s)$ 等形式。
折扣因子 $\gamma \in [0,1]$
- 用于平衡短期奖励和长期奖励的权重；
- 越接近 1，越重视长期效益；越接近 0，越重视眼前奖励。

累计奖励

目标：最大化期望折扣累计回报
$\LARGE \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t r_t \right]$
, 其中 $r_t$ 是智能体在时间步 $t$ 获得的即时奖励。

1.2.2 价值函数与 Q 函数

策略 $\pi$

策略 $\pi$ 定义在每个状态 $s$ 下，选择动作 $a$ 的分布： $\pi(a|s)$ 。
确定性策略： $\pi(s) = a$ ，即在状态 $s$ 下必然选择动作 $a$ ；
随机策略： $\pi(a|s)$ 是一个概率分布，在状态 $s$ 下选择动作 $a$ 的概率。

状态价值函数 $V^\pi(s)$

在策略 $\pi$ 下，从状态 $s$ 出发所能获得的期望折扣累计奖励：
$\LARGE V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{k=0}^\infty \gamma^k r_{t+k} \,\middle|\, s_t = s \right]$
这表示如果我们始终遵循策略 $\pi$ ，在状态 $s$ 时的预期收益。

动作价值函数 $Q^\pi(s,a)$

在策略 $\pi$ 下，从状态 $s$ 执行动作 $a$ 后，所能获得的期望折扣累计奖励：
$\LARGE Q^\pi(s,a) = \mathbb{E}_\pi \left[ \sum_{k=0}^\infty \gamma^k r_{t+k} \,\middle|\, s_t = s, a_t=a \right]$
也称作 Q 函数 或 动作价值函数。

价值函数与策略之间的关系

状态价值函数与 Q 函数
$\LARGE V^\pi(s) = \sum_{a \in \mathcal{A}} \pi(a|s) \, Q^\pi(s,a)$
- 状态价值是动作价值的加权期望，权重为策略在该状态下选择各动作的概率。
Bellman 期望方程：在策略 $\pi$ 下，
$\LARGE Q^\pi(s,a) = R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^\pi(s')$
也可写成
$\LARGE V^\pi(s) = \sum_{a} \pi(a|s) \big[R(s,a) + \gamma \sum_{s'}P(s'|s,a)V^\pi(s')\big]$

最优价值函数

最优状态价值函数
$\LARGE V^*(s) = \max_\pi V^\pi(s)$
即在状态 $s$ 下能获得的最高期望回报。
最优 Q 函数
$\LARGE Q^*(s,a) = \max_\pi Q^\pi(s,a)$
即在状态 $s$ 执行动作 $a$ 后，所能获得的最高期望回报。
对于任何 MDP，都存在一个或多个最优策略 $\pi^*$ ，其满足
$\LARGE Q^*(s,a) = Q^{\pi^*}(s,a), \quad V^*(s) = V^{\pi^*}(s)$

1.3 经典强化学习方法

在传统强化学习领域（未结合深度学习之前），有一些基本且重要的方法，如动态规划、价值迭代、策略迭代，以及以 Q-Learning / SARSA 为代表的时序差分（TD）方法等。这些算法主要针对离散、规模相对较小的状态空间。

1.3.1 动态规划 (Dynamic Programming, DP)

动态规划方法通常要求我们可以完全访问环境的动态模型（即知道转移概率和奖励函数），来进行规划（planning）。两种典型的 DP 算法为：

1.3.1.1 价值迭代（Value Iteration）

Bellman 最优方程：对最优价值函数 $V^*(s)$ 有
$\LARGE V^*(s) = \max_a \Big[ R(s,a) + \gamma \sum_{s'} P(s'|s,a)\, V^*(s') \Big]$
价值迭代算法：从一个初始 $V$ 开始，在每次迭代对所有状态执行：
$\LARGE V(s) \leftarrow \max_a \Big[ R(s,a) + \gamma \sum_{s'} P(s'|s,a)\, V(s') \Big].$
当 $V (s)$ 收敛后，即得到近似的最优价值函数 $V^*$ 。进而可推得最优策略：
$\LARGE \pi^*(s) = \arg\max_a \Big[ R(s,a) + \gamma \sum_{s'} P(s'|s,a)\, V(s') \Big]$

1.3.1.2 策略迭代（Policy Iteration）

分为两个阶段的交替：
1. 策略评估（Policy Evaluation）：在当前策略 $\pi$ 下，计算得到 $V^\pi$ ；
2. 策略提升（Policy Improvement）：基于 $V^\pi$ 来更新得到新策略 $\pi'$ ，使得期望收益更高。
反复迭代，直到策略不再改变，得到最优策略 $\pi^*$ 。

动态规划主要缺点在于：它通常需要我们显式知道环境的转移概率 $P$ ，且状态空间不宜过大，否则枚举计算的开销很大。

1.3.2 Q-Learning 和 SARSA

当环境模型未知或者难以获得时，可以采用**时序差分（Temporal Difference, TD）**的学习方法，直接通过与环境交互的样本来更新价值函数。其中最经典的两个算法是 Q-Learning 和 SARSA。它们都更新 动作价值函数 $Q (s, a)$ ，但有一些差异。

1.3.2.1 Q-Learning

目标：学得最优 Q 函数 $Q^*(s,a)$ ，在任意状态下选择 $max_a Q(s,a)$ 即可得到最优动作。
更新规则：
$\LARGE Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha \Big[r_t + \gamma \max_{a'}Q(s_{t+1},a') - Q(s_t,a_t)\Big]$
其中 $\alpha$ 为学习率。
离策略（Off-policy）
- 在实际执行中，Agent 会采用 $\epsilon$ -贪心等探索策略选动作，但更新时使用的是 $max_{a'}Q$ 的估计来逼近最优策略。
- 这种“行为策略”与“目标策略”分离的方式，称为 Off-policy。

1.3.2.2 SARSA

目标：学得“当前策略”本身的 Q 值，而不是最优策略；
更新规则：
$\LARGE Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha \Big[r_t + \gamma Q(s_{t+1}, a_{t+1}) - Q(s_t,a_t)\Big]$
与 Q-Learning 的区别在于，TD 目标中用的动作是实际执行的动作 $a_{t+1}$ ，而非 $max_{a'} Q(s_{t+1},a')$ 。
同策略（On-policy）
- SARSA 所学习的策略与行为策略一致，也就是说它估计的是“ $\epsilon$ -贪心策略自己”的价值函数。

1.3.2.3 比较

Q-Learning 更常用于学习最优策略（若能充分探索），但在某些噪声较大或者需要更保守策略的场景，SARSA 也有其价值，例如在 CliffWalking 环境中，SARSA 往往会学得更保守的路线。

1.3.3 策略梯度（Policy Gradient）概念（概述）

在上述 Q-Learning / SARSA / 动态规划 等方法中，核心思想是先估计价值函数（如 $Q (s, a)$ 或 $V (s)$ ），然后再通过贪心方式派生或改进策略。
而 策略梯度 方法则是从直接对策略 $\pi_\theta(a|s)$ 本身进行参数化和梯度优化的角度出发：

参数化策略： $\pi_\theta(a|s)$ ，其参数为 $\theta$ （可用神经网络表示）。
目标：最大化期望回报 $J(\theta) = \mathbb{E}_{\pi_\theta}\left[\sum \gamma^t r_t\right]$ 。
思想：基于梯度上升，通过 $\nabla_\theta J(\theta)$ 的估计来更新 $\theta$ 。

这种方法适用于连续动作空间或高维动作空间等场景，并且在先进的算法（如 PPO、SAC）中广泛使用。我们在后续章节会深入展开 Policy Gradient 与 Actor-Critic 算法的完整推导和实现。

总结

在这一阶段，我们系统地介绍了强化学习的 概念基础、MDP 理论框架以及 经典强化学习方法（动态规划、Q-Learning、SARSA、策略梯度基础）。核心要点包括：

强化学习与监督/无监督学习的区别：无正确标签，通过试错最大化累积奖励；
深度学习在 RL 中的角色：使用神经网络对价值函数或策略函数进行逼近，提高模型对高维复杂数据的处理能力；
MDP 基本要素：状态、动作、转移概率、奖励、折扣因子，重点理解马尔可夫性质；
价值函数与 Q 函数：状态价值和动作价值是衡量某个策略在不同状态/动作组合下的未来收益预估；
经典强化学习：
- 动态规划：价值迭代、策略迭代（要求已知环境模型）；
- Q-Learning & SARSA：时序差分方法，通过与环境的交互样本在线学习；
- 策略梯度概念：直接对策略进行参数化、对期望回报进行梯度优化。

以上内容构成强化学习的“底层框架”，为后续的**深度强化学习（DQN、DDPG、PPO、SAC 等）**打下扎实基础。在后面的学习中，我们会进一步讨论如何利用神经网络来逼近 $Q$ 函数或策略，并解决各种复杂场景下的控制与决策问题。