当前位置：首页 > news >正文

强化学习的数学原理学习笔记 - 蒙特卡洛方法（Monte Carlo）

news 2026/2/9 3:16:35

文章目录

概览：RL方法分类
蒙特卡洛方法（Monte Carlo，MC）
- MC Basic
- MC Exploring Starts
- 🟦MC ε-Greedy

本系列文章介绍强化学习基础知识与经典算法原理，大部分内容来自西湖大学赵世钰老师的强化学习的数学原理课程（参考资料1），并参考了部分参考资料2、3的内容进行补充。

系列博文索引：

强化学习的数学原理学习笔记 - RL基础知识
强化学习的数学原理学习笔记 - 基于模型（Model-based）
强化学习的数学原理学习笔记 - 蒙特卡洛方法（Monte Carlo）
强化学习的数学原理学习笔记 - 时序差分学习（Temporal Difference）
强化学习的数学原理学习笔记 - 值函数近似（Value Function Approximation）
强化学习的数学原理学习笔记 - 策略梯度（Policy Gradient）
强化学习的数学原理学习笔记 - Actor-Critic

参考资料：

【强化学习的数学原理】课程：从零开始到透彻理解（完结）（主要）
Sutton & Barto Book: Reinforcement Learning: An Introduction
机器学习笔记

*注：【】内文字为个人想法，不一定准确

概览：RL方法分类

*图源：https://zhuanlan.zhihu.com/p/36494307

蒙特卡洛方法（Monte Carlo，MC）

求解RL问题，要么需要模型，要么需要数据。之前介绍了基于模型（model-based）的方法。然而在实际场景中，环境的模型（如状态转移函数）往往是未知的，这就需要用无模型（model-free）方法解决问题。

无模型的方法可以分为两大类：蒙特卡洛方法（Monte Carlo，MC）和时序差分学习（Temporal Difference，TD）。本文介绍蒙特卡洛方法。

蒙特卡洛思想：通过大数据量的样本采样来进行估计【本质上是大数定律的应用（基于独立同分布采样）】，将策略迭代中依赖于model的部分替换为model-free。

MC的核心idea：并非直接求解 $q_{\pi} (s, a)$ 的准确值，而是基于数据（sample / experience）来估计 $q_{\pi} (s, a)$ 的值。MC直接通过动作值的定义进行均值估计，即：
$q_{\pi}(s, a) = \mathbb{E}_\pi [ G_t | S_t = s, A_t = a ] \approx \frac{1}{N} \sum^N_{i=1} g^{(i)} (s, a)$
其中 $g^{(i)} (s, a)$ 表示对于 $G_t$ 的第 $i$ 个采样。

MC Basic

算法步骤：在第 $k$ 次迭代中，给定策略 $\pi_k$ （随机初始策略： $\pi_0$ ）

策略评估：对每个状态-动作对 $(s, a)$ ，运行无穷（或足够多）次episode，估算 $q_{\pi_{k}} (s, a)$
策略提升：基于估算的 $q_{\pi_{k}} (s, a)$ ，求解迭代策略 $\pi_{k+1}(s) = \argmax_\pi \sum_a \pi(a|s) q_{\pi_{k}}(s, a)$

MC Basic与策略迭代的区别：在第 $k$ 次迭代中

策略迭代使用迭代方法求出状态值 $v_{\pi_k}$ ，并基于状态值求出动作值 $q_{\pi_k} (s, a)$
MC Basic直接基于采样/经验均值估计 $q_{\pi_k} (s, a)$ （不需要估计状态值）

*MC Basic只是用来说明MC的核心idea，并不会在实际中应用，因为其非常低效。

MC Exploring Starts

思想：提升MC Basic的效率

利用数据：对于一个轨迹，从后往前利用 $(s, a)$ 状态-动作对采样做估计
- 例如：对于轨迹 $s_1 \xrightarrow{a_2} s_2 \xrightarrow{a_4} s_1 \xrightarrow{a_2} s_2 \xrightarrow{a_3} s_5 \xrightarrow{a_1} \cdots$ ，从后往前采样，即先估计 $q_\pi(s_5, a_1)$ ，再估计 $q_\pi(s_2, a_3) = R_{t+4} + \gamma q_\pi(s_5, a_1)$ ，进而估计 $q_\pi(s_1, a_2) = R_{t+3} + \gamma q_\pi(s_2, a_3)$ ，以此类推
更新策略：不必等待所有episode的数据收集完毕，直接基于单个episode进行估计，类似于截断策略迭代（单次估计不准确，但快）
- 这是通用策略迭代（Generalized Policy Iteration，GPI）的思想

MC Exploring Starts

Exploring：探索每个 $(s, a)$ 状态-动作对
Starts：从每个状态-动作对开始一个episode
- 与Visit对应：从其他的状态-动作对开始一个episode，但其轨迹能经过当前的状态-动作对

🟦MC ε-Greedy

Exploring Starts在实际中难以实现，考虑引入soft policy：随机（stochastic）选择动作

ε-Greedy策略：
$\pi(a|s) = \begin{cases} 1-\frac{\varepsilon}{|\mathcal{A}(s)|} (|\mathcal{A}(s)|-1), &\text{for the greedy action, } \\ \frac{\varepsilon}{|\mathcal{A}(s)|}, &\text{for other } |\mathcal{A}(s)|-1 \text{ actions.} \end{cases}$
其中， $\varepsilon \in [0,1]$ ， $|\mathcal{A}(s)|$ 表示状态 $s$ 下的动作数量。

直观理解：以较高概率选择贪心动作（greedy action），以较低均等概率选择其他动作
特性：选择贪心动作的概率永远不低于选择其他动作的概率
目的：平衡exploitation（探索）和exploration（利用）
- $\varepsilon = 0$ ：侧重于利用，永远选择贪心动作
- $\varepsilon = 1$ ：侧重于探索，以均等概率选择所有动作（均匀分布）

MC ε-Greedy：在策略提升阶段，求解下式
$\pi_{k+1}(s) = \argmax_{\color{red}\pi \in \Pi_\varepsilon} \sum_a \pi(a|s) q_{\pi_{k}}(s, a)$

其中， $\pi \in \Pi_\varepsilon$ 表示所有ε-Greedy策略的集合。得到的最优策略为：
$\pi_{k+1}(a|s) = \begin{cases} 1-\frac{\varepsilon}{|\mathcal{A}(s)|} (|\mathcal{A}(s)|-1), &a = a_k^*, \\ \frac{\varepsilon}{|\mathcal{A}(s)|}, &a \neq a_k^*. \end{cases}$

MC ε-Greedy与MC Basic和MC Exploring Starts的区别：

后二者求解的范围是 $\pi \in \Pi$ ，即所有策略的集合
后二者得到的是确定性策略，前者得到的是随机策略

MC ε-Greedy与MC Exploring Starts的唯一区别在于ε-Greedy策略，因此MC ε-Greedy不需要Exploring Starts。

MC ε-Greedy通过探索性牺牲了最优性，但可以通过设置一个较小的ε（如0.1）进行平衡

在实际中，可以为ε设置一个较大的初始值，随着迭代轮数逐渐减小其取值
ε的值越大，最终策略的最优性越差

最终训练得到的策略，可以去掉ε，直接使用greedy的确定性策略（consistent）。

强化学习的数学原理学习笔记 - 蒙特卡洛方法（Monte Carlo）

文章目录

概览：RL方法分类

蒙特卡洛方法（Monte Carlo，MC）

MC Basic

MC Exploring Starts

🟦MC ε-Greedy

相关文章：

强化学习的数学原理学习笔记 - 蒙特卡洛方法（Monte Carlo）

DDIA 第十一章：流处理

webpack知识点总结（高级应用篇）

均匀与准均匀 B样条算法

2023年12 月电子学会Python等级考试试卷（一级）答案解析

启发式算法解决TSP、0/1背包和电路板问题

阿里云新用户的定义与权益

go语言多线程操作

GreatSQL社区2023全年技术文章总结

【论文阅读笔记】Stable View Synthesis 和 Enhanced Stable View Synthesis

网络报文分析程序的设计与实现（2024）

贯穿设计模式-享元模式思考

牛客刷题：BC45 小乐乐改数字（中等）

设计模式学习2

Rust：如何判断位置结构的JSON串的成员的数据类型

Kafka（五）生产者

【Leetcode】242.有效的字母异位词

【数据库原理】（16）关系数据理论的函数依赖

脆弱的SSL加密算法漏洞原理以及修复方法

SVN迁移至GitLab，并附带历史提交记录（二）

网络编程（Modbus进阶）

docker详细操作--未完待续

（二）TensorRT-LLM | 模型导出（v0.20.0rc3）

GruntJS-前端自动化任务运行器从入门到实战

20个超级好用的 CSS 动画库

Caliper 配置文件解析：fisco-bcos.json

MySQL 主从同步异常处理

PLC入门【4】基本指令2(SET RST)

LTR-381RGB-01RGB+环境光检测应用场景及客户类型主要有哪些？

OpenHarmony标准系统-HDF框架之I2C驱动开发