当前位置：首页 > news >正文

动手学强化学习(四)——蒙特卡洛方法

news 2026/2/9 7:57:56

一、蒙特卡洛方法

蒙特卡洛方法是一种无模型（Model-Free）的强化学习算法，它通过直接与环境交互采样轨迹（episodes）来估计状态或动作的价值函数（Value Function），而不需要依赖环境动态模型（如转移概率矩阵 P(s′∣s,a)和奖励函数 R(s,a)的显式知识）。简单来说，我们前面来说的策略都是通过公式推导出公式q，但是蒙特卡洛可以直接通过数据量来推出q，这样就省略勒模型

假设，有一枚硬币，抛硬币后，若正面朝上，定义随机变量X=1；若反面朝上X=-1，。目标是计算X的期望E(X)。

基于Model-base的方法，基于已知的概率模型，概率都为0.5,那么期望计算公式E(X)=0.5*1+0.5*(-1)=0

如果通过蒙特卡洛方法，就直接从数据入手。通过多次独立地抛硬币进行采样。比如，抛次硬币，假设得到6次正面，4次反面，对应的值分别为1和-1，计算这次采样的平均值为（6-4）/10 = 0.2，用这个平均数来近似期望。当抛硬币的次数逐渐增大时，根据大数定律，样本均值会越来越趋近于随机变量的期望值。

二、 MC Basic

MC Basic 是蒙特卡洛方法的一种简单实现，结合了策略评估（Policy Evaluation）和策略改进（Policy Improvement）的迭代过程，属于基于策略迭代（Policy Iteration）的无模型算法。在强化学习中，要计算在策略pi下的状态 - 动作值函数 q(s,a)，即从状态出发，采取动作a后，遵循策略pi所获得的期望回报。

从状态s出发，采取动作a，然后按照策略pi在环境中进行交互，直到到达终止状态，这一过程称为一个 episode，得到一个回报 g(s,a)。重复上述过程多次，得到多个回报,对这些回报取平均值

$\frac{1}{n}\sum_{j=1}^ng^{(j)}(s,a)$

随着采样次数的增加，该估计会越来越接近真实的。

2.1 网格世界的蒙特卡洛

在一个M * N 的网格世界中，智能体需要从一个位置移动到另一个位置。每个网格可能有不同的奖励值，例如，有些网格代表正奖励，有些代表负奖励，还有些可能是障碍。智能体要学习一个策略，以最大化从起始状态到终止状态的累积奖励。

智能体从初始状态 s0 开始，按照当前策略选择动作进行移动。假设在某一时刻智能体处于状态，根据策略选择动作，然后转移到下一个状态，并获得奖励。重复这个过程，直到到达终止状态，形成一个 episode，如（s0,a0,r0,s1,a1,r1,...,st,at,r），其中T是终止时刻，该 episode 的回报

$\mathrm{}G=\sum_{t=0}^T\gamma^tr_t$

2.2 首次访问法

对于每个状态 - 动作对(s,a)，只考虑在一个 episode 中第一次访问到（s,a）时后续所获得的回报来估计qpi(s,a)。例如，在一个 episode 中多次访问到(s,a)，但只使用第一次访问后得到的回报 G 来更新对qpi(s,a)的估计。若有n个 episode 中首次访问到(s,a)，得到的回报分别为G1,G2,G3...，则的估计值为 $\frac{1}{n}\sum_{i=1}^nG_i$ 。

2.3 每次访问法

对于每个状态 - 动作对（s,a），在一个 episode 中每次访问到(s,a)时后续所获得的回报都用于估计qpi(s,a)。即每次访问到(s,a)都记录下后续的回报，然后对所有这些回报求平均值来更新qpi(s,a)的估计。

同样使用贪心策略来迭代到最终

动手学强化学习(四)——蒙特卡洛方法

相关文章：

动手学强化学习(四)——蒙特卡洛方法

网络原理（3）—— 传输层详解

2025美赛美国大学生数学建模竞赛A题完整思路分析论文（43页）（含模型、可运行代码和运行结果）

Elasticsearch的开发工具（Dev Tools）

Python-基于PyQt5,pdf2docx,pathlib的PDF转Word工具

小程序-视图与逻辑

UE5制作视差图

海浪波高预测（背景调研）

代码随想录算法训练营第四十二天-动态规划-股票-188.买卖股票的最佳时机IV

Gradle配置指南：深入解析settings.gradle.kts（Kotlin DSL版）

软件工程经济学-日常作业+大作业

论文阅读(三)：微阵列数据的图形模型和多变量分析

【大模型LLM面试合集】大语言模型架构_MHA_MQA_GQA

向上调整算法（详解）c++

【Transformer】手撕Attention

844.比较含退格的字符串

图书管理系统 Axios 源码__编辑图书

LabVIEW纤维集合体微电流测试仪

Commander 一款命令行自定义命令依赖

Day24 洛谷普及2004（内涵前缀和与差分算法）

日语AI面试高效通关秘籍：专业解读与青柚面试智能助攻

令牌桶滑动窗口-＞限流分布式信号量-＞限并发的原理 lua脚本分析介绍

C# 求圆面积的程序（Program to find area of a circle）

初学 pytest 记录

在Ubuntu24上采用Wine打开SourceInsight

AirSim/Cosys-AirSim 游戏开发（四）外部固定位置监控相机

现有的 Redis 分布式锁库（如 Redisson）提供了哪些便利？

vulnyx Blogger writeup

Bean 作用域有哪些？如何答出技术深度？

嵌入式学习之系统编程(九)OSI模型、TCP/IP模型、UDP协议网络相关编程（6.3）