当前位置：首页 > news >正文

21.在线与离线MC强化学习简介

news 2026/5/13 20:43:16

文章目录

1. 什么是在线MC强化学习
2. 什么是离线MC强化学习
3. 在线MC强化学习有何缺点

1. 什么是在线MC强化学习

在线强化学习（on-policy MC RL），是指：智能体在策略评估时为获取完整轨迹所采用的采样策略 $\pi_{sample}(a|s)$ ，与策略控制时要改进的策略 $\pi(a|s)$ 都是同一个策略,即： $\pi=\pi_{sample}$ 。

简而言之：所谓在线，就是在对一个初始策略评估的同时，利用 $\epsilon-$ 贪心算法对它进行及时改进。

2. 什么是离线MC强化学习

所在离线强化学习（off-policy MC RL），是指：智能体在策略评估时为获取完整轨迹所采用的采样策略 $\pi_{sample}(a|s)$ ，与策略控制时要改进的策略 $\pi(a|s)$ 不是同一个策略,即： $\pi\ne\pi_{sample}$ 。

3. 在线MC强化学习有何缺点

所学到的策略可能不适合作为最终的策略使用。
- 为什么？
  - 因为它引入的 $\epsilon-$ 贪心算法虽然确保了完整轨迹覆盖状态的多样性，但却以牺牲较快找到最优策略为代价，它总是小心翼翼，认为最优行为有可能存在于依赖经验确定的最优行为之外；
  - 它没有考虑这一常识：随着轨迹覆盖了更多的状态和行为，随着这些状态行为对出现次数的增多，依赖完全贪心算法所确定的最优行为应该越来越具有获得更高累积回报期望的把握
  - 如果智能体已经有关于如何更快更好地获得完整轨迹采样的先验策略，而这样的策略能够帮助自己更快地优化最终所要采取的策略，就没有必要在策略评估和策略控制中采用同一策略了。

由于以上缺点，人们已经发展出了离线强化学习算法，它可以进一步细分为

重要性采样MC强化学习算法
加权重要性采样MC强化学习算法

21.在线与离线MC强化学习简介

文章目录

1. 什么是在线MC强化学习

2. 什么是离线MC强化学习

3. 在线MC强化学习有何缺点

相关文章：

21.在线与离线MC强化学习简介

控制网页的灰度显示

科研绘图（四）火山图

超强站群系统v9.0：最新蜘蛛池优化技术，一键安装，内容无缓存刷新，高效安全

torch.fx的极简通用量化教程模板

rpc的正确打开方式｜读懂Go原生net/rpc包

【信号与系统】【北京航空航天大学】实验二、连续时间系统的时域分析【MATLAB】

【Linux 内核源码分析笔记】系统调用

mysql清空并重置自动递增初始值

计算机算法之二分算法

获取当前设备的IP

koa2文件的上传下载功能

test-02-test case generate 测试用例生成 EvoSuite 介绍

1.单表查询

FFmpeg 的使用与Docker安装流媒体服务器

Qt QListWidget列表框控件

小知识分享2

【Golang开源项目】Golang高性能内存缓存库BigCache设计与分析

Elasticsearch 7.8.0从入门到精通

寻找最富裕的小家庭 - 华为OD统一考试

Pearcleaner技术深度解析：macOS应用清理的架构设计与实现原理

CodeGPT：基于AI的Git提交信息自动生成工具实战指南

基于Anylogic仿真的地铁换乘站客流瓶颈识别与疏导策略——以成都春熙路站为例

Cursor Pro破解终极指南：开源工具cursor-free-vip实现AI编程助手永久免费使用

深度解析20辆电动汽车29个月真实充电数据：电池容量衰减评估与健康监测关键技术

ChatGPT 2026安全增强套件发布：内置FIPS 140-3认证加密引擎、GDPR实时审计追踪、AI生成内容数字水印——金融/医疗行业合规上线最后窗口期

AI模型评估资源精选：从标准基准到定制化实践指南

Windows上的安卓应用革命：APK安装器终极指南

AI智能体技能超市：用SKILL.md标准打破AI能力壁垒

PaddleOCR迁移学习踩坑记：从数字识别到模型过拟合，我的2万张图白训了？