当前位置：首页 > news >正文

【Easy RL】Easy RL蘑菇书全书学习笔记

news 2025/11/6 7:36:02

【Easy RL】Easy RL蘑菇书全书学习笔记

第一章强化学习基础
- 1.1 强化学习概述
- - 监督学习
  - 强化学习与监督学习的不同之处
  - 二者的区别总结
  - 强化学习的特征
  - 强化学习的优越性
  - 预演（rollout）和轨迹（trajectory）的概念
  - 端到端的概念
  - 深度强化学习（deep reinforcemet learning）
  - sim2real
- 1.2序列决策
- - 基本概念
  - 状态和观测的关系
  - 环境信息完全可观测-->马尔科夫决策过程
  - 环境信息部分可观测-->部分可观测马尔可夫决策过程

本文是本人学习阅读Easy RL一书中记录的学习笔记，部分内容可能有遗漏
如需阅读原文请点击：EasyRL官方文档链接

第一章强化学习基础

1.1 强化学习概述

强化学习（reinforcement learning，RL）讨论的问题是智能体（agent）怎么在复杂、不确定的环境（environment）中最大化它能获得的奖励

监督学习

监督学习（supervised learning）假设有大量被标注的数据，比如汽车、飞机、椅子这些被标注的图片，这些图片都要满足独立同分布，即它们之间是没有关联关系的。
假设我们训练一个分类器，比如神经网络。为了分辨输入的图片中是汽车还是飞机，在训练过程中，需要把正确的标签信息label传递给神经网络。当神经网络做出错误的预测时，比如输入汽车的图片，它预测出来是飞机，我们就会直接告诉它，该预测是错误的，正确的标签应该是汽车。最后我们根据类似错误写出一个损失函数（loss function），通过反向传播（back propagation）来训练神经网络

监督学习的两个假设
输入的数据（标注的数据）都应是没有关联的。因为如果输入的数据有关联，学习器（learner）是不好学习的。
需要告诉学习器正确的标签是什么，这样它可以通过正确的标签来修正自己的预测。
通常假设样本空间中全体样本服从一个未知分布，我们获得的每个样本都是独立地从这个分布上采样获得的，即独立同分布(independent and identically distributed，简称 i.i.d.)。

强化学习与监督学习的不同之处

智能体得到的观测（observation）不是独立同分布的，上一帧与下一帧间其实有非常强的连续性。我们得到的数据是相关的时间序列数据，不满足独立同分布
游戏没有告诉我们哪个动作是正确动作，我们并不会得到即时的反馈。因此，强化学习之所以困难，是因为智能体不能得到即时的反馈
没有标签来说明现在这个动作是正确还是错误的，必须等到游戏结束才可能知道，这个游戏可能 10s 后才结束。现在这个动作到底对最后游戏是否能赢有无帮助，我们其实是不清楚的。这里我们就面临延迟奖励（delayed reward）的问题，延迟奖励使得训练网络非常困难

二者的区别总结

（1）强化学习输入的样本是序列数据，不满足独立同分布，而不像监督学习里面样本都是独立的
（2）学习器并没有告诉我们每一步正确的动作应该是什么，学习器需要自己去发现哪些动作可以带来最多的奖励，只能通过不停地尝试来发现最有利的动作
（3）智能体获得自己能力的过程，其实是不断地试错探索（trial-and-error exploration）的过程。探索（exploration）和利用（exploitation）是强化学习里面非常核心的问题。其中，探索指尝试一些新的动作，这些新的动作有可能会使我们得到更多的奖励，也有可能使我们“一无所有”；利用指采取已知的可以获得最多奖励的动作，重复执行这个动作，因为我们知道这样做可以获得一定的奖励。因此，我们需要在探索和利用之间进行权衡，这也是在监督学习里面没有的情况。
（4）在强化学习过程中，没有非常强的监督者（supervisor），只有奖励信号（reward signal），并且奖励信号是延迟的，即环境会在很久以后告诉我们之前我们采取的动作到底是不是有效的。因为我们没有得到即时反馈，所以智能体使用强化学习来学习就非常困难。当我们采取一个动作后，如果我们使用监督学习，我们就可以立刻获得一个指导，比如，我们现在采取了一个错误的动作，正确的动作应该是什么。而在强化学习里面，环境可能会告诉我们这个动作是错误的，但是它并没有告诉我们正确的动作是什么。而且更困难的是，它可能是在一两分钟过后告诉我们这个动作是错误的。所以这也是强化学习和监督学习不同的地方。

强化学习的特征

（1）强化学习会试错探索，强化学习通过探索环境来获取对环境的理解
（2）强化学习智能体会从环境里面获得延迟的奖励
（3）在强化学习的训练过程中，时间非常重要。因为我们得到的是有时间关联的数据（sequential data），而不是独立同分布的数据。在机器学习中，如果观测数据有非常强的关联，会使得训练非常不稳定。这也是为什么在监督学习中，我们希望数据尽量满足独立同分布，这样就可以消除数据之间的相关性
（4）智能体的动作会影响它随后得到的数据，这一点是非常重要的。在训练智能体的过程中，很多时候我们也是通过正在学习的智能体与环境交互来得到数据的。所以如果在训练过程中，智能体不能保持稳定，就会使我们采集到的数据非常糟糕。我们通过数据来训练智能体，如果数据有问题，整个训练过程就会失败。所以在强化学习里面一个非常重要的问题就是，怎么让智能体的动作一直稳定地提升。

强化学习的优越性

为什么我们关注强化学习，其中非常重要的一个原因就是强化学习得到的模型可以有超人类的表现
监督学习获取的监督数据，其实是人来标注的，比如 ImageNet 的图片的标签都是人类标注的。因此我们可以确定监督学习算法的上限（upper bound）就是人类的表现，标注结果决定了它的表现永远不可能超越人类
但是对于强化学习，它在环境里面自己探索，有非常大的潜力，它可以获得超越人类的能力的表现，比如 DeepMind 的 AlphaGo 这样一个强化学习的算法可以把人类顶尖的棋手打败

预演（rollout）和轨迹（trajectory）的概念

图 1.8 所示为预演（rollout）的一个过程。预演是指我们从当前帧对动作进行采样，生成很多局游戏。我们将当前的智能体与环境交互，会得到一系列观测。每一个观测可看成一个轨迹（trajectory）。轨迹就是当前帧以及它采取的策略，即状态和动作的序列: $\tau=(s_0,a_0,s_1,a_1,...)$
我们可以通过观测序列以及最终奖励（eventual reward）来训练智能体，使它尽可能地采取可以获得最终奖励的动作。一场游戏称为一个回合（episode）或者试验（trial）

端到端的概念

把特征提取以及分类两者合到一块儿去了，就是训练一个神经网络。这个神经网络既可以做特征提取，也可以做分类，它可以实现端到端训练

深度强化学习（deep reinforcemet learning）

深度强化学习 = 深度学习 + 强化学习
深度强化学习：自从我们有了深度学习，有了神经网络，就可以把智能体玩游戏的过程改进成一个端到端训练（end-to-end training）的过程，如图 1.10b 所示。不需要设计特征，直接输入状态就可以输出动作。我们可以用一个神经网络来拟合价值函数或策略网络，省去特征工程（feature engineering）的过程

sim2real

Sim2Real（Simulation to Reality），即从仿真到现实，是强化学习尤其是机器人学习领域中的一个重要概念。它涉及到将代理（agent）在仿真环境中学到的行为或策略迁移到现实世界中。这样做的好处是，仿真环境可以快速、安全且低成本地生成大量训练数据，但它也面临着一些挑战。
OpenAI 先在一个虚拟环境里面使用强化学习对智能体进行训练，再把它应用到真实的机械臂上。这在强化学习里面是一种比较常用的做法，即我们先在虚拟环境里面得到一个很好的智能体，然后把它应用到真实的机器人中
Sim2Real Gap：仿真环境无法完美复制现实世界的复杂性，如物理动力学、传感器噪声等，导致在仿真中表现良好的策略在现实中可能效果不佳
数据分布不匹配：仿真数据与现实数据在分布上的差异可能导致模型过拟合仿真环境，从而在现实世界中泛化能力差

1.2序列决策

基本概念

强化学习研究的问题是智能体与环境交互的问题
智能体与环境：图 1.12 左边的智能体一直在与图 1.12 右边的环境进行交互。智能体把它的动作输出给环境，环境取得这个动作后会进行下一步，把下一步的观测与这个动作带来的奖励返还给智能体。这样的交互会产生很多观测，智能体的目的是从这些观测之中学到能最大化奖励的策略
奖励：奖励是由环境给的一种标量的反馈信号（scalar feedback signal），这种信号可显示智能体在某一步采取某个策略的表现如何。
强化学习的目的就是最大化智能体可以获得的奖励，智能体在环境里面存在的目的就是最大化它的期望的累积奖励（expected cumulative reward）
在与环境的交互过程中，智能体会获得很多观测。针对每一个观测，智能体会采取一个动作，也会得到一个奖励。所以历史是观测、动作、奖励的序列: $H_t=o_1,a_1,r_1,......,o_t,a_t,r_t$
智能体在采取当前动作的时候会依赖于它之前得到的历史，所以我们可以把整个游戏的状态看成关于这个历史的函数： $S_t = f(H_t)$

状态和观测的关系

状态是对世界的完整描述，不会隐藏世界的信息。观测是对状态的部分描述，可能会遗漏一些信息。在深度强化学习中，我们几乎总是用实值的向量、矩阵或者更高阶的张量来表示状态和观测。例如，我们可以用 RGB 像素值的矩阵来表示一个视觉的观测，可以用机器人关节的角度和速度来表示一个机器人的状态

环境信息完全可观测–>马尔科夫决策过程

在这里插入图片描述

环境信息部分可观测–>部分可观测马尔可夫决策过程

有一种情况是智能体得到的观测并不能包含环境运作的所有状态，因为在强化学习的设定里面，环境的状态才是真正的所有状态。比如智能体在玩 black jack 游戏，它能看到的其实是牌面上的牌。或者在玩雅达利游戏的时候，观测到的只是当前电视上面这一帧的信息，我们并没有得到游戏内部里面所有的运作状态。也就是当智能体只能看到部分的观测，我们就称这个环境是部分可观测的（partially observed）。在这种情况下，强化学习通常被建模成部分可观测马尔可夫决策过程（partially observable Markov decision process, POMDP）的问题。部分可观测马尔可夫决策过程是马尔可夫决策过程的一种泛化。部分可观测马尔可夫决策过程依然具有马尔可夫性质，但是假设智能体无法感知环境的状态，只能知道部分观测值。

【Easy RL】Easy RL蘑菇书全书学习笔记

【Easy RL】Easy RL蘑菇书全书学习笔记第一章强化学习基础1.1 强化学习概述监督学习强化学习与监督学习的不同之处二者的区别总结强化学习的特征强化学习的优越性预演（rollout）和轨迹（trajectory）的概念端到端的概念深度强化学…...

编程日记 2024/10/7 23:30:55

Servlet开发技术 [外链图片转存中…(img-Cnu8X2V4-1728026684827)] 简述Servlet的创建过程？ package servlet; import java.io.IOException; import java.io.PrintWriter; import javax.servlet.ServletException; import javax.servlet.annotation.WebServlet; …...

编程日记 2024/10/7 23:24:45

【C++】--类和对象（2）

👌个人主页: 起名字真南 👆个人专栏:【数据结构初阶】【C语言】【C】目录 1 类的默认成员函数2 构造函数3 析构函数4 拷贝构造5 赋值运算符重载5.1 运算符重载5.2 赋值运算符的重载 1 类的默认成员函数默认成员函数就是用户没有显示实现，…...

编程日记 2024/10/7 23:22:42

C++ 观察者模式

观察者模式（Observer Pattern）是一种行为设计模式，用于在对象之间建立一对多的依赖关系，当一个对象的状态发生变化时，它的所有依赖对象都会得到通知并自动更新。在观察者模式中，主题和观察者之间是松耦合…...

编程日记 2024/10/7 23:19:38

基于pytorch的手写数字识别-训练+使用

import pandas as pd import numpy as np import torch import matplotlib import matplotlib.pyplot as plt from torch.utils.data import TensorDataset, DataLoadermatplotlib.use(tkAgg)# 设置图形配置 config {"font.family": serif,"mathtext.fontset&q…...

编程日记 2024/10/7 23:16:34

SpringBoot接收前端传递参数

1）URL 参数参数直接拼接在URL的后面，使用 ? 进行分隔，多个参数之间用 & 符号分隔。例如：http://localhost:8080/user?namezhangsan&id1后端接收（在Controller方法的参数列表中使用 RequestParam 注解&…...

编程日记 2024/10/7 23:15:32

【LeetCode周赛】第 418 场

3309. 连接二进制表示可形成的最大数值给你一个长度为 3 的整数数组 nums。现以某种顺序连接数组 nums 中所有元素的二进制表示 ，请你返回可以由这种方法形成的最大数值。注意任何数字的二进制表示不含前导零思路：暴力枚举 class Soluti…...

编程日记 2024/10/7 23:14:31

Android学习7 -- NDK2 -- 几个例子

学习 Android 的 NDK（Native Development Kit）可以帮助你用 C/C 来开发高性能的 Android 应用，特别适合对性能要求较高的任务，如音视频处理、游戏开发和硬件驱动等。下面是学习 NDK 的建议步骤和具体例子： ### 1. **准…...

编程日记 2024/10/7 23:12:29

问：说说JVM不同版本的变化和差异？

在Java程序的执行过程中，Java虚拟机（JVM）扮演着至关重要的角色。它不仅负责解释和执行Java字节码，还管理着程序运行时的内存。根据JVM规范，JVM将其所管理的内存划分为多个不同的数据区域，包括程序计数器、J…...

编程日记 2024/10/7 23:11:27

计算机毕业设计基于Python的社交音乐分享平台的设计与实现 Python+Django+Vue 前后端分离附源码讲解文档

🍊作者：计算机编程-吉哥 🍊简介：专业从事JavaWeb程序开发，微信小程序开发，定制化项目、源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事，生活就是快乐的。 🍊心愿：点…...

编程日记 2024/10/7 23:10:27

51单片机的水位检测系统【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能该系统由AT89C51/STC89C52单片机LCD1602显示模块水位传感器继电器LED、按键和蜂鸣器等模块构成。适用于水位监测、水位控制、水位检测相似项目。可实现功能: 1、LCD1602实时显示水位高度 2、水位传感器采集水位高度 3、按键可设置水位的下限 4、按键可手动加…...

编程日记 2024/10/7 23:09:25

Python和R及Julia妊娠相关疾病生物剖析算法

🎯要点算法使用了矢量投影、现代优化线性代数、空间分区技术和大数据编程利用相应向量空间中标量积和欧几里得距离的紧密关系来计算使用妊娠相关疾病（先兆子痫）、健康妊娠和癌症测试算法模型使用相关性投影利用相关性和欧几里得距离之间的关…...

编程日记 2024/10/7 23:07:22

Web安全 - 重放攻击（Replay Attack）

文章目录 OWASP 2023 TOP 10导图1. 概述2. 重放攻击的原理攻击步骤 3. 常见的重放攻击场景4. 防御重放攻击的技术措施4.1 使用时效性验证（Time-Based Tokens）4.2 单次令牌机制（Nonce）4.3 TLS/SSL 协议4.4 HMAC（哈希消息…...

编程日记 2024/10/7 23:06:17

Python项目文档生成常用工具对比

写在前面： 通过阅读本片文章，你将了解：主流的Python项目文档生成工具（Sphinx，MkDocs，pydoc，Pdoc）简介及对比，本文档不涉及相关工具的使用。概述近期，由于…...

编程日记 2024/10/7 23:00:09

教育领域的技术突破：SpringBoot系统实现

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。是基于SQL的客户/服务器模式的关系数据库管理系统，它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等，非常…...

编程日记 2024/10/7 22:56:46

RabbitMQ入门3—virtual host参数详解

在 RabbitMQ 中，创建 Virtual Host 时会涉及到一些参数配置，比如 tags 和 Default Queue Type。下面是对这两个参数的详细解释： 1. Tags Tags 是 Virtual Host 的标记，用来为 Virtual Host 添加元数据，帮助你管理和组…...

编程日记 2024/10/7 22:54:44

【Nacos入门到实战十四】Nacos配置管理：集群部署与高可用策略

个人名片 🎓作者简介：java领域优质创作者 🌐个人主页：码农阿豪 📞工作室：新空间代码工作室（提供各种软件服务） 💌个人邮箱：[2435024119qq.com] &#x1f4f1…...

编程日记 2024/10/7 22:53:43

UE5+ChatGPT实现3D AI虚拟人综合实战

第11章综合实战：UE5ChatGPT实现3D AI虚拟人通过结合Unreal Engine 5（UE5）的强大渲染能力和ChatGPT的自然语言处理能力，我们可以实现一个高度交互性的AI虚拟人。本文将详细介绍如何在UE5中安装必要的插件，配置OpenAI…...

编程日记 2024/10/7 22:51:41

[图形学]smallpt代码详解（2）

一、简介本文紧接在[图形学]smallpt代码详解（1）之后，继续详细讲解smallpt中的代码，包括自定义函数（第41到47行）和递归路径跟踪函数（第48到74行）部分。二、smallpt代码详解 1.自…...

编程日记 2024/10/7 22:50:40

挑战杯推荐项目

“人工智能”创意赛 - 智能艺术创作助手：借助大模型技术，开发能根据用户输入的主题、风格等要求，生成绘画、音乐、文学作品等多种形式艺术创作灵感或初稿的应用，帮助艺术家和创意爱好者激发创意、提高创作效率。 - 个性化梦境…...

编程新知 2025/11/6 5:46:16

FastAPI 教程：从入门到实践

FastAPI 是一个现代、快速（高性能）的 Web 框架，用于构建 API，支持 Python 3.6。它基于标准 Python 类型提示，易于学习且功能强大。以下是一个完整的 FastAPI 入门教程，涵盖从环境搭建到创建并运行一个简单的…...

编程新知 2025/10/16 7:51:26

解锁数据库简洁之道：FastAPI与SQLModel实战指南

在构建现代Web应用程序时，与数据库的交互无疑是核心环节。虽然传统的数据库操作方式（如直接编写SQL语句与psycopg2交互）赋予了我们精细的控制权，但在面对日益复杂的业务逻辑和快速迭代的需求时，这种方式的开发效率和可…...

编程新知 2025/8/13 16:42:24

IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)

文章目录概述HelloWorld 工程C/C配置编译器主配置Makefile脚本烧录器主配置运行结果程序调用栈任务管理实验实验结果osal 系统适配层osal_task_create 其他实验实验源码内存管理实验互斥锁实验信号量实验 CMISIS接口实验还是得JlINKCMSIS 简介LiteOS->CMSIS任务间消息交互…...

编程新知 2025/10/30 5:08:39

智能仓储的未来：自动化、AI与数据分析如何重塑物流中心

当仓库学会“思考”，物流的终极形态正在诞生想象这样的场景： 凌晨3点，某物流中心灯火通明却空无一人。AGV机器人集群根据实时订单动态规划路径；AI视觉系统在0.1秒内扫描包裹信息；数字孪生平台正模拟次日峰值流量压力…...

编程新知 2025/10/31 0:52:09

OpenLayers 分屏对比(地图联动)

注：当前使用的是 ol 5.3.0 版本，天地图使用的key请到天地图官网申请，并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能，和卷帘图层不一样的是，分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...

编程新知 2025/9/30 5:23:30

【HarmonyOS 5 开发速记】如何获取用户信息（头像/昵称/手机号）

1.获取 authorizationCode： 2.利用 authorizationCode 获取 accessToken：文档中心 3.获取手机：文档中心 4.获取昵称头像：文档中心首先创建 request 若要获取手机号，scope必填 phone，permissions 必填 …...

编程新知 2025/9/17 2:39:21

【Linux】Linux 系统默认的目录及作用说明

博主介绍：✌全网粉丝23W，CSDN博客专家、Java领域优质创作者，掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围：SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物…...

编程新知 2025/10/29 23:03:35

MySQL 索引底层结构揭秘：B-Tree 与 B+Tree 的区别与应用

文章目录一、背景知识：什么是 B-Tree 和 BTree？ B-Tree（平衡多路查找树） BTree（B-Tree 的变种） 二、结构对比：一张图看懂三、为什么 MySQL InnoDB 选择 BTree？ 1. 范围查询更快 2…...

编程新知 2025/11/5 8:01:29

springboot 日志类切面，接口成功记录日志，失败不记录

springboot 日志类切面，接口成功记录日志，失败不记录自定义一个注解方法 import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; import java.lang.annotation.Target;/***…...

编程新知 2025/11/6 2:04:27

【Easy RL】Easy RL蘑菇书全书学习笔记

第一章 强化学习基础

1.1 强化学习概述

监督学习

强化学习与监督学习的不同之处

二者的区别总结

强化学习的特征

强化学习的优越性

预演（rollout）和 轨迹（trajectory）的概念

端到端的概念

深度强化学习（deep reinforcemet learning）

sim2real

1.2序列决策

基本概念

状态和观测的关系

环境信息完全可观测–>马尔科夫决策过程

环境信息部分可观测–>部分可观测马尔可夫决策过程

相关文章：

第一章强化学习基础

预演（rollout）和轨迹（trajectory）的概念