当前位置：首页 > news >正文

强化学习(Reinforcement Learning)与策略梯度(Policy Gradient)

news 2025/7/4 19:41:41

写在前面：本篇博文的内容来自李宏毅机器学习课程与自己的理解，同时还参考了一些其他博客(~~懒得放链接~~)。博文的内容主要用于自己学习与记录。

1 强化学习的基本框架

强化学习(Reinforcement Learning, RL)主要由智能体(Agent/Actor)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。在这些成员中，需要训练的是智能体，他会根据不同的状态产生动作。具体过程见下图，智能体由环境得到Observation(状态)，再根据Observation得到一个动作作用于环境产生一个新的环境，再根据之前的状态和动作会给出奖励(正奖励或者负奖励)。随后，智能体根据新的状态和奖励，按照一定的策略执行新的动作。智能体通过强化学习，可以知道自己在什么状态下，应该采取什么样的动作使得自身获得最大奖励。

在这里插入图片描述

2 强化学习基本步骤

2.1 步骤1：构建决策框架

对于智能体(后文都用Actor)模块，很容易想到构建一个用于分类任务的Neural Network，根据例如图像一类的输入，通过Neural Network的计算得到每个动作的概率，选最大概率的动作作为最终的动作。再根据最终的Reward进行反向传播更新权重，从而达到训练的效果。这是典型的Deep Learning(DL)做法。当然，在RL中确实是这么做的。

在这里插入图片描述

有了可训练的网络模型，就需要定义"Loss Function"用于训练。不同的是DL是为了使结果更加精准，需要尽可能的减小Loss，是一个“下山”的过程，而RL是为了尽可能的增大奖励，是一个“上山”的过程。奖励可以根据动作和状态计算，例如下图中击杀怪物后会获得一定量的分数。

在这里插入图片描述

让模型不断产生动作直到游戏结束，这就是一轮次(episode)(类似于DL中的epoch)，那么我们可以把所有的奖励累加起来。一个简单的思路是可以利用奖励和去更新Neural Network的权重。

在这里插入图片描述

定义：一次episode的奖励总和为 $R=\sum_{t=1}^{T}{r_t}$ ，总共进行 $T$ 次动作， $r_t$ 为第 $t$ 次动作 $a_T$ 产生的奖励。现在需要训练Neural Network使 $R$ 最大化，这就需要一个优化策略。

2.2 Policy Gradient详解

怎么知道这个动作好还是不好呢？可以让Actor实际的去“玩”一下游戏。假设动作 $\pi_\theta(s)$ 的参数是 $\theta$ ，就让Actor $\pi_\theta(s)$ 反复去玩这个游戏。那么经过不断“玩”，可以得到总得分为 $R_\theta$ 。就算是在同一个环境下采取相同的Action，得到的 $R_\theta$ 也会不相同，这是因为Actor具有一定的随机性。那么我们需要尽可能大的去增加总奖励的期望 $\bar R_\theta$ ，而不是某一次的结果增大。

在这里插入图片描述

定义：一次episode的所有状态、动作、奖励组成的向量叫 $\tau$ ，其代表一次episode的过程，相关公式如下：
$\tau = \{s1, a1, r1, s2, a2, r2, ..., s_T, a_T, r_T\}$

$R(\tau)=\sum_{n=1}^{N}r_n$

假设对于一个Actor，每一种过程 $\tau$ 都可能被列举到，每一种 $\tau$ 出现的概率取决于Actor的参数 $\theta$ ，定义为 $P(\tau|\theta)$ 。那么 $\bar R_\theta$ 就等于每一次episode中的得分 $R_\theta$ 与该过程 $\tau$ 出现的几率的乘积之和，见如下公式：
$\bar R_\theta=\sum_{\tau}{R(\tau)P(\tau|\theta)}\approx\frac{1}{N}\sum_{n=1}^N{R(\tau^n)}$
但 $\tau$ 的情况太复杂了，难以枚举所有情况，可以让 $\pi_\theta$ sample $N$ 次，得到 $\{\tau^1, \tau^2, ..., \tau^N\}$ 与所有的出现概率 $P(\tau|\theta)$ 。那么问题就变成了如下表达式：
$\theta^{*}=\arg \max _{\theta} \bar{R}_{\theta}, \bar{R}_{\theta}=\sum_{\tau}R(\tau)P(\tau|\theta)$
由前文中提到RL的训练过程是一个“上山”的过程，所以可以用Gradient Ascent。

2.2.1 Gradient Ascent

需要更新的权重为 $\theta$ ，梯度的方向为 $\nabla \bar R_\theta$ 。

在这里插入图片描述

根据 $\bar{R}_{\theta}=\sum_{\tau}R(\tau)P(\tau|\theta)$ ，其中 $R(\tau)$ 由于其有一定的随机性，只需要把 $\tau$ 放进去根据 $R (\cdot)$ 得到结果，可以把其看成一个完全的“黑盒子”，不用考虑其可微性质。这样考虑的具体原因是 $R(\tau)$ 本身是由环境打分得到的，环境是一个“黑盒子”。那么 $\nabla R_{\theta}$ 为：
$\nabla R_\theta = \sum_{\tau}{R(\tau)\nabla P(\tau|\theta)} = \sum_{\tau}{R(\tau)P(\tau|\theta)\frac{\nabla P(\tau|\theta)}{P(\tau|\theta)}}$
又由于：
$\frac{dlog(f(x))}{dx}=\frac{1}{f(x)} \frac{df(x)}{dx}$

$\nabla log(f(x))=\frac{\nabla f(x)}{f(x)}$

那么 $\nabla R_\theta$ 可以变为：
$\nabla R_\theta = \sum_{\tau}{R(\tau)P(\tau|\theta)\nabla log P(\tau|\theta)} \approx \frac{1}{N}\sum^{N}_{n=1}{R(\tau^n)\nabla log P(\tau^n|\theta)}$

其中 “玩” $N$ 次游戏得到 $\{\tau^1, \tau^2, ..., \tau^N\}$ ，假设 $N$ 足够大，表示概率的部分 $P(\tau|\theta)$ 就可以直接利用平均数去掉。现在的问题变成了如何计算 $\nabla log P(\tau|\theta)$ 。

我们可以把 $P(\tau|\theta)$ 展开：
$P(\tau|\theta)= p\left(s_{1}\right) p\left(a_{1} \mid s_{1}, \theta\right) p\left(r_{1}, s_{2} \mid s_{1}, a_{1}\right) p\left(a_{2} \mid s_{2}, \theta\right) p\left(r_{2}, s_{3} \mid s_{2}, a_{2}\right) \cdots =p(s_1)\prod^{T}_{t=1}{p(a_t|s_t, \theta)p(r_t, s_{t+1}|s_t, a_t)}$
其实这是一个用于描述马尔科夫决策过程的公式，其中每个状态和行动都有相应的概率分布。其中 $p(s_1)$ 与 $p(r_t, s_{t+1}|s_t, a_t)$ 跟 $\pi_\theta$ 是没关系的， $p(a_t|s_t, \theta)$ 受 $\pi_\theta$ 控制，后者的解释可以见下图。

在这里插入图片描述

那么 $logP(\tau|\theta)$ 可以变成如下：
$logP(\tau|\theta) = logp(s_1)+\sum_{t=1}^{T}logp(a_t|s_t, \theta) + logp(r_t, s_{t+1}|s_t, a_t)$
则 $\nabla log P(\tau|\theta)$ 跟 $\pi_\theta$ 不相干的项直接可以去掉了，变成如下式子：
$\nabla logP(\tau|\theta)=\sum_{t=1}^{T}\nabla logp(a_t|s_t, \theta)$
那么可以把这个式子往回带，就可以得到 $\nabla \bar R_\theta$ (注意这里的 $T $ 变成了 $T_n$ ，这是因为对于不同的 $\tau$ 产生动作序列的次数不一样，所以需要添加下标 $n $ 与不同轮次的 $\tau$ 对应)：
$\nabla \bar R_\theta \approx \frac{1}{N} \sum_{n=1}^{N}{R(\tau^n) \nabla log P(\tau^n|\theta)} = \frac{1}{N} \sum_{n=1}^{N}{R(\tau^\theta) \sum_{t=1}^{T_n}{\nabla log p(a_t^n|s_t^n, \theta)}} = \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_n}{R(\tau^\theta){\nabla log p(a_t^n|s_t^n, \theta)}}$
这个式子的含义是，假设在sample的一个 $\theta$ 里面， $s_t^n$ 这个State下采取了 $a_t^n$ 这个动作的概率，取log再计算梯度，与那一次 $\tau$ 的总奖励相乘。进一步理解，如果在某一次 $\tau^n$ 时，机器在看到状态 $s_t^n$ 时，采取了一个动作 $a_t^n$ ，然后总的奖励是正的，那么机器就会自己去增加看到这个场景下做出该行动的概率。

在这里插入图片描述

值得注意的是，如果把梯度里的 $R(\tau^n)$ 替换成 $r_t^n$ 后，也就是将第 $n$ 次 $\tau^n$ 的总奖励换成第 $n$ 次 $\tau^n$ 在 $t$ 时刻在状态 $s_t^n$ 下采取动作 $a_t^n$ 得到的奖励，那么就会丢失其他动作的期望贡献，最后训练出来的模型只会在原地开火。这里还能这么理解(个人理解)，如果换成 $r_t^n$ ，由于sample的随机性，可以不用考虑 $\frac{1}{N}\sum_{n=1}^{N}$ 这一层。那么 $\nabla \bar R_\theta$ 可以写成：
$\nabla \bar R_\theta = g(\sum_{t=1}^{T}r_t \nabla log p(a_t|s_t, \theta))$
此时的 $r_t$ 与 $a_t, s_t$ 唯一对应，那么梯度在每个时刻只关注了一个动作的奖励与概率~~，很容易陷入局部最优~~，导致训练出来的模型在某一特定环境下只会侧重一个动作。由Actor在不同连续的 $s_t$ 下产生的一系列动作是有一定的关联性的~~，类似于NLP上下文特征或者音频里的时域特征~~，所以不能只考虑某一 $a_t, s_t$ 下单独的 $r_t$ 。这就有点类似于分类任务的损失函数。

有了梯度，就可以根据Gradient Ascent更新Actor网络的权重，公式如下：
$\theta^{new} ← \theta^{old} + \eta \nabla \bar R_{\theta^{old}}$
下面我们再看看更新模型的过程，如下图，即生成一组训练数据，更新一次 $\theta$ ，值得注意的是每一组训练数据只能用一次。

在这里插入图片描述

2.2.2 如何损失函数进一步优化

假设所有的 $R(\tau^n)$ 都是正值。假设在某一个状态下，采取 $a, b, c$ 三个动作的概率如下，但 $a, c$ 的奖励更高，那么理想状态下经过训练 $a, c$ 出现的概率会增高， $b$ 出现的概率会降低。但实际上我们是sample的，假设没有采集到 $a$ 动作这种情况，那么经过训练后 $a$ 出现的概率会降低。这时，我们需要引入一个baseline，即可以对 $R(\tau^n)$ 减去一个 $b$ ，从而使奖励有好有坏，不然都是正值无法区分，通常可以将 $b$ 值设置为与 $R(\tau^n)$ 的期望接近的值，即 $E[R(\tau^n)]$ 。

在这里插入图片描述

还有很多方法能缓解这一问题，例如为不同的动作分配不同的权重，即好的动作给正分，差的动作给负分，再将 $R(\tau^n)$ 替换成所有动作的权重和，这种做法的本质就是改变了原本奖励的计算。

在这里插入图片描述

随着时间的推移，状态-动作的组合会越来越多，那么前面的组合对距离过远的组合的影响就会越来越小，可以用添加一个衰减因子 $\gamma$ ，这种方法叫Advantage function，见下图。

在这里插入图片描述

强化学习(Reinforcement Learning)与策略梯度(Policy Gradient)

写在前面：本篇博文的内容来自李宏毅机器学习课程与自己的理解，同时还参考了一些其他博客(懒得放链接)。博文的内容主要用于自己学习与记录。 1 强化学习的基本框架强化学习(Reinforcement Learning, RL)主要由智能体(Agent/Actor)、环境(Environment)、…...

编程日记 2023/10/14 12:22:20

JUC之ForkJoin并行处理框架

ForkJoin并行处理框架 Fork/Join 它可以将一个大的任务拆分成多个子任务进行并行处理，最后将子任务结果合并成最后的计算结果，并进行输出。类似于mapreduce 其实，在Java 8中引入的并行流计算，内部就是采用的ForkJoinPool来实现…...

编程日记 2023/10/14 12:21:19

【牛客面试必刷TOP101】Day8.BM33 二叉树的镜像和BM36 判断是不是平衡二叉树

作者简介：大家好，我是未央； 博客首页：未央.303 系列专栏：牛客面试必刷TOP101 每日一句：人的一生，可以有所作为的时机只有一次，那就是现在！！！&…...

编程日记 2023/10/14 12:19:17

CSS padding（填充）

CSS padding（填充）是一个简写属性，定义元素边框与元素内容之间的空间，即上下左右的内边距。 padding（填充） 当元素的 padding（填充）内边距被清除时，所释放的区域将会受到…...

编程日记 2023/10/14 12:18:17

C语言达到什么水平才能从事单片机工作

C语言达到什么水平才能从事单片机工作从事单片机工作需要具备一定的C语言编程水平。以下是几个关键要点：基本C语言知识： 掌握C语言的基本语法、数据类型、运算符、流控制语句和函数等基本概念。最近很多小伙伴找我，说想要一些C语言学习资料&…...

编程日记 2023/10/14 12:17:15

Java架构师理解SAAS和多租户

目录 1 云服务的三种模式1.1 IaaS（基础设施即服务）1.2 PaaS（平台即服务）1.3 SaaS（软件即服务）1.4 区别与联系2 SaaS的概述2.1 Saas详解2.2 应用领域与行业前景2.3 Saas与传统软件对比3 多租户SaaS平台的数据库方案3.1 多租户是什么3.2 需求分析3.3 多租户的数据库方案分析…...

编程日记 2023/10/14 12:16:14

关于Java线程池相关面试题

【更多面试资料请加微信号：suns45】 https://flowus.cn/share/f6cd2cbe-627a-435f-a6e5-1395333f92e8 【FlowUs 息流】📣suns-Java资料访问密码：【请加微信号：suns45】 ————线程相关的面试题———— 0：创建线…...

编程日记 2023/10/14 12:15:13

ExcelBDD Python指南

在Python里面支持BDD Excel BDD Tool Specification By ExcelBDD Method This tool is to get BDD test data from an excel file, its requirement specification is below The Essential of this approach is obtaining multiple sets of test data, so when combined with…...

编程日记 2023/10/14 12:14:12

基于深度学习的驾驶员疲劳监测系统的设计与实现

点击以下链接获取源码： https://download.csdn.net/download/qq_64505944/88421622?spm1001.2014.3001.5503 基于深度学习的驾驶员疲劳监测系统的设计与实现 1 绪论在21世纪，各国的经济飞速发展，人民越来越富裕，道路上的汽车也逐…...

编程日记 2023/10/14 12:13:11

B树、B+树详解

B树前言　　首先，为什么要总结B树、B树的知识呢？最近在学习数据库索引调优相关知识，数据库系统普遍采用B-/Tree作为索引结构（例如mysql的InnoDB引擎使用的B树），理解不透彻B树，则无法理解数据…...

编程日记 2023/10/14 12:11:09

使用hugging face开源库accelerate进行多GPU（单机多卡）训练卡死问题

目录问题描述及配置网上资料查找1.tqdm问题2.dataloader问题3.model(input)写法问题4.环境变量问题我的卡死问题解决方法问题描述及配置在使用hugging face开源库accelerate进行多GPU训练（单机多卡）的时候，经常出现如下报错 [E Process…...

编程日记 2023/10/14 12:10:07

IDEA 修改插件安装位置

不说假话，一定要看到最后，不然你以为我为什么要自己总结！！！ IDEA 修改插件安装位置前言步骤前言 IDEA 默认的配置文件均安装在C盘，使用时间长会生成很多文件，这些文件会占用挤兑C盘空间&…...

编程日记 2023/10/14 12:09:07

牛客网SQL160

国庆期间每类视频点赞量和转发量_牛客题霸_牛客网 select * from ( select tag,dt, sum(单日点赞量)over(partition by tag order by dt rows between 6 preceding and 0 following), max(单日转发量)over(partition by tag order by dt rows between 6 preceding and 0 follo…...

编程日记 2023/10/14 12:07:04

HDFS Java API 操作

文章目录 HDFS Java API操作零、启动hadoop一、HDFS常见类接口与方法1、hdfs 常见类与接口2、FileSystem 的常用方法二、Java 创建Hadoop项目1、创建文件夹2、打开Java IDEA1) 新建项目2) 选择Maven 三、配置环境1、添加相关依赖2、创建日志属性文件四、Java API操作1、在HDF…...

编程日记 2023/10/14 12:06:02

论文阅读之【Is GPT-4 a Good Data Analyst?（GPT-4是否是一位好的数据分析师）】

文章目录论文阅读之【Is GPT-4 a Good Data Analyst?（GPT-4是否是一位好的数据分析师）】背景：数据分析师工作范围基于GPT-4的端到端数据分析框架将GPT-4作为数据分析师的框架的流程图实验分析评估指标表1：GPT-4性能表现表2&…...

编程日记 2023/10/14 12:05:01

【数据结构】：二叉树与堆排序的实现

1.树概念及结构(了解) 1.1树的概念树是一种非线性的数据结构，它是由n（n>0）个有限结点组成一个具有层次关系的集合把它叫做树是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的有一个特殊的结点&#…...

编程日记 2023/10/14 12:03:59

纯css手写switch

CSS 手写switch 纯css手写switchcss变量纯css手写switch 思路： switch需要的元素有：开关背景、开关按钮。点击按钮后，背景色变化，按钮颜色变化，呈现开关打开状态。利用typecheckbox，来实现switch效果(修…...

编程日记 2023/10/14 12:02:58

PyTorch 深度学习之处理多维特征的输入Multiple Dimension Input(六)

1.Multiple Dimension Logistic Regression Model 1.1 Mini-Batch (N samples) 8D->1D 8D->2D 8D->6D 1.2 Neural Network 学习能力太好也不行（学习到的是数据集中的噪声），最好的是要泛化能力，超参数尝试 Example, Arti…...

编程日记 2023/10/14 12:00:57

LeetCode【438】找到字符串中所有字母异位词

题目： 注意：下面代码勉强通过，每次都对窗口内字符排序。然后比较字符串。代码： public List<Integer> findAnagrams(String s, String p) {int start 0, end p.length() - 1;List<Integer> result new ArrayL…...

编程日记 2023/10/14 11:59:56

关于LEFT JOIN的一次理解

先看一段例子： SELECTproduct_half_spu.id AS halfSpuId,product_half_spu.half_spu_code,product_half_spu.half_spu_name,COUNT( product_sku.id ) AS skuCount,product_half_spu.create_on,product_half_spu.create_by,product_half_spu.upload_pic_date,produc…...

编程日记 2023/10/14 11:58:54

Qt/C++开发监控GB28181系统/取流协议/同时支持udp/tcp被动/tcp主动

一、前言说明在2011版本的gb28181协议中，拉取视频流只要求udp方式，从2016开始要求新增支持tcp被动和tcp主动两种方式，udp理论上会丢包的，所以实际使用过程可能会出现画面花屏的情况，而tcp肯定不丢包，起码…...

编程新知 2025/7/4 0:35:22

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

引言： 在人工智能快速发展的浪潮中，快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型（LLM）。该模型代表着该领域的重大突破，通过独特方式融合思考与非思考…...

编程新知 2025/6/25 8:12:00

CRMEB 框架中 PHP 上传扩展开发：涵盖本地上传及阿里云 OSS、腾讯云 COS、七牛云

目前已有本地上传、阿里云OSS上传、腾讯云COS上传、七牛云上传扩展扩展入口文件文件目录 crmeb\services\upload\Upload.php namespace crmeb\services\upload;use crmeb\basic\BaseManager; use think\facade\Config;/*** Class Upload* package crmeb\services\upload* …...

编程新知 2025/6/17 2:00:03

【论文阅读28】-CNN-BiLSTM-Attention-（2024）

本文把滑坡位移序列拆开、筛优质因子，再用 CNN-BiLSTM-Attention 来动态预测每个子序列，最后重构出总位移，预测效果超越传统模型。文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵（S…...

编程新知 2025/7/4 10:53:23

USB Over IP专用硬件的5个特点

USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中，从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备（如专用硬件设备），从而消除了直接物理连接的需要。USB over IP的…...

编程新知 2025/7/4 19:08:22

Linux离线（zip方式）安装docker

目录基础信息操作系统信息docker信息安装实例安装步骤示例遇到的问题问题1：修改默认工作路径启动失败问题2 找不到对应组基础信息操作系统信息 OS版本：CentOS 7 64位内核版本：3.10.0 相关命令： uname -rcat /etc/os-rele…...

编程新知 2025/6/16 16:58:04

PHP 8.5 即将发布：管道操作符、强力调试

前不久，PHP宣布了即将在 2025 年 11 月 20 日正式发布的 PHP 8.5！作为 PHP 语言的又一次重要迭代，PHP 8.5 承诺带来一系列旨在提升代码可读性、健壮性以及开发者效率的改进。而更令人兴奋的是，借助强大的本地开发环境 ServBay&am…...

编程新知 2025/7/4 12:14:45

【p2p、分布式，区块链笔记 MESH】Bluetooth蓝牙通信 BLE Mesh协议的拓扑结构定向转发机制

目录节点的功能承载层（GATT/Adv）局限性： 拓扑关系定向转发机制定向转发意义 CG 节点的功能节点的功能由节点支持的特性和功能决定。所有节点都能够发送和接收网格消息。节点还可以选择支持一个或多个附加功能，如 Configuration …...

编程新知 2025/6/27 1:05:24

文件上传漏洞防御全攻略

要全面防范文件上传漏洞，需构建多层防御体系，结合技术验证、存储隔离与权限控制： 🔒 一、基础防护层前端校验（仅辅助） 通过JavaScript限制文件后缀名（白名单）和大小，提…...

编程新知 2025/6/15 12:59:08

iOS 项目怎么构建稳定性保障机制？一次系统性防错经验分享（含 KeyMob 工具应用）

崩溃、内存飙升、后台任务未释放、页面卡顿、日志丢失——稳定性问题，不一定会立刻崩，但一旦积累，就是“上线后救不回来的代价”。稳定性保障不是某个工具的功能，而是一套贯穿开发、测试、上线全流程的“观测分析防范”机制。 …...

编程新知 2025/6/21 16:56:19

1 强化学习的基本框架

2 强化学习基本步骤

2.1 步骤1：构建决策框架

2.2 Policy Gradient详解

2.2.1 Gradient Ascent

2.2.2 如何损失函数进一步优化

相关文章：