当前位置：首页 > article >正文

强化学习（赵世钰版）-学习笔记（9.策略梯度法）

article 2026/3/2 18:29:27

本章是课程的导数第二章，旨在讲解策略的函数化形式。

之前的方法，描述一个策略都是用表格的形式，每一行代表一个状态，每一列代表一个行为，表格中的元素对应相关状态下执行相关行为的概率。

函数化的策略表征形式是指，策略改用一个参数化的函数表示，这种表征方式的优点是节省存储空间，并且提升了泛化能力。

表格化与函数化的策略，有三个差异。第一是如何定义这个最优策略，表格形式的是指每个状态值都能最大化。函数形式的是指能让一个指标最大化（本质上就是优化理论）。

第二个差异是，如何获取某一状态下执行某个行为的概率。表格形式是直接查表，而函数形式是带入到方程中计算。

第三个差异是如何更新策略，表格形式是直接在表的对应位置进行修改，而函数形式则是对函数的参数进行修改。

策略梯度法的思路其实很简单，第一步是构建一个衡量最优策略的方法（类似于优化理论中的目标函数），第二步是用基于梯度的优化方法找寻最优策略。

第一种衡量指标叫状态均值（average state value）法或者均值法（average value），本质就是求状态值的期望。

这个期望中间的概率分布（即各状态值的权重）如何选择？有两大类方法。第一类是这个概率分布与策略之间相互独立，那么求梯度的时候，这个概率分布不参与求导。那么如何确定这个概率分布能，一种是采用均匀分布，一种是将第一个状态置为1，其他都为0。

第二种大类是这个概率分布与策略是相关的，那一般选择稳定分布。

第二种衡量最优策略的方法是平均单步奖励（average one-step reward）或者平均奖励（average reward），其实是求了另外一个期望。

平均单步奖励的本质，是Agent基于一个策略获得一个轨迹，计算这个轨迹每一步奖励的期望值，再做个平均。

这个平均单步奖励的方法，计算的结果与初始的状态是无关的。

下面对状态均值法和单步奖励均值法这两大类衡量方法做了一个对比：

第一个需要注意点是，两个衡量方法都是基于策略π的函数，那本质上就是基于参数的函数（将参数看做自变量，函数结果是因变量）。

第二点，通过对γ的设置，可以分为包含折扣的方法和不包含折扣的方法（即对将来的奖励值进行打折计算）。

第三点就是，两个衡量的方法是相关的（不相等，但能相互转换）。

衡量的方法确定后，就要根据衡量的方法，确定给予梯度的优化方法。

这里给出了相关的梯度计算方法。

这个是梯度方法用期望的形式展示。

这个方法为什么有用呢？第一是可以用样本去近似这个梯度值。

第二，对数求梯度这一部分，可以继续展开。

继续演算，可以得到一个期望形式的结果。

这里定义了整个策略的相关概率值生成的方法，用的就是Softmax的方法。

这里的函数可以用一个神经网络来实现，由于策略里每一个状态下的各个行为都有大于零的概率，所以该策略具有一定的随机性，模型包含了探索性。

后面是梯度上升算法（gradient ascent）找寻最优解的内容，因为最优策略是反馈值最大的策略，所以用的是梯度上升法。梯度计算部分用随机梯度替代，不知道的行为值，用采样替代。

采样估计这里，如果用的是MC方法，则这个算法就是REINFORCE算法。

REINFORCE算法的伪代码如下所示。

这里讨论了采样的方法，状态的采样没有太多要求，A的采样根据当前策略的执行时序来，所以是个On-policy方法。

第二是如何解释这个方法，在基于梯度上升的迭代法中，对表达式进行整理，加号的右边可以变成这样，α是学习率，β_t是一个时间序列上的数，但是跟梯度无关，第三部分是梯度。

β表明了迭代法前后两个数据之间的大小关系。

β的具体作用是，用于调节策略中探索与开发之间的关系。

强化学习（赵世钰版）-学习笔记（9.策略梯度法）

本章是课程的导数第二章，旨在讲解策略的函数化形式。之前的方法，描述一个策略都是用表格的形式，每一行代表一个状态，每一列代表一个行为，表格中的元素对应相关状态下执行相关行为的概率。函数化的策略表征形式是指&a…...

编程日记 2026/2/24 13:29:47

ModuleNotFoundError: No module named ‘flask‘ 错误

要解决 ModuleNotFoundError: No module named ‘flask’ 错误，需确保已正确安装 Flask 库。以下是详细步骤： ‌1. 安装 Flask‌ 在终端或命令行中执行以下命令（注意权限问题）： 使用 pip 安装 pip install flask 若…...

编程日记 2026/2/16 23:08:17

【c++】【STL】unordered_set 底层实现（简略版）

【c】【STL】unordered_set 底层实现（简略版） ps:这个是我自己看的不保证正确，觉得太长的后面会总结整个调用逻辑 unordered_set 内部实现 template <class _Kty, class _Hasher hash<_Kty>, class _Keyeq equal_to<_Kty>…...

编程日记 2026/2/14 7:29:17

【Zephyr】【一】学习笔记

Zephyr RTOS 示例代码集 1. 基础示例 1.0 基础配置每个示例都需要一个 prj.conf 文件来配置项目。以下是各个示例所需的配置： 基础示例 prj.conf # 控制台输出 CONFIG_PRINTKy CONFIG_SERIALy CONFIG_UART_CONSOLEy# 日志系统 CONFIG_LOGy CONFIG_LOG_DEFAULT…...

编程日记 2026/2/14 16:48:06

网络安全设备配置与管理-实验4-防火墙AAA服务配置

实验4-p118防火墙AAA服务配置从这个实验开始，每一个实验都是长篇大论😓 不过有好兄弟会替我出手注意：1. gns3.exe必须以管理员身份打开，否则ping不通虚拟机。 win10虚拟机无法做本次实验，必须用学校给的虚拟机。首…...

编程日记 2026/2/17 12:54:03

后端框架模块化

后端框架的模块化设计旨在简化开发流程、提高可维护性，并通过分层解耦降低复杂性。以下是常见的后端模块及其在不同语言（Node.js、Java、Python）中的实现方式： 目录 1. 路由（Routing）2. 中间件（…...

编程日记 2025/7/17 9:44:56

【论文阅读】Contrastive Clustering Learning for Multi-Behavior Recommendation

论文地址：Contrastive Clustering Learning for Multi-Behavior Recommendation | ACM Transactions on Information Systems 摘要近年来，多行为推荐模型取得了显著成功。然而，许多模型未充分考虑不同行为之间的共性与差异性，以…...

编程日记 2026/2/18 5:22:33

Ubuntu 24 环境准备 # 系统级依赖 sudo apt update && sudo apt install -y ffmpeg python3-venv git build-essential python3-dev# Python虚拟环境 python3 -m venv ~/ai_summary source ~/ai_summary/bin/activate核心工具链工具用途安装命令Whisper语音识别pip …...

编程日记 2025/7/18 16:52:21

基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）

摘要 I ABSTRACT II 第 1 章引言 1 研究背景及意义 1 研究背景 1研究意义 1 国内外研究现状 2 智慧旅游 3旅游大数据 3 研究内容 4本章小结 4 第 2 章相关技术概述 5 基于内容的推荐算法 5 基于内容的推荐算法原理 5基于内容的推荐算法实现 5 协同过滤推荐算法 6 协同过…...

编程日记 2026/2/24 15:36:43

QT学习笔记1

** Qt Creator开发环境配置** 安装流程（Windows平台） 下载与安装 ： 访问Qt官网，下载在线安装工具Qt Online Installer。登录或注册Qt账号，选择开源版本（需勾选“接受协议”）。勾选组件&#xff…...

编程日记 2026/2/16 20:24:24

Ubuntu 24 常用命令方法

文章目录环境说明1、账号管理1.1、启用 root 2、包管理工具 apt & dpkg2.1、apt 简介 & 阿里源配置2.2、dpkg 简介2.3、apt 和 dpkg 两者之间的关系2.4、常用命令 3、启用 ssh 服务4、防火墙5、开启远程登录6、关闭交换分区7、build-essential（编译和开发软…...

编程日记 2026/2/17 16:41:59

Flask多参数模版使用

需要建立目录templates； 把建好的html文件放到templates目录里面； 约定好参数名字，单个名字可以直接使用；多参数使用字典传递； 样例： from flask import render_template # 模板 (Templates) #Flask 使用…...

编程日记 2026/2/28 13:20:35

torcharrow gflags版本问题

问题描述其实仍然是很简单的编译问题，但是又弄了一整个下午加几乎整个晚上，进度缓慢，又吸取了教训，因而还是来记录一下。在试图使用torcharrow进行推荐系统模拟的时候，撰写的python程序报错：ERROR: flag…...

编程日记 2026/2/15 3:46:55

自然语言处理｜深入解析 PEGASUS：从原理到实践

一、引言在信息爆炸的时代，互联网上的文本数据以极快的速度增长。无论是新闻资讯、学术论文、社交媒体动态，还是各类报告文档，我们每天接触到的文字信息量巨大。如何快速、准确地提取关键内容成为一项重要任务。文本摘要技术通过将长篇文本…...

编程日记 2026/2/27 14:44:37

Spring AI Alibaba快速使用

AI 时代，Java 程序员也需要与时俱进，这两个框架必须掌握。一个是 Spring AI一个是 Spring Alibaba AI。 Spring AI 是一个AI工程领域的应用程序框架，它的目标是将 Spring生态系统的设计原则应用于人工智能领域。但是， Spring…...

编程日记 2026/2/28 4:14:12

socks 协议介绍

SOCKS协议详解一、基本定义与核心功能 SOCKS（Socket Secure）是一种网络传输协议，主要用于通过代理服务器转发客户端与目标服务器之间的通信请求。其核心功能包括隐藏用户真实IP地址、穿透防火墙限制以及支持多种网络协议（如TCP…...

编程日记 2026/2/26 19:24:51

Linux --centos安装显卡驱动

显卡下载页面 https://www.nvidia.com/en-us/drivers/unix/ 随便下载一个即可安装过程查看当前设备的显卡信息 lspci | grep -i vga安装gcc相关依赖 yum update -y yum update gcc yum install build-essential yum install gcc-multilibdkms yum groupinstall "Dev…...

编程日记 2026/2/19 6:53:17

【软件工程】简答题

真题 2024-10 26.需求验证应验证需求规格说明书中每一单一需求是否满足5个性质,这5个性质是什么? 27.简述RUP和UML的关系。 28.简述五种常见的模块间耦合类型。 29.螺旋模型在笛卡尔坐标的4个象限上,分别表达了哪4个方面的活动? 30.为了表达概念模型和软件模型,UML提供了13…...

编程日记 2026/1/24 11:06:48

统信UOS中使用Vscode编程

写在前面：统信UOS其实就是套壳的Linux系统，所以有问题如果搜不到解决方法，可以参考Linux下的解决方法。 1.环境配置 Vscode : 1.85.0 Vscode就直接下载安装就行，然后安装插件：Volar、中文汉化包 node：18…...

编程日记 2026/2/27 4:58:43

K8s认证（CKA/CKAD/CKS）哪家强？主流证书对比

2024年Kubernetes认证全解析：选对证书，薪资翻倍！ （附CKA/CKAD/CKS最新考试攻略） 一、K8s认证哪家强？主流证书对比认证名称颁发机构考试特点适合人群考试费用CKA（认证K8s管理员）CN…...

编程日记 2026/2/13 22:29:50

HTTP1.0、HTTP1.1、HTTP2.0对比

HTTP 1.0、HTTP 1.1 和 HTTP 2.0 是 HTTP 协议演进中的三个重要版本，每个版本都针对前一代的不足进行了优化和改进。以下是它们的核心区别和关键特性对比： 1. HTTP 1.0（1996年） 非持久连接每个请求/响应对都需要单独建立和关闭 T…...

编程日记 2026/2/13 17:44:52

docker安装向量数据库Milvus及可视化工具 Attu

前置条件 1.安装了docker 2.服务器网络正常，可以连接到容器下载地址 3.服务器磁盘空间正常，docker磁盘占用过大，请参考docker容量占用过大解决办法一、下载yml文件可在文章资源下载或者自行下载：下载yml 下载这个单机版本的…...

编程日记 2026/2/14 23:15:35

A l密码学（Deepseek)

我：qwertyuiopasdfghjklzxcvbnm deepseek:深度思考中． Okay, lets see. The user input is "qwertyuiopasdfghjklzxcvbnm". At first glance, it looks like a jumbled sequence of letters with some spaces or maybe other characters in …...

编程日记 2026/2/27 13:59:58

DeepSeek + Kimi 自动生成 PPT

可以先用deepseek生成ppt大纲，再把这个大纲复制到Kimi的ppt助手里： https://kimi.moonshot.cn/kimiplus/conpg18t7lagbbsfqksg 选择ppt模板： 点击生成ppt就制作好了。...

编程日记 2026/2/28 9:53:09

Apache Paimon 在抖音集团多场景中的优化实践

资料来源：火山引擎-开发者社区本文将基于抖音集团内部两大业务的典型实时数仓场景，介绍Paimon在抖音集团内部的生产实践。作者：李明、苏兴、文杰抖音集团大数据工程师目前抖音集团内部主要使用 Lambda 架构进行实时数仓建设，其…...

编程日记 2026/2/17 6:45:31

Uni-App 双栏联动滚动组件开发详解 (电梯导航)

本文基于提供的代码实现一个左右联动的滚动组件，以下是详细的代码解析与实现原理说明：  <te…...

编程日记 2026/2/15 2:20:29

当下主流 AI 模型对比：ChatGPT、DeepSeek、Grok 及其他前沿技术

📝个人主页🌹：一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言人工智能（AI）领域近年来取得了巨大的突破，特别是在大语言模型（LLM&#…...

编程日记 2026/2/23 14:48:00

【自用】NLP算法面经（5）

一、L1、L2正则化正则化是机器学习中用于防止过拟合并提高模型泛化能力的技术。当模型过拟合时，它已经很好地学习了训练数据，甚至是训练数据中的噪声，所以可能无法在新的、未见过的数据上表现良好。比如： 其中，x1和…...

编程日记 2026/2/22 1:40:32

体育直播视频源格式解析：M3U8 vs FLV

在体育直播领域，视频源的格式选择直接影响着直播的流畅度、画质以及兼容性。目前，M3U8 和 FLV 是两种最为常见的视频流格式，它们各有优劣，适用于不同的场景。本文将从技术原理、优缺点以及应用场景等方面对 M3U8 和 FLV 进行详细解…...

编程日记 2026/2/28 19:48:34

Ubuntu20.04安装并配置Pycharm2020.2.5

一. 下载pycharm 社区版 1. 下载地址： PyCharm: the Python IDE for data science and web developmentThe Python IDE for data science and web development with intelligent code completion, on-the-fly error checking, quick-fixes, and much more.https:/…...

编程日记 2026/2/25 13:24:00

强化学习（赵世钰版）-学习笔记（9.策略梯度法）

相关文章：

强化学习（赵世钰版）-学习笔记（9.策略梯度法）

ModuleNotFoundError: No module named ‘flask‘ 错误

【c++】【STL】unordered_set 底层实现（简略版）

【Zephyr】【一】学习笔记

网络安全设备配置与管理-实验4-防火墙AAA服务配置

后端框架模块化

【论文阅读】Contrastive Clustering Learning for Multi-Behavior Recommendation

视频转音频, 音频转文字

基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）

QT学习笔记1

Ubuntu 24 常用命令方法

Flask多参数模版使用

torcharrow gflags版本问题

自然语言处理｜深入解析 PEGASUS：从原理到实践

Spring AI Alibaba快速使用

socks 协议介绍

Linux --centos安装显卡驱动

【软件工程】简答题

统信UOS中使用Vscode编程

K8s认证（CKA/CKAD/CKS）哪家强？主流证书对比

HTTP1.0、HTTP1.1、HTTP2.0对比

docker安装向量数据库Milvus及可视化工具 Attu

A l密码学（Deepseek)

DeepSeek + Kimi 自动生成 PPT

Apache Paimon 在抖音集团多场景中的优化实践

Uni-App 双栏联动滚动组件开发详解 (电梯导航)

当下主流 AI 模型对比：ChatGPT、DeepSeek、Grok 及其他前沿技术

【自用】NLP算法面经（5）

体育直播视频源格式解析：M3U8 vs FLV

Ubuntu20.04安装并配置Pycharm2020.2.5