当前位置：首页 > news >正文

强化学习（赵世钰版）-学习笔记（4.值迭代与策略迭代）

news 2026/2/11 2:38:50

本章是整个课程中，算法与方法的第一章，应该是最简单的入门方法。

上一章讲到了贝尔曼最优方程，其目的是计算出最优状态值，从而确定对应的最优策略。

而压缩映射理论推出了迭代算法

对初始值V0赋一个随机的初始值，算法最终总会找到这个最优状态值与最优策略，就是上一章讲到的稳定点，这个方法就叫做值迭代法（value iteration）。

那么如何实现这个值迭代算法呢？首先选择贝尔曼最优方程的矩阵-向量形式。

接着算法进行迭代，每个迭代周期内进行两步操作。第一步叫做策略升级，利用现有策略对应参数，计算出其中的最优策略记作下个时间点的策略Pi_k+1。

第二步叫做值的升级，利用第一步新得到的最优策略，对现有的值进行升级。

这里的Vk不是状态值，因为它不一定满足贝尔曼方程（原文这样写，我也没明白为啥不一定满足）

这里是采用矩阵-向量的形式进行值迭代的理论分析，具体的算法实现，还是用基于元素的方式来完成。在基于元素的方式下，第一步策略升级的公式，可以写成如下这样，向下的大括号整体上是行为值（Action Value，第二章的内容）

策略更新的本质就是将每个状态下的行为，都修改成行为值最大的那个，可以看出这是个基于贪心思路的策略。

第二步的值升级公式，在基于元素的形式下，可以写成如下形式

因为采用贪心的思路，这个新的值V_k+1等价于最优的行为值（行为值最大的行为，采用的概率为100%，其余的为0%，就能得到最大值）。

整个计算的流程如下所示，依次计算各对应的变量

值迭代算法的伪代码（没仔细看）

第二种算法叫做策略迭代法（Policy iteration algorithm），该算法也是分为两步。初始情况下，给一个随机的策略Pi_0。第一步是对这个策略进行性能的量化，计算出状态值。

第二步叫做策略改进，逐状态更新对应的行为。

整个策略迭代法的计算顺序如下所示，其中PE为策略估计，PI是策略提升。策略迭代算法本质上是在策略估计中，嵌入了另一个迭代算法。

策略迭代算法的实现与值迭代算法类似，都是采用基于元素的方式。策略迭代算法的策略评估，其基于元素的方法如下所示：

迭代的终止条件为j的值足够大（即迭代足够多的次数），或者迭代的过程中，前后两次计算得到的状态值差异足够小。

第二步策略改进的基于元素的方法如下所示

当然需要的操作跟矩阵-向量形式一样，都是先找寻最大行为值，再更新策略里的相关行为。

策略迭代的伪代码如下（也没仔细看）

下面讨论的是值迭代法和策略迭代法之间的关系。下面是两个算法的整体情况，都是分两步进行。策略迭代的初始是一个随机的策略，值迭代的初始是一个随机的状态值。

两个算法本质上很相似，用；流水线的形式表示可以看出，两个算法的开头相差一步，后面都是一样的。

用表格的形式展示，可以看到算法的细节，后面的每一步虽然名字不同，但是计算的内容大部分是一样的。

第四步的计算是有差异的，策略迭代这里是要用一个无穷步迭代算法计算这个策略值，而值迭代这里只是一个一步的迭代运算。

所以在做策略迭代的时候，这里要设置一个阈值j，迭代次数大于J的迭代操作予以舍弃，这叫做截断的策略迭代算法（truncated policy iteration algorithm）。

这个是截断的策略迭代算法的伪代码

下面是几个算法测试的性能

既然有三种算法，那么在使用中又是如何取舍的？我问了豆包，结果贴在了下面。总的来说就是，简单问题选值迭代，复杂问题下资源（时间资源、计算资源）充足选策略迭代，资源不充足选基于截断的策略迭代。

强化学习（赵世钰版）-学习笔记（4.值迭代与策略迭代）

本章是整个课程中，算法与方法的第一章，应该是最简单的入门方法。上一章讲到了贝尔曼最优方程，其目的是计算出最优状态值，从而确定对应的最优策略。而压缩映射理论推出了迭代算法对初始值V0赋一个随机的初始值，算法最…...

编程日记 2025/3/10 13:13:59

Cursor安装配置

1.安装通过网盘分享的文件：Cursor Setup 0.45.11 - x64.exe 链接: 百度网盘请输入提取码提取码: 6juv 2. 配置选择AI工具的语言输入AI工具的语言为 "中文" ，输入完语言之后，直接点击 "Continue" 下一步&#x…...

编程日记 2025/3/10 13:10:56

相机几何：从三维世界到二维图像的映射

本系列课程将带领读者开启一场独特的三维视觉工程之旅。我们不再止步于教科书式的公式推导，而是聚焦于如何将抽象的数学原理转化为可落地的工程实践。通过解剖相机的光学特性、构建成像数学模型、解析坐标系转换链条，直至亲手实现参数标定代码&#xff0…...

编程日记 2025/3/10 13:09:55

【GoTeams】-5：引入Docker

本文目录 1. Dokcer-compose回顾下Docker知识编写docker-compose.yaml运行docker 2. 部署go服务编写dockerfile 1. Dokcer-compose 这里简单先用一下win版本的Docker，后期开发好了部署的时候再移植到服务器下进行docker部署。输入命令docker-compose version 就可…...

编程日记 2025/3/10 13:04:49

基金股票期权期货投资方式对比

以下是基金、股票、期权和期货的详细对比分析，涵盖定义、核心特点、优势、劣势、适用场景及相互区别： 一、基金定义基金是通过集合投资者的资金，由专业管理人（基金经理）进行多元化投资的金融工具。根据投资标的可分…...

编程日记 2025/3/10 13:02:46

大模型AI平台DeepSeek 眼中的SQL2API平台：QuickAPI、dbapi 和 Magic API 介绍与对比

目录 1 QuickAPI 介绍 2 dbapi 介绍 3 Magic API 介绍 4 简单对比 5 总结统一数据服务平台是一种低代码的方式，实现一般是通过SQL能直接生成数据API，同时能对产生的数据API进行全生命周期的管理，典型的SQL2API的实现模式。以下是针对…...

编程日记 2025/3/10 13:01:43

K8S学习之基础十九：k8s的四层代理Service

K8S四层代理Service 四层负载均衡Service 在k8s中，访问pod可以通过ip端口的方式，但是pod是由生命周期的，pod在重启的时候ip地址往往会发生变化，访问pod就需要新的ip地址，这样就会很麻烦，每次pod地址改变就…...

编程日记 2025/3/10 13:00:42

揭开AI-OPS 的神秘面纱第六讲 AI 模型服务层 - 开源模型选型与应用 (时间序列场景｜图神经网络场景)

时间序列场景 AI 模型服务层 - 开源模型选型与应用 (时间序列场景) 在 AI-Ops 中，时间序列数据分析主要应用于以下场景：指标预测: 预测 Metrics 指标 (例如 CPU 使用率、内存使用率、网络流量、请求延迟等) 的未来趋势，用于容量规划、资源调度、异常检测等。异常检测: 检…...

编程日记 2025/3/10 12:55:36

在Dify中访问Gemini等模型代理设置指南

问题背景 Google Gemini模型可纯免费使用，且性能也相当不错，一般个人使用或研究足够。但在在国内访问，需设置代理。在Docker部署Dify时，虽然按官方文档介绍设置代理环境变量，但实测发现并不生效。我们通过研究试验解决…...

编程日记 2025/3/10 12:54:34

MySQL的安装以及数据库的基本配置

MySQL的安装及配置 MySQL的下载选择想要安装的版本，点击Download下载 Mysql官网下载地址： https://downloads.mysql.com/archives/installer/ MySQL的安装选择是自定义安装，所以直接选择“Custom”，点击“Next” …...

编程日记 2025/3/10 12:52:31

设备树的组成

根节点下含有 compatile 属性的子节点含有特定 compatile 属性的节点的子节点如果一个节点的 compatile 属性，它的值是这 4 者之一："simple-bus","simple-mfd","isa","arm,amba-bus", 那么它的子结点 (…...

编程日记 2025/3/10 12:51:30

C++入门——输入输出、缺省参数

C入门——输入输出、缺省参数一、C标准库——命名空间 std C标准库std是一个命名空间，全称为"standard"，其中包括标准模板库（STL），输入输出系统，文件系统库，智能指针与内存管理&am…...

编程日记 2025/3/10 12:49:28

deepseek 本地部署

deepseek 本地部署纯新手教学，手把手5分钟带你在本地部署一个私有的deepseek，再也不用受网络影响。流畅使用deepseek！！！ 如果不想看文章，指路：Deep seek R1本地部署小白超详细教程 &#xff0…...

编程日记 2025/3/10 12:48:27

[网络爬虫] 动态网页抓取 — Selenium 入门操作

🌟想系统化学习爬虫技术？看看这个：[数据抓取] Python 网络爬虫 - 学习手册-CSDN博客 0x01：WebDriver 类基础属性 & 方法为模仿用户真实操作浏览器的基本过程，Selenium 的 WebDriver 模块提供了一个 WebDriver 类…...

编程日记 2025/3/10 12:40:18

HTML 超链接（简单易懂较详细）

在 HTML 中，超链接是通过 <a> 标签（anchor tag）创建的。超链接允许用户通过点击文本、图像或其他元素跳转到另一个网页、文件或页面的特定部分。本文将详细介绍 HTML 超链接的语法、属性和应用场景。一、基本语法 <a href"U…...

编程日记 2025/3/10 12:36:14

rpc和proto

rpc全称远程过程控制，说白了是一种对信息发送和接收的规则编写方法，来自google，这些规则会以protobuf代码存到proto文件里。我以autoGen中agent_worker.proto为例，大概长这样 syntax "proto3";package agents;option …...

编程日记 2025/3/10 12:32:08

OPENGLPG第九版学习 -颜色、像素和片元 PART1

文章目录 4.1 基本颜色理论4.2 缓存及其用途颜色缓存深度缓存 / z缓存 / z-buffer模板缓存 4.2.1 缓存的清除4.2.2 缓存的掩码 4.3 颜色与OpenGL4.3.1 颜色的表达与OpenGL4.3.2 平滑数据插值 4.4 片元的测试与操作4.4.1 剪切测试4.4.2 多重采样的片元操作4.4.3 模板测试模板查询…...

编程日记 2025/3/10 12:29:05

【js逆向】某精灵网

地址：aHR0cHM6Ly93d3cuamluZ2xpbmdzaHVqdS5jb20vYXJ0aWNsZXM f12查看数据包，下面这个不是，你得到的是你的用户信息，需要点击第2页才会显示数据接口查看载荷查看预览数据，发现是加密的查看启动器，看到 Pr…...

编程日记 2025/3/10 12:23:59

自然语言处理：高斯混合模型

介绍大家好，博主又来给大家分享知识了，今天给大家分享的内容是自然语言处理中的高斯混合模型。在自然语言处理这个充满挑战与机遇的领域，我们常常面临海量且复杂的文本数据。如何从这些数据中挖掘出有价值的信息，对文本进行有…...

编程日记 2025/3/10 12:22:58

RISC-V汇编学习（三）—— RV指令集

有了前两节对于RISC-V汇编、寄存器、汇编语法等的认识，本节开始介绍RISC-V指令集和伪指令。前面说了RISC-V的模块化特点，是以RV32I为作为ISA的核心模块，其他都是要基于此为基础，可以这样认为：RISC-V ISA 基本整数指…...

编程日记 2025/3/10 12:21:57

【力扣数据库知识手册笔记】索引

索引索引的优缺点优点1. 通过创建唯一性索引，可以保证数据库表中每一行数据的唯一性。2. 可以加快数据的检索速度（创建索引的主要原因）。3. 可以加速表和表之间的连接，实现数据的参考完整性。4. 可以在查询过程中，…...

编程新知 2026/1/25 4:36:37

【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表

1、行为树节点分类在 Nav2（Navigation2）的行为树框架中，行为树节点插件按照功能分为 Action（动作节点）、Condition（条件节点）、Control（控制节点）和 Decorator（装饰节点）四类。 1.1 动作节点 Action 执行具体的机器人操作或任务，直接与硬件、传感器或外部系统…...

编程新知 2026/2/7 8:45:41

【项目实战】通过多模态+LangGraph实现PPT生成助手

PPT自动生成系统基于LangGraph的PPT自动生成系统，可以将Markdown文档自动转换为PPT演示文稿。功能特点 Markdown解析：自动解析Markdown文档结构PPT模板分析：分析PPT模板的布局和风格智能布局决策：匹配内容与合适的PPT布局自动…...

编程新知 2026/2/10 10:35:58

视频字幕质量评估的大规模细粒度基准

大家读完觉得有帮助记得关注和点赞！！！ 摘要视频字幕在文本到视频生成任务中起着至关重要的作用，因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型（VLMs）在字幕生成方面…...

编程新知 2026/2/6 9:24:15

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

引言：为什么 Eureka 依然是存量系统的核心？ 尽管 Nacos 等新注册中心崛起，但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制，是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

编程新知 2026/2/10 15:47:33

【python异步多线程】异步多线程爬虫代码示例

claude生成的python多线程、异步代码示例，模拟20个网页的爬取，每个网页假设要0.5-2秒完成。代码 Python多线程爬虫教程核心概念多线程：允许程序同时执行多个任务，提高IO密集型任务（如网络请求）的效率…...

编程新知 2025/12/16 18:04:55

06 Deep learning神经网络编程基础激活函数 --吴恩达

深度学习激活函数详解一、核心作用引入非线性：使神经网络可学习复杂模式控制输出范围：如Sigmoid将输出限制在(0,1)梯度传递：影响反向传播的稳定性二、常见类型及数学表达 Sigmoid σ ( x ) = 1 1 +...

编程新知 2025/11/17 21:48:26

全面解析各类VPN技术：GRE、IPsec、L2TP、SSL与MPLS VPN对比

目录引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec？ IPsec VPN 5.1 IPsec传输模式（Transport Mode） 5.2 IPsec隧道模式（Tunne…...

编程新知 2025/11/3 0:44:41

Rapidio门铃消息FIFO溢出机制

关于RapidIO门铃消息FIFO的溢出机制及其与中断抖动的关系，以下是深入解析： 门铃FIFO溢出的本质在RapidIO系统中，门铃消息FIFO是硬件控制器内部的缓冲区，用于临时存储接收到的门铃消息（Doorbell Message）。…...

编程新知 2026/1/7 1:29:19

视觉slam十四讲实践部分记录——ch2、ch3

ch2 一、使用g++编译.cpp为可执行文件并运行(P30) g++ helloSLAM.cpp ./a.out运行二、使用cmake编译 mkdir build cd build cmake .. makeCMakeCache.txt 文件仍然指向旧的目录。这表明在源代码目录中可能还存在旧的 CMakeCache.txt 文件，或者在构建过程中仍然引用了旧的路…...

编程新知 2026/2/6 15:56:54

相关文章：