具身系列——比较3种vpg算法方式玩CartPole游戏(强化学习)
文档1方式参考:https://gitee.com/chencib/ailib/blob/master/rl/vpg_baseline_cartpole.py
文档2方式参考:https://gitee.com/chencib/ailib/blob/master/rl/vpg_batchupdate_cartpole.py
文档3方式参考:https://gitee.com/chencib/ailib/blob/master/rl/vpg_standard_cartpole.py
三个文档算法的异同分析及可取之处
一、共同点
-
算法基础
均基于策略梯度方法(Policy Gradient),核心是REINFORCE算法或其改进版本,通过优化策略网络直接输出动作概率分布。 -
环境处理
• 均针对CartPole-v1
环境,适配不同版本的Gym API(处理terminated
和truncated
返回值差异)。• 状态和动作空间的定义方式一致(如
env.observation_space.shape[0]
)。 -
折扣回报计算
均使用折扣因子(Gamma) 对轨迹的未来奖励进行衰减,计算累积回报。 -
框架与优化器
• 使用PyTorch实现神经网络,优化器均为Adam。• 策略网络结构均为全连接网络,输出Softmax动作概率。
二、差异点
特征 | 文档1(带基线REINFORCE) | 文档2(批量REINFORCE) | 文档3(标准策略梯度) |
---|---|---|---|
基线网络 | ✅ 使用Critic网络计算基线值,优势值减少方差 | ❌ 无基线,直接使用折扣回报 | ❌ 无基线,但回报标准化(减均值/标准差) |
更新方式 | 单episode更新(蒙特卡洛) | 批量更新(收集多episode后更新) | 单episode更新,结合滑动平均奖励监控 |
网络结构 | 简单网络(128隐藏层) | 深层网络(4层ReLU) | 中等网络(30隐藏层,tanh激活) |
回报处理 | 优势值 = 回报 - 基线值 | 折扣回报标准化(减均值) | 折扣回报标准化(减均值/标准差) |
兼容性处理 | 动态修补NumPy兼容旧版Gym | 适配不同Gym版本step返回值 | 适配新版Gym的reset/step返回值 |
额外功能 | 动态渲染测试 | 训练/测试结果可视化 | 模型保存/加载、训练时动态开启渲染 |
三、各自的可取之处
1. 文档1:带基线的REINFORCE
• 优势值计算
引入Critic网络预测状态价值作为基线,通过优势值=回报-基线
减少策略更新的方差,显著提升训练效率。
• 网络分离设计
策略网络(Actor)和基线网络(Critic)分离,结构清晰,便于单独优化。
• 兼容性修复
动态修补np.bool8
兼容旧版Gym,避免AttributeError。
2. 文档2:批量更新的REINFORCE
• 批量训练机制
收集多个episode的轨迹后统一更新参数,提升硬件利用率,适合复杂环境。
• 深度网络结构
使用4层ReLU网络,增强状态表征能力,适合高维状态空间。
• 完整可视化
绘制训练/测试奖励曲线,直观展示算法性能,便于调试和分析。
3. 文档3:标准策略梯度
• 回报标准化
对折扣回报进行均值中心化和标准差缩放,避免梯度爆炸/消失,提升稳定性。
• 实用功能完善
支持模型保存/加载、训练时动态渲染控制,适合实际部署和演示。
• 权重初始化
对网络参数显式初始化(正态分布+偏置),加速收敛。
四、总结与建议
• 选择建议
• 需快速收敛:选文档1(带基线)+ 文档3(回报标准化)。
• 需处理复杂状态:选文档2(深层网络)+ 文档1(基线)。
• 需部署和稳定性:选文档3(模型保存+标准化)。
• 改进方向
结合三者的优点:带基线的网络 + 批量更新 + 回报标准化 + 可视化与模型保存。
附文档1算法执行:
Episode 0, Total Reward: 37.0
Episode 50, Total Reward: 31.0
Episode 100, Total Reward: 29.0
Episode 150, Total Reward: 28.0
Episode 200, Total Reward: 26.0
Episode 250, Total Reward: 70.0
Episode 300, Total Reward: 218.0
Episode 350, Total Reward: 346.0
Episode 400, Total Reward: 202.0
Episode 450, Total Reward: 500.0
附文档2算法执行:
附文档3算法执行:
相关文章:

具身系列——比较3种vpg算法方式玩CartPole游戏(强化学习)
文档1方式参考:https://gitee.com/chencib/ailib/blob/master/rl/vpg_baseline_cartpole.py 文档2方式参考:https://gitee.com/chencib/ailib/blob/master/rl/vpg_batchupdate_cartpole.py 文档3方式参考:https://gitee.com/chencib/ailib/bl…...

面向未来的 TCP 协议设计:可扩展与兼容并存
目录 1.设计思路 (1)完整数据结构(字节布局) 1)字段解释: 2)Flags字段设计(1字节位图) (2)进阶版 Java 解码器实现(示例…...
PyTorch_自动微分模块
自动微分 (Autograd) 模块对张量做了进一步的封装,具有自动求导功能。自动微分模块是构成神经网络训练的必要模块,在神经网络的反向传播过程中,Autograd 模块基于正向计算的结果对当前的参数进行微分计算,从而实现网络权重参数的更…...
【Git】【commit】查看未推送的提交查看指定commit的修改内容合并不连续的commit
文章目录 1. 查看未推送的提交方法一 :git status方法二:git log方法三:git cherry方法四:git rev-list 2. 查看指定commit的修改方法一:git show方法二:git log方法三:git diff 3. 合并不连续的…...
手写 Vue 源码 === 依赖清理机制详解
目录 引言 响应式系统基础回顾 依赖清理的必要性 ReactiveEffect 类的设计 依赖清理的三个关键函数 1. preCleanEffect:执行前的准备 2. trackEffects:依赖收集与 diff 算法 3. postCleanEffect:执行后的清理 4. cleanDepEffect:清理依赖 实际案例分析 依赖清理算…...

LSB图像信息隐藏系统(MATLAB)
图像信息隐藏系统 系统概述 图像信息隐藏系统是一个基于MATLAB开发的图像隐写工具,采用自适应LSB(最低有效位)隐写算法,实现了信息在图像中的隐藏与提取功能。系统配备了直观的图形用户界面,支持图像分析、信息隐藏、…...

C++GO语言微服务项目之 go语言基础语法
目录 01 变量定义 02 自增语法 03 指针 04 go不支持的语法 05 string 06 定长数组-forrange 07 动态数组追加元素 08 切片截取-copy-make介绍 09 map介绍 10 函数 11 内存逃逸 12 import 13 命令行参数-switch 14 标签与continue-goto-break配合使用 15 枚举cons…...
DDR在PCB布局布线时的注意事项及设计要点
一、布局注意事项 控制器与DDR颗粒的布局 靠近原则:控制器与DDR颗粒应尽量靠近,缩短时钟(CLK)、地址/控制线(CA)、数据线(DQ/DQS)的走线长度,减少信号延迟差异。 分组隔…...
【每天学习一点点】使用Python的pathlib模块分割文件路径
使用Python的pathlib模块分割文件路径 pathlib模块(Python 3.4)提供了面向对象的文件系统路径操作方式,比传统的os.path更加直观和易用。以下是使用pathlib分割文件路径的几种方法: 基本路径分割 from pathlib import Path# 创…...
Hydra详细教程:入门、入狱,和使用与注意事项
警告:本文档仅供学习和授权测试目的使用。未经授权对计算机系统进行渗透测试是非法行为。请务必在获得明确许可的情况下使用Hydra,并遵守所有适用的法律法规。滥用此工具可能导致严重的法律后果。 什么是Hydra? Hydra是一款非常流行的开源网…...
【C++游戏引擎开发】第32篇:物理引擎(Bullet)—约束系统
一、约束系统基础理论 1.1 物理约束的本质 1.1.1 约束的数学描述 在刚体动力学中,约束的本质是通过数学方程限制刚体的运动自由度。对于两个刚体A和B的约束关系,可以用以下方程表示: Φ ( q A , q B , t ) = 0...

最新字节跳动运维云原生面经分享
继续分享最新的go面经。 今天分享的是组织内部的朋友在字节的go运维工程师岗位的云原生方向的面经,涉及Prometheus、Kubernetes、CI/CD、网络代理、MySQL主从、Redis哨兵、系统调优及基础命令行工具等知识点,问题我都整理在下面了 面经详解 Prometheus …...

理解 Elasticsearch 的评分机制和 Explain API
作者:来自 Elastic Kofi Bartlett 深入了解 Elasticsearch 的评分机制并探索 Explain API。 想获得 Elastic 认证吗?查看下一期 Elasticsearch Engineer 培训的时间! Elasticsearch 拥有大量新功能,帮助你为你的使用场景构建最佳…...
NGINX `ngx_http_charset_module` 字符集声明与编码转换
一、模块定位与功能 ngx_http_charset_module 主要提供两大能力: 响应头声明:在 Content-Type 头部自动添加 ; charsetXXX,告知客户端所用字符集。单向编码转换:在 NGINX 层将一种单字节编码(如 koi8-r、windows-125…...

视频编解码学习三之显示器
整理自:显示器_百度百科,触摸屏_百度百科,百度安全验证 分为阴极射线管显示器(CRT),等离子显示器PDP,液晶显示器LCD 液晶显示器的组成。一般来说,液晶显示器由以下几个部分组成: […...
Python中的re库详细用法与代码解析
目录 1. 前言 2. 正则表达式的基本概念 2.1 什么是正则表达式? 2.2 常用元字符 3. re库的适应场景 3.1 验证用户输入 3.2 从文本中提取信息 3.3 文本替换与格式化 3.4 分割复杂字符串 3.5 数据清洗与预处理 4. re库的核心功能详解 4.1 re.match()&#…...

K8s网络从0到1
K8s网络从0到1 前言 K8s是一个强大的平台,但它的网络比较复杂,涉及很多概念,例如Pod网络,Service网络,Cluster IPs,NodePort,LoadBalancer和Ingress等等。为了帮助大家理解,模仿TC…...

13.Excel:分列
一 分列的作用 将一个单元格中的内容拆分到两个或多个单元格当中。 二 如何使用 1.常规分列使用 注意:分列功能一次只能拆分一列。 长度一致或者数据间有分隔符。 补充:快速选择一列。 CTRL shift 向下箭头。 补充:中英文逗号不同。 可以先通…...
第十六届蓝桥杯大赛软件赛C/C++大学B组部分题解
第十六届蓝桥杯大赛软件赛C/C大学B组题解 试题A: 移动距离 问题描述 小明初始在二维平面的原点,他想前往坐标(233,666)。在移动过程中,他只能采用以下两种移动方式,并且这两种移动方式可以交替、不限次数地使用: 水平向右移动…...

计算机网络应用层(5)-- P2P文件分发视频流和内容分发网
💓个人主页:mooridy 💓专栏地址:《计算机网络:自顶向下方法》 大纲式阅读笔记_mooridy的博客-CSDN博客 💓本博客内容为《计算机网络:自顶向下方法》第二章应用层第五、六节知识梳理 关注我&…...

Gin优雅关闭 graceful-shutdown
文章目录 优雅关闭示例 - Close 方法项目结构使用方法代码如下代码说明如果去掉代码中的数字1,会发生什么 优雅关闭示例项目结构使用方法使用上下文通知不使用上下文通知 代码 notify-without-context-server.go代码说明 代码 notify-with-context-server.go代码说明…...
Android 查看 Logcat (可纯手机方式 无需电脑)
安装 Logcat Reader Github Google Play 如果有电脑 使用其ADB方式可执行如下命令 后续无需安装Termux # 使用 ADB 授予 android.permission.READ_LOGS 权限给 Logcat Reader adb shell "pm grant com.dp.logcatapp android.permission.READ_LOGS && am force-…...
Java 中常见的数据结构及其常用 API
本文总结了 Java 中常见的数据结构及其常用 API,帮助开发者在写算法时能够快速选择合适的数据结构和操作。通过使用合适的 API,可以有效减少计算复杂度,并提高代码的执行效率。 1. 数组 数组是 Java 中最常用的数据结构之一,Jav…...

五子棋html
<!DOCTYPE html> <html lang"zh-CN"> <head> <meta charset"UTF-8" /> <meta name"viewport" content"widthdevice-width, initial-scale1" /> <title>五子棋游戏</title> <style>bo…...
在Laravel 12中实现基于parent_id的树状数组
在Laravel中实现基于parent_id的树状数组,可以通过预加载所有节点并在内存中递归构建树结构来完成。以下是具体步骤和代码示例: 1. 创建模型及数据库迁移 迁移文件: // 创建节点表 Schema::create(nodes, function (Blueprint $table) {$t…...

JavaWeb:后端web基础(TomcatServletHTTP)
一、今日内容 二、Tomcat 介绍与使用 介绍 基本使用 小结 配置 配置 查找进程 三、Servlet 什么是Servlet 快速入门 需求 步骤 1.新建工程-模块(Maven) 2.修改打包方式-war 3.编写代码 /*** 可以选择继承HttpServlet*/ WebServlet("/hello&q…...
C++负载均衡远程调用学习之负载均衡算法与实现
目录 01 lars 系统架构回顾 02 lars-lbAgentV0.4-route_lb处理report业务流程 03 lars-lbAgentV0.4-负责均衡判断参数配置 04 lars-lbAgentV0.4-负载均衡idle节点的失败率判断 05 lars-lbAgentV0.4-负载均衡overload节点的成功率判断 06 lars-lbAgentV0.4-负载均衡上报提交…...

缓存(1):三级缓存
三级缓存是指什么 我们常说的三级缓存如下: CPU三级缓存Spring三级缓存应用架构(JVM、分布式缓存、db)三级缓存 CPU 基本概念 CPU 的访问速度每 18 个月就会翻 倍,相当于每年增⻓ 60% 左右,内存的速度当然也会不断…...

Cursor —— AI编辑器 使用详解
Cursor - The AI Code Editor 一、Cursor 是什么? Cursor 是一款优秀的AI代码编辑器,它内置了 Deepseek-R1、GPT-4、Claude等 AI 模型。 简单说,就是:Cursor VS Code 编辑器 AI 大模型 Cursor 功能特性(代码补全、…...

Pytorch-CUDA版本环境配置
Pytorch-CUDA版本环境配置 电脑如果是Windows平台下的Nvidia GPU的用户,需配置Pytorch的CUDA版本,分为三步: 1. 安装或更新NVIDA显卡驱动 官方驱动下载地址: https://www.nvidia.cn/Download/index.aspx?langcn 2. 安装CUDA Too…...