当前位置：首页 > news >正文

强化学习_06_pytorch-PPO2实践(ALE/Breakout-v5)

news 2025/7/7 15:43:20

一、环境适当调整

数据收集：RecordEpisodeStatistics
进行起始跳过n帧：baseSkipFrame
一条生命结束记录为done:EpisodicLifeEnv
得分处理成0或1:ClipRewardEnv
叠帧: FrameStack
- 图像环境的基本操作，方便CNN捕捉智能体的行动
向量空间reset处理修复
- gym.vector.SyncVectorEnv: 原始代码中的reset是随机的
- 继承重写的spSyncVectorEnv方法，支持每个向量的环境的seed一致，利于同一seed下环境的训练


class spSyncVectorEnv(gym.vector.SyncVectorEnv):"""step_await _terminateds reset"""def __init__(self,env_fns: Iterable[Callable[[], Env]],observation_space: Space = None,action_space: Space = None,copy: bool = True,random_reset: bool = False,seed: int = None):super().__init__(env_fns, observation_space, action_space, copy)self.random_reset = random_resetself.seed = seeddef step_wait(self) -> Tuple[Any, NDArray[Any], NDArray[Any], NDArray[Any], dict]:"""Steps through each of the environments returning the batched results.Returns:The batched environment step results"""observations, infos = [], {}for i, (env, action) in enumerate(zip(self.envs, self._actions)):(observation,self._rewards[i],self._terminateds[i],self._truncateds[i],info,) = env.step(action)if self._terminateds[i]:old_observation, old_info = observation, infoif self.random_reset:observation, info = env.reset(seed=np.random.randint(0, 999999))else:observation, info = env.reset() if self.seed is None else env.reset(seed=self.seed) info["final_observation"] = old_observationinfo["final_info"] = old_infoobservations.append(observation)infos = self._add_info(infos, info, i)self.observations = concatenate(self.single_observation_space, observations, self.observations)return (deepcopy(self.observations) if self.copy else self.observations,np.copy(self._rewards),np.copy(self._terminateds),np.copy(self._truncateds),infos,)

二、pytorch实践

2.1 智能体构建与训练

详细可见 Github: test_ppo_atari.Breakout_v5_ppo2_test

调整向量环境的reset 之后，

支持actor, criticor用同一个cnn层提取特征(PPOSharedCNN)
对eps进行了调小->eps=0.165，希望更新的策略范围更小一些；
关闭学习率衰减
进行不同ent_coef的尝试: 稍微大一点，增加agent的探索；
- ent_coef=0.015 & batch_size=256+128batch 陡降-回升慢
- ent_coef=0.025 & batch_size=256 陡降回升-最终reward=311
- √ ent_coef=0.05 & batch_size=256 -最终PPO2__AtariEnv instance__20241029__2217 reward=416
- ent_coef=0.05 & batch_size=256+128
- ent_coef=0.1 & batch_size=256 提升过于平缓

env_name = 'ALE/Breakout-v5' 
env_name_str = env_name.replace('/', '-')
gym_env_desc(env_name)
print("gym.__version__ = ", gym.__version__ )
path_ = os.path.dirname(__file__)
num_envs = 12
episod_life = True
clip_reward = True
resize_inner_area = True # True
env_pool_flag = False # True
seed = 202404
envs = spSyncVectorEnv([make_atari_env(env_name, skip=4, episod_life=episod_life, clip_reward=clip_reward, ppo_train=True, max_no_reward_count=120, resize_inner_area=resize_inner_area) for _ in range(num_envs)],random_reset=False,seed=202404
)
dist_type = 'norm'
cfg = Config(envs, save_path=os.path.join(path_, "test_models" ,f'PPO2_{env_name_str}-2'),  seed=202404,num_envs=num_envs,episod_life=episod_life,clip_reward=clip_reward,resize_inner_area=resize_inner_area,env_pool_flag=env_pool_flag,# 网络参数 Atria-CNN + MLPactor_hidden_layers_dim=[512, 256], critic_hidden_layers_dim=[512, 128], # agent参数actor_lr=4.5e-4,   gamma=0.99,# 训练参数num_episode=3600,  off_buffer_size=128,  max_episode_steps=128, PPO_kwargs={'cnn_flag': True,'clean_rl_cnn': True,'share_cnn_flag': True,'continue_action_flag': False,'lmbda': 0.95,'eps':  0.165,  # 0.165'k_epochs': 4,  #  update_epochs'sgd_batch_size': 512,  'minibatch_size': 256, 'act_type': 'relu','dist_type': dist_type,'critic_coef': 1.0, # 1.0'ent_coef': 0.05, 'max_grad_norm': 0.5,  'clip_vloss': True,'mini_adv_norm': True,'anneal_lr': False,'num_episode': 3600,}
)
minibatch_size = cfg.PPO_kwargs['minibatch_size']
max_grad_norm = cfg.PPO_kwargs['max_grad_norm']
cfg.trail_desc = f"actor_lr={cfg.actor_lr},minibatch_size={minibatch_size},max_grad_norm={max_grad_norm},hidden_layers={cfg.actor_hidden_layers_dim}",
agent = PPO2(state_dim=cfg.state_dim,actor_hidden_layers_dim=cfg.actor_hidden_layers_dim,critic_hidden_layers_dim=cfg.critic_hidden_layers_dim,action_dim=cfg.action_dim,actor_lr=cfg.actor_lr,critic_lr=cfg.critic_lr,gamma=cfg.gamma,PPO_kwargs=cfg.PPO_kwargs,device=cfg.device,reward_func=None
)
agent.train()
ppo2_train(envs, agent, cfg, wandb_flag=True, wandb_project_name=f"PPO2-{env_name_str}-NEW",train_without_seed=False, test_ep_freq=cfg.off_buffer_size * 10, online_collect_nums=cfg.off_buffer_size,test_episode_count=10, add_max_step_reward_flag=False,play_func='ppo2_play',ply_env=ply_env
)

2.2 训练出的智能体观测

最后将训练的最好的网络拿出来进行观察


env = make_atari_env(env_name, skip=4, episod_life=episod_life, clip_reward=clip_reward, ppo_train=True, max_no_reward_count=120, resize_inner_area=resize_inner_area, render_mode='human')()
ppo2_play(env, agent, cfg, episode_count=2, play_without_seed=False, render=True, ppo_train=True)

在这里插入图片描述

强化学习_06_pytorch-PPO2实践(ALE/Breakout-v5)

一、环境适当调整数据收集：RecordEpisodeStatistics进行起始跳过n帧：baseSkipFrame一条生命结束记录为done:EpisodicLifeEnv得分处理成0或1:ClipRewardEnv叠帧: FrameStack 图像环境的基本操作，方便CNN捕捉智能体的行动向量空间reset处理修…...

编程日记 2024/11/8 2:23:33

《JVM第8课》垃圾回收算法

文章目录 1.标记算法1.1 引用计数法1.2 可达性分析法 2.回收算法2.1 标记-清除算法（Mark-Sweep）2.2 复制算法（Coping）2.3 标记-整理算法（Mark-Compact） 3.三种垃圾回收算法的对比为什么要进行垃圾回收&…...

编程日记 2024/11/8 2:20:30

SpringBoot整合Freemarker（二）

if分支语法： <#if condition>... <#elseif condition2>... <#elseif condition3>... <#else>... </#if> 例子： <#if x 1>x is 1 </#if> --------------------------------- <#if x 1>x is 1 <…...

编程日记 2024/11/8 2:19:29

element plus el-form自定义验证输入框为纯数字函数

element plus 的el-form 使用自定义验证器，验证纯数字，禁止输入小数、中文、字母、特殊符号。input的maxlength为最大输入多少位长度效果图 <el-form ref"dataFormRef" :model"dataForm" :rules"dataRules" label-w…...

编程日记 2024/11/8 2:18:28

Android笔记(三十一)：Deeplink失效问题

背景通过deeplink启动应用之后，没关闭应用的情况下，再次使用deeplink会失效的问题，是系统bug导致的。此bug仅在某些设备（Nexus 5X）上重现，launchMode并且仅当应用程序最初通过深层链接启动并再次通过深层…...

编程日记 2024/11/8 2:15:23

图神经网络初步实验

实验复现来源 https://zhuanlan.zhihu.com/p/603486955 该文章主要解决问题： 1.加深对图神经网络数据集的理解 2.加深对图神经网络模型中喂数据中维度变化的理解原理问题在另一篇文章分析： 介绍数据集：cora数据集其中的主要内容表示为…...

编程日记 2024/11/8 2:14:22

创建线程时传递参数给线程

在C中，可以使用 std::thread 来创建和管理线程，同时可以通过几种方式将参数传递给线程函数。这些方法包括使用值传递、引用传递和指针传递。下面将对这些方法进行详细讲解并给出相应的代码示例。 1. 值传递参数当你创建线程并希望传递参数时&#xff…...

编程日记 2024/11/8 2:12:20

兴业严选|美国总统都是不良资产出身法拍市场是否将大众化

北京时间11月6日，特朗普赢得美国大选。说起特朗普那就不得不提他的发家史，那可真是一笔笔不良资产投资堆出来的。没错，特朗普就是处理不良资产的高手，战果丰硕。改造斯威夫特小镇、康莫德酒店、打造特朗普（TRUM…...

编程日记 2024/11/8 2:10:18

C#-拓展方法

概念：为现有的非静态变量类型，添加方法语法： 访问修饰符 static 返回值函数名(this 拓展类名参数名, 参数类型参数名,参数类型参数名....){} 而public static void F(this Console()){ }是错的。Console是静态类不可以为静态类添加方…...

编程日记 2024/11/8 2:09:17

加锁失效，非锁之过，加之错也|京东零售供应链库存研发实践

本文导读从事京东零售供应链库存业务，库存数量操作增减十分频繁，并且项目开发中会常常遇到各种并发情况，一旦库存数量操作有误，势必给前台销售产生损失影响，因此需要关注对库存数量并发操作下的一致性问题。大部分…...

编程日记 2024/11/8 2:08:16

vue3 传值的几种方式

一.父组件传子组件父组件 //父组件 <Decisionobject :Decisionselected"Decisionselected"></Decisionobject> <script lang"ts" setup> let Decisionselected ref(false); </script>子组件 <script lang"ts" s…...

编程日记 2024/11/8 2:07:15

AUTOSAR CP NVRAM Manager规范导读

一、NVRAM Manager功能概述 NVRAM Manager是AUTOSAR（AUTomotive Open System ARchitecture）框架中的一个模块，负责管理非易失性随机访问存储器（NVRAM）。它提供了一组服务和API，用于在汽车环境中存储、维护和恢复NV数据。以下是NVRAM Manager的一些关键功能：数据存储和…...

编程日记 2024/11/8 2:06:14

《Java代码审计》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484219&idx1&sn73564e316a4c9794019f15dd6b3ba9f6&chksmc0e47a67f793f371e9f6a4fbc06e7929cb1480b7320fae34c32563307df3a28aca49d1a4addd&scene21#wechat_redirect 前言又是周末…...

编程日记 2024/11/8 2:04:12

软件著作权申请教程（超详细）（2024新版）软著申请

目录一、注册账号与实名登记二、材料准备三、申请步骤 1.办理身份 2.软件申请信息 3.软件开发信息 4.软件功能与特点 5.填报完成一、注册账号与实名登记首先我们需要在官网里面注册一个账号，并且完成实名认证，一般是注册【个人】的身份。中…...

编程日记 2024/11/8 2:03:11

三维测量与建模笔记 - 3.2 直接线性变换法标定DLT

DLT - Direct Linear Transform 上图中，透视成像对应的公式是共线方程，可以参考以下链接： https://zhuanlan.zhihu.com/p/101549821https://zhuanlan.zhihu.com/p/101549821 对于标定来说，需要找到。已知量是。 (u,v)是…...

编程日记 2024/11/8 2:01:09

Whisper AI视频（音频）转文本

在信息化时代，如何高效处理丰富的音频和视频内容成为了一个重要课题。将这些内容转化为文本不仅能提高信息的可获取性，还能促进更广泛的传播。Whisper Desktop作为一款先进的语音识别工具，能够帮助用户轻松实现音频和视频的转文本功能。什么…...

编程日记 2024/11/8 1:58:06

全网最详细RabbitMQ教学包括如何安装环境【RabbitMQ】RabbitMQ + Spring Boot集成零基础入门（基础篇）

目录一、初始Rabbitmq1、什么是Rabbitmq，它的概述是什么？2、RabbitMQ的应用场景3、RabbitMQ主要组件4、RabbitMQ 的优点5、与其他消息队列性能比较二、RabbitMQ环境安装初始化三、SpringAMQPRabbitMQ实战入门（基本API）1、实战入…...

编程日记 2024/11/8 1:57:05

esp32记录一次错误

报错信息 PS C:\XingNian\GeRen\4Gdownload\wireless-esp8266-dap> idf.py build Executing action: all (aliases: build) Running cmake in directory c:\xingnian\geren\4gdownload\wireless-esp8266-dap\build Executing "cmake -G Ninja -DPYTHON_DEPS_CHECKED1 …...

编程日记 2024/11/8 1:56:04

Moonshine - 新型开源ASR（语音识别）模型，体积小，速度快，比OpenAI Whisper快五倍本地一键整合包下载

Moonshine 是由 Useful Sensors 公司推出的一系列「语音到文本（speech-to-text, STT）转换模型」，旨在为资源受限设备提供快速而准确的「自动语音识别（ASR）服务」。Moonshine 的设计特别适合于需要即时响应的应用场景&a…...

编程日记 2024/11/8 1:54:01

java-web-苍穹外卖-day1:软件开发步骤简化版+后端环境搭建

软件开发感觉书本上和线上课程, 讲的太抽象, 不好理解, 但软件开发不就是为了开发应用程序吗?! 干嘛搞这么抽象,对吧, 下面个人对于软件开发的看法, 主打简单易懂, 当然,我一IT界小菜鸟, 对软件开发的认识也很浅显, 这个思维导图也仅仅是现阶段我的看法, 我以后会尽力…...

编程日记 2024/11/8 1:53:00

反向工程与模型迁移：打造未来商品详情API的可持续创新体系

在电商行业蓬勃发展的当下，商品详情API作为连接电商平台与开发者、商家及用户的关键纽带，其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息（如名称、价格、库存等）的获取与展示，已难以满足市场对个性化、智能…...

编程新知 2025/6/15 17:37:51

mongodb源码分析session执行handleRequest命令find过程

mongo/transport/service_state_machine.cpp已经分析startSession创建ASIOSession过程，并且验证connection是否超过限制ASIOSession和connection是循环接受客户端命令，把数据流转换成Message，状态转变流程是：State::Created 》 St…...

编程新知 2025/6/17 17:52:51

使用分级同态加密防御梯度泄漏

抽象联邦学习 （FL） 支持跨分布式客户端进行协作模型训练，而无需共享原始数据，这使其成为在互联和自动驾驶汽车 （CAV） 等领域保护隐私的机器学习的一种很有前途的方法。然而，最近的研究表明&…...

编程新知 2025/7/2 12:22:47

React Native在HarmonyOS 5.0阅读类应用开发中的实践

一、技术选型背景随着HarmonyOS 5.0对Web兼容层的增强，React Native作为跨平台框架可通过重新编译ArkTS组件实现85%以上的代码复用率。阅读类应用具有UI复杂度低、数据流清晰的特点。二、核心实现方案 1. 环境配置 （1）使用React Native…...

编程新知 2025/7/6 2:55:54

linux arm系统烧录

1、打开瑞芯微程序 2、按住linux arm 的 recover按键插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 （忘了有没有这步了估计有） 刷机程序和镜像就不提供了。要刷的时…...

编程新知 2025/7/5 16:10:18

页面渲染流程与性能优化

页面渲染流程与性能优化详解（完整版） 一、现代浏览器渲染流程（详细说明） 1. 构建DOM树浏览器接收到HTML文档后，会逐步解析并构建DOM（Document Object Model）树。具体过程如下： (…...

编程新知 2025/7/7 0:36:50

JUC笔记(上)-复习涉及死锁 volatile synchronized CAS 原子操作

一、上下文切换即使单核CPU也可以进行多线程执行代码，CPU会给每个线程分配CPU时间片来实现这个机制。时间片非常短，所以CPU会不断地切换线程执行，从而让我们感觉多个线程是同时执行的。时间片一般是十几毫秒(ms)。通过时间片分配算法执行。…...

编程新知 2025/7/6 21:36:13

Element Plus 表单(el-form)中关于正整数输入的校验规则

目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入（联动）2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...

编程新知 2025/7/5 21:10:52

使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台

🎯 使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台 📌 项目背景随着大语言模型（LLM）的广泛应用，开发者常面临多个挑战：各大模型（OpenAI、Claude、Gemini、Ollama）接口风格不统一；缺乏一个统一平台进行模型调用与测试；本地模型 Ollama 的集成与前…...

编程新知 2025/7/6 3:52:18

Springboot社区养老保险系统小程序

一、前言随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，社区养老保险系统小程序被用户普遍使用，为方…...

编程新知 2025/7/7 0:36:13

强化学习_06_pytorch-PPO2实践(ALE/Breakout-v5)

一、环境适当调整

二、pytorch实践

2.1 智能体构建与训练

2.2 训练出的智能体观测

相关文章：

强化学习_06_pytorch-PPO2实践(ALE/Breakout-v5)

《JVM第8课》垃圾回收算法

SpringBoot整合Freemarker（二）

element plus el-form自定义验证输入框为纯数字函数

Android笔记(三十一)：Deeplink失效问题

图神经网络初步实验

创建线程时传递参数给线程

兴业严选|美国总统都是不良资产出身法拍市场是否将大众化

C#-拓展方法

加锁失效，非锁之过，加之错也|京东零售供应链库存研发实践

vue3 传值的几种方式

AUTOSAR CP NVRAM Manager规范导读

2024阿里云CTF Web writeup

软件著作权申请教程（超详细）（2024新版）软著申请

三维测量与建模笔记 - 3.2 直接线性变换法标定DLT

Whisper AI视频（音频）转文本

全网最详细RabbitMQ教学包括如何安装环境【RabbitMQ】RabbitMQ + Spring Boot集成零基础入门（基础篇）

esp32记录一次错误

Moonshine - 新型开源ASR（语音识别）模型，体积小，速度快，比OpenAI Whisper快五倍本地一键整合包下载

java-web-苍穹外卖-day1:软件开发步骤简化版+后端环境搭建

反向工程与模型迁移：打造未来商品详情API的可持续创新体系

mongodb源码分析session执行handleRequest命令find过程

使用分级同态加密防御梯度泄漏

React Native在HarmonyOS 5.0阅读类应用开发中的实践

linux arm系统烧录

页面渲染流程与性能优化

JUC笔记(上)-复习涉及死锁 volatile synchronized CAS 原子操作

Element Plus 表单(el-form)中关于正整数输入的校验规则

使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台

Springboot社区养老保险系统小程序