当前位置: 首页 > article >正文

stable_baseline3 快速入门(二): 训练自定义游戏,构建Gymnasium训练环境

简介Gymnasium为强化学习提供了一个标准化的API它定义了 Agent 应该如何观察世界、如何做出动作以及如何获得奖励不管是游戏还是工业设备只需要满足Gymnasium标准都能使用同一套代码进行训练。认识Gymnasium使用stable_baseline3只需要定义好Gymnasium环境关注训练的奖励机制将重点放在业务的开发上而不是复杂的算法。Gymnasium提供了几个核心的api方法功能返回值reset()将环境重置为初始状态开始新回合。obs, infostep(action)环境向前推进一步执行动作。obs, reward, terminated, truncated, inforender()可视化环境根据render_mode渲染图像或弹出窗口。视配置而定通常无或为np.arrayclose()释放环境资源关闭窗口、清理内存。无其中的各个返回值的含义observation(Object): 当前状态的描述。例如敌人玩家的位置玩家的状态等reward(Float): 上一步动作获得的奖励terminated(Bool): 是否由于任务逻辑结束。例如到达终点、掉进岩浆等truncated(Bool): 是否由于外部限制结束。例如达到最大步数 500 步info(Dict): 辅助诊断信息模型训练通常不用用于用户自定义调试或记录额外统计。手动构建环境案例案例描述利用pygame构建一个简单的游戏躲避掉落方块利用构建的奖励机制进行强化学习。import gymnasium as gym from gymnasium import spaces import numpy as np import pygame import random import cv2 import os from stable_baselines3 import PPO from stable_baselines3.common.callbacks import CheckpointCallback from stable_baselines3.common.env_checker import check_env class MyEnv(gym.Env): def __init__(self, render_modeNone): super(MyEnv, self).__init__() #初始化参数 self.width 400 self.height 300 self.player_size 30 self.enemy_size 30 self.render_mode render_mode self.action_space spaces.Discrete(3) self.observation_space spaces.Box( low0, high255, shape(84, 84, 3), dtypenp.uint8 ) pygame.init() if self.render_mode human: self.screen pygame.display.set_mode((self.width, self.height)) self.canvas pygame.Surface((self.width, self.height)) self.font pygame.font.SysFont(monospace, 15) def reset(self, seedNone, optionsNone): super().reset(seedseed) self.player_x self.width // 2 - self.player_size // 2 self.player_y self.height - self.player_size - 10 self.enemies [] self.score 0 self.frame_count 0 self.current_speed 5 self.spawn_rate 30 return self._get_obs(), {} def step(self, action): reward 0 terminated False truncated False move_speed 8 if action 1 and self.player_x 0: # self.player_x - move_speed reward - 0.05 if action 2 and self.player_x self.width - self.player_size: self.player_x move_speed reward - 0.05 self.frame_count 1 level self.score // 5 self.current_speed 5 level self.spawn_rate 30 - level * 2 spawn_rate max(10, 30 - level) if self.frame_count spawn_rate: self.frame_count 0 enemy_x random.randint(0, self.width - self.enemy_size) self.enemies.append([enemy_x, 0]) # [x, y] for enemy in self.enemies: enemy[1] self.current_speed player_rect pygame.Rect(self.player_x, self.player_y, self.player_size, self.player_size) enemy_rect pygame.Rect(enemy[0], enemy[1], self.enemy_size, self.enemy_size) if player_rect.colliderect(enemy_rect): reward -10 terminated True elif enemy[1] self.height: self.enemies.remove(enemy) self.score 1 reward 1 if not terminated: if self.score 100: reward 0.01 reward 0.01 obs self._get_obs() if self.render_mode human: self._render_window() return obs, reward, terminated, truncated, {} def _get_obs(self): self.canvas.fill((0, 0, 0)) pygame.draw.rect(self.canvas, (50, 150, 255), (self.player_x, self.player_y, self.player_size, self.player_size)) for enemy in self.enemies: pygame.draw.rect(self.canvas, (255, 50, 50), (enemy[0], enemy[1], self.enemy_size, self.enemy_size)) img_array pygame.surfarray.array3d(self.canvas) img_array np.transpose(img_array, (1, 0, 2)) obs cv2.resize(img_array, (84, 84), interpolationcv2.INTER_AREA) return obs.astype(np.uint8) def _render_window(self): self.screen.blit(self.canvas, (0, 0)) text self.font.render(fScore: {self.score}, True, (255, 255, 255)) self.screen.blit(text, (10, 10)) pygame.display.flip() for event in pygame.event.get(): if event.type pygame.QUIT: pygame.quit() def train(): log_dir logs/DodgeGame os.makedirs(log_dir, exist_okTrue) env MyEnv() check_env(env) print(环境检查通过...) model_path models/dodge_ai.zip if not os.path.exists(model_path): print( 未发现旧模型从头开始训练...) model PPO( CnnPolicy, env, verbose1, tensorboard_loglog_dir, learning_rate0.0001, n_steps4096, batch_size256, devicecuda) reset_timesteps True else: print(发现旧模型加载并继续训练...) model PPO.load( model_path, envenv, devicecuda, custom_objects{learning_rate: 0.0001, n_steps: 4096, batch_size: 256} ) reset_timesteps False print(开始训练...) model.learn( total_timesteps50000, reset_num_timestepsreset_timesteps ) model.save(models/dodge_ai) print(模型已保存) env.close() def prodict(): env MyEnv(render_modehuman) model PPO.load(models/dodge_ai, envenv, devicecuda) obs, _ env.reset() while True: action, _states model.predict(obs, deterministicTrue) obs, reward, terminated, truncated, info env.step(action) if terminated or truncated: obs, _ env.reset() pygame.time.Clock().tick(30) if __name__ __main__: train() prodict()代码解析代码流程如下构建游戏环境-训练模型-模型预测本篇重点讲构建游戏环境其中的pygame相关代码简略另外两个流程参考之前文章。构建游戏环境初始化类该类继承gym.Env类class MyEnv(gym.Env):构造函数__init__def __init__(self, render_modeNone): super(MyEnv, self).__init__() #初始化参数 self.width 400 self.height 300 self.player_size 30 self.enemy_size 30 self.render_mode render_mode self.action_space spaces.Discrete(3) self.observation_space spaces.Box( low0, high255, shape(84, 84, 3), dtypenp.uint8 ) pygame.init() if self.render_mode human: self.screen pygame.display.set_mode((self.width, self.height)) self.canvas pygame.Surface((self.width, self.height)) self.font pygame.font.SysFont(monospace, 15)在构造函数中我们主要完成的是声明训练的维度和输入输入self.action_space spaces.Discrete(3)其中的self.action_space是固定名称的父类变量。spaces.Discrete(3)声明输入的数量例如向左 向右 和 不动3个输入。观测维度self.observation_space也是固定名称的父类变量。spaces.Box声明观测维度。self.observation_space spaces.Box( low0, high255, shape(84, 84, 3), dtypenp.uint8 )low观测参数的最小值high观测参数的最大值shape声明维度。例如观测图片shape(高宽RGB)观测一个平面shape(高,宽)dtype每个变量类型这里选np.uint8能够节省训练成本默认是浮点型的。任务重置 reset相当于初始化游戏状态游戏的重新开始。返回的是观测值和状态信息用于调试日志def reset(self, seedNone, optionsNone): super().reset(seedseed) self.player_x self.width // 2 - self.player_size // 2 self.player_y self.height - self.player_size - 10 self.enemies [] self.score 0 self.frame_count 0 self.current_speed 5 self.spawn_rate 30 return self._get_obs(), {}观测值_get_obs通过pygame画出的画面然后用opencv进行简单处理转换坐标轴由于opencv坐标xy轴跟pygame的xy是颠倒的将画面缩放到84 * 84可以提高训练效率def _get_obs(self): self.canvas.fill((0, 0, 0)) pygame.draw.rect(self.canvas, (50, 150, 255), (self.player_x, self.player_y, self.player_size, self.player_size)) for enemy in self.enemies: pygame.draw.rect(self.canvas, (255, 50, 50), (enemy[0], enemy[1], self.enemy_size, self.enemy_size)) img_array pygame.surfarray.array3d(self.canvas) img_array np.transpose(img_array, (1, 0, 2)) obs cv2.resize(img_array, (84, 84), interpolationcv2.INTER_AREA) return obs.astype(np.uint8)步 step重要这个函数是强化训练的核心规定了在一帧或者一步我们给AI的分数。分数的设置至关重要这直接决定了训练出来AI的质量根据下面代码大部分都是游戏逻辑主要讲设置奖励分数在AI进行移动时 惩罚 0.05 分在AI存活时 奖励 0.01分游戏分数大于100时 存活奖励 0.02分在障碍物完全下落时 奖励 1 分在与障碍物碰撞时 惩罚 10 分def step(self, action): reward 0 terminated False truncated False move_speed 8 if action 1 and self.player_x 0: # self.player_x - move_speed reward - 0.05 if action 2 and self.player_x self.width - self.player_size: self.player_x move_speed reward - 0.05 self.frame_count 1 level self.score // 5 self.current_speed 5 level self.spawn_rate 30 - level * 2 spawn_rate max(10, 30 - level) if self.frame_count spawn_rate: self.frame_count 0 enemy_x random.randint(0, self.width - self.enemy_size) self.enemies.append([enemy_x, 0]) # [x, y] for enemy in self.enemies: enemy[1] self.current_speed player_rect pygame.Rect(self.player_x, self.player_y, self.player_size, self.player_size) enemy_rect pygame.Rect(enemy[0], enemy[1], self.enemy_size, self.enemy_size) if player_rect.colliderect(enemy_rect): reward -10 terminated True elif enemy[1] self.height: self.enemies.remove(enemy) self.score 1 reward 1 if not terminated: if self.score 100: reward 0.01 reward 0.01 obs self._get_obs() if self.render_mode human: self._render_window() return obs, reward, terminated, truncated, {}展示游戏画面下面完全是pygame代码用于显示游戏画面这里就不解释了。def _render_window(self): self.screen.blit(self.canvas, (0, 0)) text self.font.render(fScore: {self.score}, True, (255, 255, 255)) self.screen.blit(text, (10, 10)) pygame.display.flip() for event in pygame.event.get(): if event.type pygame.QUIT: pygame.quit()

相关文章:

stable_baseline3 快速入门(二): 训练自定义游戏,构建Gymnasium训练环境

简介Gymnasium 为强化学习提供了一个标准化的API,它定义了 Agent 应该如何观察世界、如何做出动作以及如何获得奖励,不管是游戏,还是工业设备,只需要满足Gymnasium标准都能使用同一套代码进行训练。认识Gymnasium使用stable_basel…...

合并报表系统:多公司财务报表的自动合并

合并报表系统:多公司财务报表的自动合并 在全球化与集团化经营日益普遍的今天,企业往往需要管理多家子公司或分支机构的财务数据。传统的手工合并报表方式不仅耗时耗力,还容易因人为错误导致数据不准确。合并报表系统的出现,为企…...

【Python基础20讲】第01章:Python 环境搭建与第一个程序

博主智算菩萨,专注于人工智能、Python编程、音视频处理及UI窗体程序设计等方向。致力于以通俗易懂的方式拆解前沿技术,从零基础入门到高阶实战,陪伴开发者共同成长。目前已开设五大技术专栏,累计发布多篇原创技术文章,…...

山东大学软件学院2026项目实训个人博客(二)

项目名称:基于AI大模型的智能考研社区撰写日期:2026年4月18日本周我主要完成了项目基础环境的进一步搭建和Redis、RabbitMQ配置的完善,优化当前注册功能、登录功能、错题本CRUD功能,并进行Swagger测试。一、基础环境搭建从git仓获…...

Python 源码解读:核心数据结构与算法实现分析

一、前言Python 源码解读:核心数据结构与算法实现分析。本文深入源码层面,剖析核心设计原理,帮你从"会用"升级到"精通"。二、核心原理深度剖析2.1 数据结构设计# Python 装饰器的原理:闭包 函数作为一等公民…...

HC32F072 IAP实战:从Bootloader编写到APP跳转的完整避坑指南

HC32F072 IAP实战:从Bootloader编写到APP跳转的完整避坑指南 第一次在HC32F072上实现IAP功能时,我盯着那个神秘的__attribute__((section(".ARM.__at_0x2200")))发呆了一整天。为什么Flash操作函数必须放在这个特定地址?为什么跳转…...

技术挑战:模块交互中的条件替换异常分析与解决

技术挑战:模块交互中的条件替换异常分析与解决 【免费下载链接】ComfyUI-Impact-Pack Custom nodes pack for ComfyUI This custom node helps to conveniently enhance images through Detector, Detailer, Upscaler, Pipe, and more. 项目地址: https://gitcode…...

武昌老酒回收电话

随着消费升级与收藏文化的兴起,名贵老酒已成为许多家庭和企业资产的一部分。在武汉武昌区,如何处理手中闲置或珍藏的老酒,实现其价值的安全、高效变现,是不少持有者关心的话题。本文将深入分析武昌老酒回收市场的现状,…...

Go 中嵌入类型字段在派生结构体字面量中的初始化规则详解

Go 语言中,嵌入类型(embedded type)的字段虽可被派生结构体直接访问,但不能作为字段名出现在结构体字面量中;必须通过显式初始化嵌入类型本身,或先创建实例再赋值。 go 语言中,嵌入类型&am…...

第九篇技术笔记:PoDL:一根线,供电上网两不误

写在开篇:最近一位新疆美女导游特别火,说的也听感动:湾湾当归!早日回到祖国的怀抱!不是因为技术做不到,是因为那边有人需要。车载以太网也是这个道理。不是“把电源和数据放一根线上”这个技术有多难&#…...

Hermes_Agent_Windows安装文档

Hermes Agent Windows 安装文档适用系统:Windows 10/11 + WSL2 + Ubuntu 整理自实际安装过程,包含常见报错解决方案前置说明 Hermes Agent 不支持原生 Windows,必须通过 WSL2(Windows Linux 子系统)安装。 WSL2 会在 Windows 里运行一个完整的 Linux 环境,Ubuntu 的数据存…...

Workout.Cool:打造您的终极开源健身教练平台,3大核心功能全面解析

Workout.Cool:打造您的终极开源健身教练平台,3大核心功能全面解析 【免费下载链接】workout-cool 🏋 Modern open-source fitness coaching platform. Create workout plans, track progress, and access a comprehensive exercise database.…...

实战指南:Element-ui Select 选择器深度样式定制(从透明背景到悬停交互)

1. 为什么需要深度定制Select选择器? 最近在做一个深色主题的管理后台项目时,我发现Element-ui默认的Select选择器样式完全不符合设计需求。原生的白色背景在下拉时显得特别突兀,就像在一张黑色画布上突然撕开一道口子。这让我意识到&#xf…...

SOCD Cleaner终极指南:如何用键盘映射提升游戏操作精度

SOCD Cleaner终极指南:如何用键盘映射提升游戏操作精度 【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 在竞技游戏中,你是否曾因同时按下相反方向键而导致操作失误?SOCD Clea…...

结合上篇文“怪奇物语物流假设”的对死亡搁浅3的构想

在死亡搁浅中,“送货”从来不是简单的玩法机制,而是一种被具象化的哲学表达。玩家以身体为媒介,在破碎的大地上缓慢前行,将孤立的人类节点重新连接起来。连接,在这里既是行为,也是意义本身。而在死亡搁浅2所…...

实用CLI工具:命令行下的高效选择

命令行界面在开发者日常工作中占据重要位置。很多任务通过它完成时速度更快,也更直接。尤其当处理文件搜索、内容查看或者目录跳转这类重复操作时,合适的CLI工具能节省大量时间。 Homebrew官网: https://brew.sh/ 这些工具大多可以通过简单…...

算法训练营第六天|206. 反转链表

题目链接: https://leetcode.cn/problems/reverse-linked-list/ 视频链接: https://www.bilibili.com/video/BV1nB4y1i7eL题意:反转一个单链表。 示例: 输入: 1->2->3->4…...

用AI修复和复刻老照片

最近,用AI修复了自己不同时期的照片,非常感慨。尤其是小时的场景,我并没有留下多少童年照片,现在,AI根据我的口述,把我放进去了。也算是拼接上了久远的时间轴。包括老的数码、彩照,黑白&#xf…...

CSS Grid布局如何解决图片溢出网格单元_设置object-fit与网格尺寸.txt

函数节流核心是控制高频触发下函数执行频率,分定时器版(尾部延迟执行、首次不立即执行)和时间戳版(首调立即执行、后续按间隔节制),二者适用场景与性能表现各异。函数节流(Throttle)…...

2026年降AI率工具排行榜怎么选?3招避开智商税

2026年毕业季一到,朋友圈、知乎、小红书上铺天盖地的"降AI率工具排行榜"就开始刷屏。今天这家说"全网第一",明天那家又"权威评测",榜单的前三名永远在换人。我帮三届学弟学妹选过工具,也自己踩过不少坑,今天就…...

动网格实战:Spring光顺法原理详解与案例剖析

1. Spring光顺法入门:为什么需要动网格处理? 做流体仿真的时候,经常会遇到边界运动的场景。比如汽车发动机里的活塞上下运动,或者心脏瓣膜的开合。这时候如果网格不动,就会出现边界穿过网格的尴尬情况——就像用固定渔…...

Fast Screen Recorder屏幕录制软件:解决录屏区域选择与音频同步难题

在日常工作中,你是否需要录制一个软件操作教程发给同事,却不知道如何只录制特定窗口而非整个桌面?是否在录制游戏或会议时,发现系统声音或麦克风没有录进去?或者录制的视频文件过大,无法通过邮件发送&#…...

HiBit Uninstaller:轻松解决软件卸载不干净与顽固程序强制删除难题

当你从控制面板卸载一个软件后,是否发现它的文件夹还留在Program Files里?是否遇到过“无法卸载,缺少卸载程序”的报错?是否感觉电脑越用越慢,却又不知道是哪个残留程序在拖累系统?这些问题的根源在于:Windows自带的卸载功能只能调用软件自带的卸载程序,而很多软件(尤…...

【2026年最新600套毕设项目分享】宠物微信小程序(30100)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 项目演示视频2 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告/任务书)远程调试控屏包运…...

【2026年最新600套毕设项目分享】外卖微信小程序的研究与开发(30099)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 项目演示视频2 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告/任务书)远程调试控屏包运…...

测试库与生产库怎么应对同步中断断点续传_无损发布与更新方案

断点是某条变更事件的唯一标识未被消费,如MySQL的file_nameposition、Debezium的source.offset、Oracle的SCN;需通过元数据表存储offset与主键并查询MAX(offset)恢复,禁止依赖时间戳或COUNT对比。同步中断后怎么准确定位断点位置断点不是“某…...

2026届毕业生推荐的五大降AI率网站实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在进行学术论文或者原创内容撰写之际,过高的AI生成痕迹极具可能去影响评审结果。…...

【2026年最新600套毕设项目分享】微信小程序的电子购物系统(30098)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 项目演示视频2 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告/任务书)远程调试控屏包运…...

DIYGW UniApp可视化工具深度评测:对比传统编码开发到底能省多少时间?

DIYGW UniApp可视化工具实战评测:低代码开发效率的量化分析 在移动应用开发领域,时间就是竞争力。当传统编码方式还在与冗长的开发周期搏斗时,低代码平台正以惊人的速度重构着生产力边界。我们以电商商品详情页为测试场景,对DIYGW…...

Godot 2D碰撞体实战:从FlappyBird看RigidBody2D与StaticBody2D的碰撞艺术

1. 从FlappyBird看Godot碰撞体的核心价值 第一次打开Godot引擎时,我被它简洁的节点系统吸引,但真正让我着迷的是它精妙的物理碰撞系统。记得三年前我尝试复刻FlappyBird时,小鸟明明还没碰到水管游戏就结束了,这种"幽灵碰撞&q…...