当前位置: 首页 > article >正文

《Python实战进阶》No37: 强化学习入门:Q-Learning 与 DQN-加餐版1 Q-Learning算法可视化

在《Python实战进阶》No37: 强化学习入门:Q-Learning 与 DQN 这篇文章中,我们介绍了Q-Learning算法走出迷宫的代码实践,本文加餐,把Q-Learning算法通过代码可视化呈现。我尝试了使用Matplotlib实现,但局限于Matplotlib对动画不支持,做出来的仿动画太僵硬,所以使用 pygame 重新设计 Q-Learning 的可视化程序可以显著提升动画的流畅性和交互性。相比于 matplotlibpygame 更适合处理实时动画和游戏化的内容。以下是一个完整的基于 pygame 的实现方案,

视频:Q-Learning算法训练可视化


目标

  1. 迷宫布局:动态绘制迷宫(包括起点、终点和墙壁)。
  2. 智能体移动:实时更新智能体的位置。
  3. 最优路径:训练完成后显示从起点到终点的最优路径。
  4. 最终目标:完整呈现Q-Learning算法的训练过程。

实现步骤

步骤 1:安装依赖

确保安装了 pygame 库:

pip install pygame

步骤 2:修改迷宫环境

我们对迷宫环境进行一些扩展,以便更好地支持 pygame 可视化。

import numpy as npclass MazeEnv:def __init__(self):self.maze = [['.', '.', '.', '#', '.'],['.', '#', '.', '.', '.'],['.', '#', '.', '#', '.'],['.', '.', '.', '#', '.'],['.', '#', 'G', '#', '.']]self.maze = np.array(self.maze)self.start = (0, 0)self.goal = (4, 2)self.current_state = self.startself.actions = [(0, 1), (0, -1), (1, 0), (-1, 0)]  # 右、左、下、上def reset(self):self.current_state = self.startreturn self.current_statedef step(self, action):next_state = (self.current_state[0] + action[0], self.current_state[1] + action[1])if (next_state[0] < 0 or next_state[0] >= self.maze.shape[0] ornext_state[1] < 0 or next_state[1] >= self.maze.shape[1] orself.maze[next_state] == '#'):next_state = self.current_state  # 如果撞墙,保持原位置reward = -1  # 每步移动的默认奖励done = Falseif next_state == self.goal:reward = 10  # 到达终点的奖励done = Trueself.current_state = next_statereturn next_state, reward, donedef get_maze_size(self):return self.maze.shapedef is_wall(self, position):return self.maze[position] == '#'def is_goal(self, position):return position == self.goal

步骤 3:设计 pygame 可视化程序

以下是基于 pygame 的完整可视化代码:

import pygame
import time
import random
import numpy as np# 初始化 pygame
pygame.init()# 定义颜色
WHITE = (255, 255, 255)  # 空地
BLACK = (0, 0, 0)        # 墙壁
GREEN = (0, 255, 0)      # 终点
RED = (255, 0, 0)        # 智能体
BLUE = (0, 0, 255)       # 最优路径# 定义单元格大小
CELL_SIZE = 50
FPS = 10  # 动画帧率def visualize_with_pygame(env, agent, num_episodes=1000):rows, cols = env.get_maze_size()screen_width = cols * CELL_SIZEscreen_height = rows * CELL_SIZE# 初始化屏幕screen = pygame.display.set_mode((screen_width, screen_height))pygame.display.set_caption("Q-Learning Maze Visualization")clock = pygame.time.Clock()def draw_maze():for i in range(rows):for j in range(cols):rect = pygame.Rect(j * CELL_SIZE, i * CELL_SIZE, CELL_SIZE, CELL_SIZE)if env.is_wall((i, j)):pygame.draw.rect(screen, BLACK, rect)elif env.is_goal((i, j)):pygame.draw.rect(screen, GREEN, rect)else:pygame.draw.rect(screen, WHITE, rect)def draw_agent(position):x, y = positioncenter = (y * CELL_SIZE + CELL_SIZE // 2, x * CELL_SIZE + CELL_SIZE // 2)pygame.draw.circle(screen, RED, center, CELL_SIZE // 3)def draw_path(path):for (x, y) in path:rect = pygame.Rect(y * CELL_SIZE, x * CELL_SIZE, CELL_SIZE, CELL_SIZE)pygame.draw.rect(screen, BLUE, rect)# 训练过程可视化for episode in range(num_episodes):state = env.reset()done = Falsepath = [state]while not done:# 处理退出事件for event in pygame.event.get():if event.type == pygame.QUIT:pygame.quit()return# 清屏并绘制迷宫screen.fill(WHITE)draw_maze()# 获取动作action = agent.get_action(state)next_state, reward, done = env.step(action)agent.update_q_table(state, action, reward, next_state)state = next_statepath.append(state)# 绘制智能体draw_agent(state)# 更新屏幕pygame.display.flip()clock.tick(FPS)if episode % 100 == 0:print(f"Episode {episode}: Training...")# 测试过程可视化state = env.reset()done = Falsepath = [state]while not done:for event in pygame.event.get():if event.type == pygame.QUIT:pygame.quit()returnscreen.fill(WHITE)draw_maze()action = agent.get_action(state)state, _, done = env.step(action)path.append(state)draw_agent(state)pygame.display.flip()clock.tick(FPS)# 显示最终路径screen.fill(WHITE)draw_maze()draw_path(path)pygame.display.flip()# 等待用户关闭窗口running = Truewhile running:for event in pygame.event.get():if event.type == pygame.QUIT:running = Falsepygame.quit()

步骤 4:集成到 Q-Learning 算法

pygame 可视化函数集成到 Q-Learning 的训练和测试过程中。

class QLearningAgent:def __init__(self, env, learning_rate=0.1, discount_factor=0.9, epsilon=0.1):self.env = envself.q_table = {}self.learning_rate = learning_rateself.discount_factor = discount_factorself.epsilon = epsilondef get_action(self, state):if random.uniform(0, 1) < self.epsilon:return random.choice(self.env.actions)  # 探索else:q_values = [self.get_q_value(state, action) for action in self.env.actions]return self.env.actions[np.argmax(q_values)]  # 贪婪策略def get_q_value(self, state, action):key = (state, action)return self.q_table.get(key, 0.0)def update_q_table(self, state, action, reward, next_state):old_q = self.get_q_value(state, action)max_next_q = max([self.get_q_value(next_state, a) for a in self.env.actions])new_q = old_q + self.learning_rate * (reward + self.discount_factor * max_next_q - old_q)self.q_table[(state, action)] = new_q

步骤 5:运行代码

创建迷宫环境和智能体,并运行训练和测试代码。

# 创建环境和智能体
env = MazeEnv()
agent = QLearningAgent(env)# 使用 pygame 可视化训练和测试
visualize_with_pygame(env, agent, num_episodes=1000)

效果

  1. 流畅的动画pygame 提供了高效的绘图性能,动画更加流畅。
  2. 实时更新:智能体的位置和路径会实时更新,清晰展示学习过程。
  3. 交互性:用户可以通过关闭窗口随时停止程序。

扩展功能

  1. 优化动画速度:通过调整 FPSclock.tick() 控制动画速度。
  2. 添加热力图:使用不同颜色表示 Q 值表的变化。
  3. 支持更大迷宫:通过缩放单元格大小(CELL_SIZE)适应更大迷宫。

通过以上方法,你可以实现一个高效且流畅的 Q-Learning 可视化程序!

相关文章:

《Python实战进阶》No37: 强化学习入门:Q-Learning 与 DQN-加餐版1 Q-Learning算法可视化

在《Python实战进阶》No37: 强化学习入门&#xff1a;Q-Learning 与 DQN 这篇文章中&#xff0c;我们介绍了Q-Learning算法走出迷宫的代码实践&#xff0c;本文加餐&#xff0c;把Q-Learning算法通过代码可视化呈现。我尝试了使用Matplotlib实现&#xff0c;但局限于Matplotli…...

【漏洞修复】Android 10 系统源码中的 glibc、curl、openssl、cups、zlib 更新到最新版本

要将 Android 10 系统源码中的 glibc、curl、openssl、cups、zlib 更新到最新版本&#xff0c;需结合交叉编译、源码替换和系统兼容性适配。以下是具体步骤和相关库的版本信息及维护状态分析&#xff1a; 一、Android 10 默认版本及维护状态 库Android 10 默认版本维护状态最新…...

【云服务器】在 Linux(Ubuntu / CentOS 7)上快速搭建我的世界 Minecraft 服务器,并实现远程联机,详细教程

【云服务器】在 Linux&#xff08;Ubuntu / CentOS 7&#xff09;上快速搭建我的世界 Minecraft 服务器&#xff0c;并实现远程联机&#xff0c;详细教程 一、 服务器介绍二、下载 Minecraft 服务端二、安装 JRE 21三、安装 MCS manager 面板四、搭建服务器五、本地测试连接六、…...

docker torcherve打包mar包并部署模型

使用Docker打包深度网络模型mar包到服务端 参考链接&#xff1a;Docker torchserve 部署模型流程——以WSL部署YOLO-FaceV2为例_class myhandler(basehandler): def initialize(self,-CSDN博客 1、docker拉取环境镜像命令 docker images出现此提示为没有权限取执行命令&…...

【安当产品应用案例100集】042-基于安当KADP实现机密文件安全流转

一、客户需求 某集团公司客户&#xff0c;在系统业务流中&#xff0c;存在大量的内部文件流转的需求。内部业务文件有不同的安全密级&#xff0c;最初在文件流转时&#xff0c;公司内部规定点对点的文件传输&#xff0c;要使用加密工具加密后再发给需要的一方。这种方式虽然能…...

[Qt5] QMetaObject::invokeMethod使用

&#x1f4e2;博客主页&#xff1a;https://loewen.blog.csdn.net&#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01;&#x1f4e2;本文由 丶布布原创&#xff0c;首发于 CSDN&#xff0c;转载注明出处&#x1f649;&#x1f4e2;现…...

软件设计原则之迪米特法则

迪米特法则&#xff08;Law of Demeter&#xff0c;LoD&#xff09; 核心思想&#xff1a; 一个对象应当尽可能少地了解其他对象&#xff0c;只与直接朋友交互&#xff08;如自身的成员变量、方法参数、方法内部创建的对象&#xff09;&#xff0c;避免通过复杂的调用链访问间…...

JSON5 格式标准 Data Exchange Format 官方文档 中英双语

Standard JSON5 标准 JSON5 1.0.0 / March 2018 1.0.0 / 三月 2018 The JSON5 Data Interchange FormatThe JSON5 数据交换格式 Abstract 摘要 The JSON5 Data Interchange Format is a proposed extension to JSON that aims to make it easier for humans to write an…...

附录C SLAC匹配过程命令定义与实际抓包

附录C SLAC匹配过程命令定义与实际抓包 ISO15118-3 附录A中规定了SLAC匹配过程中的请求命令及应答&#xff0c; 本文将会对比协议中的定义和实际抓包内容&#xff0c;以便读者获得直观的认识。 1 CM_SET_KEY.REQ 定义内容&#xff1a; 实际数据&#xff1a; 注意报文中的 08…...

【QT】新建QT工程(详细步骤)

新建QT工程 1.方法(1)点击new project按钮&#xff0c;弹出对话框&#xff0c;新建即可&#xff0c;步骤如下&#xff1a;(2) 点击文件菜单&#xff0c;选择新建文件或者工程&#xff0c;后续步骤如上 2.QT工程文件介绍(1).pro文件 --》QT工程配置文件(2)main.cpp --》QT工程主…...

安装Webpack并创建vue项目

1、新建一个工程目录 在E盘中进行新建项目 2、从命令行进入该目录,并执行NPM 的初始化命令 3、会看到目录中生成了一个“package.json”文件,它相当于NPM项目的说明书&#xff0c;里面记录了项目名称、版本、仓库地址等信息。 4、执行安装 Webpack 的命令 npm install webpac…...

如何快速解决django存储session变量时出现的django.db.utils.DatabaseError错误

我们在学习django进行web编程的时候&#xff0c;有时需要将一些全局变量信息存储在session中&#xff0c;但使用过程中&#xff0c;却发现会引起数据库的报错。通过查看django源码信息&#xff0c;发现其对session信息进行了ORM映射&#xff0c;如果数据库中不存在对应的表信息…...

04 单目标定实战示例

看文本文,您将获得以下技能: 1:使用opencv进行相机单目标定实战 2:标定结果参数含义和数值分析 3:Python绘制各标定板姿态,查看图像采集多样性 4:如果相机画幅旋转90,标定输入参数该如何设置? 5:图像尺寸缩放,标定结果输出有何影响? 6:单目标定结果应用类别…...

极速全场景 MPP数据库starrocks介绍

目录 一、引子 二、起源 &#xff08;一&#xff09;前身 &#xff08;二&#xff09;定位 三、特点 &#xff08;一&#xff09;高性能架构 &#xff08;二&#xff09;实时分析 &#xff08;三&#xff09;高并发与扩展性 &#xff08;四&#xff09;兼容性与生态 …...

RS232转Profinet网关技术,检漏仪新篇章!

RS232转Profinet网关技术&#xff0c;检漏仪新篇章&#xff01; 在现代医疗监控系统中&#xff0c;RS232转PROFINET网关扮演着至关重要的角色。这种转换设备能够将传统的RS232串行通讯接口无缝转换为PROFINET以太网通信接口&#xff0c;确保老旧设备与现代自动化系统之间的顺畅…...

Linux操作系统7- 线程同步与互斥7(RingQueue环形队列生产者消费者模型改进)

上篇文章&#xff1a;Linux操作系统7- 线程同步与互斥6&#xff08;POSIX信号量与环形队列生产者消费者模型&#xff09;-CSDN博客 本篇代码仓库&#xff1a;myLerningCode/l36 橘子真甜/Linux操作系统与网络编程学习 - 码云 - 开源中国 (gitee.com) 目录 一. 单生产单消费单保…...

景区导游--LCA+树上前缀和

关键就是删点少删边&#xff0c;只删有关的边 LCA找最近祖先&#xff0c;树上前缀和记&#xff0c;画图找公式&#xff0c;特殊情况为删第一和最后 sum和前缀和开ll #include<bits/stdc.h> using namespace std; #define N 100011 typedef long long ll; typedef pair…...

将 Markdown 表格结构转换为Excel 文件

在数据管理和文档编写过程中&#xff0c;我们经常使用 Markdown 来记录表格数据。然而&#xff0c;Markdown 格式的表格在实际应用中不如 Excel 方便&#xff0c;特别是需要进一步处理数据时。因此&#xff0c;我们开发了一个使用 wxPython 的 GUI 工具&#xff0c;将 Markdown…...

OpenAI流式解析

OpenAI 流式的代码&#xff1a; 首选一般请使用os.getenv 去读环境变量的内容 注意使用pip install python-dotenv 的安装方法 load_dotenv 是这个库提供的一个函数&#xff0c;用于读取 .env 文件并将其中定义的键值对设置为系统的环境变量。 默认情况下&#xff0c;load_…...

Java动态生成Word终极指南:poi-tl与Aspose.Words性能对比及选型建议

在Java中实现复杂文档生成&#xff08;如合同、报表&#xff09;时&#xff0c;poi-tl、Aspose.Words 和 docx4j 是三个主流的模板技术方案。以下是它们的核心对比和选型建议&#xff1a; 1. poi-tl&#xff08;基于Apache POI的模板引擎&#xff09; 定位&#xff1a;轻量级开…...

微信小程序逆向开发

一.wxapkg文件 如何查看微信小程序包文件&#xff1a; 回退一级 点击进入这个目录 这个就是我们小程序对应的文件 .wxapkg概述 .wxapkg是微信小程序的包文件格式&#xff0c;且其具有独特的结构和加密方式。它不仅包含了小程序的源代码&#xff0c;还包括了图像和其他资源文…...

Spring Data审计利器:@LastModifiedDate详解!!!

&#x1f552; Spring Data审计利器&#xff1a;LastModifiedDate详解&#x1f525; &#x1f31f; 简介 在数据驱动的应用中&#xff0c;记录数据的最后修改时间是常见需求。Spring Data的LastModifiedDate注解让这一过程自动化成为可能&#xff01;本篇带你掌握它的核心用法…...

wms窗口/多窗口/自由窗口systemui侧边栏手势退出实战-学员作业

背景&#xff1a; 再学习了马哥的分屏自由窗口专题课程时候&#xff0c;有一个需求就是实现自由窗口置顶的功能&#xff0c;这个需求实现后&#xff0c;自由窗口就会一直处于顶端&#xff0c;不会因为打开其他Activity导致自由窗口退出。 不会因为打开了其他Activity而导致短…...

树莓派超全系列文档--(11)RaspberryOS上使用 Python控制GPIO

RaspberryOS上使用 Python控制GPIO 使用 Python 控制 GPIOLED 控制读取按键状态使用按钮控制LED 文章来源&#xff1a; http://raspberry.dns8844.cn/documentation 原文网址 使用 Python 控制 GPIO 使用 GPIO Zero 库可以轻松地用 Python 控制 GPIO 设备。该库在 gpiozero.…...

服装零售行业数据分析方案

在数据洪流的时代&#xff0c;大数据分析已成为服装产业的强大引擎&#xff0c;助力企业飞速提升运营效率&#xff0c;削减成本&#xff0c;并优化资源配置。在服饰行业的生产运营链中&#xff0c;商业智能&#xff08;BI&#xff09;工具扮演着至关重要的角色&#xff0c;它们…...

构建高可用性西门子Camstar服务守护者:异常监控与自愈实践

在智能制造领域,西门子Camstar作为领先的MES系统承载着关键生产业务。但在实际运维中,我们发现其服务常因数据库负载激增(如SQL阻塞链超时)或应用服务器资源耗尽(CPU峰值达90%以上)导致服务不可用。传统人工干预方式平均故障恢复时间长达47分钟,这对连续生产场景构成了严…...

基于大模型的pc版语音对话问答

Vosk基础知识&#xff1a; Vosk 是一个强大的开源语音识别工具包&#xff0c;以下是对它的详细介绍&#xff1a; 特点 离线识别&#xff1a;Vosk 的显著特点是支持离线语音识别。这意味着在没有网络连接的情况下&#xff0c;也能进行语音识别操作&#xff0c;避免了因网络问…...

深入理解 Linux 内核中的 GPU 子系统:从 DRM 到 NXP 驱动架构全解读

本文不仅为 GPU 子系统的深入复习笔记&#xff0c;更是一本面向 Linux 内核开发者、嵌入式图形系统开发人员的实践指南。本文围绕 drivers/gpu 展开&#xff0c;特别聚焦 NXP i.MX 系列平台的 GPU 架构和 Linux-imx 的实现方式&#xff0c;内容超 5000 字&#xff0c;适合收藏学…...

Go 语言标准库中path模块详细功能介绍与示例

Go语言的 path 模块提供了处理斜杠分隔路径的通用方法&#xff0c;适用于跨平台路径操作&#xff08;如 URL 路径或 Unix 风格路径&#xff09;。以下是 path 模块的核心方法及示例说明&#xff1a; 1. path.Base 返回路径的最后一个元素&#xff08;类似 Unix 的 basename 命…...

鸿蒙NEXT开发App相关工具类

import bundleManager from ohos.bundle.bundleManager; import { KeyboardAvoidMode, window } from kit.ArkUI; import { common, ConfigurationConstant } from kit.AbilityKit;/*** App相关工具类(使用该工具前请在UIAbility的onWindowStageCreate方法中调用AppUtil的init方…...