当前位置：首页 > news >正文

24/12/1 算法笔记＜强化学习＞创建Maze交互

news 2026/5/12 8:43:45

我们今天制作一个栅格的游戏。

我们直接上代码教学。

1.载入库和查找相应的函数版本

import numpy as np
import time
import sysif sys.version_info.major == 2:import Tkinter as tk
else:import tkinter as tk

2.设置长宽和单元格大小

UNIT= 40
MAZE_H= 4
MAZE_W =4

3.初始化Maze环境类

class Maze(tk.Tk, object):def __init__(self):super(Maze, self).__init__()self.action_space = ['u', 'd', 'l', 'r']self.n_actions = len(self.action_space)self.title('maze')self.geometry('{0}x{1}'.format(MAZE_H * UNIT, MAZE_H * UNIT))self._build_maze()

里面初始化动作(上下左右),动作数量，窗口标题和大小，构建迷宫。

4.构建迷宫画布，绘制垂直线和水平线

def _build_maze(self):self.canvas = tk.Canvas(self, bg='white', height=MAZE_H * UNIT, width=MAZE_W * UNIT)for c in range(0, MAZE_W * UNIT, UNIT):x0, y0, x1, y1 = c, 0, c, MAZE_H * UNITself.canvas.create_line(x0, y0, x1, y1)for r in range(0, MAZE_H * UNIT, UNIT):x0, y0, x1, y1 = 0, r, MAZE_W * UNIT, rself.canvas.create_line(x0, y0, x1, y1)

5.设定两个陷阱，一个目标和玩家

origin = np.array([20, 20])hell1_center = origin + np.array([UNIT * 2, UNIT])self.hell = self.canvas.create_rectangle(hell1_center[0] - 15, hell1_center[1] - 15,hell1_center[0] + 15, hell1_center[1] + 15,fill='black')hell2_center = origin + np.array([UNIT, UNIT*2])  self.hell2 = self.canvas.create_rectangle(hell2_center[0] - 15, hell2_center[1] - 15,hell2_center[0] + 15, hell2_center[1] + 15,fill='black'
)oval_center = origin + UNIT * 2self.oval = self.canvas.create_oval(oval_center[0] - 15, oval_center[1] - 15,oval_center[0] + 15, oval_center[1] + 15,fill='yellow')self.rect = self.canvas.create_rectangle(origin[0] - 15, origin[1] - 15,origin[0] + 15, origin[1] + 15,fill='red')self.canvas.pack()

最后是打包画布，将画布添加到 Tkinter 窗口中，并允许它显示。

6.重置游戏环境到初始状态的函数。

def reset(self):self.update()time.sleep(0.5)self.canvas.delete(self.rect) #删除旧的玩家图形origin = np.array([20, 20])  #设置玩家的初始位置self.rect = self.canvas.create_rectangle( #重新创建玩家图形origin[0] - 15, origin[1] - 15,origin[0] + 15, origin[1] + 15,fill='red')

7.设定处理玩家在迷宫中的一步移动，并根据结果更新游戏状态的函数。

def step(self, action):s = self.canvas.coords(self.rect)  #获取当前位置base_action = np.array([0, 0])     #初始化动作向量if action == 0:                    #根据动作更新位置if s[1] > UNIT:base_action[1] -= UNITelif action == 1:if s[1] < (MAZE_H - 1) * UNIT:base_action[1] += UNITelif action == 2:if s[0] < (MAZE_W - 1) * UNIT:base_action[0] += UNITelif action == 3:if s[0] > UNIT:base_action[0] -= UNITself.canvas.move(self.rect, base_action[0], base_action[1]) #移动玩家s_ = self.canvas.coords(self.rect)        #获取新位置if s_ == self.canvas.coords(self.oval):   #检查是否到达终点或陷阱reward = 1done = Trues_ = 'terminal'elif s_ == self.canvas.coords(self.hell) or s_ == self.canvas.coords(self.hell2):reward = -1done = Trues_ = 'terminal'else:reward = 0done = Falsereturn s_, reward, done

8.停顿更新函数

def render(self):time.sleep(0.1)self.update()

9.更新函数

def update():for t in range(10):s = env.reset()while True:env.render()a = 1  # 这里应该是根据策略选择动作s, r, done = env.step(a)if done:break

10.主函数

if __name__ == '__main__':env = Maze()env.after(100, update)env.mainloop()

然后运行就能获得一个简单的自动玩栅格游戏的智能体，这次我们是简单给一些基本设定，以后将加入强化学习的知识强化它。

24/12/1 算法笔记＜强化学习＞创建Maze交互

我们今天制作一个栅格的游戏。我们直接上代码教学。 1.载入库和查找相应的函数版本 import numpy as np import time import sysif sys.version_info.major 2:import Tkinter as tk else:import tkinter as tk 2.设置长宽和单元格大小 UNIT 40 MAZE_H 4 MAZE_W 4 3.初始…...

编程日记 2024/12/2 14:54:41

Linux驱动开发（10）：I2C子系统–mpu6050驱动实验

本章我们以板载MPU6050为例讲解i2c驱动程序的编写，本章主要分为五部分内容。第一部分，i2c基本知识，回忆i2c物理总线和基本通信协议。第二部分，linux下的i2c驱动框架。第三部分，i2c总线驱动代码拆解。第四部分&a…...

编程日记 2024/12/2 14:51:37

《装甲车内气体检测“神器”:上海松柏 K-5S 电化学传感器模组详解》

《装甲车内气体检测“神器”:上海松柏 K-5S 电化学传感器模组详解》一、引言二、K-5S 电化学传感器模组概述（一）产品简介（二）产品特点（三）产品适用场景三、电化学传感器原理及优点（一&#xf…...

编程日记 2024/12/2 14:50:36

如何将多个JS文件打包成一个JS文件？

文章目录前言SDK 打包安装 webpack创建 webpack.config.js编译命令行遇到的坑点前言上一篇已经记录了如何开发一个小游戏聚合SDK，既然是SDK，最终都是给外部人员使用的。调研了一下市面上的前端SDK，最终都是编译成一个 js 文件。我猜理由大概是 js 文件之间的调用都是需要…...

编程日记 2024/12/2 14:45:31

100个python经典面试题详解(新版)

应老粉要求，每晚加餐一个最新面试题包括Python面试中常见的问题，涵盖列表、元组、字符串插值、比较操作符、装饰器、类与对象、函数调用方式、数据结构操作、序列化、数据处理函数等多个方面。旨在帮助数据科学家和软件工程师准备面试或提升Python技能。 7、Python面试题…...

编程日记 2024/12/2 14:43:28

C#初阶概念理解

梳理了一些本人在学习C#时的一些生疏点，同时也加深自己的印象。堆&栈堆用来存储程序运行时产生的变量，当程序结束时释放； 栈用来存储程序运行时，调用方法产生的临时变量，方法运行完成后就会释放…...

编程日记 2024/12/2 14:42:26

node.js基础学习-url模块-url地址处理（二）

前言前面我们创建了一个HTTP服务器，如果只是简单的http://localhost:3000/about这种链接我们是可以处理的，但是实际运用中一般链接都会带参数，这样的话如果我们只是简单的判断链接来分配数据，就会报404找不到链接。为了解决这个问…...

编程日记 2024/12/2 14:41:25

算法与数据结构（1）

一：数据结构概论数据结构分为初阶数据结构（主要由C语言实现）和高阶数据结构（由C实现） 初阶数据结构当中，我们会学到顺序表、链表、栈和队列、二叉树、常见排序算法等内容。高阶数据结构当中&#xff0…...

编程日记 2024/12/2 14:39:21

FTP介绍与配置

前言： FTP是用来传送文件的协议。使用FTP实现远程文件传输的同时，还可以保证数据传输的可靠性和高效性。介绍 FTP的应用在企业网络中部署一台FTP服务器，将网络设备配置为FTP客户端，则可以使用FTP来备份或更新VRP文件和配置文件…...

编程日记 2024/12/2 14:38:16

SQL面试题——抖音SQL面试题最近一笔有效订单

编程日记 2024/12/2 14:36:11

【线程】Java多线程代码案例（1）

【线程】Java多线程代码案例（1） 一、“单例模式” 的实现1.1“饿汉模式”1.2 “懒汉模式”1.3 线程安全问题二、“阻塞队列”的实现2.1阻塞队列2.2生产者消费者模型2.3 阻塞队列的实现2.4 再谈生产者消费者模型一、“单例模式” 的实现 “单例模式”即…...

编程日记 2024/12/2 14:35:10

go使用mysql实现增删改查操作

1、安装MySQL驱动 go get -u github.com/go-sql-driver/mysql2、go连接MySQL import ("database/sql""log"_ "github.com/go-sql-driver/mysql" // 导入 mysql 驱动 )type Users struct {ID intName stringEmail string }var db *sql.DBfu…...

编程日记 2024/12/2 14:30:04

【Rust】unsafe rust入门

这篇文章简单介绍下unsafe rust的几个要点 1. 解引用裸指针裸指针其实就是C或者说C的指针，与C的指针不同的是，Rust的裸指针还是要分为可变和不可变，*const T 和 *mut T： 基于引用创建裸指针 let mut num 5;let r1 &num …...

编程日记 2024/12/2 14:29:00

dpwwn02靶场

靶机下载地址：https://download.vulnhub.com/dpwwn/dpwwn-02.zip 信息收集 ip add 查看kali Linux虚拟机的IP为：10.10.10.128 https://vulnhub.com/entry/dpwwn-2,343/中查看靶机的信息，IP固定为10.10.10.10 所以kali Linux添加仅主机网卡…...

编程日记 2024/12/2 14:26:58

K8S疑难概念理解——Pod,应该以哪种Kind来部署应用，为什么不直接Pod这种kind?

文章目录一、Pod概念深度理解，为什么一般不直接以kindPod资源类型来部署应用?二、究竟应该以哪种资源类型来部署应用一、Pod概念深度理解，为什么一般不直接以kindPod资源类型来部署应用? Pod是Kubernetes中的最小部署单元，可以包含一个或…...

编程日记 2024/12/2 14:24:54

LabVIEW进行仪器串行通信与模拟信号采集的比较

在现代测试、测量和控制系统中，设备通常采用两种主要方式与计算机进行交互：一种是通过数字通信接口（如RS-232、RS-485、GPIB等），另一种是通过模拟信号（电压、电流）进行数据输出。每种方式具有其…...

编程日记 2024/12/2 14:23:49

D81【 python 接口自动化学习】- python基础之HTTP

day81 requests请求session用法学习日期：20241127 学习目标：http定义及实战 -- requests请求session用法学习笔记： requests请求session用法 import requests# 创建一个会话 reqrequests.session() url "http://sellshop.5istud…...

编程日记 2024/12/2 14:22:48

白鹿 Hands-on：消除冷启动——基于 Amazon Lambda SnapStart 轻松打造 Serverless Web 应用（二）

文章目录前言一、前文回顾二、在 Lambda 上运行2.1、查看 Amazon SAM template2.2、编译和部署到 Amazon Lambda2.3、功能测试与验证三、对比 Snapstart 效果四、资源清理五、实验总结总结前言在这个环节中，我们将延续《白鹿 Hands-on：消除冷启动——…...

编程日记 2024/12/2 14:21:47

ROC曲线

文章目录前言一、ROC的应用？二、使用方式1. 数据准备2.绘图可视化前言在差异分析中，ROC曲线可以用来评估不同组之间的分类性能差异。差异分析旨在比较不同组之间的特征差异，例如在基因表达研究中比较不同基因在不同条件或组织中的表达水平…...

编程日记 2024/12/2 14:19:42

c++ 位图和布隆过滤器

位图（bitmap） 定义位图是一种使用位数组存储数据的结构。每一位表示一个状态，通常用于快速判断某个值是否存在，或者用来表示布尔类型的集合。特点节省空间：一个字节可以表示8个状态。高效操作：位操作…...

编程日记 2024/12/2 14:18:39

告别图形界面：在Linux终端中高效管理百度网盘文件的完整指南

1. 为什么需要命令行管理百度网盘？ 很多开发者都遇到过这样的场景：远程连接到Linux服务器时，需要快速上传日志文件到网盘，或者从网盘下载数据集到服务器。传统做法是先把文件下载到本地电脑，再用SFTP工具上传到服务器—…...

编程新知 2026/5/12 8:26:15

Flutter 轻量存储方案介绍、区别、对比和使用场景

在 Flutter 项目中，本地存储通常可以分为几类： 第一类是轻量 Key-Value 存储，例如 shared_preferences、get_storage、mmkv，适合保存开关、配置、登录状态等简单数据。第二类是安全存储，例如 flutter_secure_storage&…...

编程新知 2026/5/12 7:37:30

Human Skill Tree：基于认知科学的AI学习操作系统，重塑AI时代学习方式

1. 项目概述最近在折腾AI工具的时候，我一直在想一个问题：AI现在能通过Skill和MCP（模型上下文协议）调用各种工具，几乎无所不能，但我们人类的学习方式却还停留在“问一句，答一句”的原始阶段。这就…...

编程新知 2026/5/12 7:01:08

Skill Library：AI智能体技能库的模块化设计与工程实践

1. 项目概述：一个为AI智能体打造的“技能武器库”如果你和我一样，每天都在和Claude、ChatGPT、Cursor这些AI工具打交道，那你肯定也经历过这样的时刻：想让AI帮你写个复杂的SQL查询、设计一个微服务架构，或者起草一份产品…...

编程新知 2026/5/12 6:51:48

想让你的Linux终端也下起‘代码雨’？手把手教你安装配置cmatrix屏保（CentOS/Ubuntu双系统保姆级教程）

让你的Linux终端下起"代码雨"：cmatrix屏保终极玩法指南第一次在《黑客帝国》里看到绿色字符如瀑布般倾泻而下的场景时，那种科技感与未来感是否让你心驰神往？现在，你完全可以在自己的Linux终端里复刻这一经典画面。cmat…...

编程新知 2026/5/12 6:06:26

技能包管理器：开发者工具链标准化与版本隔离解决方案

1. 项目概述：一个为开发者赋能的技能包管理器在软件开发的世界里，我们每天都在与各种工具、库和依赖项打交道。从构建工具到代码格式化器，从静态分析器到部署脚本，一个现代项目的开发环境往往由数十个、甚至上百个独立的命令行工具…...

编程新知 2026/5/12 6:04:26

reverse-geocoder未来展望：AI增强地理编码与智能位置预测

reverse-geocoder未来展望：AI增强地理编码与智能位置预测【免费下载链接】reverse-geocoder A fast, offline reverse geocoder in Python 项目地址: https://gitcode.com/gh_mirrors/re/reverse-geocoder 在当今数据驱动的世界中，地理编码技术已…...

编程新知 2026/5/12 4:53:40

半导体技术评估：如何判断新技术从概念到产品的“露点”

1. 开篇：从“露点”看半导体行业的虚实迷雾大家好，我是Don Scansen。在半导体行业摸爬滚打了二十多年，从设计、验证到失效分析，几乎把产业链的各个环节都趟了一遍。今天，我想借这个新开的专栏，和大家聊聊一…...

编程新知 2026/5/12 4:10:13

从HEX到芯片：使用J-Flash实现高效固件烧录与生产级加密

1. 认识J-Flash：你的芯片烧录好帮手第一次接触J-Flash时，我正为一个量产项目发愁——需要给500片GD32F103烧录固件。手动用IDE一个个烧？效率太低；找代工厂？成本太高。直到同事推荐了J-Flash，我才发现原来烧…...

编程新知 2026/5/12 4:04:11

从HackRF到USRP B210：我的SDR设备升级之路与真实体验对比

从HackRF到USRP B210：我的SDR设备升级之路与真实体验对比作为一个长期沉迷于软件定义无线电（SDR）技术的爱好者，设备的选择往往决定了探索的边界。从最初的HackRF One到如今的USRP B210，这段升级旅程不仅是对硬件性能的…...

编程新知 2026/5/12 3:05:29

相关文章：