当前位置：首页 > news >正文

【URL】一个简单基于Gym的2D随机游走环境，用于无监督强化学习（URL）

news 2026/2/11 1:10:30

import gym
from gym import spaces
import numpy as np
import pygameclass RandomWalk2DEnv(gym.Env):def __init__(self):super(RandomWalk2DEnv, self).__init__()# 定义状态空间为2D坐标（x, y）self.x_min, self.x_max = -10, 10  # 更新尺寸为 (-10, 10)self.y_min, self.y_max = -10, 10  # 更新尺寸为 (-10, 10)self.observation_space = spaces.Box(np.array([self.x_min, self.y_min]),np.array([self.x_max, self.y_max]),dtype=np.float32)# 动作空间定义为2D向量，x和y分量的范围为(-1, 1)self.action_space = spaces.Box(np.array([-1.0, -1.0]), np.array([1.0, 1.0]), dtype=np.float32)# 初始化状态self.state = np.array([0.0, 0.0])# 初始化步长（每次移动的距离）self.step_size = 1.0# 初始化pygamepygame.init()# 设置窗口self.screen_size = (800, 800)self.screen = pygame.display.set_mode(self.screen_size)pygame.display.set_caption("Random Walk 2D")# 坐标转换，将-10到10的坐标映射到屏幕的像素坐标self.scale = 40  # 缩放因子，决定每个单位坐标对应多少像素self.origin = np.array([self.x_max, self.y_max])  # 原点在右上角# 路径记录self.path_x = []self.path_y = []def reset(self):# 将智能体重置到原点 (0, 0)self.state = np.array([0.0, 0.0])self.path_x = [self.state[0]]  # 重置路径记录self.path_y = [self.state[1]]  # 重置路径记录return self.statedef step(self, action):# 自动修正超出范围的actionaction = np.clip(action, -1.0, 1.0)# 根据动作更新坐标dx = action[0] * self.step_size  # x方向的移动dy = action[1] * self.step_size  # y方向的移动self.state[0] += dxself.state[1] += dy# 保证坐标不超出边界self.state[0] = np.clip(self.state[0], self.x_min, self.x_max)self.state[1] = np.clip(self.state[1], self.y_min, self.y_max)# 判断是否触及边缘，如果触及边缘，设置done为Truedone = Falseif self.state[0] == self.x_min or self.state[0] == self.x_max or self.state[1] == self.y_min or self.state[1] == self.y_max:done = True# 记录路径self.path_x.append(self.state[0])self.path_y.append(self.state[1])# 计算奖励：简单的奖励策略，离中心越远奖励越低distance_from_center = np.linalg.norm(self.state)reward = -distance_from_center  # 离原点越远，奖励越低return self.state, reward, done, {}def render(self, mode='human'):# 清空屏幕self.screen.fill((255, 255, 255))  # 白色背景# 绘制虚线表格self.draw_grid()# 绘制路径（红色线条）for i in range(len(self.path_x) - 1):x1 = int(self.path_x[i] * self.scale + self.screen_size[0] // 2)y1 = int(self.screen_size[1] // 2 - self.path_y[i] * self.scale)x2 = int(self.path_x[i + 1] * self.scale + self.screen_size[0] // 2)y2 = int(self.screen_size[1] // 2 - self.path_y[i + 1] * self.scale)pygame.draw.line(self.screen, (255, 0, 0), (x1, y1), (x2, y2), 2)  # 红色轨迹# 绘制起始点（蓝色圆点）start_x = int(self.path_x[0] * self.scale + self.screen_size[0] // 2)start_y = int(self.screen_size[1] // 2 - self.path_y[0] * self.scale)pygame.draw.circle(self.screen, (0, 0, 255), (start_x, start_y), 5)  # 蓝色圆点# 绘制当前智能体位置（黑色小圆点，半径为蓝色起点圆点的2/3）current_x = int(self.state[0] * self.scale + self.screen_size[0] // 2)current_y = int(self.screen_size[1] // 2 - self.state[1] * self.scale)pygame.draw.circle(self.screen, (0, 0, 0), (current_x, current_y), 3)  # 黑色圆点，半径为5的2/3# 刷新屏幕pygame.display.flip()# 处理事件，避免程序卡死for event in pygame.event.get():if event.type == pygame.QUIT:pygame.quit()exit()def draw_grid(self):""" 绘制虚线网格，中心位置为实线 """# 设置线条颜色和宽度line_color = (200, 200, 200)  # 灰色center_line_color = (0, 0, 0)  # 中心线为黑色line_width = 1dash_length = 10  # 虚线的每段长度dash_gap = 5  # 虚线的间隔# 绘制垂直线for x in range(self.x_min, self.x_max + 1):x_pos = int(x * self.scale + self.screen_size[0] // 2)for y in range(self.y_min, self.y_max + 1):y_pos = int(self.screen_size[1] // 2 - y * self.scale)# 绘制最中间的线（交叉点处）if x == 0:pygame.draw.line(self.screen, center_line_color,(x_pos, self.screen_size[1] // 2 - self.y_max * self.scale),(x_pos, self.screen_size[1] // 2 + self.y_max * self.scale), line_width)elif y == 0:pygame.draw.line(self.screen, center_line_color,(self.screen_size[0] // 2 - self.x_max * self.scale, y_pos),(self.screen_size[0] // 2 + self.x_max * self.scale, y_pos), line_width)# 绘制垂直虚线elif x % 2 == 0:self.draw_dashed_line(x_pos, self.screen_size[1] // 2 - self.y_max * self.scale,x_pos, self.screen_size[1] // 2 + self.y_max * self.scale,line_color, dash_length, dash_gap)# 绘制水平虚线elif y % 2 == 0:self.draw_dashed_line(self.screen_size[0] // 2 - self.x_max * self.scale, y_pos,self.screen_size[0] // 2 + self.x_max * self.scale, y_pos,line_color, dash_length, dash_gap)def draw_dashed_line(self, x1, y1, x2, y2, color, dash_length, dash_gap):""" 绘制虚线 """total_length = np.linalg.norm([x2 - x1, y2 - y1])num_dashes = int(total_length / (dash_length + dash_gap))# 计算每段虚线的起始和结束点for i in range(num_dashes):start_x = x1 + (x2 - x1) * (i * (dash_length + dash_gap)) / total_lengthstart_y = y1 + (y2 - y1) * (i * (dash_length + dash_gap)) / total_lengthend_x = x1 + (x2 - x1) * ((i * (dash_length + dash_gap) + dash_length) / total_length)end_y = y1 + (y2 - y1) * ((i * (dash_length + dash_gap) + dash_length) / total_length)# 绘制虚线段pygame.draw.line(self.screen, color, (start_x, start_y), (end_x, end_y), 1)# 测试代码
if __name__ == "__main__":env = RandomWalk2DEnv()env.reset()for _ in range(50):action = env.action_space.sample()  # 采样一个动作（x 和 y 分量在 -1 到 1 之间）state, reward, done, info = env.step(action)env.render()if done:print("智能体触及边缘，回合结束")break

在这里插入图片描述

【URL】一个简单基于Gym的2D随机游走环境，用于无监督强化学习（URL）

import gym from gym import spaces import numpy as np import pygameclass RandomWalk2DEnv(gym.Env):def __init__(self):super(RandomWalk2DEnv, self).__init__()# 定义状态空间为2D坐标（x, y）self.x_min, self.x_max -10, 10 # 更新尺寸为 (-10,…...

编程日记 2025/2/3 11:09:05

【VM】VirtualBox安装ubuntu22.04虚拟机

阅读本文之前，请先根据安装virtualbox 教程安装virtulbox虚拟机软件。 1.下载Ubuntu系统镜像打开阿里云的镜像站点：https://developer.aliyun.com/mirror/ 找到如图所示位置，选择Ubuntu 22.04.3(destop-amd64)系统 Ubuntu 22.04.3(desto…...

编程日记 2025/2/3 11:07:02

MySQL的GROUP BY与COUNT()函数的使用问题

在MySQL中，GROUP BY和 COUNT()函数是数据聚合查询中非常重要的工具。正确使用它们可以有效地统计和分析数据。然而，不当的使用可能会导致查询结果不准确或性能低下。本文将详细讨论 GROUP BY和 COUNT()函数的使用方法及常见问题，并提供相应的…...

编程日记 2025/2/3 11:04:59

C# 精炼题18道题(类,三木运算,Switch,计算器)

1.数组元素和 2.数组元素乘积 3.数组元素平均数 4.数组中最大值 5.数组中的偶数 6.数组中的阶乘 7.数组反转 8.字符串反转 9.回文字符串 10.检查回文 11.最小最大值 12.找素数 13.字符串中的最长无重复字符串 14.字符串去重 15.数组中计算两数之和 16.数字到字符…...

编程日记 2025/2/3 11:03:55

96，【4】 buuctf web [BJDCTF2020]EzPHP

进入靶场查看源代码 GFXEIM3YFZYGQ4A 一看就是编码后的 1nD3x.php 访问得到源代码 <?php // 高亮显示当前 PHP 文件的源代码，用于调试或展示代码结构 highlight_file(__FILE__); // 关闭所有 PHP 错误报告，防止错误信息泄露可能的安全漏洞 erro…...

编程日记 2025/2/3 11:01:49

数据库 - Sqlserver - SQLEXPRESS、由Windows认证改为SQL Server Express认证进行连接 (sa登录）

本文讲SqlServer Express版本在登录的时候， 如何由Windows认证，修改为Sql Server Express认证。目录 1，SqlServer Express的Windows认证 2，修改为混合认证 3，启用sa 用户 4，用sa 用户登录下面是详细…...

编程日记 2025/2/3 10:56:38

2025年02月02日Github流行趋势

项目名称：oumi 项目地址url：https://github.com/oumi-ai/oumi 项目语言：Python 历史star数：1416 今日star数：205 项目维护者：xrdaukar, oelachqar, taenin, wizeng23, kaisopos 项目简介：构建最…...

编程日记 2025/2/3 10:55:35

【数据分析】案例03：当当网近30日热销图书的数据采集与可视化分析（scrapy+openpyxl+matplotlib）

当当网近30日热销图书的数据采集与可视化分析（scrapy+openpyxl+matplotlib）当当网近30日热销书籍官网写在前面实验目的：实现当当网近30日热销图书的数据采集与可视化分析。电脑系统：Windows 使用软件：Visual Studio Code Python版本：python 3.12.4 技术需求：scrapy、…...

编程日记 2025/2/3 10:51:31

如何使用 DeepSeek 和 Dexscreener 构建免费的 AI 加密交易机器人？

我使用DeepSeek AI和Dexscreener API构建的一个简单的 AI 加密交易机器人实现了这一目标。在本文中，我将逐步指导您如何构建像我一样的机器人。 DeepSeek 最近发布了R1，这是一种先进的 AI 模型。您可以将其视为 ChatGPT 的免费开源版本，但增加…...

编程日记 2025/2/3 10:50:21

buu-jarvisoj_level0-好久不见30

嘶，我咋觉得这个也是栈溢出呢，找到读取的值，在再找到后门函数...

编程日记 2025/2/3 10:48:18

深度学习查漏补缺：1.梯度消失、梯度爆炸和残差块

一、梯度消失梯度消失的根本原因在于激活函数的性质和链式法则的计算： 激活函数的导数很小： 常见的激活函数（例如 Sigmoid 和 Tanh）在输入较大或较小时，输出趋于饱和（Sigmoid 的输出趋于 0 或 1&#xf…...

编程日记 2025/2/3 10:42:11

【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】2.2 多维数组切片：跨步访问与内存布局

2.2 多维数组切片：跨步访问与内存布局目录/提纲 #mermaid-svg-FbBIOMVivQfdX2LJ {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-FbBIOMVivQfdX2LJ .error-icon{fill:#552222;}#mermaid-svg-FbBIOMVivQ…...

编程日记 2025/2/3 10:41:10

ResNet--深度学习中的革命性网络架构

一、引言在深度学习的研究和应用中，网络架构的设计始终是一个关键话题。随着计算能力和大数据的不断提升，深度神经网络逐渐成为解决复杂任务的主流方法。然而，随着网络层数的增加，训练深度神经网络往往面临梯度消失或梯度爆炸的…...

编程日记 2025/2/3 10:40:09

TypeScript语言的语法糖

TypeScript语言的语法糖 TypeScript作为一种由微软开发的开源编程语言，它在JavaScript的基础上添加了一些强类型的特性，使得开发者能够更好地进行大型应用程序的构建和维护。在TypeScript中，不仅包含了静态类型、接口、枚举等强大的特性&…...

编程日记 2025/2/3 10:37:02

17.2 图形绘制4

编程日记 2025/2/3 10:35:59

tomcat核心组件及原理概述

目录 1. tomcat概述 1.1 概念 1.2 官网地址 2. 基本使用 2.1下载 3. 整体架构 3.1 核心组件 3.2 从web.xml配置和模块对应角度 3.3 如何处理请求 4. 配置JVM参数 5. 附录 1. tomcat概述 1.1 概念什么是tomcat Tomcat是一个开源、免费、轻量级的Web服务器。 Tomca…...

编程日记 2025/2/3 10:32:56

本地部署DeepSeek教程（Mac版本）

第一步、下载 Ollama 官网地址：Ollama 点击 Download 下载我这里是 macOS 环境以 macOS 环境为主下载完成后是一个压缩包，双击解压之后移到应用程序： 打开后会提示你到命令行中运行一下命令，附上截图： 若遇…...

编程日记 2025/2/3 10:30:51

MyBatis-Plus笔记-快速入门

大家在日常开发中应该能发现，单表的CRUD功能代码重复度很高，也没有什么难度。而这部分代码量往往比较大，开发起来比较费时。因此，目前企业中都会使用一些组件来简化或省略单表的CRUD开发工作。目前在国内使用较多的一个组件就是…...

编程日记 2025/2/3 10:29:46

爬取豆瓣书籍数据

# 1. 导入库包 import requests from lxml import etree from time import sleep import os import pandas as pd import reBOOKS [] IMGURLS []# 2. 获取网页源代码 def get_html(url):headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36…...

编程日记 2025/2/3 10:28:45

基于微信小程序的电子商城购物系统设计与实现（LW+源码+讲解）

专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌。技术范围：SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：…...

编程日记 2025/2/3 10:27:44

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架，它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用，和丰富的HTTP工具。使用Express可以快速地搭建一个完整功能的网站。 Expre…...

编程新知 2026/2/8 6:37:43

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

说明： 想象一下，你正在用eNSP搭建一个虚拟的网络世界，里面有虚拟的路由器、交换机、电脑（PC）等等。这些设备都在你的电脑里面“运行”，它们之间可以互相通信，就像一个封闭的小王国。但是&#…...

编程新知 2026/2/8 4:37:17

[2025CVPR]DeepVideo-R1：基于难度感知回归GRPO的视频强化微调框架详解

突破视频大语言模型推理瓶颈，在多个视频基准上实现SOTA性能一、核心问题与创新亮点 1.1 GRPO在视频任务中的两大挑战安全措施依赖问题 GRPO使用min和clip函数限制策略更新幅度，导致：梯度抑制：当新旧策略差异过大时梯度消失收敛困难：策略无法充分优化# 传统GRPO的梯…...

编程新知 2025/8/19 23:46:57

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする 1、前言（1）情况说明（2）工程师的信仰2、知识点（1）　にする1，接续：名词＋にする2，接续：疑问词＋にする3，（A）は（B）にする。（2）復習：（1）复习句子（2）ために　＆　ように（３）そう（４）にする3、…...

编程新知 2025/11/20 7:52:01

深入理解JavaScript设计模式之单例模式

目录什么是单例模式为什么需要单例模式常见应用场景包括单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量惰性单例通用的惰性单例结语什么是单例模式单例模式（Singleton Pattern&#…...

编程新知 2026/1/31 17:09:43

Frozen-Flask ：将 Flask 应用“冻结”为静态文件

Frozen-Flask 是一个用于将 Flask 应用“冻结”为静态文件的 Python 扩展。它的核心用途是：将一个 Flask Web 应用生成成纯静态 HTML 文件，从而可以部署到静态网站托管服务上，如 GitHub Pages、Netlify 或任何支持静态文件的网站服务器。 &am…...

编程新知 2025/12/5 20:57:13

spring：实例工厂方法获取bean

spring处理使用静态工厂方法获取bean实例，也可以通过实例工厂方法获取bean实例。实例工厂方法步骤如下： 定义实例工厂类（Java代码），定义实例工厂（xml），定义调用实例工厂&#xff…...

编程新知 2025/11/25 22:46:30

高防服务器能够抵御哪些网络攻击呢？

高防服务器作为一种有着高度防御能力的服务器，可以帮助网站应对分布式拒绝服务攻击，有效识别和清理一些恶意的网络流量，为用户提供安全且稳定的网络环境，那么，高防服务器一般都可以抵御哪些网络攻击呢？下面…...

编程新知 2025/9/3 19:14:38

Element Plus 表单(el-form)中关于正整数输入的校验规则

目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入（联动）2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...

编程新知 2025/11/10 19:08:45

Android第十三次面试总结（四大组件基础）

Activity生命周期和四大启动模式详解一、Activity 生命周期 Activity 的生命周期由一系列回调方法组成，用于管理其创建、可见性、焦点和销毁过程。以下是核心方法及其调用时机： onCreate() 调用时机：Activity 首次创建时调用。…...

编程新知 2025/10/15 15:07:34

相关文章：