当前位置：首页 > news >正文

【FreeRL】我的深度学习库构建思想

news 2025/7/10 3:05:10

文章目录

前言
- 参考
- python环境
- 效果
- 已复现结果
综述
- DQN.py（主要）
- - 算法实现
  - 参数修改
  - 细节实现
  - 显示训练，保存训练
- Buffer.py
- evaluate.py
- learning_curves

前言

代码实现在:https://github.com/wild-firefox/FreeRL
欢迎star

参考

动手学强化学习
elegentRL
DRL-code-pytorch
easy-rl
maddpg-pettingzoo-pytorch
深度强化学习
reinforcement-learning-algorithm
DRL-Pytorch
cleanRL

目的是写出像TD3作者那样简单易懂的DRL代码,
由于参考了ElegentRL和Easy的库,from easy to elegent 故起名为freeRL,
free也是希望写出的代码可以随意的,自由的从此代码移植到自己的代码上。

python环境

python 3.11.9
torch 2.3.1+cu121
gymnasium[all] 0.29.1
pygame 0.25.2 # 这个版本和gymnasium[all]0.29.1兼容

效果

在参数没有精细调整的情况下，在大多数的环境已能适用。
用DQN算法在LunarLander-v2环境下训练500个轮次的3个seed的效果：线为均值，阴影为方差
在这里插入图片描述
用 seed = 0 训练的模型评估,评估100个不同的seed的结果。

随机选择其中一个seed的结果，渲染环境。

已复现结果

1.DQN
2.DQN_Double
3.DQN_Dueling
4.DQN_PER
5.DQN_Noisy
6.DQN_N_Step
7.DQN_Categorical
8.DQN_Rainbow

其中：
1 实现在DQN_file/DQN.py
2-8 实现在DQN_file/DQN_with_tricks.py

在这里插入图片描述

综述

为了便于对算法的理解和改动，我将一个整体的算法训练和评估分离开来。

DQN_file
├── learning_curves
│   ├── env_name_1
│	│   ├── DQN_3_seed.npy
│   │   └── DQN.png
│   └── env_name_2
├── results
│   ├── env_name_1
│	│	├── DQN_1
│	│	│	├── DQN_seed_0.npy
│	│	│	├── DQN.pt
│	│	│	├── evaluate.gif
│	│	│	├── evaluate.png
│	│	│	└── events.out.tfevents.
│	│	├── DQN_2
│	│	└── DQN_3
│   └── env_name_2
├── plot_learning_curves.py
├── evaluate.py
├── Buffer.py
└── DQN.py

首先看最下面几个具体的py文件
1.evaluate.py 实现评估。
2.plot_learning_curves.py实现多个seed的学习曲线的绘制和算法比较。
3.DQN.py 实现算法。
4.Buffer.py 实现经验池，经验池基本通用。

以DQN.py为算法.py举例

DQN.py（主要）

建议边打开github上DQN.py的代码边看。

算法实现

一个深度强化学习算法分三个部分实现：
1.Agent类:包括actor、critic、target_actor、target_critic、actor_optimizer、critic_optimizer、
2.DQN算法类:包括select_action,learn、save、load等方法,为具体的算法细节实现
3.main函数:实例化DQN类,主要参数的设置,训练、测试、保存模型等

这三个部分均在DQN.py里实现。

参数修改

参数修改改三处：
1.MLP的hidden （此参数往往在第一部分开头实现）
2.main中args
3.dis_to_con中的离散转连续空间维度（针对无法转成连续域的算法，例：DQN）

对于1.需要单独修改的理由
hidden的层数和个数容易变化，且RL的许多的算法创新实现在MLP(Qnet，Actor，Critic处）会有新增参数。
对于2.
args 为主要的参数，算法独有或共有或保存位置的修改。
对于3.
主要针对DQN只能对离散环境适用，不能对连续环境适用，进行的转换。
将动作分配成多维的离散动作，使得算法可以适用，相对的，在采样环境时，需要将离散的动作转换成连续的动作。

基本的参数没有精细调整，这里DQN使用离散环境MountainCar-v0为基准来调整参数，以此能收敛为目标了，后发现此参数可以适用大多数其他环境，但不是全部。
使用MountainCar-v0的理由：环境的目标是到达最高的山峰，但环境中还有个次高的山峰，个人认为可以很好拟合出梯度中的次优解。

细节实现

1.对于不同的算法的实现，在代码中给出论文链接和不同实现。
2.在RL中使用常用的，通用的pytorch代码，易懂。见：【深度强化学习】常常使用的pytorch代码
3.区分env的terminated，truncated
4.区分训练时用的action（例：（-1，1））和env能接受的action_（例：（-3，3））
(区分3，4两点对于收敛有很大帮助。)
5.区分环境采样过程和训练过程，以提高算法的拓展性。
6.以max_episodes为终止条件，但是训练以step为最小单位。

显示训练，保存训练

1.训练时，使用tensorboard来显示实时的学习曲率。

在DQN_file（算法）文件夹下，D:FreeRL/DQN_file 终端里输入：
tensorboard --logdir=results/env_name
在跳出的http://localhost:6008/ 按住ctrl点击进入就行。

tensorboard保存的文件events.out.tfevents.和模型的位置一致。

保存模型的频率设置为总回合的1/4。

2.在results文件夹下，不同环境为文件夹名下，在算法(或算法+trick)为文件夹名里，（results/env_name/DQN_1）保存模型文件（DQN.pt）及其训练时每个episode的return值，以不同seed为区分(DQN_seed_0.npy)（此npy用于后续画学习曲率）

每进行一次训练文件夹后面的数DQN_n，n+1。

Buffer.py

在创建buffer时直接使用zeros来创建，比使用deque来创建在最后使用python基本数据再转成numpy再转成tensor速度要快。
这里使用numpy实现来使它更快一点。（参考elegentrl）
在这里插入图片描述

其他一些buffer的实现，都实现在此。

evaluate.py

实现对模型的评估，可设定评估的轮次数，设定是否保存渲染环境gif。

这里seed的设定值须与训练的seed值不同。
由于gymnasium可以设定env的seed。这里将环境的seed值设定为当前遍历的轮次，以实现seed的改变。
在gymnasium中，如果有实现任务所达到的return值，在画评估图时，以此为基线。

环境gif的保存，则是随机挑选其中一个回合进行保存。

此代码所得到的evaluate.png，evaluate.gif均保存在模型所在位置。（results/env/DQN_1/下）

（上述效果的最后两个图）

learning_curves

1.将不同的results/env/algorithm_trick_n下的DQN_seed_n.npy绘制成一个学习曲线
以均值为线，阴影为方差。
2.将比较的多个seed的episode_return 另保存为DQN_3_seed.npy方便后续比较。
3.可以选择是否比较此算法的其他trick算法。

可以设置seed_num大小，取决于你在环境的测试中，实验了几次不同的seed大小，这里仅使用seed =
0,10,100来进行绘制，当然也可以只进行一个seed的绘制。（这里有进行平滑处理，可以设置）

生成的学习曲线图为DQN.py 和保存的DQN_3_seed.npy保存在learning_curves/env/下

（上述效果的第一张图为学习曲线图，已复现的结果为比较图）

【FreeRL】我的深度学习库构建思想

文章目录前言参考python环境效果已复现结果综述DQN.py（主要）算法实现参数修改细节实现显示训练，保存训练 Buffer.pyevaluate.pylearning_curves 前言代码实现在:https://github.com/wild-firefox/FreeRL 欢迎star 参考动手学强化学习e…...

编程日记 2024/9/13 2:26:01

Docker部署nginx容器无法访问80端口

问题说明在阿里云ECS服务器上部署一台CentOS服务器，然后在里面安装了docker服务。用docker部署了nginx，开启docker中的nginx服务，映射宿主机端口80 把阿里云服务器上面的安全组放开了80端口但是还是无法访问nginx的80web界面问题分析查…...

编程日记 2024/9/13 2:25:01

Python语言开发学习之使用Python预测天气

什么是wttr？ 使用Python预测天气的第一步，我们要了解wttr是什么。wttr.in是一个面向控制台的天气预报服务，它支持各种信息表示方法，如面向终端的ANSI序列(用于控制台HTTP客户端(curl、httpie或wget))、HTML(用于web浏览器)或PNG(…...

编程日记 2024/9/13 2:24:00

minio实现大文件断点续传

最近工作中遇到一个需求，用户需要上传大文件几百M，为了更好的用户体验，需要支持断点续传，秒传，上传进度条等功能。需求如下： 方案有两种： 第一种：前端直接将整个大文件丢到后端&…...

编程日记 2024/9/13 2:21:58

Qt绘制动态仪表（模仿汽车仪表指针、故障灯）

背景： 项目需要，可能需要做一些仪表显示。此篇除了介绍实现方法，还要说明心路历程。对我而言，重要的是心理，而不是技术。写下来也是自勉。本人起初心里是比较抵触的，从业20多年了，深知所谓界…...

编程日记 2024/9/13 2:20:57

【视频教程】GEE遥感云大数据在林业中的应用与典型案例实践

近年来遥感技术得到了突飞猛进的发展，航天、航空、临近空间等多遥感平台不断增加，数据的空间、时间、光谱分辨率不断提高，数据量猛增，遥感数据已经越来越具有大数据特征。遥感大数据的出现为相关研究提供了前所未有的机遇&#xf…...

编程日记 2024/9/13 2:17:52

【时时三省】c语言例题----华为机试题＜字符串排序＞

山不在高，有仙则名。水不在深，有龙则灵。 ----CSDN 时时三省 1，题目 HJ14 字符串排序描述给定 n 个字符串，请对 n 个字符串按照字典序排列。数据范围： 1≤n≤1000 1≤n≤1000 ，字符串长度满足 1≤l…...

编程日记 2024/9/13 2:16:51

基于vue框架的城市体育运动交流平台15s43（程序+源码+数据库+调试部署+开发环境）系统界面在最后面。

系统程序文件列表项目功能：用户,赛事类型,近期赛事,比赛报名,器材类型,器材信息,自由约战,运动队伍开题报告内容基于Vue框架的城市体育运动交流平台开题报告一、项目背景与意义随着城市化进程的加速和居民健康意识的提升，城市体育运动已成为现代…...

编程日记 2024/9/13 2:14:49

2024年软件测试经典大厂面试题（全3套）【包含答案】

前言金三银四即将过去，后面迎来的便是金九银十，一直想着说分享一些软件测试的面试题，这段时间做了一些收集和整理，下面共有三篇经典面试题，大家可以试着做一下，答案附在后面，希望能帮助到大家。…...

编程日记 2024/9/13 2:12:47

What is Node.JS and its Pros and Cons

What is Node.JS and its Pros and Cons JavaScript is a client-side development tool. Node.js is a server-side development tool. And it’s only a runtime environment based on Chrome V8 so we don’t write some code in Node.js. Pros: JavaScript on a server …...

编程日记 2024/9/13 2:07:43

TestCraft - GPT支持的测试想法生成器和自动化测试生成器

在当今快速变化的软件开发世界中，自动化测试已成为确保软件质量的关键环节。而随着AI技术的进步，越来越多的工具开始引入人工智能，来辅助生成测试用例和自动化测试脚本。其中，TestCraft，作为一款GPT支持的测试想法生成…...

编程日记 2024/9/13 2:05:41

FreeRTOS内部机制学习04（任务通知和软件定时器）

文章目录何为任务通知？任务通知使用例子任务通知的优势以及劣势优势劣势深入源码看看API函数内部干了什么函数的种类函数都做了啥？ 软件定时器软件定时器的作用软件定时器内部到底做了什么实现了“闹钟”功能引入守护任务，守护任务做了啥&a…...

编程日记 2024/9/13 2:03:39

华为eNSP ：WLAN的配置

一、WLAN的知识点： VLAN配置： VLAN：可以想象成一个大房子（网络）里划分的不同房间（VLAN）。每个房间可以有自己的功能，比如一个用于睡觉（管理），另一…...

编程日记 2024/9/13 2:01:36

中国大数据产业的融资热潮来袭，哪些领域最受资本青睐？

大数据产业是以数据及数据所蕴含的信息价值为核心生产要素，通过数据技术、数据产品、数据服务等形式，使数据与信息价值在各行业经济活动中得到充分释放的赋能型产业。基于启信产业大脑的海量数据与专业研判模型，本文将从产业图谱、区域分析…...

编程日记 2024/9/13 2:00:35

Unity数据持久化之使用Excel.DLL读写Excel表格

本文仅作笔记学习和分享，不用做任何商业用途本文包括但不限于unity官方手册，unity唐老狮等教程知识，如有不足还请斧正终于找到一个比较方便容易读表的方式了，以前用json读写excel转的cvs格式文件我怎么使用怎么别扭&#xf…...

编程日记 2024/9/13 1:59:34

Linux系统：chown命令

1、命令详解： chown命令用于设置文件所有者和文件关联组的命令，全称为change directory。在Linux当中默认文件均有拥有者，可以利用 chown 将指定文件的拥有者改为指定的用户或组，输入参数时用户可以是用户名或者用户 ID&#xff0…...

编程日记 2024/9/13 1:58:33

Unity3D ARPG（动作角色扮演游戏）设计与实现详解

动作角色扮演游戏（Action Role-Playing Game, ARPG）结合了传统角色扮演游戏（RPG）的深度与动作游戏（Action Game）的即时反应和流畅战斗体验。Unity3D 作为一款强大的跨平台游戏开发引擎，为开发者…...

编程日记 2024/9/13 1:54:29

Qt实现登录界面

本文基于Qt实现一个简单的登录界面，主要使用到Widget、button、edit等控件，基于自定义的信号槽实现界面的跳转，使用绘图设备添加背景图等。 1. 创建主界面设计主界面的样式，并添加相关的控件。如下显示： 代码如下&…...

编程日记 2024/9/13 1:53:28

big.LITTLE

big.LITTLE 1 多核异构调度算法 http://www.linaro.org/?sbig.LITTLE http://git.linaro.org https://wiki.linaro.org/Archived%20LSK%20Versions big.LITTLE CPUs can be configured in 2 modes of operation: IKS – In Kernel Switcher (also known as CPU Migration…...

编程日记 2024/9/13 1:51:26

汤臣倍健，三七互娱，得物，顺丰，快手，游卡，oppo，康冠科技，途游游戏，埃科光电25秋招内推

汤臣倍健，三七互娱，得物，顺丰，快手，游卡，oppo，康冠科技，途游游戏，埃科光电25秋招内推 ①得物【八大职类】技术、供应链、产品、运营、设计、职能、商品研究、风控等大类…...

编程日记 2024/9/13 1:50:24

RestClient

什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端，它允许HTTP与Elasticsearch 集群通信，而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点轻量级&#xff…...

编程新知 2025/6/23 4:26:10

华为云AI开发平台ModelArts

华为云ModelArts：重塑AI开发流程的“智能引擎”与“创新加速器”！ 在人工智能浪潮席卷全球的2025年，企业拥抱AI的意愿空前高涨，但技术门槛高、流程复杂、资源投入巨大的现实，却让许多创新构想止步于实验室。数据科学家…...

编程新知 2025/7/9 5:23:25

Docker 离线安装指南

参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性，不同版本的Docker对内核版本有不同要求。例如，Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本，Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...

编程新知 2025/7/8 12:03:38

【JavaEE】-- HTTP

1. HTTP是什么？ HTTP（全称为"超文本传输协议"）是一种应用非常广泛的应用层协议，HTTP是基于TCP协议的一种应用层协议。应用层协议：是计算机网络协议栈中最高层的协议，它定义了运行在不同主机上…...

编程新知 2025/7/9 19:03:56

AI Agent与Agentic AI：原理、应用、挑战与未来展望

文章目录一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程三、AI Agent的核心技术栈解密3.1 感知模块代码示例：使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例：使用OpenAI GPT-3进…...

编程新知 2025/7/6 20:31:24

生成 Git SSH 证书

🔑 1. 生成 SSH 密钥对在终端（Windows 使用 Git Bash，Mac/Linux 使用 Terminal）执行命令： ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 参数说明： -t rsa&#x…...

编程新知 2025/7/6 13:16:37

k8s业务程序联调工具-KtConnect

概述原理工具作用是建立了一个从本地到集群的单向VPN，根据VPN原理，打通两个内网必然需要借助一个公共中继节点，ktconnect工具巧妙的利用k8s原生的portforward能力，简化了建立连接的过程，apiserver间接起到了中继节…...

编程新知 2025/7/8 12:00:11

AI病理诊断七剑下天山，医疗未来触手可及

一、病理诊断困局：刀尖上的医学艺术 1.1 金标准背后的隐痛病理诊断被誉为"诊断的诊断"，医生需通过显微镜观察组织切片，在细胞迷宫中捕捉癌变信号。某省病理质控报告显示，基层医院误诊率达12%-15%，专家会诊…...

编程新知 2025/7/9 23:26:09

push [特殊字符] present

push 🆚 present 前言present和dismiss特点代码演示 push和pop特点代码演示前言在 iOS 开发中，push 和 present 是两种不同的视图控制器切换方式，它们有着显著的区别。 present和dismiss 特点在当前控制器上方新建视图层级需要手动调用…...

编程新知 2025/7/9 8:13:47

Qemu arm操作系统开发环境

使用qemu虚拟arm硬件比较合适。步骤如下： 安装qemu apt install qemu-system安装aarch64-none-elf-gcc 需要手动下载，下载地址：https://developer.arm.com/-/media/Files/downloads/gnu/13.2.rel1/binrel/arm-gnu-toolchain-13.2.rel1-x…...

编程新知 2025/7/7 23:20:05