当前位置：首页 > news >正文

【强化学习】Stable-Baselines3学习笔记

news 2026/2/9 11:04:29

【强化学习】Stable-Baselines3学习笔记

Stable-Baselines3是什么
安装
Example
Reinforcement Learning Tips and Tricks
VecEnv相关
在stablebaselines中使用自定义环境

Stable-Baselines3是什么

在这里插入图片描述

Stable Baselines3（简称SB3）是一套基于PyTorch实现的强化学习算法的可靠工具集
旨在为研究社区和工业界提供易于复制、优化和构建新项目的强化学习算法实现
官方文档链接：Stable-Baselines3 Docs - Reliable Reinforcement Learning Implementations
Stable-Baselines的一些特点：

Q：RL Baselines3 Zoo、SB3 Contrib和SBX (SB3 + Jax)与Stable Baselines3的关系是什么？
A：

RL Baselines3 Zoo：RL Baselines3 Zoo是一个基于Stable Baselines3的训练框架，提供了训练、评估、调优超参数、绘图及视频录制的脚本。它的目标是提供一个简单的接口来训练和使用RL代理，同时为每个环境和算法提供调优的超参数
SB3 Contrib：SB3 Contrib是一个包含社区贡献的强化学习算法的仓库，提供了一些实验性的算法和功能。这使得主库SB3能够保持稳定和紧凑，同时通过SB3 Contrib提供最新的算法
SBX (SB3 + Jax)：Stable Baselines Jax (SBX)是Stable Baselines3在Jax上的概念验证版本，提供了一些最新的强化学习算法，它与SB3相比提供了较少的功能，但在某些情况下可以提供更高的性能，速度可能快达20倍。 SBX遵循SB3的API，因此与RL Zoo兼容

这三个项目都是Stable Baselines3生态系统的一部分，它们共同提供了一个全面的工具集，用于强化学习的研究和开发。SB3提供了核心的强化学习算法实现，而RL Baselines3 Zoo提供了一个训练和评估这些算法的框架。SB3 Contrib则作为实验性功能的扩展库，SBX则探索了使用Jax来加速这些算法的可能性

安装

Stable-Baselines3 requires python 3.9+ and PyTorch >= 2.3
Windows的要求：Python 3.8或以上
安装命令：

#该命令将会安装 Stable Baselines3以及一些依赖项 如Tensorboard, OpenCV or ale-py
pip install stable-baselines3[extra]#该命令仅安装 Stable Baselines3 的核心包
pip install stable-baselines3

Example

官方示例代码：

import gymnasium as gymfrom stable_baselines3 import A2Cenv = gym.make("CartPole-v1", render_mode="rgb_array")model = A2C("MlpPolicy", env, verbose=1)
model.learn(total_timesteps=10_000)vec_env = model.get_env()
obs = vec_env.reset()
for i in range(1000):action, _state = model.predict(obs, deterministic=True)obs, reward, done, info = vec_env.step(action)vec_env.render("human")# VecEnv resets automatically# if done:#   obs = vec_env.reset()

与直接使用gymnasium环境的不同之处

gymnasium.make之后，还需要创建vec_env vec_env = model.get_env()
环境的reset使用vec_env.reset()
VecEnv仅需在训练开始时reset，训练中无需手动reset，具体请看上述代码中最后的注释部分

Reinforcement Learning Tips and Tricks

强化学习与其他机器学习方法不同之处：训练的数据由智能体本身收集Reinforcement Learning differs from other machine learning methods in several ways. The data used to train the agent is collected through interactions with the environment by the agent itself(compared to supervised learning where you have a fixed dataset for instance).
这种依赖会导致恶性循环：如果代理收集到质量较差的数据（例如，没有奖励的轨迹），那么它就不会改进并继续积累错误的轨迹。This dependence can lead to vicious circle: if the agent collects poor quality data (e.g., trajectories with no rewards), then it will not improve and continue to amass bad trajectories.

VecEnv相关

stable-baselines使用矢量化环境(VecEnv)
VecEnv允许并行地在一个环境中的多个实例上运行，这样可以显著提高数据收集和训练的效率
VecEnv支持批量操作（允许模型一次从多个环境实例中学习），可以一次性对所有环境实例执行相同的动作，然后同时获取所有实例的观测、奖励和完成状态
在VecEnv中，当一个环境实例完成（即done为True）时，它会自动重置

在stablebaselines中使用自定义环境

创建环境类并继承gymnasium.Env，遵循gymnasium的接口，即包含__init__, reset, step, render等函数
检验环境是否遵循了SB3支持的gymnasium接口，需使用from stable_baselines3.common.env_checker import check_env，检验环境代码如下

from stable_baselines3.common.env_checker import check_env
import gymnasium as gymfrom Path.CustomEnvimport CustomEnv
env = CustomEnv(arg1, ...)
# It will check your custom environment and output additional warnings if needed
check_env(env)

【强化学习】Stable-Baselines3学习笔记

【强化学习】Stable-Baselines3学习笔记 Stable-Baselines3是什么安装ExampleReinforcement Learning Tips and TricksVecEnv相关在stablebaselines中使用自定义环境 Stable-Baselines3是什么 Stable Baselines3（简称SB3）是一套基于PyTorch实现的强化学习…...

编程日记 2024/12/27 19:45:43

前端真实面试题自用

一、写在前面笔者，经过计算机学硕考研的失败后，想谋求一份前端工作实在是太难了。一方面，确实曾经学习过的东西很久没有拾起，另一方面，对于前端面经还是记忆不深刻，特地写此贴记录笔者在真实前端面试中遇…...

编程日记 2024/12/27 19:40:38

vue3和springboot使用websocket通信

前端端口：9090 后端端口：8080 vue3 引入依赖： npm install sockjs-client stomp/stompjs vue页面 <template><div><h1>WebSocket 示例</h1><button click"sendMessage">发送消息</button>…...

编程日记 2024/12/27 19:32:31

JS 解构、数组扩展符和模板字符串的常见用法

文章目录解构1. 对象解构2. 数组解构数组扩展符模板字符串解构 1. 对象解构想把对象中的属性赋值给变量时, 需要一次一次的赋值，很麻烦。而对象解构, 就是把对象的结构拆解开, 然后把拆解后的属性自动赋值给匹配的变量。 (1) 对象属性赋值变量的传统写法&…...

编程日记 2024/12/27 19:26:24

低代码开源项目Joget的研究——Joget7社区版安装部署

大纲环境准备安装必要软件配置Java配置JAVA_HOME配置Java软链安装三方库获取源码配置MySql数据库创建用户创建数据库导入初始数据配置数据库连接配置sessionFactory编译下载tomcat启动下载aspectjweaver移动jw.war文件编写脚本运行测试参考资料 Joget，作为一款开…...

编程日记 2024/12/27 19:25:22

Golang 为什么没有注解？

Go 的哲学是：“少就是多，显式优于隐式。”注解虽然方便，但会违背 Go 追求简洁和清晰的设计理念。什么是注解？为什么看起来很实用？注解的定义：注解是一种特殊的元信息，用于修饰代码（如类、方法、字段等），让程序或工具在运行时或编译时解析和处理这些信息。例如： …...

编程日记 2024/12/27 19:24:21

Visual Studio Code(VS Code)配置C/C++环境

一、Visual Studio Code安装 Visual Studio Code，下文中简称为VS Code的详细安装方法请参考VSCode安装教程（超详细）-CSDN博客二、MinGW编译器下载与配置 1、MinGW介绍 MinGW(Minimalist GNU for Windows)是一款用于Windows 平台的轻…...

编程日记 2024/12/27 19:22:18

LabVIEW软件开发的未来趋势

LabVIEW软件开发的未来趋势可以从以下几个方面来分析： 1. 与AI和机器学习的深度结合趋势：LabVIEW正在向集成AI和机器学习方向发展，尤其是在数据处理、预测性维护和自动化控制领域。原因：AI技术的普及使得实验和工业场景中的…...

编程日记 2024/12/27 19:20:17

Node.js 助力前端开发：自动化操作实战

前端开发中，重复性任务如新建文件、配置路由、生成组件等，往往耗时且容易出错。借助 Node.js 的强大能力，我们可以实现开发过程中的自动化操作，提高效率。文章目录自动生成 router 配置文件自动生成组件模板动态构建导航菜单自…...

编程日记 2024/12/27 19:13:11

HuggingFace peft LoRA 微调 LLaMA

1. 安装必要库 pip install transformers peft accelerate2. 加载 LLaMA 模型和分词器从 Hugging Face Transformers 加载预训练的 LLaMA 模型和分词器。 from transformers import AutoModelForCausalLM, AutoTokenizer# 加载 LLaMA 模型和分词器 model_name "meta-…...

编程日记 2024/12/27 19:09:08

记-编译magisk_v22

1) 下载源码 git clone gitgitee.com:MayuriNFC/Magisk.git 使用国内镜像站 2) 切换标签: git checkout v22.0 3)下载/更新依赖 git submodule initgit sumodule update 4)下载对应ndk(自动下载出错了,用了手动下载), wget -c https://dl.google.com/android/reposito…...

编程日记 2024/12/27 19:06:05

前端登录业务

1.用户登录成功拿到token，放在请求拦截器的请求头中，调用户接口才可以获取到用户信息，存储到仓库中，以便其他组件使用用户信息 2.退出登录需要清空用户数据，以及本地存储，调退出登录接口告诉服务器当前toke…...

编程日记 2024/12/27 19:03:02

项目2路由交换

背景某学校为满足日常教学生活需求，推动数字校园的建设，学校有办公楼和学生宿舍楼和服务器集群三块区域，请合理规划IP地址和VLAN，实现企业内部能够互联互通现要求外网能通过公网地址访问服务器集群，学生和老师能正常…...

编程日记 2024/12/27 18:56:56

易语言 OCR 文字识别

一.引言文字识别，也称为光学字符识别（Optical Character Recognition, OCR），是一种将不同形式的文档（如扫描的纸质文档、PDF文件或数字相机拍摄的图片）中的文字转换成可编辑和可搜索的数据的技术。随着技…...

编程日记 2024/12/27 18:53:54

云手机+YouTube：改变通信世界的划时代技术

随着科技的不断进步，手机作为人们生活中不可或缺的工具，也在不断地更新换代。近年来，一个名为“油管云手机”的全新产品正在引起广泛的关注和讨论。作为一个运用最新科技实现的新型手机，它在通信领域带来了全新的体验和革命性的变…...

编程日记 2024/12/27 18:50:50

C++-----------映射

探索 C 中的映射与查找表在 C 编程中，映射（Map）和查找表（Lookup Table）是非常重要的数据结构，它们能够高效地存储和检索数据，帮助我们解决各种实际问题。今天，我们就来深入探讨一下…...

编程日记 2024/12/27 18:48:49

清空DNS 缓存

如果遇到修改了host文件，但是IP和域名的映射有问题的情况，可以尝试刷新DNS缓存。 ipconfig/flushdns win建加R建，然后输入cmd，然后回车然后回车，或者点击确定按钮。出现如下所示标识清空DNS 缓存成功。...

编程日记 2024/12/27 18:43:42

计算机网络习题( 第3章物理层第4章数据链路层 )

第3章物理层一、单选题 1、下列选项中，不属于物理层接口规范定义范畴的是（ ）。 A、接口形状 B、引脚功能 C、传输媒体 D、信号电平正确答案： C 2、在物理层接口特性中，用于描述完成每种功能的事件发…...

编程日记 2024/12/27 18:42:41

UE5 崩溃问题汇总！！！

Using bundled DotNet SDK version: 6.0.302 ERROR: UnrealBuildTool.dll not found in "..\..\Engine\Binaries\DotNET\UnrealBuildTool\UnrealBuildTool.dll" 在你遇到这种极奇崩溃的BUG ，难以解决的时候。尝试了N种方法，都不行的解决方法。…...

编程日记 2024/12/27 18:39:38

基于ArcGIS Pro的SWAT模型在流域水循环、水生态模拟中的应用及案例分析；SWAT模型安装、运行到结果读取全流程指导

目前，流域水资源和水生态问题逐渐成为制约社会经济和环境可持续发展的重要因素。SWAT模型是一种基于物理机制的分布式流域水文与生态模拟模型，能够对流域的水循环过程、污染物迁移等过程进行精细模拟和量化分析。SWAT模型目前广泛应用于流域水文过程研究…...

编程日记 2024/12/27 18:33:33

云计算——弹性云计算器（ECS）

弹性云服务器：ECS 概述云计算重构了ICT系统，云计算平台厂商推出使得厂家能够主要关注应用管理而非平台管理的云平台，包含如下主要概念。 ECS（Elastic Cloud Server）：即弹性云服务器，是云计算…...

编程新知 2025/8/16 21:50:27

cf2117E

原题链接：https://codeforces.com/contest/2117/problem/E 题目背景： 给定两个数组a,b，可以执行多次以下操作：选择 i (1 < i < n - 1)，并设置或，也可以在执行上述操作前执行一次删除任意和。求…...

编程新知 2026/2/4 15:29:40

第一篇：Agent2Agent (A2A) 协议——协作式人工智能的黎明

AI 领域的快速发展正在催生一个新时代，智能代理（agents）不再是孤立的个体，而是能够像一个数字团队一样协作。然而，当前 AI 生态系统的碎片化阻碍了这一愿景的实现，导致了“AI 巴别塔问题”——不同代理之间…...

编程新知 2026/1/31 3:30:33

Linux云原生安全：零信任架构与机密计算

Linux云原生安全：零信任架构与机密计算构建坚不可摧的云原生防御体系引言：云原生安全的范式革命随着云原生技术的普及，安全边界正在从传统的网络边界向工作负载内部转移。Gartner预测，到2025年，零信任架构将成为超…...

编程新知 2025/8/17 17:11:47

Python爬虫（一）：爬虫伪装

一、网站防爬机制概述在当今互联网环境中，具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。这些措施主要分为两大类： 身份验证机制：直接将未经授权的爬虫阻挡在外反爬技术体系：通过各种技术手段增加爬虫获取数据的难度…...

编程新知 2026/1/30 20:42:46

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...

编程新知 2025/11/26 13:15:57

Python如何给视频添加音频和字幕

在Python中，给视频添加音频和字幕可以使用电影文件处理库MoviePy和字幕处理库Subtitles。下面将详细介绍如何使用这些库来实现视频的音频和字幕添加，包括必要的代码示例和详细解释。环境准备在开始之前，需要安装以下Python库：…...

编程新知 2025/9/3 4:12:17

Reasoning over Uncertain Text by Generative Large Language Models

https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829 1. 概述文本中的不确定性在许多语境中传达，从日常对话到特定领域的文档（例如医学文档）（Heritage 2013；Landmark、Gulbrandsen 和 Svenevei…...

编程新知 2026/2/8 2:27:29