当前位置: 首页 > article >正文

Actor-Critic算法实战:用PyTorch实现CartPole平衡(附完整代码)

Actor-Critic算法实战用PyTorch实现CartPole平衡附完整代码在强化学习领域Actor-Critic算法因其独特的架构设计而备受关注。它巧妙地将策略梯度方法与值函数估计相结合既避免了纯策略梯度方法的高方差问题又克服了纯值函数方法在连续动作空间中的局限性。本文将带您从零开始实现一个完整的Actor-Critic模型解决经典的CartPole平衡问题。1. 环境准备与算法原理CartPole是OpenAI Gym中最经典的测试环境之一目标是通过控制小车的左右移动来保持杆子的竖直平衡。这个看似简单的任务实际上包含了强化学习的核心挑战——如何在连续状态空间中找到最优策略。Actor-Critic算法的核心思想可以概括为Actor演员负责根据当前状态选择动作即策略函数π(a|s)Critic评论家评估当前状态的价值V(s)或状态-动作对的Q值两者协同工作的过程就像演员在表演而评论家则不断给出反馈帮助演员改进表演技巧。具体来说# 伪代码表示Actor-Critic的交互过程 for episode in episodes: state env.reset() while not done: action actor.select_action(state) # Actor决策 next_state, reward, done, _ env.step(action) td_error critic.compute_error(state, reward, next_state) # Critic评估 actor.update(td_error) # 根据评价调整策略 critic.update(td_error) # 更新价值估计 state next_state这种架构的优势在于能够实现单步更新而不像REINFORCE算法需要等到整个episode结束才能更新参数。2. 网络架构设计与实现我们将使用PyTorch构建两个神经网络一个策略网络Actor和一个价值网络Critic。这两个网络将共享部分特征提取层以提高学习效率。2.1 策略网络Actor策略网络的目标是学习一个从状态到动作的映射。对于CartPole环境输出是离散的左或右因此我们使用softmax输出层import torch import torch.nn as nn import torch.nn.functional as F class PolicyNet(nn.Module): def __init__(self, state_dim, hidden_dim, action_dim): super(PolicyNet, self).__init__() self.fc1 nn.Linear(state_dim, hidden_dim) self.fc2 nn.Linear(hidden_dim, action_dim) def forward(self, x): x F.relu(self.fc1(x)) return F.softmax(self.fc2(x), dim1)2.2 价值网络Critic价值网络的任务是估计当前状态的价值为策略网络提供学习信号class ValueNet(nn.Module): def __init__(self, state_dim, hidden_dim): super(ValueNet, self).__init__() self.fc1 nn.Linear(state_dim, hidden_dim) self.fc2 nn.Linear(hidden_dim, 1) def forward(self, x): x F.relu(self.fc1(x)) return self.fc2(x)2.3 网络参数对比下表展示了两个网络的关键参数设置参数策略网络价值网络输入维度状态维度 (4)状态维度 (4)隐藏层128神经元128神经元输出层动作维度 (2)标量值 (1)激活函数ReLU SoftmaxReLU优化器Adam (lr1e-3)Adam (lr1e-2)3. 完整算法实现现在我们将上述组件整合成一个完整的Actor-Critic算法类。这个类需要处理动作选择、经验收集和参数更新等核心功能。class ActorCritic: def __init__(self, state_dim, hidden_dim, action_dim, actor_lr, critic_lr, gamma, device): self.actor PolicyNet(state_dim, hidden_dim, action_dim).to(device) self.critic ValueNet(state_dim, hidden_dim).to(device) self.actor_optimizer torch.optim.Adam( self.actor.parameters(), lractor_lr) self.critic_optimizer torch.optim.Adam( self.critic.parameters(), lrcritic_lr) self.gamma gamma self.device device def take_action(self, state): state torch.tensor([state], dtypetorch.float).to(self.device) probs self.actor(state) action_dist torch.distributions.Categorical(probs) action action_dist.sample() return action.item() def update(self, transition_dict): states torch.tensor(transition_dict[states], dtypetorch.float).to(self.device) actions torch.tensor(transition_dict[actions]).view(-1, 1).to(self.device) rewards torch.tensor(transition_dict[rewards], dtypetorch.float).view(-1, 1).to(self.device) next_states torch.tensor(transition_dict[next_states], dtypetorch.float).to(self.device) dones torch.tensor(transition_dict[dones], dtypetorch.float).view(-1, 1).to(self.device) # 计算时序差分误差 td_target rewards self.gamma * self.critic(next_states) * (1 - dones) td_delta td_target - self.critic(states) # 更新Actor log_probs torch.log(self.actor(states).gather(1, actions)) actor_loss torch.mean(-log_probs * td_delta.detach()) self.actor_optimizer.zero_grad() actor_loss.backward() self.actor_optimizer.step() # 更新Critic critic_loss torch.mean(F.mse_loss(self.critic(states), td_target.detach())) self.critic_optimizer.zero_grad() critic_loss.backward() self.critic_optimizer.step()提示在实际实现中我们使用detach()方法切断了一些计算图的连接这是为了避免某些参数的梯度被错误计算。4. 训练过程与调参技巧训练一个稳定的Actor-Critic模型需要关注几个关键点学习率设置、折扣因子选择以及训练节奏控制。下面是我们推荐的训练流程初始化环境与参数import gym import numpy as np import matplotlib.pyplot as plt env gym.make(CartPole-v0) state_dim env.observation_space.shape[0] action_dim env.action_space.n actor_lr 1e-3 critic_lr 1e-2 num_episodes 1000 hidden_dim 128 gamma 0.98 device torch.device(cuda if torch.cuda.is_available() else cpu)训练循环实现def train_actor_critic(env, agent, num_episodes): return_list [] for i in range(num_episodes): episode_return 0 state env.reset() done False transition_dict { states: [], actions: [], next_states: [], rewards: [], dones: [] } while not done: action agent.take_action(state) next_state, reward, done, _ env.step(action) transition_dict[states].append(state) transition_dict[actions].append(action) transition_dict[next_states].append(next_state) transition_dict[rewards].append(reward) transition_dict[dones].append(done) state next_state episode_return reward agent.update(transition_dict) return_list.append(episode_return) if (i1) % 100 0: print(fEpisode {i1}, Return: {np.mean(return_list[-100:])}) return return_list关键参数调优经验学习率比例Critic的学习率通常设为Actor的10倍因为价值估计需要更快收敛折扣因子γ对于CartPole这类即时奖励密集的任务γ可以设得较高0.98-0.99批量训练虽然我们这里使用在线学习但实际中可以积累多个transition再更新更稳定熵正则化可以添加策略熵项防止过早收敛到次优策略训练结果可视化agent ActorCritic(state_dim, hidden_dim, action_dim, actor_lr, critic_lr, gamma, device) return_list train_actor_critic(env, agent, num_episodes) plt.plot(return_list) plt.xlabel(Episodes) plt.ylabel(Returns) plt.title(Actor-Critic on CartPole) plt.show()经过约500轮训练模型通常能够学会完美平衡杆子持续200步以上。如果训练曲线波动较大可以尝试减小学习率或增加批处理大小。5. 进阶优化与扩展基础Actor-Critic实现后我们可以考虑以下几个方向的改进5.1 优势函数A2C使用优势函数A(s,a)Q(s,a)-V(s)代替简单的TD误差能显著降低方差# 修改update方法中的优势估计部分 delta td_delta.detach() advantage delta - delta.mean() # 简单的优势估计 actor_loss torch.mean(-log_probs * advantage)5.2 并行环境采样通过同时运行多个环境实例加速数据收集from multiprocessing import Process, Queue def worker(env_id, task_queue, result_queue): env gym.make(env_id) while True: state task_queue.get() if state is None: break action agent.take_action(state) next_state, reward, done, _ env.step(action) result_queue.put((state, action, reward, next_state, done))5.3 与其他算法对比下表展示了Actor-Critic与几种常见算法的特性比较特性Actor-CriticDQNREINFORCEPPO动作空间离散/连续离散离散/连续离散/连续更新方式在线离线回合制小批量方差中低高低实现难度中等简单简单复杂样本效率中高低高在实际项目中我发现Actor-Critic的一个实用技巧是定期保存和加载模型参数。当训练过程中出现性能骤降时可以回滚到之前的稳定版本# 保存检查点 torch.save({ actor_state_dict: agent.actor.state_dict(), critic_state_dict: agent.critic.state_dict(), actor_optimizer_state_dict: agent.actor_optimizer.state_dict(), critic_optimizer_state_dict: agent.critic_optimizer.state_dict(), }, checkpoint.pth) # 加载检查点 checkpoint torch.load(checkpoint.pth) agent.actor.load_state_dict(checkpoint[actor_state_dict]) agent.critic.load_state_dict(checkpoint[critic_state_dict]) agent.actor_optimizer.load_state_dict(checkpoint[actor_optimizer_state_dict]) agent.critic_optimizer.load_state_dict(checkpoint[critic_optimizer_state_dict])

相关文章:

Actor-Critic算法实战:用PyTorch实现CartPole平衡(附完整代码)

Actor-Critic算法实战:用PyTorch实现CartPole平衡(附完整代码) 在强化学习领域,Actor-Critic算法因其独特的架构设计而备受关注。它巧妙地将策略梯度方法与值函数估计相结合,既避免了纯策略梯度方法的高方差问题&#…...

【03 Maven生命周期和插件】

九月九日忆山东兄弟何为生命周期生命周期详解clean生命周期deault生命周期site生命周期命令行与生命周期插件内置插件自定义插件绑定插件配置插件解析笔记王维独在异乡为异客,每逢佳节倍思亲。 遥知兄弟登高处,遍插茱萸少一人。 除了坐标、依赖以及仓库…...

霜儿-汉服-造相Z-Turbo与目标检测联动:YOLOv8辅助生成图像质量评估

霜儿-汉服-造相Z-Turbo与目标检测联动:YOLOv8辅助生成图像质量评估 1. 引言 如果你是做汉服内容的设计师或创作者,大概都遇到过这样的烦恼:用AI生成了一批汉服人物图,结果发现有些图里人物缺胳膊少腿,或者衣袖、裙摆…...

k3s生产环境避坑指南:Traefik Ingress配置常见问题与解决方案

k3s生产环境避坑指南:Traefik Ingress配置常见问题与解决方案 引言:为什么你的k3s应用总是访问失败? 凌晨三点,运维工程师小李的手机突然响起——生产环境的订单服务又无法访问了。他揉了揉眼睛,打开电脑检查k3s集群状…...

影墨·今颜小红书模型赋能微信小程序:AI文案助手开发实战

影墨今颜小红书模型赋能微信小程序:AI文案助手开发实战 最近在刷朋友圈,看到好几个做电商、做内容的朋友都在抱怨,每天想文案想得头秃。特别是小红书那种既要种草感、又要生活气、还得带点网感的文案,写起来特别费劲。正好&#…...

MiniCPM-o-4.5-nvidia-FlagOS部署排错指南:常见网络问题与403 Forbidden错误解决

MiniCPM-o-4.5-nvidia-FlagOS部署排错指南:常见网络问题与403 Forbidden错误解决 1. 引言 刚拿到MiniCPM-o-4.5-nvidia-FlagOS这个镜像,兴冲冲地准备部署,结果第一步就卡住了——服务起不来,或者好不容易起来了,一调…...

ToastFish:让碎片时间成为词汇积累的黄金窗口

ToastFish:让碎片时间成为词汇积累的黄金窗口 【免费下载链接】ToastFish 一个利用摸鱼时间背单词的软件。 项目地址: https://gitcode.com/GitHub_Trending/to/ToastFish 在快节奏的现代生活中,许多职场人士和学生都面临着一个共同的困境&#x…...

从Gemini推理到图像生成:深入Google Nano Banana Pro的‘思考’内核与API调用指南

从Gemini推理到图像生成:深入Google Nano Banana Pro的‘思考’内核与API调用指南 当AI图像生成从单纯的"画得像"进化到"画得对",技术背后的逻辑正在发生质变。Google最新推出的Nano Banana Pro(基于Gemini 3 Pro架构&a…...

【ES】从ignore_throttled参数废弃看Elasticsearch冷热数据架构演进

1. 从ignore_throttled参数废弃说起 最近在升级Spring Boot项目时,突然在日志里看到这样一条警告:"[ignore_throttled] parameter is deprecated because frozen indices have been deprecated"。这个报错让我意识到,Elasticsearch…...

Bidili Generator实战教程:用CSV批量生成100张不同风格产品主图

Bidili Generator实战教程:用CSV批量生成100张不同风格产品主图 你是不是也遇到过这样的烦恼?公司要上新一批产品,需要为每个产品制作不同风格的主图,比如清新风、科技感、复古调。找设计师一张张做,成本高、周期长&a…...

图片旋转判断模型联邦学习:多机构协作提升泛化但不共享原始图

图片旋转判断模型联邦学习:多机构协作提升泛化但不共享原始图 你有没有遇到过这样的烦恼?从不同设备、不同渠道收集来的图片,有的头朝上,有的却莫名其妙地旋转了90度甚至180度。手动一张张去调整,费时费力&#xff1b…...

Opik生产环境部署指南:K8s+Docker轻松应对4000万+日追踪记录

Opik生产环境高可用部署实战:KubernetesDocker架构设计精要 当企业级LLM应用日均处理量突破4000万条追踪记录时,系统架构面临的挑战已远非单机部署所能应对。本文将深入剖析基于Kubernetes和Docker的Opik生产环境部署方案,分享我们在实际运维…...

LingBot-Depth-ViT-L14在智慧物流中应用:AGV避障深度补全降低LiDAR成本50%

LingBot-Depth-ViT-L14在智慧物流中应用:AGV避障深度补全降低LiDAR成本50% 1. 引言:AGV避障的成本困境与破局思路 如果你在工厂或仓库里见过那些跑来跑去的自动搬运小车(AGV),可能会觉得它们很酷。但你知道吗&#x…...

ArcToolbox实战:用‘点集转线’和‘要素转面’工具,把离散坐标连成区域面

ArcGIS高级技巧:从离散坐标到区域面的自动化构建 在空间数据分析领域,将离散的点数据转化为连续的线或面要素是常见却关键的操作。无论是气象站点的等值线绘制,还是巡检路线的区域划分,这种转换都能让原始数据"活起来"&…...

DAMO-YOLO性能实测:批量100张图平均吞吐达92 FPS(RTX 4090)

DAMO-YOLO性能实测:批量100张图平均吞吐达92 FPS(RTX 4090) 如果你正在寻找一个又快又准的目标检测工具,并且对界面颜值还有点要求,那么今天聊的这个DAMO-YOLO智能视觉探测系统,可能会让你眼前一亮。它不只…...

新手必看!PHI-3 PIXEL QUEST保姆级教程:一键部署像素风AI对话平台

新手必看!PHI-3 PIXEL QUEST保姆级教程:一键部署像素风AI对话平台 1. 环境准备与快速部署 1.1 系统要求 操作系统:支持Windows 10/11、macOS 10.15、主流Linux发行版硬件配置: 最低:8GB内存 4GB显存(NV…...

Janus-Pro-7B保姆级教程:从镜像拉取到OCR+文生图一键运行

Janus-Pro-7B保姆级教程:从镜像拉取到OCR文生图一键运行 1. 前言:为什么选择Janus-Pro-7B? 如果你正在寻找一个既能看懂图片又能生成图片的AI模型,Janus-Pro-7B绝对值得一试。这个模型最大的特点就是"多才多艺"——它…...

vLLM-v0.17.1惊艳效果:FlashInfer集成后Attention计算提速4.2倍

vLLM-v0.17.1惊艳效果:FlashInfer集成后Attention计算提速4.2倍 1. vLLM框架简介 vLLM是一个专为大型语言模型(LLM)设计的高性能推理和服务库,以其出色的速度和易用性著称。这个项目最初由加州大学伯克利分校的天空计算实验室(Sky Computing Lab)开发&…...

CLIP ViT-H/14:让AI同时理解图像与文字的多模态革命

CLIP ViT-H/14:让AI同时理解图像与文字的多模态革命 【免费下载链接】CLIP-ViT-H-14-laion2B-s32B-b79K 项目地址: https://ai.gitcode.com/hf_mirrors/laion/CLIP-ViT-H-14-laion2B-s32B-b79K 概念解析:当AI同时看懂图像和文字,会发…...

EVA-02赋能AIGC内容创作:自动化生成营销文案与剧本

EVA-02赋能AIGC内容创作:自动化生成营销文案与剧本 最近在内容创作圈子里,EVA-02这个名字被讨论得越来越多。它不是一个新出的动漫角色,而是一个在AIGC领域表现相当抢眼的文本生成模型。我花了一些时间深度体验,想和大家聊聊&…...

Wan2.2-I2V-A14B效果对比:A14B在复杂prompt下的语义理解准确率提升

Wan2.2-I2V-A14B效果对比:A14B在复杂prompt下的语义理解准确率提升 1. 引言:新一代文生视频模型的突破 在文生视频技术快速发展的今天,Wan2.2-I2V-A14B模型带来了显著的语义理解能力提升。这个专为RTX 4090D 24GB显存优化的私有部署镜像&am…...

DCT-Net模型在广告设计中的应用:创意卡通形象生成

DCT-Net模型在广告设计中的应用:创意卡通形象生成 1. 引言 广告设计行业正面临着一个普遍痛点:品牌需要大量个性化、吸引眼球的卡通形象来增强广告吸引力,但传统设计流程耗时耗力,成本高昂。一个中等规模的广告公司,…...

Intel RealSense SDK 架构解析与三维视觉开发实战

Intel RealSense SDK 架构解析与三维视觉开发实战 【免费下载链接】librealsense Intel RealSense™ SDK 项目地址: https://gitcode.com/GitHub_Trending/li/librealsense Intel RealSense SDK 作为业界领先的深度感知开发框架,为开发者提供了从硬件驱动到高…...

解锁A站视频永久保存新姿势:零基础上手AcFunDown批量下载全攻略

解锁A站视频永久保存新姿势:零基础上手AcFunDown批量下载全攻略 【免费下载链接】AcFunDown 包含PC端UI界面的A站 视频下载器。支持收藏夹、UP主视频批量下载 😳仅供交流学习使用喔 项目地址: https://gitcode.com/gh_mirrors/ac/AcFunDown 你是否…...

Clawdbot部署教程:Qwen3:32B网关与Prometheus+Grafana监控体系集成

Clawdbot部署教程:Qwen3:32B网关与PrometheusGrafana监控体系集成 1. 引言:为什么需要AI代理网关与监控体系 当你开始构建AI应用时,可能会遇到这样的问题:不同的AI模型需要不同的调用方式,监控和日志分散在各个地方&…...

C语言--C语言的常见概念

1.C语言是什么C语⾔就是众多计算机语⾔中的⼀种,是人与计算机交流的语言.2.一个最基本的C语言程序#include <stdio.h> int main() {printf("hello\n"); return 0;}3.main函数(主函数)特点:1.不管程序有多少行的代码,都是从main函数开始执行2.main函数有且只有一…...

Sqoop分区表数据导入完全指南:原理、参数与分区策略

Sqoop分区表数据导入完全指南&#xff1a;原理、参数与分区策略引言1. 分区导入的核心概念1.1 什么是分区导入&#xff1f;1.2 分区导入的两种模式2. 静态分区导入&#xff1a;使用Sqoop直接导入到指定分区2.1 核心参数2.2 基本命令语法2.3 完整实战示例3. 静态分区的局限性3.1…...

Python+PySpark+Hadoop酒店推荐系统 酒店知识图谱 酒店数据分析推荐系统 大数据毕业设计 Hadoop 可视化 协同过滤推荐算法

1、项目介绍 技术栈&#xff1a; Spark大数据、虚拟机、Hive、Hadoop、Python语言、Django框架、Echarts可视化、vue框架、HTML、selenium爬虫技术、锦江酒店网站数据、协同过滤推荐算法基于Spark和Hive的酒店数据分析与推荐系统本项目基于Spark和Hive的大数据处理平台&#xf…...

${__RandomFromMultipleVars(rand_cat6,)}随机取值函数的使用

1、核心 从多个指定的变量&#xff08;或单个变量的多个值&#xff09;中随机抽取一个值 2、应用场景 ${__RandomFromMultipleVars(变量名1,变量名2,变量名3,...,输出变量名)} 结合之前的场景举例&#xff1a; 场景 1&#xff1a;若你在 CSV文件 中定义了 random_cat 变量…...

Samba共享避坑指南:从mount error(13)到成功挂载的完整记录

Samba共享避坑实战&#xff1a;从报错到稳定挂载的深度解析 1. 问题背景与典型场景 最近在搭建本地开发环境时&#xff0c;我遇到了一个看似简单却充满陷阱的任务——在CentOS7系统上挂载Samba共享目录。本以为几分钟就能搞定的事情&#xff0c;却接连遭遇了Permission denied、…...