当前位置：首页 > article >正文

PPO训练小车

article 2026/3/19 17:53:10

PPO 训练小车以经典 CartPole 为例核心是Actor-Critic 架构裁剪目标 GAE 优势估计通过多轮数据复用稳定更新策略让小车学会平衡杆或完成导航。下面从原理、环境、代码、训练到调优给出完整可运行方案。一、PPO 训练小车核心原理PPOProximal Policy Optimization是Actor-Critic架构的策略梯度算法核心是限制策略更新幅度避免训练震荡。Actor策略网络输入状态输出动作概率分布离散 / 连续指导小车动作。Critic价值网络输入状态输出状态价值 V (s)评估当前状态好坏。裁剪目标PPO-Clip重要性采样比rt(θ)πθold(at∣st)πθ(at∣st)裁剪损失LCLIP(θ)E[min(rtAt,clip(rt,1−ϵ,1ϵ)At)]ϵ通常取 0.2防止策略更新过大。优势函数GAEAt∑k0∞(γλ)kδtkδtrtγV(st1)−V(st)平衡偏差与方差。二、环境选择与搭建1. 经典小车环境CartPole-v1状态空间4 维小车位置、速度、杆角度、杆角速度。动作空间离散 2 维左移、右移。奖励每步 1杆倒 / 车出界则回合结束目标累计奖励≥475。安装依赖bash运行pip install gymnasium torch numpy matplotlib2. 自定义 / ROS 小车环境可选用 GazeboROS 搭建 TurtleBot3定义观测激光 / 图像、动作线速度 / 角速度、奖励函数避障进度。或用 MetaDrive 做自动驾驶仿真动作空间为连续转向油门。三、完整 PPO 训练小车代码PyTorch1. 网络定义ActorCriticpython运行import torch import torch.nn as nn import torch.optim as optim import torch.nn.functional as F import gymnasium as gym import numpy as np from collections import deque import matplotlib.pyplot as plt # 设备配置 device torch.device(cuda if torch.cuda.is_available() else cpu) # Actor网络输出动作概率 class Actor(nn.Module): def __init__(self, state_dim, action_dim, hidden_dim64): super(Actor, self).__init__() self.fc1 nn.Linear(state_dim, hidden_dim) self.fc2 nn.Linear(hidden_dim, hidden_dim) self.fc3 nn.Linear(hidden_dim, action_dim) def forward(self, x): x F.relu(self.fc1(x)) x F.relu(self.fc2(x)) return F.softmax(self.fc3(x), dim-1) # Critic网络输出状态价值 class Critic(nn.Module): def __init__(self, state_dim, hidden_dim64): super(Critic, self).__init__() self.fc1 nn.Linear(state_dim, hidden_dim) self.fc2 nn.Linear(hidden_dim, hidden_dim) self.fc3 nn.Linear(hidden_dim, 1) def forward(self, x): x F.relu(self.fc1(x)) x F.relu(self.fc2(x)) return self.fc3(x)2. PPO Agent 实现python运行class PPO: def __init__(self, state_dim, action_dim, lr_actor3e-4, lr_critic1e-3, gamma0.99, lmbda0.95, eps_clip0.2, epochs10): # 网络初始化 self.actor Actor(state_dim, action_dim).to(device) self.critic Critic(state_dim).to(device) self.optimizer_actor optim.Adam(self.actor.parameters(), lrlr_actor) self.optimizer_critic optim.Adam(self.critic.parameters(), lrlr_critic) # PPO超参数 self.gamma gamma # 折扣因子 self.lmbda lmbda # GAE参数 self.eps_clip eps_clip # 裁剪系数 self.epochs epochs # 每批数据训练轮数 # 经验池 self.memory [] # 存储经验 def store(self, state, action, reward, log_prob, done): self.memory.append((state, action, reward, log_prob, done)) # 选择动作训练/测试 def select_action(self, state, trainingTrue): state torch.FloatTensor(state).unsqueeze(0).to(device) probs self.actor(state) dist torch.distributions.Categorical(probs) action dist.sample() log_prob dist.log_prob(action) if training: return action.item(), log_prob.item() else: return torch.argmax(probs).item() # 测试取最优动作 # 计算GAE优势 def compute_gae(self, rewards, dones, values): advantages [] advantage 0 next_value 0 for t in reversed(range(len(rewards))): delta rewards[t] self.gamma * next_value * (1 - dones[t]) - values[t] advantage delta self.gamma * self.lmbda * (1 - dones[t]) * advantage advantages.insert(0, advantage) next_value values[t] # 优势归一化 advantages torch.FloatTensor(advantages).to(device) advantages (advantages - advantages.mean()) / (advantages.std() 1e-8) return advantages # PPO更新核心 def update(self): # 提取经验 states torch.FloatTensor([s for s, a, r, lp, d in self.memory]).to(device) actions torch.LongTensor([a for s, a, r, lp, d in self.memory]).to(device) rewards torch.FloatTensor([r for s, a, r, lp, d in self.memory]).to(device) old_log_probs torch.FloatTensor([lp for s, a, r, lp, d in self.memory]).to(device) dones torch.FloatTensor([d for s, a, r, lp, d in self.memory]).to(device) # 计算价值与优势 values self.critic(states).squeeze() advantages self.compute_gae(rewards, dones, values.detach().cpu().numpy()) returns advantages values.detach() # TD目标 # 多轮更新 for _ in range(self.epochs): # 新策略概率 new_probs self.actor(states) new_dist torch.distributions.Categorical(new_probs) new_log_probs new_dist.log_prob(actions) # 重要性采样比 ratio torch.exp(new_log_probs - old_log_probs) # 裁剪损失 surr1 ratio * advantages surr2 torch.clamp(ratio, 1-self.eps_clip, 1self.eps_clip) * advantages loss_actor -torch.min(surr1, surr2).mean() # Critic损失 loss_critic F.mse_loss(self.critic(states).squeeze(), returns) # 反向传播 self.optimizer_actor.zero_grad() self.optimizer_critic.zero_grad() loss_actor.backward() loss_critic.backward() self.optimizer_actor.step() self.optimizer_critic.step() # 清空经验池 self.memory []3. 训练主循环python运行def train_ppo(): # 环境初始化 env gym.make(CartPole-v1) state_dim env.observation_space.shape[0] action_dim env.action_space.n ppo PPO(state_dim, action_dim) max_episodes 1000 max_steps 500 reward_history [] avg_reward deque(maxlen100) for episode in range(max_episodes): state, _ env.reset() total_reward 0 done False for step in range(max_steps): # 选择动作 action, log_prob ppo.select_action(state) next_state, reward, terminated, truncated, _ env.step(action) done terminated or truncated # 存储经验 ppo.store(state, action, reward, log_prob, done) total_reward reward state next_state if done: break # 更新策略 ppo.update() # 记录奖励 avg_reward.append(total_reward) reward_history.append(total_reward) print(fEpisode {episode1}, Total Reward: {total_reward}, Avg Reward: {np.mean(avg_reward):.2f}) # 收敛条件平均奖励≥475 if np.mean(avg_reward) 475: print(f训练完成Episode {episode1} 达到收敛条件) torch.save(ppo.actor.state_dict(), cartpole_ppo_actor.pth) torch.save(ppo.critic.state_dict(), cartpole_ppo_critic.pth) break # 绘制奖励曲线 plt.plot(reward_history) plt.xlabel(Episode) plt.ylabel(Total Reward) plt.title(PPO Training on CartPole-v1) plt.show() if __name__ __main__: train_ppo()四、训练流程与关键步骤环境交互每回合用旧策略采样轨迹存储(s,a,r,log_prob,done)。GAE 计算基于 Critic 价值计算每步优势At并归一化。多轮更新同一批数据训练epochs次用裁剪损失限制策略更新。收敛判断连续 100 回合平均奖励≥475CartPole 满分 500。五、超参数调优关键表格参数含义推荐值调优方向lr_actorActor 学习率3e-4收敛慢调大震荡调小lr_criticCritic 学习率1e-3通常比 Actor 大gamma折扣因子0.99长期依赖调大lmbdaGAE 参数0.95平衡偏差 / 方差eps_clip裁剪系数0.2震荡调小收敛慢调大epochs每批训练轮数10数据复用次数六、测试与部署python运行def test_ppo(): env gym.make(CartPole-v1, render_modehuman) state_dim env.observation_space.shape[0] action_dim env.action_space.n ppo PPO(state_dim, action_dim) # 加载模型 ppo.actor.load_state_dict(torch.load(cartpole_ppo_actor.pth)) ppo.critic.load_state_dict(torch.load(cartpole_ppo_critic.pth)) for episode in range(10): state, _ env.reset() total_reward 0 done False while not done: action ppo.select_action(state, trainingFalse) next_state, reward, terminated, truncated, _ env.step(action) done terminated or truncated total_reward reward state next_state print(fTest Episode {episode1}, Reward: {total_reward}) env.close() if __name__ __main__: test_ppo()七、扩展到真实小车 / ROS状态空间替换为激光雷达、相机图像、里程计如 2D/3D 坐标、速度。动作空间连续动作线速度v、角速度wActor 输出高斯分布均值 / 方差。奖励函数正向到达目标点 100、每步前进 1、避障 5负向碰撞 - 200、超时 - 50、偏离路径 - 10环境对接用openai_ros或自定义 Gym 环境实现 ROS 与 PPO Agent 通信。八、常见问题与解决训练震荡减小lr_actor、增大eps_clip、增加epochs。收敛慢增大学习率、调整gamma/lmbda、增加经验池大小。策略退化确保优势归一化、裁剪损失正确、Critic 价值估计准确。

PPO训练小车

相关文章：

PPO训练小车

告别环境配置烦恼！PyTorch 2.9 + CUDA 12.x 开箱即用镜像实战

Vivado IP核封装避坑指南：解决ILA集成时的神秘问号错误（附-force命令详解）

Netflow实战：5分钟搞定Cisco路由器流量监控配置（附nfdump使用技巧）

2FAuth开发者手册：Laravel+Vue技术架构深度剖析

SCLAlertView核心组件深度剖析：SCLButton、SCLSwitchView等自定义控件详解

simpleaichat与GPT-4集成：利用最新AI技术提升应用能力

Claude HUD终极指南：打造你的AI开发效率监控中心

如何4步从零打造你的开源智能交互机器人？

高效获取国家中小学智慧教育平台电子课本：tchMaterial-parser工具全攻略

深入Linux V4L2主从设备通信机制：从Camera Host控制器到Sensor的完整数据流分析

啃了3个月Profinet硬骨头：我用C#实现了以太网帧抓包+GSD解析（附踩坑实录）

ocrad.js未来展望：人工智能与OCR技术的融合趋势

深度解析：如何使用d2s-editor解锁暗黑破坏神2存档编辑的无限可能

WordPress主题制作必备：10个常用函数详解与实战应用

LeetCode：121. 买卖股票的最佳时机

实战复盘：我是如何用一张‘图片’拿下upload-labs Pass-13/14的（附完整命令与避坑点）

3个简单步骤：用网易云音乐批量下载器快速建立个人离线音乐库

深度卷积生成对抗网络DCGAN：革命性AI图像生成完全指南

Wan2.1-umt5在软件测试中的应用：自动生成测试用例与缺陷报告

P3618 误会

SQLx深度解析：解决Go数据库操作复杂性的高性能扩展方案

5分钟搞定Petalinux环境配置：从虚拟机共享文件夹到bash切换详解

如何快速设计艺术二维码：QRBTF的完整使用指南

机器学习100天中文版：10个核心算法原理与代码实践

Beyond Compare插件安装全攻略：解决.class文件对比中的反编译错误

Open Interpreter终极指南：用自然语言操控本地代码执行的完整方案

【Matlab实战】光谱分析技术：从数据预处理到模型构建全流程解析

Spring_couplet_generation 社区贡献指南：如何参与开源项目改进

ClawdBot智能助手应用：教育机构用其构建双语教学辅助与作业答疑系统