当前位置：首页 > article >正文

用PyTorch从零实现DQN算法：以CartPole游戏为例（附完整代码）

article 2026/4/17 21:29:56

用PyTorch从零实现DQN算法以CartPole游戏为例附完整代码在强化学习领域深度Q网络DQN算法无疑是一座重要的里程碑。它将深度学习的强大表征能力与强化学习的决策框架完美结合为解决复杂环境中的决策问题提供了新思路。对于已经掌握Python和PyTorch基础想要深入实践强化学习的开发者来说从零实现一个DQN算法并将其应用于经典控制问题CartPole是一次绝佳的学习机会。本文将带你一步步构建完整的DQN系统从网络架构设计到训练策略优化每个环节都配有详细的代码解析和实战技巧。不同于理论推导为主的教程我们更关注工程实现中的坑与解比如如何设置合理的奖励机制、调试探索率衰减策略、优化经验回放缓冲区等实际问题。通过这个项目你不仅能理解DQN的核心思想更能获得可直接复用的代码模板。1. 环境准备与问题定义在开始编码之前我们需要明确CartPole问题的具体定义。这是一个经典的强化学习测试环境一根杆子通过非驱动关节连接到小车上小车沿着无摩擦的轨道移动。系统的状态由四个连续变量描述小车位置-4.8到4.8小车速度无限制杆子角度约-24°到24°杆子顶端速度无限制动作空间是离散的向左施加力0或向右施加力1。每步的奖励为1当杆子倾斜超过15度、小车移动超出边界中心点2.4单位距离或持续200步时回合结束。安装必要依赖pip install gym torch numpy关键参数初始化import gym import torch import numpy as np env gym.make(CartPole-v1) state_size env.observation_space.shape[0] # 4 action_size env.action_space.n # 22. DQN核心组件实现2.1 Q网络架构设计DQN的核心是用神经网络近似Q函数。我们设计一个三层的全连接网络输入维度与状态空间匹配4输出维度与动作空间匹配2。隐藏层使用ReLU激活函数引入非线性。import torch.nn as nn import torch.nn.functional as F class QNetwork(nn.Module): def __init__(self, state_size, action_size, hidden_size24): super(QNetwork, self).__init__() self.fc1 nn.Linear(state_size, hidden_size) self.fc2 nn.Linear(hidden_size, hidden_size) self.fc3 nn.Linear(hidden_size, action_size) def forward(self, x): x F.relu(self.fc1(x)) x F.relu(self.fc2(x)) return self.fc3(x)提示隐藏层大小是重要的超参数。过小会导致欠拟合过大则可能过拟合。24-64之间的值对CartPole通常效果不错。2.2 经验回放机制经验回放是DQN稳定训练的关键技术它通过存储并随机采样过往经验打破数据间的相关性。from collections import deque import random class ReplayBuffer: def __init__(self, capacity2000): self.buffer deque(maxlencapacity) def push(self, state, action, reward, next_state, done): self.buffer.append((state, action, reward, next_state, done)) def sample(self, batch_size): return random.sample(self.buffer, batch_size) def __len__(self): return len(self.buffer)经验回放的三个优势提高数据效率每条经验可被多次使用减少相关性随机采样打破时序依赖稳定训练平滑学习过程3. DQN智能体实现3.1 智能体核心逻辑DQN智能体需要管理探索与利用的平衡ε-greedy策略、目标网络更新和经验回放等关键功能。class DQNAgent: def __init__(self, state_size, action_size): self.state_size state_size self.action_size action_size self.memory ReplayBuffer() self.gamma 0.95 # 未来奖励折扣因子 self.epsilon 1.0 # 初始探索率 self.epsilon_min 0.01 self.epsilon_decay 0.995 self.learning_rate 0.001 self.model QNetwork(state_size, action_size) self.target_model QNetwork(state_size, action_size) self.optimizer torch.optim.Adam(self.model.parameters(), lrself.learning_rate) self.update_target_model() def update_target_model(self): self.target_model.load_state_dict(self.model.state_dict()) def act(self, state): if np.random.rand() self.epsilon: return random.randrange(self.action_size) state torch.FloatTensor(state) with torch.no_grad(): q_values self.model(state) return torch.argmax(q_values).item() def train(self, batch_size): if len(self.memory) batch_size: return minibatch self.memory.sample(batch_size) states torch.FloatTensor([t[0] for t in minibatch]) actions torch.LongTensor([t[1] for t in minibatch]) rewards torch.FloatTensor([t[2] for t in minibatch]) next_states torch.FloatTensor([t[3] for t in minibatch]) dones torch.FloatTensor([t[4] for t in minibatch]) current_q self.model(states).gather(1, actions.unsqueeze(1)) next_q self.target_model(next_states).max(1)[0].detach() target rewards (1 - dones) * self.gamma * next_q loss F.mse_loss(current_q.squeeze(), target) self.optimizer.zero_grad() loss.backward() self.optimizer.step() if self.epsilon self.epsilon_min: self.epsilon * self.epsilon_decay3.2 训练流程优化训练过程中有几个关键点需要特别注意奖励设计CartPole默认每步1奖励但可以调整终止惩罚探索策略ε的初始值和衰减率需要调优目标网络更新可以定期更新或软更新def train_agent(env, agent, episodes1000, batch_size32): scores [] for e in range(episodes): state env.reset() total_reward 0 for t in range(500): # 最大步数 action agent.act(state) next_state, reward, done, _ env.step(action) # 自定义终止惩罚 reward reward if not done else -10 agent.memory.push(state, action, reward, next_state, done) state next_state total_reward reward agent.train(batch_size) if done: break scores.append(total_reward) # 定期更新目标网络 if e % 10 0: agent.update_target_model() print(fEpisode: {e}, Score: {total_reward}, Epsilon: {agent.epsilon:.2f}) return scores4. 高级技巧与性能优化4.1 双重DQNDouble DQN原始DQN存在Q值高估问题。双重DQN通过解耦动作选择和Q值评估来缓解这个问题# 在DQNAgent类的train方法中修改目标Q计算 next_actions self.model(next_states).max(1)[1].unsqueeze(1) next_q self.target_model(next_states).gather(1, next_actions).squeeze() target rewards (1 - dones) * self.gamma * next_q4.2 优先级经验回放不是所有经验都同等重要。可以为缓冲区中的经验分配优先级更频繁地回放重要经验class PrioritizedReplayBuffer: def __init__(self, capacity2000, alpha0.6): self.buffer deque(maxlencapacity) self.priorities deque(maxlencapacity) self.alpha alpha def push(self, state, action, reward, next_state, done): max_prio max(self.priorities) if self.priorities else 1.0 self.buffer.append((state, action, reward, next_state, done)) self.priorities.append(max_prio) def sample(self, batch_size, beta0.4): prios np.array(self.priorities) probs prios ** self.alpha probs / probs.sum() indices np.random.choice(len(self.buffer), batch_size, pprobs) samples [self.buffer[idx] for idx in indices] weights (len(self.buffer) * probs[indices]) ** (-beta) weights / weights.max() return samples, indices, np.array(weights, dtypenp.float32) def update_priorities(self, indices, priorities): for idx, prio in zip(indices, priorities): self.priorities[idx] prio4.3 超参数调优指南DQN性能对超参数敏感。以下是经过实验验证的推荐范围超参数推荐值作用γ (gamma)0.9-0.99未来奖励折扣因子ε初始值1.0初始探索率ε最小值0.01-0.1最小探索率ε衰减率0.99-0.999探索率衰减速度学习率1e-4到1e-3优化器步长批量大小32-128每次训练样本数目标网络更新频率每10-100步稳定训练在实际项目中我发现ε衰减策略对最终性能影响显著。一个实用的技巧是在训练初期保持较高探索率ε1.0然后随着训练逐步衰减但不要降得太低保持在0.01左右以保留一定的探索能力。

用PyTorch从零实现DQN算法：以CartPole游戏为例（附完整代码）

相关文章：

用PyTorch从零实现DQN算法：以CartPole游戏为例（附完整代码）

别再让CPU等外设了！用Multi-Layer AHB搭建一个不堵车的片上‘高速公路网’

深度解密Jsxer：JSXBIN反编译器的技术原理与工程实现

Linux性能优化之内存管理基础知识

数字IC设计中的TCL实战：用列表操作实现引脚自动排序

XINGLIGHT成兴光 0603 球头正贴 LED 聚光透镜凸头球灯珠高亮定向指示贴片 LED

高端工厂生产线储能与削峰系统功率器件选型方案：高效可靠能量转换系统适配指南

告别结构体！手把手教你用Simulink.Signal配置汽车软件输入输出信号（含代码生成实战）

OLED字库的构建与移植：从点阵数据到嵌入式显示

从面试官视角看嵌入式C/C++：那些年我们踩过的坑与避开的雷

别再死磕卡尔曼滤波了！用RBPF粒子滤波搞定机器人SLAM建图（附避坑指南）

Harness层接口签名：防篡改设计

MAA自动化框架技术揭秘：计算机视觉驱动的游戏任务智能调度系统实现原理

CloudCompare实战：点云二次曲面拟合精度分析与优化策略

从零部署MinerU文档解析服务：GPU加速、防OOM配置与Docker打包全攻略

PLC西门子杯比赛：三部十层电梯博图v15.1程序设计与WinCC界面展示

发散创新：基于RBAC模型的权限管理系统在Python中的高效实现在现代软件系统中，权限管理是保障数

Lv驱动库底层实际使用 Q8定点及其定点实现

梯度压缩实战：用PyTorch实现高效分布式训练中的通信优化在大规模深度学习模型训练中，梯度同步

直接撸代码才是硬道理！搞工控的都懂，IO监控画面最烦的就是一个个按钮指示灯拖到画面上。今天分享个骚操作——用下拉菜单+SCL动态绑定，直接一页搞定所有IO监控

从台球碰撞到火箭发射：用Python模拟动量守恒定律的5个趣味案例

Open WebUI：5分钟搭建你的专属AI助手，开启完全离线智能对话新时代

【每日一题】一文搞懂消费类电子的电池容量单位

从一道ACM题看博弈论：当Alice和Bob开始‘吃瓜’比赛时，到底谁更占便宜？

终极glogg指南：如何用这款免费跨平台日志查看器快速分析海量日志文件

收藏！SaaS小白必看：AI大模型落地实战路线图，从功能堆砌到价值创造

实战指南：如何高效配置VcXsrv实现Windows与Linux图形应用无缝连接

5分钟快速上手Qwerty Learner：提升英语打字效率的终极指南

保姆级教程：从Vivado导出的XSA文件到Petalinux定制Linux系统（以AX7010开发板为例）

Edge组策略避坑指南：当企业AD域遇到浏览器管控，这5个细节最容易翻车