当前位置：首页 > news >正文

动手学强化学习第 15 章模仿学习训练代码

news 2026/5/13 5:28:25

基于 https://github.com/boyu-ai/Hands-on-RL/blob/main/%E7%AC%AC15%E7%AB%A0-%E6%A8%A1%E4%BB%BF%E5%AD%A6%E4%B9%A0.ipynb

理论模仿学习

修改了警告和报错

运行环境

Debian GNU/Linux 12
Python 3.9.19
torch 2.0.1
gym 0.26.2

运行代码

#!/usr/bin/env pythonimport gym
import torch
import torch.nn.functional as F
import torch.nn as nn
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
import random
import rl_utilsclass PolicyNet(torch.nn.Module):def __init__(self, state_dim, hidden_dim, action_dim):super(PolicyNet, self).__init__()self.fc1 = torch.nn.Linear(state_dim, hidden_dim)self.fc2 = torch.nn.Linear(hidden_dim, action_dim)def forward(self, x):x = F.relu(self.fc1(x))return F.softmax(self.fc2(x), dim=1)class ValueNet(torch.nn.Module):def __init__(self, state_dim, hidden_dim):super(ValueNet, self).__init__()self.fc1 = torch.nn.Linear(state_dim, hidden_dim)self.fc2 = torch.nn.Linear(hidden_dim, 1)def forward(self, x):x = F.relu(self.fc1(x))return self.fc2(x)class PPO:''' PPO算法,采用截断方式 '''def __init__(self, state_dim, hidden_dim, action_dim, actor_lr, critic_lr,lmbda, epochs, eps, gamma, device):self.actor = PolicyNet(state_dim, hidden_dim, action_dim).to(device)self.critic = ValueNet(state_dim, hidden_dim).to(device)self.actor_optimizer = torch.optim.Adam(self.actor.parameters(),lr=actor_lr)self.critic_optimizer = torch.optim.Adam(self.critic.parameters(),lr=critic_lr)self.gamma = gammaself.lmbda = lmbdaself.epochs = epochs  # 一条序列的数据用于训练轮数self.eps = eps  # PPO中截断范围的参数self.device = devicedef take_action(self, state):state = torch.tensor(np.array([state]), dtype=torch.float).to(self.device)probs = self.actor(state)action_dist = torch.distributions.Categorical(probs)action = action_dist.sample()return action.item()def update(self, transition_dict):states = torch.tensor(np.array(transition_dict['states']),dtype=torch.float).to(self.device)actions = torch.tensor(transition_dict['actions']).view(-1, 1).to(self.device)rewards = torch.tensor(transition_dict['rewards'],dtype=torch.float).view(-1, 1).to(self.device)next_states = torch.tensor(np.array(transition_dict['next_states']),dtype=torch.float).to(self.device)dones = torch.tensor(transition_dict['dones'],dtype=torch.float).view(-1, 1).to(self.device)td_target = rewards + self.gamma * self.critic(next_states) * (1 -dones)td_delta = td_target - self.critic(states)advantage = rl_utils.compute_advantage(self.gamma, self.lmbda,td_delta.cpu()).to(self.device)old_log_probs = torch.log(self.actor(states).gather(1,actions)).detach()for _ in range(self.epochs):log_probs = torch.log(self.actor(states).gather(1, actions))ratio = torch.exp(log_probs - old_log_probs)surr1 = ratio * advantagesurr2 = torch.clamp(ratio, 1 - self.eps,1 + self.eps) * advantage  # 截断actor_loss = torch.mean(-torch.min(surr1, surr2))  # PPO损失函数critic_loss = torch.mean(F.mse_loss(self.critic(states), td_target.detach()))self.actor_optimizer.zero_grad()self.critic_optimizer.zero_grad()actor_loss.backward()critic_loss.backward()self.actor_optimizer.step()self.critic_optimizer.step()actor_lr = 1e-3
critic_lr = 1e-2
num_episodes = 250
hidden_dim = 128
gamma = 0.98
lmbda = 0.95
epochs = 10
eps = 0.2
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")env_name = 'CartPole-v1'
env = gym.make(env_name)
env.reset(seed=0)
torch.manual_seed(0)
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n
ppo_agent = PPO(state_dim, hidden_dim, action_dim, actor_lr, critic_lr, lmbda,epochs, eps, gamma, device)return_list = rl_utils.train_on_policy_agent(env, ppo_agent, num_episodes)def sample_expert_data(n_episode):states = []actions = []for episode in range(n_episode):state = env.reset()[0]done = Falsewhile not done and len(states) < 10000:action = ppo_agent.take_action(state)states.append(state)actions.append(action)next_state, reward, done, _, __ = env.step(action)state = next_statereturn np.array(states), np.array(actions)env.reset(seed=0)
torch.manual_seed(0)
random.seed(0)
n_episode = 1
expert_s, expert_a = sample_expert_data(n_episode)n_samples = 30  # 采样30个数据
random_index = random.sample(range(expert_s.shape[0]), n_samples)
expert_s = expert_s[random_index]
expert_a = expert_a[random_index]class BehaviorClone:def __init__(self, state_dim, hidden_dim, action_dim, lr):self.policy = PolicyNet(state_dim, hidden_dim, action_dim).to(device)self.optimizer = torch.optim.Adam(self.policy.parameters(), lr=lr)def learn(self, states, actions):states = torch.tensor(states, dtype=torch.float).to(device)actions = torch.tensor(actions).view(-1, 1).to(device)log_probs = torch.log(self.policy(states).gather(1, actions))bc_loss = torch.mean(-log_probs)  # 最大似然估计self.optimizer.zero_grad()bc_loss.backward()self.optimizer.step()def take_action(self, state):state = torch.tensor(np.array([state]), dtype=torch.float).to(device)probs = self.policy(state)action_dist = torch.distributions.Categorical(probs)action = action_dist.sample()return action.item()def test_agent(agent, env, n_episode):return_list = []for episode in range(n_episode):episode_return = 0state = env.reset()[0]done = Falsewhile not done:action = agent.take_action(state)next_state, reward, done, _, __ = env.step(action)state = next_stateepisode_return += rewardreturn_list.append(episode_return)return np.mean(return_list)env.reset(seed=0)
torch.manual_seed(0)
np.random.seed(0)lr = 1e-3
bc_agent = BehaviorClone(state_dim, hidden_dim, action_dim, lr)
n_iterations = 1000
batch_size = 64
test_returns = []with tqdm(total=n_iterations, desc="进度条") as pbar:for i in range(n_iterations):sample_indices = np.random.randint(low=0,high=expert_s.shape[0],size=batch_size)bc_agent.learn(expert_s[sample_indices], expert_a[sample_indices])current_return = test_agent(bc_agent, env, 5)test_returns.append(current_return)if (i + 1) % 10 == 0:pbar.set_postfix({'return': '%.3f' % np.mean(test_returns[-10:])})pbar.update(1)iteration_list = list(range(len(test_returns)))
plt.plot(iteration_list, test_returns)
plt.xlabel('Iterations')
plt.ylabel('Returns')
plt.title('BC on {}'.format(env_name))
plt.show()class Discriminator(nn.Module):def __init__(self, state_dim, hidden_dim, action_dim):super(Discriminator, self).__init__()self.fc1 = torch.nn.Linear(state_dim + action_dim, hidden_dim)self.fc2 = torch.nn.Linear(hidden_dim, 1)def forward(self, x, a):cat = torch.cat([x, a], dim=1)x = F.relu(self.fc1(cat))return torch.sigmoid(self.fc2(x))class GAIL:def __init__(self, agent, state_dim, action_dim, hidden_dim, lr_d):self.discriminator = Discriminator(state_dim, hidden_dim,action_dim).to(device)self.discriminator_optimizer = torch.optim.Adam(self.discriminator.parameters(), lr=lr_d)self.agent = agentdef learn(self, expert_s, expert_a, agent_s, agent_a, next_s, dones):expert_states = torch.tensor(expert_s, dtype=torch.float).to(device)expert_actions = torch.tensor(expert_a).to(device)agent_states = torch.tensor(np.array(agent_s), dtype=torch.float).to(device)agent_actions = torch.tensor(agent_a).to(device)expert_actions = F.one_hot(expert_actions, num_classes=2).float()agent_actions = F.one_hot(agent_actions, num_classes=2).float()expert_prob = self.discriminator(expert_states, expert_actions)agent_prob = self.discriminator(agent_states, agent_actions)discriminator_loss = nn.BCELoss()(agent_prob, torch.ones_like(agent_prob)) + nn.BCELoss()(expert_prob, torch.zeros_like(expert_prob))self.discriminator_optimizer.zero_grad()discriminator_loss.backward()self.discriminator_optimizer.step()rewards = -torch.log(agent_prob).detach().cpu().numpy()transition_dict = {'states': agent_s,'actions': agent_a,'rewards': rewards,'next_states': next_s,'dones': dones}self.agent.update(transition_dict)env.reset(seed=0)
torch.manual_seed(0)
lr_d = 1e-3
agent = PPO(state_dim, hidden_dim, action_dim, actor_lr, critic_lr, lmbda,epochs, eps, gamma, device)
gail = GAIL(agent, state_dim, action_dim, hidden_dim, lr_d)
n_episode = 500
return_list = []with tqdm(total=n_episode, desc="进度条") as pbar:for i in range(n_episode):episode_return = 0state = env.reset()[0]done = Falsestate_list = []action_list = []next_state_list = []done_list = []while not done and len(state_list) < 10000:action = agent.take_action(state)next_state, reward, done, _, __ = env.step(action)state_list.append(state)action_list.append(action)next_state_list.append(next_state)done_list.append(done)state = next_stateepisode_return += rewardreturn_list.append(episode_return)gail.learn(expert_s, expert_a, state_list, action_list,next_state_list, done_list)if (i + 1) % 10 == 0:pbar.set_postfix({'return': '%.3f' % np.mean(return_list[-10:])})pbar.update(1)iteration_list = list(range(len(return_list)))
plt.plot(iteration_list, return_list)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('GAIL on {}'.format(env_name))
plt.show()

rl_utils.py

参考动手学强化学习第 14 章 SAC 算法训练代码-CSDN博客

动手学强化学习第 15 章模仿学习训练代码

基于 https://github.com/boyu-ai/Hands-on-RL/blob/main/%E7%AC%AC15%E7%AB%A0-%E6%A8%A1%E4%BB%BF%E5%AD%A6%E4%B9%A0.ipynb 理论模仿学习修改了警告和报错运行环境 Debian GNU/Linux 12 Python 3.9.19 torch 2.0.1 gym 0.26.2 运行代码 #!/usr/bin/env pythonimpor…...

编程日记 2024/8/2 21:49:08

第一阶段面试问题(前半部分)

1. 进程和线程的概念、区别以及什么时候用线程、什么时候用进程？ （1）线程线程是CPU任务调度的最小单元、是一个轻量级的进程 （2）进程进程是操作系统资源分配的最小单元进程是一个程序动态执行的过程，包…...

编程日记 2024/8/2 21:48:06

《数学教学通讯》是一本怎样的刊物？投稿难吗？

《数学教学通讯》是一本怎样的刊物？投稿难吗？ 《数学教学通讯》是一本具有较高学术价值的教育类刊物。它创刊于 1979 年，由西南大学主管，西南大学数学与统计学院、重庆市数学学会主办，出版周期为旬刊。该刊物在国内外…...

编程日记 2024/8/2 21:47:04

＜机器学习＞ K-means

K-means定义 K-means 是一种广泛使用的聚类算法，旨在将数据集中的点分组为 K 个簇（cluster），使得每个簇内的点尽可能相似，而不同簇的点尽可能不同。K-means 算法通过迭代的方式，逐步优化簇的分配和簇的中心…...

编程日记 2024/8/2 21:44:00

我们如何优化 Elasticsearch Serverless 中的刷新成本

作者：来自 Elastic Francisco Fernndez Castao, Henning Andersen 最近，我们推出了 Elastic Cloud Serverless 产品，旨在提供在云中运行搜索工作负载的无缝体验。为了推出该产品，我们重新设计了 Elasticsearch，将存储与…...

编程日记 2024/8/2 21:42:59

MySQL半同步复制

1.MySQL主从复制模式 1.1异步复制异步复制为 MySQL 默认的复制模式，指主库写 binlog、从库 I/O 线程读 binlog 并写入 relaylog、从库 SQL 线程重放事务这三步之间是异步的。异步复制的主库不需要关心备库的状态，主库不保证事务被传输到从库&#xf…...

编程日记 2024/8/2 21:41:58

[一本通提高数位动态规划]数字游戏：取模数题解

[一本通提高数位动态规划]数字游戏：取模数题解 1前言2问题3状态的设置4数位dp-part1预处理5数位dp-part2利用状态求解6代码7后记 1前言本文为数字游戏：取模数的题解需要读者对数位dp有基础的了解，建议先阅读论数位dp–胎教级教学 B3883 […...

编程日记 2024/8/2 21:39:55

[Day 39] 區塊鏈與人工智能的聯動應用：理論、技術與實踐

區塊鏈的安全性分析區塊鏈技術已經成為現代數字經濟的一個重要組成部分，提供了去中心化、透明和不可篡改的數據存儲與交易系統。然而，隨著區塊鏈技術的廣泛應用，其安全性問題也日益受到關注。本篇文章將詳細探討區塊鏈技術的安全性&#xf…...

编程日记 2024/8/2 21:37:53

OpenStack入门体验

一、云计算概述 1.1什么是云计算云计算(cloud computing)是一种基于网络的超级计算模式,基于用户的不同需求，提供所需的资源，包括计算资源、存储资源、网络资源等。云计算服务运行在若干台高性能物理服务器之上，提供每秒 10万亿次的运算能力…...

编程日记 2024/8/2 21:36:52

预测未来 | MATLAB实现RF随机森林多变量时间序列预测未来-预测新数据

预测未来 | MATLAB实现RF随机森林多变量时间序列预测未来-预测新数据预测效果基本介绍随机森林属于集成学习中的 Bagging（Bootstrap AGgregation 的简称）方法。如果用图来表示他们之间的关系如下：随机森林是由很多决策树构成的，不同决策树之间没有关联。当我们进行…...

编程日记 2024/8/2 21:35:50

iOS 系统提供的媒体资源选择器（UIImagePickerController）

简介图片或者视频的选择功能几乎是每个APP必不可少的，UIImagePickerController 是 iOS 系统提供的一个方便的媒体选择器，允许用户从照片库中选择图片或视频，或者使用相机拍摄新照片和视频。它的页面简单易用，代码稳定可靠&…...

编程日记 2024/8/2 21:33:47

电脑如何扩展硬盘分区？告别空间不足困扰

在数字化时代，电脑硬盘的存储空间显得愈发重要。随着个人文件、应用程序和系统更新的不断累积，原有的硬盘分区可能很快就会被填满。为了解决这个问题，扩展硬盘分区成为了一个非常实用的方法。那么，电脑如何扩展硬盘分区呢&#xf…...

编程日记 2024/8/2 21:31:44

论文阅读：Mammoth: Building math generalist models through hybrid instruction tuning

Mammoth: Building math generalist models through hybrid instruction tuning https://arxiv.org/pdf/2309.05653 MAmmoTH：通过混合指令调优构建数学通才模型摘要我们介绍了MAmmoTH，一系列特别为通用数学问题解决而设计的开源大型语言模型&#…...

编程日记 2024/8/2 21:29:42

什么样的双筒式防爆器把煤矿吸引？

什么样的双筒式防爆器把煤矿吸引？要有好的服务和态度，要用心去聆听客户的需求，去解决客户的疑虑，用诚信去赢得客户的信任。 150产品的技术特点双筒式防爆器采用双罐结构，其水封水位观测直观、能够快速有效排污、操作…...

编程日记 2024/8/2 21:28:40

如何保证冰河AL0 400G 100W 的稳定运行？

要保证冰河 AL0 400G 100w 的稳定运行，可以考虑以下几点： 1. 适宜的工作环境：确保设备放置在通风良好、温度适宜的环境中。良好的散热条件有助于防止设备过热，因为过热可能会导致性能下降或故障。该设备采用纯铝合金外壳&#xf…...

编程日记 2024/8/2 21:27:39

剪画小程序：巴黎奥运会，从画面到声音！

在巴黎奥运会的赛场上，每一个瞬间都伴随着独特的声音。那是观众的欢呼，是运动员冲刺的呐喊，是国歌奏响的激昂旋律。如今，通过剪画音频提取，我们能够将这些珍贵的声音从精彩的画面中分离出来，单独珍藏。想…...

编程日记 2024/8/2 21:26:38

【leetcode详解】心算挑战: 一题搞懂涉及奇偶数问题的 “万金油” 思路(思路详解)

前记： 做了几日的leetcode每日一题，几乎全是十分钟结束战斗的【中等】题，今日杀出来个【简单】题，反倒开始难以想出很清楚的解题思路，反复调试修改才将题目逐渐考虑全面，看到了原本思路的漏洞&#xff0c…...

编程日记 2024/8/2 21:24:35

【资料集】数据库设计说明书（Word原件提供）

2 数据库环境说明 3 数据库的命名规则 4 逻辑设计 5 物理设计 5.1 表汇总 5.2 表结构设计 6 数据规划 6.1 表空间设计 6.2 数据文件设计 6.3 表、索引分区设计 6.4 优化方法 7 安全性设计 7.1 防止用户直接操作数据库 7.2 用户帐号加密处理 7.3 角色与权限控制 8 数据库管理与维…...

编程日记 2024/8/2 21:23:34

MySQL 常用查询语句精粹

引言 MySQL 是一种广泛使用的开源关系型数据库管理系统，其强大的查询语言为用户提供了丰富的数据处理能力。掌握 MySQL 的常用查询语句对于数据库管理和数据分析至关重要。本文将介绍一些 MySQL 中的常用查询语句，并提供实际的示例。基础查询 1. 选择…...

编程日记 2024/8/2 21:22:32

hive的内部表（MANAGED_TABLE）和外部表（EXTERNAL_TABLE）的区别

1.hive的表类型分为外部表和内部表内部表和外部表的主要区别在于数据的存储方式。外部表：外部表的存储在hdfs中，是我们指定的文件目录，当我们删除数据或者删除分区的时候不会将元数据删除，数据还会在hdfs目录中，我们…...

编程日记 2024/8/2 21:21:31

ARM HCR_EL2寄存器解析与虚拟化控制

1. ARM HCR_EL2寄存器架构解析HCR_EL2（Hypervisor Configuration Register）是ARMv8/v9架构中用于控制虚拟化行为的关键系统寄存器。作为Hypervisor的主要控制接口，它定义了EL2对低特权级（EL1/EL0）执行环境的监控策略。…...

编程新知 2026/5/13 3:55:35

LLM RAG还值得做吗？今天一下就顿悟了

在企业级AI应用领域，RAG（检索增强生成）不仅值得深耕，更是当前唯一能站稳脚跟的核心护城河。曾有人断言长上下文窗口（Long Context）会取代RAG，但这一说法早在2024年就被彻底证伪，进入…...

编程新知 2026/5/13 2:55:24

别再只调API了！深入Qt QGraphicsView事件流，彻底搞懂拖拽缩放背后的‘为什么’

深入Qt QGraphicsView事件流：从拖拽缩放的底层机制到高效调试在Qt的图形视图框架中，QGraphicsView、QGraphicsScene和QGraphicsItem构成了一个强大的交互系统。许多开发者虽然能够通过调用API实现基本功能，但当遇到事件被意外吞噬、坐标计算…...

编程新知 2026/5/13 1:43:38

如何将Claude Code的配置无缝迁移至Taotoken平台以解决封号困扰

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度如何将Claude Code的配置无缝迁移至Taotoken平台以解决封号困扰 Claude Code 作为一款高效的编程助手，其核心能力依赖于…...

编程新知 2026/5/13 0:48:56

从零搭建VGG16：深入解析网络架构与PyTorch实战

1. VGG16网络架构解析 VGG16作为卷积神经网络发展史上的里程碑，其核心设计理念至今仍影响着现代深度学习模型。我第一次接触这个网络时，被它简洁优雅的结构深深吸引——全部使用33小卷积核堆叠，配合22最大池化，这种设计就像用乐高…...

编程新知 2026/5/13 0:40:35

一键下载国家中小学智慧教育平台电子课本：让教育资源获取更简单高效

一键下载国家中小学智慧教育平台电子课本：让教育资源获取更简单高效【免费下载链接】tchMaterial-parser 国家中小学智慧教育平台电子课本下载工具，帮助您从智慧教育平台中获取电子课本的 PDF 文件网址并进行下载，让您更方便地获取课本内容…...

编程新知 2026/5/12 23:01:08

阵列天线方向图综合算法与应用【附代码】

✨ 长期致力于方向图综合算法、交替投影迭代、交替方向乘子法、子阵方向图综合、相控阵系统、软件设计研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1&#xff09…...

编程新知 2026/5/12 22:56:53

植物大战僵尸杂交版下载2026最新版更新v3.16及版本介绍分享（附下载链接）

作为一名长期沉迷植物大战僵尸改版的玩家，我近期完整体验了杂交版全新V3.16版本，从植物、关卡到平台适配，逐一实测验证。整体而言，这是一次诚意满满的更新，既有新鲜玩法的创新，又兼顾了不同玩家的需求&…...

编程新知 2026/5/12 21:56:22

原神帧率解锁技术解析：三步突破60FPS限制的完整方案

原神帧率解锁技术解析：三步突破60FPS限制的完整方案【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 你是否曾为《原神》PC版的60FPS限制感到困扰？当你的高性能显卡…...

编程新知 2026/5/12 21:13:54

工业控制系统安全实践：基于ISA-62443-3-3标准的OT/IT融合指南

1. 项目概述：当工业安全遇上新标准在工业自动化领域摸爬滚打了十几年，我见过太多因为安全标准“两张皮”而引发的头疼事。一边是负责生产线的工控工程师，他们的核心信条是“稳定压倒一切”，任何可能影响PLC运行周期、导致电机意外…...

编程新知 2026/5/12 20:46:38

相关文章：