当前位置：首页 > news >正文

24/8/17算法笔记策略梯度reinforce算法

news 2026/2/8 23:19:08

import gym
from matplotlib import pyplot as plt
%matplotlib inline#创建环境
env = gym.make('CartPole-v0')
env.reset()#打印游戏
def show():plt.imshow(env.render(mode = 'rgb_array'))plt.show()
show()

定义网络模型

import torch
#定义模型
model = torch.nn.Sequential(torch.nn.Linear(4,128),torch.nn.ReLU(),torch.nn.Linear(128,2),torch.nn.Softmax(dim=1),
)
model(torch.randn(2,4))

定义动作函数

import random
#得到一个动作
def get_action(state):state = torch.FloatTensor(state).reshape(1,4)#[1,4]->[1,2]prob = model(state)#根据概率选择一个动作action = random.choice(range(2),weights = prob[0].tolist(),k=1)[0]
#这行代码从 0 到 1（包含）的整数范围内选择一个元素作为动作，选择的概率由 prob[0] 列表中元素的值决定。return action

获取一局游戏数据

def get_data():states = []rewards = []actions = []#初始化游戏state = env.reset()#玩到游戏结束为止over = Falsewhile not over:#根据当前状态得到一个动作action = get_action(state)#执行动作，得到反馈next_state,reward,over,_ = env.step(action)#记录数据样本states.append(state)rewards.append(reward)actions.append(action)#更新游戏状态，开始下一个动作state = next.statereturn states,rewards,actions

测试函数

from IPython import displaydef test(play):#初始化游戏state = env.reset()#记录反馈值的和，这个值越大越好reward_sum=0#玩到游戏结束为止over = False while not over:#根据当前状态得到一个动作action = get_action(state)#执行动作，得到反馈state,reward,over,_ = env.state(action)reward_sum += reward#打印动画if play and random.random()<0.2:#跳帧display.clear_output(wait=True) #用于清除 Jupyter Notebook 单元格的输出。show()return reward_sum

训练函数

 def train():optimizer = torch.optim.Adam(model.parameters(),lr = 1e-3)#玩N局游戏，得到数据states,rewards,actions = get_data()optimizer.zero_grad()#反馈的和，初始化为0reward_sum = 0#从最后一步算起for i in reversed(range(len(states))):#反馈的和，从最后一步的反馈开始计算#每往前一步，>>和<<都衰减0.02，然后再加上当前的反馈reward_sum*=0.98reward_sum+=rewards[i]#重新计算对应动作的概率state = torch.FloatTensor(states[i]).reshape(1,4)#[1,4]->[1,2]prob = model(state)#[1,2]->scalapron = pron[0,actions[i]]#根据求导公式，符号取反是因为这里是求loss,所以优化方向相反loss =-prob.log()*reward_sum#累积梯度loss.backward(retain_graph=True)optimizer.step()if epoch%100==0:test_result = sum([test(play=False) for _ in range(10)])/10print(epoch,test_result)

24/8/17算法笔记策略梯度reinforce算法

import gym from matplotlib import pyplot as plt %matplotlib inline#创建环境 env gym.make(CartPole-v0) env.reset()#打印游戏 def show():plt.imshow(env.render(mode rgb_array))plt.show() show()定义网络模型 import torch #定义模型 model torch.nn.Sequential(t…...

编程日记 2024/8/21 5:01:03

【Linux学习】Linux开发工具——vim

🔥个人主页： Forcible Bug Maker 🔥专栏：Linux学习目录 🌈前言🔥vim的基本概念🔥vim的基本操作🔥vim命令模式的命令集🔥简单vim配置⭐一键配置美观的vim安装方法卸载方…...

编程日记 2024/8/21 4:59:01

【2025校招】4399 NLP算法工程师笔试题

目录 1. 第一题2. 第二题3. 第三题 ⏰ 时间：2024/08/19 🔄 输入输出：ACM格式 ⏳ 时长：2h 本试卷分为单选，自我评价题，编程题单选和自我评价这里不再介绍，4399的编程题一如既往地抽象&#xff…...

编程日记 2024/8/21 4:56:59

数据库原理--关系1

目录一、表的基本构成要素二、域(Domain) 三、笛卡尔积四、关系模式五、关系模式与关系六、关系的特性一、表的基本构成要素表又被叫做关系，在数据库当中，我们可以把行叫做元组和记录，而列在数据库当中通常被我们叫做字段或者…...

编程日记 2024/8/21 4:54:56

【人工智能】AI工程化是将人工智能技术转化为实际应用、创造实际价值的关键步骤

AI工程化是将人工智能技术转化为实际应用、创造实际价值的关键步骤。以下是对AI工程化的详细介绍： 一、概念与定义 AI工程化是使用数据处理、预训练模型、机器学习流水线等技术开发AI软件的过程，旨在帮助企业更高效地利用AI创造价值。它是软件工程在AI…...

编程日记 2024/8/21 4:52:54

《C语言实现各种排序算法》

文章目录一、排序1、排序的各种方式分类二、插入排序1、直接插入排序2、希尔排序3、希尔排序时间复杂度分析三、选择排序1、直接选择排序2、堆排序四、交换排序1、冒泡排序2、快速排序3、快速排序hoare找基准值4、快排挖坑法找基准值5、前后指针法6、快速排序非递归实现五…...

编程日记 2024/8/21 4:51:53

【888题竞赛篇】第五题，2023ICPC澳门-传送(Teleportation)

这里写自定义目录标题更多精彩内容256题算法特训课，帮你斩获大厂60W年薪offer 原题2023ICPC澳门真题传送B站动画详解问题分析思路分析图的构建最短路径算法具体步骤算法实现Dijkstra 算法图的构建代码详解标准代码程序C代码Java代码Python代码Javascript代码复…...

编程日记 2024/8/21 4:50:52

javascript写一个页码器-SAAS本地化及未来之窗行业应用跨平台架构

一代码接引入 <script type"text/javascript" src"CyberWin_APP_Page.js" alt"未来之窗页码"></script>function 未来之窗页面触发器(页码){console.log("当前用户新"页码);}CyberWin_Page.set_callback(未来之窗页面触发…...

编程日记 2024/8/21 4:49:51

微信小程序如何自定义一个组件

微信小程序支持组件化开发，这有助于我们复用代码，提高开发效率。下面我将给出一个简单的微信小程序组件化示例，包括一个自定义组件的创建和使用。 1. 创建自定义组件首先，在项目的 components 目录下创建一个新的组件文件夹&am…...

编程日记 2024/8/21 4:48:50

【数学建模备赛】Ep05：斯皮尔曼spearman相关系数

文章目录一、前言🚀🚀🚀二、斯皮尔曼spearman相关系数：☀️☀️☀️1. 回顾皮尔逊相关系数2. 斯皮尔曼spearman相关系数3. 斯皮尔曼相关系数公式4. 另外一种斯皮尔曼相关系数定义5. matlab的用法5. matlab的用法三、对斯皮尔曼相…...

编程日记 2024/8/21 4:47:49

MATLAB进行神经网络建模的案例

下面是一个使用MATLAB进行神经网络建模的案例，该案例涉及使用神经网络来逼近一个未知系统的输入输出关系。这个案例与您提到的学习资料中的实例类似，但我会简化并解释每个步骤。案例背景假设我们有一组输入和输出数据，我们希望通过建立一…...

编程日记 2024/8/21 4:46:48

每天一个数据分析题（四百八十九）- 主成分分析与因子分析

关于主成分分析和因子分析的区别，下列描述正确的是（ ） A. 主成分分析是一种无监督学习算法，而因子分析是一种有监督学习算法 B. 主成分分析是一种线性变换方法，而因子分析是一种非线性变换方法 C. 主成分分析的结果…...

编程日记 2024/8/21 4:45:47

Java RPC、Go RPC、Node RPC、Python RPC 之间的互相调用

Java RPC、Go RPC、Node RPC、Python RPC 之间的互相调用是完全可以实现的，但需要满足一些条件和依赖于特定的工具和协议。以下是如何实现不同语言之间的RPC互相调用的详细解释： 1. 使用通用协议和标准：gRPC gRPC 是一个高性能、开源的RPC框…...

编程日记 2024/8/21 4:44:46

国外代理IP选择：IP池的大小有何影响

代理IP是跨境人不可或缺的工具，广泛应用于广告验证、数据获取和账号矩阵管理等方面。而在选择代理IP时，IP池的大小往往是一个至关重要的考量因素。本文将深入解析IP池大小对代理IP选择的影响，帮助大家更好地理解这一关键决策点。一、IP池的…...

编程日记 2024/8/21 4:40:41

手机谷歌浏览器怎么用

谷歌浏览器不仅在PC端受欢迎，在移动端也是广泛应用的。为了帮助大家更好的理解和使用手机谷歌浏览器，本文将详细介绍如何使用手机谷歌浏览器，对这款浏览器感到陌生的话就快快学起来吧。（本文由https://chrome.cmrrs.com/站点的作者…...

编程日记 2024/8/21 4:39:40

Button窗口部件

# 2. Button窗口部件 # 简单说明： # Button（按钮）部件是一个标准的Tkinter窗口部件，用来实现各种按钮。按钮能够包含文本或图象， # 并且你能够将按钮与一个Python函数或方法相关联。当这个按钮被按下时，Tki…...

编程日记 2024/8/21 4:38:39

PCIe学习笔记（25）

数据完整性 PCI Express的基本数据可靠性机制包含在数据链路层(data Link Layer)中，它使用32位的LCRC (CRC)码逐链路检测TLP中的错误，并采用逐链路重传机制进行错误恢复。TLP是一个数据和事务控制单元，由位于PCI Express域“边缘”的数据源(…...

编程日记 2024/8/21 4:37:38

8.20

上午 1、使用ansible安装并启动ftp服务 [root1 ~]# vim /etc/ansible/hosts s0 ansible_ssh_host10.0.0.12 ansible_ssh_port22 ansible_ssh_userroot ansible_ssh_pass1 s1 ansible_ssh_host10.0.0.13 ansible_ssh_port22 ansible_ssh_userroot ansible_ssh_pass1 s2 ansi…...

编程日记 2024/8/21 4:36:37

centos7.9系统安装talebook个人书库

1.简介： talebook —— 一个基于Calibre的简单的个人图书管理系统，支持在线阅读。 2.环境准备： #使用阿里源 wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repo #安装docker yu…...

编程日记 2024/8/21 4:35:36

ES高级查询Query DSL查询详解、term术语级别查询、全文检索、highlight高亮

文章目录 ES高级查询Query DSLmatch_all返回源数据_source返回指定条数size分页查询from&size指定字段排序sort 术语级别查询term query术语查询terms query多术语查询range query范围查询exists queryids queryprefix query前缀查询wildcard query通配符查询fuzzy query模…...

编程日记 2024/8/21 4:33:34

MySQL 隔离级别：脏读、幻读及不可重复读的原理与示例

一、MySQL 隔离级别 MySQL 提供了四种隔离级别，用于控制事务之间的并发访问以及数据的可见性，不同隔离级别对脏读、幻读、不可重复读这几种并发数据问题有着不同的处理方式，具体如下：隔离级别脏读不可重复读幻读性能特点及锁机制读未提交（READ UNCOMMITTED）允许出现允许…...

编程新知 2025/9/16 21:01:58

线程同步：确保多线程程序的安全与高效！

全文目录： 开篇语前序前言第一部分：线程同步的概念与问题1.1 线程同步的概念1.2 线程同步的问题1.3 线程同步的解决方案第二部分：synchronized关键字的使用2.1 使用 synchronized修饰方法2.2 使用 synchronized修饰代码块第三部分&#xff…...

编程新知 2025/9/24 16:02:40

【第二十一章 SDIO接口(SDIO)】

第二十一章 SDIO接口目录第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...

编程新知 2026/2/1 13:28:03

Axios请求超时重发机制

Axios 超时重新请求实现方案在 Axios 中实现超时重新请求可以通过以下几种方式： 1. 使用拦截器实现自动重试 import axios from axios;// 创建axios实例 const instance axios.create();// 设置超时时间 instance.defaults.timeout 5000;// 最大重试次数 cons…...

编程新知 2025/10/13 2:26:14

【C语言练习】080. 使用C语言实现简单的数据库操作

080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码：使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出：5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作在…...

编程新知 2025/9/22 21:37:01

C# SqlSugar：依赖注入与仓储模式实践

C# SqlSugar：依赖注入与仓储模式实践在 C# 的应用开发中，数据库操作是必不可少的环节。为了让数据访问层更加简洁、高效且易于维护，许多开发者会选择成熟的 ORM（对象关系映射）框架，SqlSugar 就是其中备受…...

编程新知 2025/11/25 6:49:02

Android15默认授权浮窗权限

我们经常有那种需求，客户需要定制的apk集成在ROM中，并且默认授予其【显示在其他应用的上层】权限，也就是我们常说的浮窗权限，那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…...

编程新知 2026/2/1 4:13:59

基于TurtleBot3在Gazebo地图实现机器人远程控制

1. TurtleBot3环境配置 # 下载TurtleBot3核心包 mkdir -p ~/catkin_ws/src cd ~/catkin_ws/src git clone -b noetic-devel https://github.com/ROBOTIS-GIT/turtlebot3.git git clone -b noetic https://github.com/ROBOTIS-GIT/turtlebot3_msgs.git git clone -b noetic-dev…...

编程新知 2026/2/6 11:54:58

PAN/FPN

import torch import torch.nn as nn import torch.nn.functional as F import mathclass LowResQueryHighResKVAttention(nn.Module):"""方案 1: 低分辨率特征 (Query) 查询高分辨率特征 (Key, Value).输出分辨率与低分辨率输入相同。"""def __…...

编程新知 2025/10/20 4:39:36

2025年渗透测试面试题总结-腾讯[实习]科恩实验室-安全工程师（题目+回答）

安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录腾讯[实习]科恩实验室-安全工程师一、网络与协议 1. TCP三次握手 2. SYN扫描原理 3. HTTPS证书机制二…...

编程新知 2026/1/27 2:41:27

相关文章：