当前位置：首页 > news >正文

训练强化学习的经验回放策略：experience replay

news 2026/2/10 23:05:20

经验回放：Experience Replay（训练DQN的一种策略）

优点：可以重复利用离线经验数据；连续的经验具有相关性，经验回放可以在离线经验BUFFER随机抽样，减少相关性；

超参数：Replay Buffer的长度；
$\begin{aligned} &\bullet\text{ Find w by minimizing }L(\mathbf{w})=\frac{1}{T}\sum_{t=1}^{T}\frac{\delta_{t}^{2}}{2}. \\ &\bullet\text{ Stochastic gradient descent (SGD):} \\ &\bullet\text{ Randomly sample a transition, }(s_i,a_i,r_i,s_{i+1}),\text{from the buffer} \\ &\bullet\text{ Compute TD error, }\delta_i. \\ &\bullet\text{ Stochastic gradient: g}_{i}=\frac{\partial\delta_{i}^{2}/2}{\partial \mathbf{w}}=\delta_{i}\cdot\frac{\partial Q(s_{i},a_{i};\mathbf{w})}{\partial\mathbf{w}} \\ &\bullet\text{ SGD: w}\leftarrow\mathbf{w}-\alpha\cdot\mathbf{g}_i. \end{aligned}$

注：实践中通常使用minibatch SGD，每次抽取多个经验，计算小批量随机梯度；
Replay Buffer代码实现如下：

@dataclass
class ReplayBuffer:maxsize: intsize: int = 0state: list = field(default_factory=list)action: list = field(default_factory=list)next_state: list = field(default_factory=list)reward: list = field(default_factory=list)done: list = field(default_factory=list)def push(self, state, action, reward, done, next_state):""":param state: 状态:param action: 动作:param reward: 奖励:param done::param next_state:下一个状态:return:"""if self.size < self.maxsize:self.state.append(state)self.action.append(action)self.reward.append(reward)self.done.append(done)self.next_state.append(next_state)else:position = self.size % self.maxsizeself.state[position] = stateself.action[position] = actionself.reward[position] = rewardself.done[position] = doneself.next_state[position] = next_stateself.size += 1def sample(self, n):total_number = self.size if self.size < self.maxsize else self.maxsizeindices = np.random.randint(total_number, size=n)state = [self.state[i] for i in indices]action = [self.action[i] for i in indices]reward = [self.reward[i] for i in indices]done = [self.done[i] for i in indices]next_state = [self.next_state[i] for i in indices]return state, action, reward, done, next_state

训练时的代码如下：

离线数据放到BUFFER里面：

#动作、状态、奖励、结束标志、下一状态
replay_buffer.push(state, action, reward, done, next_state)

训练时采样然后计算损失

bs, ba, br, bd, bns = replay_buffer.sample(n=args.batch_size)
bs = torch.tensor(bs, dtype=torch.float32)
ba = torch.tensor(ba, dtype=torch.long)
br = torch.tensor(br, dtype=torch.float32)
bd = torch.tensor(bd, dtype=torch.float32)
bns = torch.tensor(bns, dtype=torch.float32)loss = agent.compute_loss(bs, ba, br, bd, bns)
loss.backward()
optimizer.step()
optimizer.zero_grad()

训练强化学习的经验回放策略：experience replay

经验回放：Experience Replay（训练DQN的一种策略） 优点：可以重复利用离线经验数据；连续的经验具有相关性，经验回放可以在离线经验BUFFER随机抽样，减少相关性； 超参数：Rep…...

编程日记 2023/8/6 19:48:47

uniapp学习

1 简单的表单校验 <!--uniapp:参考模板和字段生成页面字段stuNumber 输入框学号stuName 输入框学生姓名teacher 输入框辅导员submitDate 日期选择填报日期morningTemperature 输入框（数字校验一位小数） 早上体温noonTemperature 输入框&…...

编程日记 2023/8/6 19:47:45

机器学习深度学习——数值稳定性和模型化参数（详细数学推导）

👨‍🎓作者简介：一位即将上大四，正专攻机器学习的保研er 🌌上期文章：机器学习&&深度学习——Dropout 📚订阅专栏：机器学习&&深度学习希望文章对你们有所帮助这一部…...

编程日记 2023/8/6 19:46:43

layui 整合UEditor 百度编辑器

layui 整合UEditor 百度编辑器第一步：下载百度编辑器并配置好路径百度编辑器下载地址：http://fex.baidu.com/ueditor/ 第二步：引入百度编辑器代码如下： <div class"layui-form-item layui-form-text"><…...

编程日记 2023/8/6 19:45:42

1、sparkStreaming概述

1、sparkStreaming概述 1.1 SparkStreaming是什么它是一个可扩展，高吞吐具有容错性的流式计算框架吞吐量：单位时间内成功传输数据的数量之前我们接触的spark-core和spark-sql都是处理属于离线批处理任务，数据一般都是在固定位置上&…...

编程日记 2023/8/6 19:44:41

【Spring Boot】Spring Boot 集成 RocketMQ 实现简单的消息发送和消费

文章目录前言基本概念消息和主题相关发送普通消息发送顺序消息RocketMQTemplate的API介绍参考资料： 前言本文主要有以下内容： 简单消息的发送顺序消息的发送RocketMQTemplate的API介绍环境搭建： RocketMQ的安装教程：在官网…...

编程日记 2023/8/6 19:43:40

uniapp：图片验证码检验问题处理

图形验证码功能实现 uniapp：解决图形验证码问题及利用arraybuffer二进制转base64格式图片（后端传的图片数据形式：x00\x10JFIF\x00\x01\x02\x00…）_❆VE❆的博客-CSDN博客 UI稿： 需求：向后端请求验证码图片&…...

编程日记 2023/8/6 19:42:39

将Visio和Excel导出成没有白边的PDF文件

1、VISIO如何无白边导出pdf格式在使用Latex时，要导入矢量图eps格式。但是VISIO无法输出eps格式，这就需要将其导出为pdf。但是导出pdf时，往往会有大量的白边。VISIO无白边导出pdf格式的方法如下： 1.文件——开发工具——显示sha…...

编程日记 2023/8/6 19:41:37

String类及其工具类

一、String类 1.字符串对象 String str new String("hello");String对象是final修饰的，不可修改的，修改后的字符串对象是另外一个对象，只是修改了引用地址。每次创建都会创建一个新的对象。 2. 字面量 String s "hello&…...

编程日记 2023/8/6 19:40:36

踩坑（5）整合kafka 报错 java.net.UnknownHostException: 不知道这样的主机

java.net.UnknownHostException: 不知道这样的主机。 (5c0c3c629db9)at java.base/java.net.Inet6AddressImpl.lookupAllHostAddr(Native Method) ~[na:na]at java.base/java.net.InetAddress$PlatformNameService.lookupAllHostAddr(InetAddress.java:933) ~[na:na]at java.ba…...

编程日记 2023/8/6 19:39:34

rust持续学习 get_or_insert_with

通常使用一个值 if(xnull)xsome_valid_value 忽然今天看见一段代码 pub fn get_id() -> u64 { let mut res struct.data.borrow_mut(); *res.get_or_insert_with(||{let mut xx ...... some logiclet id xx.id; id}); }感觉这个名字蛮奇怪的 insert 然后翻了一下代码&a…...

编程日记 2023/8/6 19:38:32

卡尔曼滤波 | Matlab实现无迹kalman滤波仿真

文章目录效果一览文章概述研究内容程序设计参考资料效果一览文章概述卡尔曼滤波 | Matlab实现无迹kalman滤波仿真研究内容无迹kalman滤波（UKF）不是采用的将非线性函数线性化的做法。无迹kalman仍然采用的是线性kalman滤波的架构，对于一步预测方程，使用无迹变换（UT）来…...

编程日记 2023/8/6 19:37:30

C++---list常用接口和模拟实现

list---模拟实现 list的简介list函数的使用构造函数迭代器的使用list的capacitylist element accesslist modifiers list的模拟实现构造函数，拷贝构造函数和迭代器begin和endinsert和eraseclear和析构函数源码 list的简介 list是用双向带头联表实现的一个容器&…...

编程日记 2023/8/6 19:36:28

[openCV]基于赛道追踪的智能车巡线方案V1

import cv2 as cv import os import numpy as npimport time# 遍历文件夹函数 def getFileList(dir, Filelist, extNone):"""获取文件夹及其子文件夹中文件列表输入 dir：文件夹根目录输入 ext: 扩展名返回： 文件路径列表""&quo…...

编程日记 2023/8/6 19:35:27

SpringIoc-个人学习笔记

Spring的Ioc、DI、AOP思想 Ioc Ioc思想：Inversion of Control，控制反转，在创建Bean的权利反转给第三方 DI DI思想：Dependency Injection，依赖注入，强调Bean之间的关系，这种关系由第三方负责去设…...

编程日记 2023/8/6 19:34:25

【一文搞懂泛型】

3.3泛型 3.3.1泛型出现的背景泛型出现的背景有两点： 第一点是在集合容器中，如果没有指定对应类型的话，那么底层的元素就是object，要对容器中的元素进行存取的时候，取出来的同时需要进行类型转换，如果有…...

编程日记 2023/8/6 19:33:23

概念解析 | 利用MIMO雷达技术实现高性能目标检测的关键技术解析

注1:本文系“概念解析”系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:MIMO雷达目标检测技术参考资料：何子述, 程子扬, 李军, 等. 集中式 MIMO 雷达研究综述[J]. 雷达学报, 2022, 11(5): 805-829. 利用MIMO雷达技术实现高性能目标检测的关键技术解…...

编程日记 2023/8/6 19:32:22

Grafana制作图表-自定义Flink监控图表

简要有时候我们在官网的Grafana下载的图表是这样的，如下图 #算子的处理时间，就是处理数据的延迟数据抓取，这个的说明看下下面的文章 metrics.latency.interval: 60 metrics.reporter.promgateway.class: org.apache.flink.metrics.prometh…...

编程日记 2023/8/6 19:31:20

【TypeScript】初识TypeScript和变量类型介绍

TypeScript 1，TypeScript是什么?2，类型的缺失带来的影响3，Ts搭建环境-本博主有专门的文章专说明这个4，使用tsc对ts文件进行编译5，TS运行初体验简化Ts运行步骤解决方案1解决方案2（常见） 开始学习…...

编程日记 2023/8/6 19:30:18

阿里云瑶池 PolarDB 开源官网焕新升级上线

导读近日，阿里云开源云原生数据库 PolarDB 官方网站全新升级上线。作为 PolarDB 开源项目与开发者、生态伙伴、用户沟通的平台，将以开放、共享、促进交流为宗旨，打造开放多元的环境，以实现共享共赢的目标。立即体验全新官网&…...

编程日记 2023/8/6 19:29:13

云原生核心技术 (7/12): K8s 核心概念白话解读(上)：Pod 和 Deployment 究竟是什么？

大家好，欢迎来到《云原生核心技术》系列的第七篇！ 在上一篇，我们成功地使用 Minikube 或 kind 在自己的电脑上搭建起了一个迷你但功能完备的 Kubernetes 集群。现在，我们就像一个拥有了一块崭新数字土地的农场主，是时…...

编程新知 2025/12/14 22:32:59

前端倒计时误差!

提示：记录工作中遇到的需求及解决办法文章目录前言一、误差从何而来？二、五大解决方案1. 动态校准法（基础版）2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言前几天听说公司某个项…...

编程新知 2025/9/8 23:14:43

java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别

UnsatisfiedLinkError 在对接硬件设备中，我们会遇到使用 java 调用 dll文件的情况，此时大概率出现UnsatisfiedLinkError链接错误，原因可能有如下几种类名错误包名错误方法名参数错误使用 JNI 协议调用，结果 dll 未实现 JNI 协…...

编程新知 2025/10/6 16:38:04

vue3 字体颜色设置的多种方式

在Vue 3中设置字体颜色可以通过多种方式实现，这取决于你是想在组件内部直接设置，还是在CSS/SCSS/LESS等样式文件中定义。以下是几种常见的方法： 1. 内联样式你可以直接在模板中使用style绑定来设置字体颜色。 <template><div :s…...

编程新知 2026/2/4 20:47:44

Qt Http Server模块功能及架构

Qt Http Server 是 Qt 6.0 中引入的一个新模块，它提供了一个轻量级的 HTTP 服务器实现，主要用于构建基于 HTTP 的应用程序和服务。功能介绍： 主要功能 HTTP服务器功能： 支持 HTTP/1.1 协议简单的请求/响应处理模型支持 GET…...

编程新知 2025/10/17 21:16:57

Ascend NPU上适配Step-Audio模型

1 概述 1.1 简述 Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤）&#x…...

编程新知 2026/1/31 4:37:39

【学习笔记】深入理解Java虚拟机学习笔记——第4章虚拟机性能监控，故障处理工具

第2章虚拟机性能监控，故障处理工具 4.1 概述略 4.2 基础故障处理工具 4.2.1 jps:虚拟机进程状况工具命令：jps [options] [hostid] 功能：本地虚拟机进程显示进程ID（与ps相同），可同时显示主类&#x…...

编程新知 2026/1/15 1:34:10

【JavaWeb】Docker项目部署

引言之前学习了Linux操作系统的常见命令，在Linux上安装软件，以及如何在Linux上部署一个单体项目，大多数同学都会有相同的感受，那就是麻烦。核心体现在三点： 命令太多了，记不住软件安装包名字复杂&…...

编程新知 2026/2/4 16:07:02

使用Matplotlib创建炫酷的3D散点图：数据可视化的新维度

文章目录基础实现代码代码解析进阶技巧1. 自定义点的大小和颜色2. 添加图例和样式美化3. 真实数据应用示例实用技巧与注意事项完整示例（带样式）应用场景在数据科学和可视化领域，三维图形能为我们提供更丰富的数据洞察。本文将手把手教你如何使用Python的Matplotlib库创建引…...

编程新知 2026/1/28 8:25:28

作为测试我们应该关注redis哪些方面

1、功能测试数据结构操作：验证字符串、列表、哈希、集合和有序的基本操作是否正确持久化：测试aof和aof持久化机制，确保数据在开启后正确恢复。事务：检查事务的原子性和回滚机制。发布订阅：确保消息正确传递。 2、性…...

编程新知 2025/11/1 2:00:51

相关文章：