当前位置：首页 > news >正文

强化学习笔记之【DDPG算法】

news 2025/12/21 15:48:53

强化学习笔记之【DDPG算法】

文章目录

强化学习笔记之【DDPG算法】
- - 前言：
  - 原论文伪代码
  - DDPG算法
  - DDPG 中的四个网络
  - 代码核心更新公式

前言：

本文为强化学习笔记第二篇，第一篇讲的是Q-learning和DQN

就是因为DDPG引入了Actor-Critic模型，所以比DQN多了两个网络，网络名字功能变了一下，其它的就是软更新之类的小改动而已

本文初编辑于2024.10.6

CSDN主页：https://blog.csdn.net/rvdgdsva

博客园主页：https://www.cnblogs.com/hassle

博客园本文链接：

真 · 图文无关

原论文伪代码

上述代码为DDPG原论文中的伪代码

DDPG算法

需要先看：

Deep Reinforcement Learning (DRL) 算法在 PyTorch 中的实现与应用【DDPG部分】【没有在选择一个新的动作的时候，给policy函数返回的动作值增加一个噪音】【critic网络与下面不同】

深度强化学习笔记——DDPG原理及实现（pytorch）【DDPG伪代码部分】【这个跟上面的一样没有加噪音】【critic网络与上面不同】

【深度强化学习】(4) Actor-Critic 模型解析，附Pytorch完整代码【选看】【Actor-Critic理论部分】

如果需要给policy函数返回的动作值增加一个噪音，实现如下

def select_action(self, state, noise_std=0.1):state = torch.FloatTensor(state.reshape(1, -1))action = self.actor(state).cpu().data.numpy().flatten()# 添加噪音，上面两个文档的代码都没有这个步骤noise = np.random.normal(0, noise_std, size=action.shape)action = action + noisereturn action

DDPG 中的四个网络

注意！！！这个图只展示了Critic网络的更新，没有展示Actor网络的更新

Actor 网络（策略网络）：
- 作用：决定给定状态 ss 时，应该采取的动作 a=π(s)a=π(s)，目标是找到最大化未来回报的策略。
- 更新：基于 Critic 网络提供的 Q 值更新，以最大化 Critic 估计的 Q 值。
Target Actor 网络（目标策略网络）：
- 作用：为 Critic 网络提供更新目标，目的是让目标 Q 值的更新更为稳定。
- 更新：使用软更新，缓慢向 Actor 网络靠近。
Critic 网络（Q 网络）：
- 作用：估计当前状态 ss 和动作 aa 的 Q 值，即 Q(s,a)Q(s,a)，为 Actor 提供优化目标。
- 更新：通过最小化与目标 Q 值的均方误差进行更新。
Target Critic 网络（目标 Q 网络）：
- 作用：生成 Q 值更新的目标，使得 Q 值更新更为稳定，减少振荡。
- 更新：使用软更新，缓慢向 Critic 网络靠近。

大白话解释：

1、DDPG实例化为actor，输入state输出action
2、DDPG实例化为actor_target
3、DDPG实例化为critic_target，输入next_state和actor_target(next_state)经DQN计算输出target_Q
4、DDPG实例化为critic，输入state和action输出current_Q，输入state和actor(state)【这个参数需要注意，不是action】经负均值计算输出actor_loss

5、current_Q 和target_Q进行critic的参数更新
6、actor_loss进行actor的参数更新

action实际上是batch_action，state实际上是batch_state，而batch_action != actor(batch_state)

因为actor是频繁更新的，而采样是随机采样，不是所有batch_action都能随着actor的更新而同步更新

Critic网络的更新是一发而动全身的，相比于Actor网络的更新要复杂要重要许多

代码核心更新公式

$target\underline{~}Q = critic\underline{~}target(next\underline{~}state, actor\underline{~}target(next\underline{~}state)) \\target\underline{~}Q = reward + (1 - done) \times gamma \times target\underline{~}Q.detach()$

上述代码与伪代码对应，意为计算预测Q值

$critic\underline{~}loss = MSELoss(critic(state, action), target\underline{~}Q) \\critic\underline{~}optimizer.zero\underline{~}grad() \\critic\underline{~}loss.backward() \\critic\underline{~}optimizer.step()$

上述代码与伪代码对应，意为使用均方误差损失函数更新Critic

$actor\underline{~}loss = -critic(state,actor(state)).mean() \\actor\underline{~}optimizer.zero\underline{~}grad() \\ actor\underline{~}loss.backward() \\ actor\underline{~}optimizer.step()$

上述代码与伪代码对应，意为使用确定性策略梯度更新Actor

$critic\underline{~}target.parameters().data=(tau \times critic.parameters().data + (1 - tau) \times critic\underline{~}target.parameters().data) \\ actor\underline{~}target.parameters().data=(tau \times actor.parameters().data + (1 - tau) \times actor\underline{~}target.parameters().data)$

上述代码与伪代码对应，意为使用策略梯度更新目标网络

Actor和Critic的角色：

Actor：负责选择动作。它根据当前的状态输出一个确定性动作。
Critic：评估Actor的动作。它通过计算状态-动作值函数（Q值）来评估给定状态和动作的价值。

更新逻辑：

Critic的更新：
1. 使用经验回放缓冲区（Experience Replay）从中采样一批经验（状态、动作、奖励、下一个状态）。
2. 计算目标Q值：使用目标网络（critic_target）来估计下一个状态的Q值（target_Q），并结合当前的奖励。
3. 使用均方误差损失函数（MSELoss）来更新Critic的参数，使得预测的Q值（target_Q）与当前Q值（current_Q）尽量接近。
Actor的更新：
1. 根据当前的状态（state）从Critic得到Q值的梯度（即对Q值相对于动作的偏导数）。
2. 使用确定性策略梯度（DPG）的方法来更新Actor的参数，目标是最大化Critic评估的Q值。

个人理解：

DQN算法是将q_network中的参数每n轮一次复制到target_network里面

DDPG使用系数 $\tau$ 来更新参数，将学习到的参数更加soft地拷贝给目标网络

DDPG采用了actor-critic网络，所以比DQN多了两个网络

强化学习笔记之【DDPG算法】

强化学习笔记之【DDPG算法】文章目录强化学习笔记之【DDPG算法】前言：原论文伪代码DDPG算法DDPG 中的四个网络代码核心更新公式前言： 本文为强化学习笔记第二篇，第一篇讲的是Q-learning和DQN 就是因为DDPG引入了Actor-Critic模型&#x…...

编程日记 2024/10/7 11:05:34

c++继承（下）

c继承（下） （1）继承与友元（2）继承与静态成员（3）多继承及其菱形继承问题3.1 继承模型3.2 虚继承3.3 多继承中指针偏移问题 （4）继承和组合（9&#xf…...

编程日记 2024/10/7 11:03:32

数据结构 ——— 单链表oj题：反转链表

目录题目要求手搓一个简易链表代码实现题目要求给你单链表的头节点 head ，请你反转链表，并返回反转后的链表手搓一个简易链表代码演示： struct ListNode* n1 (struct ListNode*)malloc(sizeof(struct ListNode)); assert(n1);…...

编程日记 2024/10/7 11:02:31

前端项目npm install报错解决的解决办法

报错问题一: [rootspug-api spug_web]# npm install npm WARN deprecated xterm4.19.0: This package is now deprecated. Move to xterm/xterm instead. npm WARN deprecated workbox-google-analytics4.3.1: It is not compatible with newer versions of GA starting with v…...

编程日记 2024/10/7 10:57:25

vue双向绑定/小程序双向绑定区别

Vue双向绑定与小程序双向绑定在实现方式、语法差异以及功能特性上均存在显著区别。以下是对这两者的详细比较： 一、实现方式 Vue双向绑定 Vue的双向绑定主要通过其响应式数据系统实现。Vue使用Object.defineProperty()方法（或在Vue 3中使用Proxy对象&am…...

编程日记 2024/10/7 10:56:24

华为OD机试真题---字符串变换最小字符串

题目描述: 给定一个字符串s，最多只能进行一次变换，返回变换后能得到的最小字符串(按照字典序进行比较)。变换规则: 交换字符串中任意两个不同位置的字符。输入描述: 一串小写字母组成的字符串s 输出描述: 按照要求进行变换得到的最小字符串补…...

编程日记 2024/10/7 10:55:23

JAVA基础面试题汇总（持续更新）

1、精确运算场景使用浮点型运算问题精确运算场景（如金融领域计算应计利息）计算数字，使用浮点型，由于精度丢失问题，会导致计算后的结果和预期不一致，使用Bigdecimal类型解决此问题，示例代码如下…...

编程日记 2024/10/7 10:53:21

设计模式-创建型-常用：单例模式、工厂模式、建造者模式

单例模式概念一个类只允许创建一个对象（或实例），那这个类就是单例类，这种设计模式就叫做单例模式。对于一些类，创建和销毁比较复杂，如果每次使用都创建一个对象会很耗费性能，因此可以把它设…...

编程日记 2024/10/7 10:52:20

【数据结构】【链表代码】随机链表的复制

/*** Definition for a Node.* struct Node {* int val;* struct Node *next;* struct Node *random;* };*/typedef struct Node Node; struct Node* copyRandomList(struct Node* head) {if(headNULL)return NULL;//1.拷贝结点，连接到原结点的后面Node…...

编程日记 2024/10/7 10:49:17

Linux 系统五种帮助命令的使用

Linux 系统五种帮助命令的使用本文将介绍 Linux 系统中常用的帮助命令，包括 man、–help、whatis、apropos 和 info 命令。这些命令对于新手和有经验的用户来说，都是查找命令信息、理解命令功能的有力工具。文章目录 Linux 系统五种帮助命令的使用一…...

编程日记 2024/10/7 10:47:13

Vueron引领未来出行：2026年ADAS激光雷达解决方案上市路线图深度剖析

Vueron ADAS激光雷达解决方案路线图分析：2026年上市展望 Vueron近期发布的ADAS激光雷达解决方案路线图，标志着该公司在自动驾驶技术领域迈出了重要一步。该路线图以2026年上市为目标，彰显了Vueron对未来市场趋势的精准把握和对技术创新的坚定…...

编程日记 2024/10/7 10:44:10

Java | Leetcode java题解之第458题可怜的小猪

题目： 题解： class Solution {public int poorPigs(int buckets, int minutesToDie, int minutesToTest) {if (buckets 1) {return 0;}int[][] combinations new int[buckets 1][buckets 1];combinations[0][0] 1;int iterations minutesToTest /…...

编程日记 2024/10/7 10:42:08

怎么不改变视频大小的情况下,修改视频的时长

视频文件太大怎么变小？不影响画质的四种方法怎么不改变视频大小的情况下,修改视频的时长截取结尾的时间你可以使用 ffmpeg 来裁剪视频的结尾部分。假设你想去掉视频最后的3秒钟，可以先使用 ffmpeg 获取视频的总时长，然后通过指定一个新的…...

编程日记 2024/10/7 10:34:59

数据结构：AVL树

前言学习了普通二叉树，发现普通二叉树作用不大，于是我们学习了搜索二叉树，给二叉树新增了搜索、排序、去重等特性， 但是，在极端情况下搜索二叉树会退化成单边树，搜索的时间复杂度达到了O(N)，这…...

编程日记 2024/10/7 10:33:56

系统守护者：使用PyCharm与Python实现关键硬件状态的实时监控

目录前言系统准备软件下载与安装安装相关库程序准备主体程序更改后的程序： 编写.NET程序前言在现代生活中，电脑作为核心工具，其性能和稳定性的维护至关重要。为确保电脑高效运行，我们不仅需关注软件优化&#xf…...

编程日记 2024/10/7 10:27:50

【工作流引擎集成】springboot+Vue+activiti+mysql带工作流集成系统，直接用于业务开发，流程设计，工作流审批，会签

前言 activiti工作流引擎项目，企业erp、oa、hr、crm等企事业办公系统轻松落地，一套完整并且实际运用在多套项目中的案例，满足日常业务流程审批需求。一、项目形式 springbootvueactiviti集成了activiti在线编辑器，流行的前后端…...

编程日记 2024/10/7 10:23:45

SumatraPDF一打开就无响应怎么办？

结论：当前安装版不论32位还是64位都会出现问题。使用portable免安装版未发现相关问题。——sumatrapdf可以用于pdf, epub, mobi 等格式文件的浏览。点击看相关问题和讨论...

编程日记 2024/10/7 10:18:40

棋牌灯控计时计费系统软件免费试用版怎么下载佳易王计时收银管理系统操作教程

一、前言【试用版软件下载，可以点击本文章最下方官网卡片】棋牌灯控计时计费系统软件免费试用版怎么下载佳易王计时收银管理系统操作教程棋牌计时计费软件的应用也提升了顾客的服务体验，顾客可以清晰的看到自己的消费时间和费用。增加了消费的透明…...

编程日记 2024/10/7 10:17:39

Excel下拉菜单制作及选项修改

Excel下拉菜单 1、下拉菜单制作2、下拉菜单修改下拉框（选项菜单）是十分常见的功能。Excel支持下拉框制作，通过预设选项进行菜单选择，可以避免手动输入错误和重复工作，提升数据输入的准确性和效率 1、下拉菜单制作步…...

编程日记 2024/10/7 10:13:34

树莓派 mysql （兼容mariadb）登陆问题

树莓派 mysql （兼容mariadb）登陆问题树莓派 MySQL 登陆问题 1 使用默认账号登陆在首次登陆的情况下，系统默认为root用户授权 sudo su root ![切换到root 用户](https://img-blog.csdnimg.cn/20191019082911668.png) 2. 使用root用户登…...

编程日记 2024/10/7 10:12:33

RocketMQ延迟消息机制

两种延迟消息 RocketMQ中提供了两种延迟消息机制指定固定的延迟级别通过在Message中设定一个MessageDelayLevel参数，对应18个预设的延迟级别指定时间点的延迟级别通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后&#xf…...

编程新知 2025/12/20 12:04:07

基于ASP.NET+ SQL Server实现（Web）医院信息管理系统

医院信息管理系统 1. 课程设计内容在 visual studio 2017 平台上，开发一个“医院信息管理系统”Web 程序。 2. 课程设计目的综合运用 c#.net 知识，在 vs 2017 平台上，进行 ASP.NET 应用程序和简易网站的开发；初步熟悉开发一…...

编程新知 2025/12/14 0:24:50

中南大学无人机智能体的全面评估！BEDI：用于评估无人机上具身智能体的综合性基准测试

作者：Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位：中南大学地球科学与信息物理学院论文标题：BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接：https://arxiv.…...

编程新知 2025/12/15 7:07:56

【网络安全产品大调研系列】2. 体验漏洞扫描

前言 2023 年漏洞扫描服务市场规模预计为 3.06（十亿美元）。漏洞扫描服务市场行业预计将从 2024 年的 3.48（十亿美元）增长到 2032 年的 9.54（十亿美元）。预测期内漏洞扫描服务市场 CAGR（增长率&…...

编程新知 2025/12/20 17:25:26

Java多线程实现之Callable接口深度解析

Java多线程实现之Callable接口深度解析一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务三、…...

编程新知 2025/11/13 13:42:14

OPENCV形态学基础之二腐蚀

一.腐蚀的原理 (图1) 数学表达式：dst(x,y) erode(src(x,y)) min(x,y)src(xx,yy) 腐蚀也是图像形态学的基本功能之一，腐蚀跟膨胀属于反向操作，膨胀是把图像图像变大，而腐蚀就是把图像变小。腐蚀后的图像变小变暗淡。腐蚀…...

编程新知 2025/12/13 4:39:40

Netty从入门到进阶（二）

二、Netty入门 1. 概述 1.1 Netty是什么 Netty is an asynchronous event-driven network application framework for rapid development of maintainable high performance protocol servers & clients. Netty是一个异步的、基于事件驱动的网络应用框架，用于…...

编程新知 2025/12/21 15:06:47

RSS 2025｜从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

视觉语言模型（Vision-Language Models, VLMs），为真实环境中的机器人操作任务提供了极具潜力的解决方案。尽管 VLMs 取得了显著进展，机器人仍难以胜任复杂的长时程任务（如家具装配），主要受限于人…...

编程新知 2025/12/12 8:29:44

Chrome 浏览器前端与客户端双向通信实战

Chrome 前端（即页面 JS / Web UI）与客户端（C 后端）的交互机制，是 Chromium 架构中非常核心的一环。下面我将按常见场景，从通道、流程、技术栈几个角度做一套完整的分析，特别适合你这种在分析和改…...

编程新知 2025/12/21 0:54:16

【C++】纯虚函数类外可以写实现吗？

1. 答案先说答案，可以。 2.代码测试 .h头文件 #include <iostream> #include <string>// 抽象基类 class AbstractBase { public:AbstractBase() default;virtual ~AbstractBase() default; // 默认析构函数public:virtual int PureVirtualFunct…...

编程新知 2025/12/17 15:56:26

强化学习笔记之【DDPG算法】

文章目录

前言：

原论文伪代码

DDPG算法

DDPG 中的四个网络

代码核心更新公式

相关文章：