当前位置: 首页 > news >正文

强化学习-Double DQN、竞争网络结构和Rainbow(第4章)

来源书籍:

TENSORFLOW REINFORCEMENT LEARNING QUICK START GUIDE

《TensorFlow强化学习快速入门指南-使用Python动手搭建自学习的智能体》

著者:[美]考希克·巴拉克里希南(Kaushik Balakrishnan)

译者:赵卫东

出版社:Packt    机械工业出版社

目录

1.Double DQN、竞争网络结构和Rainbow

1.1 了解Double DQN

1.2 理解竞争网络结构

1.3 了解Rainbow网络

1.3.1 先验经验重放

1.3.2 多步骤学习

1.3.3 分布式强化学习

1.3.4 噪声网络

2.思考题


1.Double DQN、竞争网络结构和Rainbow

第 3 章讨论了深度 Q 网络 (DQN) 算法, 以及如何用 Python 和 TensorFlow 实现, 并训练它来玩 Atari Breakout 游戏。在 DQN 中, 使用相同的Q网络来选择和评估一个动作。这会高估 Q 值,导致过度乐观的估计值。为了缓解这种情 况, DeepMind 发表了另一篇论文,提出了分离动作选择和动作评估的想法。这是 Double DQN ( DDQN) 架构的关键,将在本章中进行研究。

之后, DeepMind 发表了另一篇论文, 提出包含两个输出值的 Q 网络架构, 一个代表价值函数 𝑉(𝑠), 另一个是在给定状态下采取行动的优势函数 𝐴(𝑠,𝑎) 。Deep-Mind 将这两者组合起来计算 𝑄(𝑠,𝑎) 动作值, 而不是像 DQN 和 DDQN 那样, 直接确定它的取值。这些 Q 网络架构被称为竞争网络结构,因为此时神经网络具有双输出值 𝑉(𝑠) 和 𝐴(𝑠,𝑎), 随后被组合以获得 𝑄(𝑠,𝑎) 。本章将学习这些双重网络。

本章中学习的另一个扩展网络是 Rainbow 网络, 它是几种不同想法融合的一个混合算法。

1.1 了解Double DQN

DDQN 是 DQN 的扩展,在贝尔曼更新中使用目标网络。具体来说,在 DDQN 中, 贪婪最大化主要网络的 Q 函数来评估目标网络的 Q 函数。首先, 使用 vanilla DQN 目标进行贝尔曼方程更新。然后, 扩展到 DDQN 以进行相同的贝尔曼方程更新, 这是 DDQN 算法的关键。之后, 在 TensorFlow 中编写 DDQN 代码来 玩 Atari Breakout 游戏。最后,对比 DQN 和 DDQN 两种算法。

更新贝尔曼方程在vanilla DQN 中,贝尔曼更新的目标如下:

 \theta _{t}表示目标网络的模型参数。上式会导致 Q 函数的过度预测, 因此更改 DDQN ,将目标值 y_{t} 替换为:

必须区分 Q 网络参数 𝜃 和目标网络模型参数 \theta _{t}

1.2 理解竞争网络结构

在 DQN 和 DDQN 以及文献中的其他 DQN 变体中, 重点主要是算法, 即如何高效、稳定地更新价值函数神经网络。尽管这对于开发鲁棒的强化学习算法至关重要,但推动该领域发展的一个相似但互补的方向是创新和开发适合无模型强化学习的新型神经网络结构。这正是竞争网络结构背后的概念, 也是 DeepMind 的另 一个贡献。

竞争网络结构中包含的步骤如下:

1)竟争网络结构; 与标准的 DQN 作比较。

2)计算 𝑄(𝑠,𝑎) 。

3)从优势函数中减去优势的平均值。

由前文可知, DQN 中 Q 网络的输出是 𝑄(𝑠,𝑎), 即行为 - 价值函数。在竞争网络中, Q 网络有两个输出值: 状态价值函数 𝑉(𝑠) 和优势函数 𝐴(𝑠,𝑎) 。可以将它们结合起来计算状态 - 动作价值函数 𝑄(𝑠,𝑎) 。这样做的好处是网络不需要学习每个状 态下每个动作的价值函数, 这在行为不影响环境的状态下尤其有用。

如果一辆汽车在笔直的没有其他车辆的公路上行驶, 那么不需要做出任何行 为, 在这种状态下使用 𝑉(𝑠) 就足够了。但如果道路突然出现了弯道或其他车辆进 人汽车的附近, 就需要采取措施。因此, 在这些状态下, 优势函数开始发挥作用, 以找到给定的行动可以提供超过状态价值函数的递增收益。这是通过使用两个不 同的分支将同一网络中的 𝑉(𝑠) 和 𝐴(𝑠,𝑎) 的估计分离, 然后将它们组合在一起。

标准DQN网络和竞争网络结构如图所示。

 标准DQN网络(上)和竞争网络结构(下)

可以通过下面的公式计算动作 - 价值函数 𝑄(𝑠,𝑎) :

𝑄(𝑠,𝑎)=𝑉(𝑠)+𝐴(𝑠,𝑎)

然而, 这并不是唯一的, 因为可以用 𝑉(𝑠) 来预测一个量 𝛿, 而用 𝐴(𝑠,𝑎) 来预测同样的量 𝛿 ,这使得神经网络预测无法识别。为了避免这个问题,竞争网络论文的作者建议采用以下方法将 𝑉(𝑠) 和𝐴(𝑠,𝑎) 结合起来:

式中, |𝐴| 表示动作数, 𝜃 表示 𝑉(𝑠) 和 𝐴(𝑠,𝑎) 流之间共享的神经网络参数; 此外, 𝛼 和 𝛽 用于表示两个不同流 (即 𝐴(𝑠,𝑔) 流和 𝑉(𝑠) 流) 中的神经网络参数。从本质上 讲, 在前面的方程中, 从优势函数值中减去平均优势函数值, 然后将与状态价值 函数求和, 得到 𝑄(𝑠,𝑎) 。 竞争网络结构论文的链接为 https://arxiv.org/abs/1511.06581。 

1.3 了解Rainbow网络

下面介绍 Rainbow 网络, 这是几个不同 DQN 改进的集合。自有关 DQN 的论文问世以来, 出现了几种不同的改进方案, 取得了显著的成功。这促使 DeepMind 将几个不同的改进方案组合成一个集成 agent, 称之为 Rainbow DQN 。具体来说, 六种不同的 DQN 改进组合成一种集成的 Rainbow DQN agent。这六项改进概括如下:

- DDQN

- 竞争网络结构

- 先验经验重放

- 多步聚学习

- 分布式强化学习

- 噪声网络

DQN改进
前文已经介绍了DDQN 和竞争网络结构, 并用 TensorFlow 对它们进行了编码, 其余的改进将在下面描述。

1.3.1 先验经验重放

对于一个重放缓冲区, 其中所有的样本都具有相同的被采样概率。然而, 这并不是非常有效, 因为有些样本比其他样本更重要。这就是为什么需要先验经验重放, 其中具有更高时间差 (TD) 误差的样本以比其他样本更高的概率进行采样。第一次将样本添加到重放缓冲区时, 将设置最大优先级值, 以确保缓冲区中的所有样本至少采样一次。此后, TD 误差用于确定要采样的经验概率, 计算公式如下: 

式中, r 是奖励; θ 是主要的 Q 网络模型参数; \theta ^{t}是目标网络参数; ω 是一个 确定分布形状的正超参数。

1.3.2 多步骤学习

在 Q-learning 中, 积累一个单个奖励, 并在下一步使用贪婪操作。也可以使用多步目标, 并从单个状态计算一个 步返回:

 n步返回的值 r_{t}^{n} 在 Bellman 的更新中使用, 可以更快地学习。

1.3.3 分布式强化学习

在分布式强化学习中涉及收益的近似分布, 而不是期望收益。由于在数学上比较复杂, 超出了本书的范围, 在此不做进一步讨论。

1.3.4 噪声网络

在某些游戏中 (例如 Montezuma's revenge ), \varepsilon-greedy 并不奏效, 因为在收到第一个奖励之前, 需要执行许多动作。在此设置下, 建议使用结合确定性流和噪声流的噪声线性层:

 式中, x是输入; y是输出; b 和 W 是确定性流中的偏置和权重; b^{noisy}W^{noisy}  分别是噪声流中的偏置和权重; \varepsilon ^{b}\varepsilon ^{W} 是随机变量, 与偏置和权重做点乘。在噪声流中, 网络可以选择忽略状态空间某些区域中的噪声流并根据需要使用, 这就允许使用状态确定的探索策略。
本书不会对完整的 Rainbow DQN 进行编码, 因为其过于繁杂。作为替代, 我们可以使用一个名为 Dopamine 的开源框架来训练 Rainbow DQN agent。

2.思考题

(1)为什么DDQN比DQN性能更好?

答:DQN 高估了动作 - 价值函数 Q(s,a) 。为了解决这个问题, 引入了 DDQN 。DDQN 表现得比 DQN 好。

(2)竞争网络结构在训练中如何起作用?

竞争网络结构的优势函数和状态价值函数有单独的流, 将它们组合以获得 Q(s,a) 。这种分支再组合的做法可以更稳定地训练 RL agent。

(3)为什么先验经验重放会加速训练?

先验经验重放 (PER) 更重视 agent 性能不佳的体验样本, 因此与 agent 表现良好的其他样本相比, 这些样本的采样频率更高。通过频繁使用 agent 表现不佳的样本, agent 能够时常地处理其弱点, 因此 PER 可以加快训练速度。

(4)粘性行为在训练中有何帮助?

在一些计算机游戏中, 例如 Atari Breakout, 模拟器每秒的帧数太多了。如果每个时间步长从策略中对单独的操作进行采样, 那么 agent 的状态可能在一个时间步长中不会改变, 因为它太小。因此, 当相同的动作在有限但固定数量的时间步长 ( 例如 n) 上重复时, 使用粘性行为, 并且在这 n 个时间步长累积的总奖励被用作所执行动作的奖励。在这 n 个时间步长中, agent 的状态已经发生相当大的变化, 足够评估所采取动作的效力。n 太小会阻碍 agent 学习好的策略, 太大也可能产生问题。必须选择执行相同操作的正确时间步长, 这取决于所使用的模拟器。

相关文章:

强化学习-Double DQN、竞争网络结构和Rainbow(第4章)

来源书籍: TENSORFLOW REINFORCEMENT LEARNING QUICK START GUIDE 《TensorFlow强化学习快速入门指南-使用Python动手搭建自学习的智能体》 著者:[美]考希克巴拉克里希南(Kaushik Balakrishnan) 译者:赵卫东 出版…...

Unity 性能优化锦集

Unity作为一款主流的游戏开发引擎,不仅提供了强大的编辑器和开发工具,还可以让开发者轻松地实现高质量的3D游戏。但是,随着游戏规模的不断扩大和玩家需求的增加,游戏的性能问题也变得越来越重要。因此,在使用Unity进行…...

JS之Map的基本使用

一、Map的基本API 创建: const map new Map()插入:map.set("name", "郑建")读取:map.get("name")判断:map.has("name")删除:map.delete大小:map.size遍历&#…...

音视频八股文(6)-- ffmpeg大体介绍和内存模型

播放器框架 常用音视频术语 • 容器/文件(Conainer/File):即特定格式的多媒体文件, 比如mp4、flv、mkv等。 • 媒体流(Stream):表示时间轴上的一段连续数据,如一 段声音…...

4.25~~~~~

接着之前PE文件结构的预习 DOS 定位到NT 怎么操作的? 用的是e_lfanew,然后是相对于文件头的偏移量(也就是raw表示方法) 现在有个问题,为什么e_lfanew 这个变量不直接存储PE头 的绝对地址呢? 比如说&…...

Android 9.0 系统设置显示主菜单添加屏幕旋转菜单实现旋转屏幕功能

1.前言 在android9.0的系统rom定制化开发中,在对系统设置进行定制开发中,有产品需求要求增加旋转屏幕功能的菜单,就是在点击旋转屏幕菜单后弹窗显示旋转0度,旋转 90度,旋转180度,旋转270度针对不同分辨率的无重力感应的大屏设备的屏幕旋转功能的实现,接下来就来分析实现…...

Python数据结构与算法-欧几里算法(p95)

一、欧几里算法原理 欧几里得公式 欧几里得算法:gcd(a,b) gcd(b, a mod b) ; mod是指模,即a/b取余数。 运算示例: gcd(60,21) gcd(21,18) gcd(18,3)gcd(3,0) 证明略 最大公约数-欧几里得求解 &#xff08…...

【故障诊断】用于轴承故障诊断的性能增强时变形态滤波方法及用于轴承断层特征提取的增强数学形态算子研究(Matlab代码实现)

💥 💥 💞 💞 欢迎来到本博客 ❤️ ❤️ 💥 💥 🏆 博主优势: 🌞 🌞 🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 …...

水羊转债,超达转债,晓鸣转债上市价格预测

水羊转债 基本信息 转债名称:水羊转债,评级:A,发行规模:6.94987亿元。 正股名称:水羊股份,今日收盘价:13.94元,转股价格:13.71元。 当前转股价值 转债面值 /…...

从数据管理到数据资产管理

数据已经与土地、劳动力、资本、技术并称为五种生产要素,数据的价值是毋庸置疑的。数据甚至成为了国家的基础性战略资源,数字经济也正在成为经济增长的强大创新动力。那么—— 数据到底指的是什么? 数据管理又是怎么回事? 数据如何…...

RabbitMQ【#1】是什么,有什么用

RabbiMQ是什么? RabbitMQ是一种开源的消息队列软件,它实现了高级消息队列协议(AMQP)并支持多种编程语言。它可以用于将消息从一个应用程序传递到另一个应用程序或进程,并支持分布式系统中的异步消息通信。RabbitMQ的主…...

RabbitMQ防止消息丢失

生产者没有成功把消息发送到MQ 丢失的原因 :因为网络传输的不稳定性,当生产者在向MQ发送消息的过程中,MQ没有成功接收到消息,但是生产者却以为MQ成功接收到了消息,不会再次重复发送该消息,从而导致消息的丢…...

ImageJ用户手册——第二部分(ImageJ操作)

ImageJ用户手册-第二部分 ImageJ的使用4. 使用键盘快捷键5. 查找命令6. 撤消和重做7. 图像类型和格式原生格式非原生格式 8. 堆栈、虚拟堆栈、超堆栈Stacks(堆栈)Virtual Stacks(虚拟堆栈)Hyperstacks(超堆栈&#xff…...

Java中Lambda表达式(面向初学者)

目录 一、Lambda表达式是什么?什么场景下使用Lambda? 1.Lambda 表达式是什么 2.函数式接口是什么 第二章、怎么用Lambda 1.必须有一个函数式接口 2.省略规则 3.Lambda经常用来和匿名内部类比较 第三章、具体使用场景举例() …...

2023年淮阴工学院五年一贯制专转本数字电子技术考试大纲

2023年淮阴工学院五年一贯制专转本数字电子技术考试大纲 一、考核对象 本课程的考核对象是五年一贯制高职专转本电子科学与技术专业普通在校生考生。 二、考试目的及总体要求 通过本课程的考试,检查学生对掌握数字电路的基础理论知识的掌握程度,是否…...

使用 GO 编写 Web 应用:学习如何使用 GO 语言编写 Web 应用,包括使用 HTTP 路由、模板引擎等。

GO 语言是一个高效、可靠和简洁的编程语言,越来越多的开发者开始选择 GO 语言来编写 Web 应用。本文将介绍如何使用 GO 语言编写 Web 应用,并且将重点关注使用 HTTP 路由和模板引擎。 使用 HTTP 路由 HTTP 路由是 Web 应用中非常重要的一个概念。它可以帮助我们将请求路由到…...

Leetcode-day4【88】【167】【125】【345】

文章目录 88. 合并两个有序数组题目解题思路解题思路【学习】尾插入法 167. 两数之和 II - 输入有序数组题目解题思路 125. 验证回文串题目解题思路 345. 反转字符串中的元音字母题目解题思路 88. 合并两个有序数组 题目 给你两个按 非递减顺序 排列的整数数组 nums1 和 nums…...

【IoT】如何使用软件加密(文件夹加密工具.exe),并破解工具

目录 第一步:显示隐藏的文件。 第二步:将隐藏文件变成文件夹。 第三步:解密文件。 有时候出差或者有些商务场合,需要对一些敏感文件做一下简单的加密,这样在分享内容的时候,可以起到初步的保护作用。 当…...

Spring Boot——优雅的参数校验

🎈 概述 当我们想提供可靠的 API 接口,对参数的校验,以保证最终数据入库的正确性,是 必不可少 的活。比如下图就是 我们一个项目里 新增一个菜单校验 参数的函数,写了一大堆的 if else 进行校验,或者基础校…...

【c语言】typedef的基本用法 | 定义格式

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; 给大家跳段街舞感谢支持&#xff01;ጿ ኈ ቼ ዽ ጿ ኈ ቼ ዽ ጿ ኈ ቼ ዽ ጿ…...

深度学习论文分享(二)Data-driven Feature Tracking for Event Cameras

深度学习论文分享&#xff08;二&#xff09;Data-driven Feature Tracking for Event Cameras&#xff08;CVPR2023&#xff09; 前言Abstract1. Introduction2. Related Work3. Method3.1. Feature Network3.2. Frame Attention Module3.3. Supervision 4. Experiments5. Con…...

蛇优化算法

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 蛇优化算法算法流程图初始化进化操作搜索阶段&#xff08;无食物&#xff09;——全局搜索搜索阶段&#xff08;有食物&#xff09;——局部搜索战斗模式交配模式 备…...

循环神经网络(RNN)简单介绍—包括TF和PyTorch源码,并给出详细注释

文章目录 循环神经网络&#xff08;RNN&#xff09;入门教程1. 循环神经网络的原理2. 循环神经网络的应用3. 使用keras框架实现循环神经网络3.1导入对应的库及加载数据集3.2.数据预处理3.3定义RNN模型3.4训练模型3.5测试模型 4.使用PyTorch框架实现上述功能—注释详细5.结论 循…...

Struts2 快速入门

Struts2 是一个基于 MVC 设计模式的 Java Web 应用程序框架&#xff0c;它可以帮助我们更加有效地开发 Web 应用程序。Struts2 采用了前端控制器模式&#xff0c;通过核心控制器 DispatchServlet 将所有请求进行集中处理&#xff0c;然后将请求分发到指定的 Action 中&#xff…...

关于PullToRefreshView下拉刷新失效问题

一、问题原因 昨天&#xff0c;突然一个问题丢在了我的头上&#xff0c;用户反馈说某某界面下拉刷新不好使啊&#xff0c;怎么回事。二话不说直接运行项目&#xff0c;经过测试&#xff0c;发现果然不好使。一看代码提交日期好家伙2020年&#xff0c;百思不得其解&#xff0c;…...

JAVA开发中的六大原则

JAVA开发中的六大原则&#xff0c;也被称为SOLID原则&#xff0c;是软件开发中常用的一组设计原则。这些原则提供了实现高质量、易于维护和可扩展软件的基本策略。 以下是JAVA开发中的六大原则以及它们的详细说明&#xff1a; 单一职责原则&#xff08;Single Responsibility…...

Matplotlib 安装

Matplotlib 安装 本章节&#xff0c;我们使用 pip 工具来安装 Matplotlib 库&#xff0c;如果还未安装该工具&#xff0c;可以参考python 怎么使用pip进行包管理。 安装 matplotlib 库&#xff1a; pip install matplotlib 安装完成后&#xff0c;我们就可以通过 import 来…...

CF - Li Hua and Pattern

题意&#xff1a;给出了矩阵&#xff0c;里面每个位置分为蓝色或红色&#xff08;数据上用1和0体现了&#xff09;&#xff0c;给出了一个操作次数&#xff0c;每次可以改变一个坐标的颜色&#xff0c;问能否通过操作使得图像旋转180度后不变。 解&#xff1a;很容易想到&…...

重磅!阿里云云原生合作伙伴计划全新升级:加码核心权益,与伙伴共赢新未来

在今天的 2023 阿里云合作伙伴大会上&#xff0c;阿里云智能云原生应用平台运营&生态业务负责人王荣刚宣布&#xff1a; “阿里云云原生合作伙伴计划”全新升级。他表示&#xff1a; 云原生致力于帮助企业客户最大限度的减轻运维工作&#xff0c;更好的实现敏捷创新&#x…...

OSCP-Escape(gif绕过)

目录 扫描 WEB 扫描 sudo nmap 192.168.233.113 -p- -sS -sVPORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 7.6p1 Ubuntu 4ubuntu0.3 (Ubuntu Linux; protocol 2.0) 80/tcp open http Apache httpd 2.4.29 ((Ubuntu)) 8080/tcp open http Apache…...