当前位置：首页 > news >正文

深度强化学习之 PPO 算法

news 2026/2/9 6:23:01

深度强化学习之 PPO 算法

强化学习原理
学习策略 = 基于行为价值 & 基于行为概率
策略梯度算法：计算状态下所有行为的概率
演员 - 评论家算法：一半基于行为价值，一半基于行为概率
DQN 算法（深度Q网络）
Q-Learning（Q 值）

PPO 算法 = DQN算法 + 演员-评论家算法 + 策略梯度算法

强化学习原理

机器学习是把带标签的数据训练模型，使得预测值尽可能接近真实值。

强化学习是通过和环境交互，奖励来训练模型，使得最后获取的奖励最大期望值。

在强化学习中，机器基于环境做出行为，正确的行为能够获得奖励。以获得更多奖励为目标，实现机器与环境的最优互动。

如教狗子握手的时候，如果狗子正确握手，就能得到骨头奖励，不握手就没有。如果咬了主人一口，还会受到惩罚。

长此以往，狗子为了得到更多骨头，就能学会握手这个技能。

编程开发三要素：数据结构 + 传统算法 = 程序
机器学习三要素：数据 + 学习算法 = 模型
强化学习六要素：环境、决策模型、状态、行为、奖励、评论家

如在对弈的环境中，决策模型根据棋盘上的状态，做出落子行为，然后每盘棋的胜负获得奖励。模拟足够多棋局后，评论家就可以通过计算预测出每步棋对整盘棋的价值，为其打分。

通过不断训练，机器以赢更多局棋为目标，不断更新优化，成为一个围棋大师。

可以将学习的场景分为两类：

离散场景：机器行为的有限的，如动作类游戏。只有向上、向下、向左、向右这 4 个动作，移动也只能一格一格地走。

可以把每个状态下的所有行为列举出来，用评论家为每个行为打分，通过选择最高分的行为实现最优互动。

因为需要评估每个行为的价值，所以这种学习方法被称为基于行为价值的方法。
连续场景：机器的行为是连贯的，如赛车的方向盘转动角度可以在一定区间内任意取值，角度之间可以无限分割。

还有基于行为概率的方法，无需根据每个行为的价值来打分，可以很好地胜任连续场景。

学习策略 = 基于行为价值 & 基于行为概率

基于值的方法需要根据每个行为的价值进行打分，选出价值最高的行为。由于要穷举出所有行为，因此它只适用于离散场景。

Q-Learning 和 DQN 算法，都属于基于值的强化学习方法。

基于价值的方法无法应对连续场景。只能应用在不连续的、离散的环境下（如围棋或动作类游戏）。

对于动作集合规模庞大、动作连续的场景（如机器人控制领域），其很难学习到较好的结果。

基于价值（Value-Based）的思路是：通过计算行为的价值（Value）来训练模型。

棋盘上一共只有 361 个点位，基于值的方法可以计算出棋子落在每个点位的价值，并进行打分，帮助机器选出最优点位。

好处：基于值的方法能实时反馈。可以根据每个行为的价值进行打分，这个分数就相当于每个行为的实时反馈。但不能应用连续场景上。

而基于策略（Policy-Based）的方法并不需要考虑行为的价值，而是反应调整。

机器会在训练过程中随机抽取一些行为，与环境互动。如果行为获得了奖励，就会提高选择它的概率。以后遇到同样的状态时，有更高的概率再次做出这个行为。

相反，如果未获得奖励，或者受到了惩罚，就保持或者降低该行为的概率。

经过大量训练，最终会得出连续行为的概率分布。

基于这样的原理，一个行为能获得越多奖励，被选择的概率就越大，从而实现机器和环境的最优化互动。

好处：基于策略的方法能应用连续场景上。但不能实时反馈。

策略梯度算法：计算状态下所有行为的概率

基于策略的方法，它的原理是根据行为的概率来训练模型。

实现方式：策略梯度算法引入了一个神经网络，输入层是状态(s)，经过隐藏层的分析和计算，输出该状态下每个行为的概率.

策略梯度算法在训练过程中经常遇到一个难题：机器在与环境互动时，难以得到实时反馈，往往要在整个回合结束后才能获得奖励。

如赢一盘棋是正向奖励，输一盘棋是负面奖励，但棋局中某一颗棋子的价值很难即时评估。

想要提高学习效率，就必须想办法提供实时反馈。

有没有办法可以将基于策略在应对连续场景上的优点，和基于值在实时反馈上的优点进行结合呢？

那就是演员-评论家算法。

演员 - 评论家算法：一半基于行为价值，一半基于行为概率

演员-评论家算法就是将基于策略和基于值两个方法相结合的产物。

这个算法分成两半，一半是演员，另一半是评论家。

演员：这一半基于策略，策略梯度算法。它有一个神经网络，可以根据行为的概率，选出行为。
评论家：这一半基于价值，DQN 算法。它有一个神经网络，可以根据行为的价值进行打分。

将基于策略和基于值的方法相结合，由基于策略的策略网络在连续场景中选出行为，由基于值的价值网络给行为提供实时反馈。

策略网络就像写作业的学生，价值网络就像批改作业的老师。二者结合，反复地写作业、改作业，对比方法，找出最好的方法。

DQN 算法（深度Q网络）

DQN 算法全称深度Q网络，以 Q-Learning 算法为基础，融合了神经网络。

Q-Learning（Q 值）

Q-Learning 有一个 Q 值（评论家），一个行为的 Q 值越高，表示该行为能带来的奖励越多，越应该被选择。

Q-learning 算法需要知道每个状态下，所有行为的 Q 值。

让机器在每个状态下都能做出 Q 值最大的行为(a)。

因为计算每一个Q值，需要同时记录同一个状态下所有行为。

而当状态和行为的数量非常庞大时，储存所有数据会占用非常多的资源。

使用神经网络可以直接学习状态、行为、Q值的关系，输入状态，就能得到每个行为的Q值。

神经网络在这的功能：从存储 3 个值的排列组合，到只存储状态。

PPO 算法 = DQN算法 + 演员-评论家算法 + 策略梯度算法

PPO 算法沿用了 AC 算法的整体框架。

就是调整学习率。学习率表示向前的步长。

步长太大，尽管学得快，但会导致后期无法收敛于最优解；步长太小，则会导致学得很慢，学到黄花菜都凉了。

在训练过程中，当模型的更新幅度过大时，会调整更新幅度。

但是进行了这样的调整：机器每向前更新一步，就会与更新前作比较，如果这一步“迈”得太大，就会调整这次更新的幅度。

深度强化学习之 PPO 算法

深度强化学习之 PPO 算法强化学习原理学习策略基于行为价值 & 基于行为概率策略梯度算法：计算状态下所有行为的概率演员 - 评论家算法：一半基于行为价值，一半基于行为概率DQN 算法（深度Q网络）Q-Learning&#x…...

编程日记 2023/10/9 9:55:08

iPhone升级iOS17出现无法连接互联网的错误提示怎么办？

最新的iOS 17系统已经发布了快一个月了，很多人都已升级体验更多全新功能，但有部分用户却在升级过程中遇到一些问题：如无法验证更新，iOS17验证失败，因为您不再连接到互联网、 iPhone无法检查更新等错误问题。明明网络稳…...

编程日记 2023/10/9 9:54:06

Spring:处理@Autowired和@Value注解的BeanPostProcessor

AutowiredAnnotationBeanPostProcessor,它实现了MergedBeanDefinitionPostProcessor,因此会调用postProcessMergedBeanDefinition方法。它实现了InstantiationAwareBeanPostProcessor,因此在属性注入时会调用postProcessPropertyValues方法如果Autowired注解按类型找到了大…...

编程日记 2023/10/9 9:53:05

极坐标系下的交换积分次序

极坐标系下的交换积分次序我把极坐标系下的交换积分次序总结为动静与静动之间的转换，下面通过一个例子感受一下 ρ 1 、 ρ 1 cos ⁡ θ \rho1、\rho1\cos\theta ρ1、ρ1cosθ ∫ 0 π / 2 d θ ∫ 1 1 cos ⁡ θ f ( ρ cos ⁡ θ , ρ sin ⁡ θ ) ρ d…...

编程日记 2023/10/9 9:52:04

MySQL命令行中文乱码问题

MySQL命令行中文乱码问题： 命令行界面默认字符集是gbk，若字符集不匹配会中文乱码或无法插入中文。解决办法：执行set names gbk; 验证： 执行命令show variables like ‘char%’;查看默认字符集。创建数据库设置字符集utf8&…...

编程日记 2023/10/9 9:51:03

图论---图的遍历

在图论中，图的遍历一般有两种，分别为DFS（深度优先遍历）、BFS（广度优先遍历），以下是这两种遍历方式的模板： DFS（深度优先搜索） 代码框架： void …...

编程日记 2023/10/9 9:50:00

AM@无穷小和无穷大

文章目录 abstract本文符号说明无穷小无穷小和自变量变化过程无穷小和函数极限的关系定理👺证明无穷大无穷大不是数极限无穷大的说法证明函数极限为无穷大无穷大和无穷小见的关系定理无穷小无穷大的运算法则 abstract 无穷小和无穷大的概念和相关性质本文符号说…...

编程日记 2023/10/9 9:48:59

玄子Share- IDEA 2023 SpringBoot 热部署

玄子Share- IDEA 2023 SpringBoot 热部署修改 IDEA 部署设置 IDEA 勾选如下选项新建 SpringBoot 项目项目构建慢的将 Spring Initializr 服务器 URL 改为阿里云：https://start.aliyun.com/ 在这里直接勾选Spring Boot Devtools插件即可测试切出 IDEA 项目文…...

编程日记 2023/10/9 9:47:58

kafka集群工作机制

一、kafka在zookeeper上的元数据解释 kafka中的broker要选举Controller角色来管理整个kafka集群中的分区和副本状态。一个Topic下多个partition要选举Leader角色和客户端进行交互数据 Zookeeper客户端工具： prettyZoo。下载地址：https://github.com/vr…...

编程日记 2023/10/9 9:46:57

JVM上篇之虚拟机与java虚拟机介绍

目录虚拟机 java虚拟机简介特点作用位置整体结构类装载子系统运行时数据区 java执行引擎 Java代码执行流程 jvm架构模型基于栈式架构基于寄存器架构总结 jvm的生命周期 1.启动 2.执行 3.退出 JVM的发展历程虚拟机所谓虚拟机，指的…...

编程日记 2023/10/9 9:45:56

在公众号上怎么创建微信付费课程功能呢

微信付费课程功能是一项比较受欢迎的在线教育服务，可以帮助教育机构或个人更好地管理和销售课程资源，提高知识分享和变现的效率。下面将介绍如何创建微信付费课程功能。一、了解微信付费课程功能在创建微信付费课程功能之前，需要先了解微信…...

编程日记 2023/10/9 9:44:54

HTML5使用html2canvas转化为图片，然后再转为base64.

介绍场景：今天同事提了个协助，将HTML5文件中的元素转为图片，并且最终转为base64格式传给后端。感觉还挺有意思就记录下。（试例如下） 步骤一：引入html2canvas 的js源码 html2canvas.min.js 下载地址 htt…...

编程日记 2023/10/9 9:43:53

【C++设计模式之原型模式:创建型】分析及示例

简介原型模式（Prototype Pattern）是一种创建型设计模式，它允许通过复制已有对象来生成新的对象，而无需再次使用构造函数。描述原型模式通过复制现有对象来创建新的对象，而无需显式地调用构造函数或暴露对象的创建…...

编程日记 2023/10/9 9:42:51

TDengine OSS 与 qStudio 实现无缝协同，革新数据分析和管理方式

在数字化转型如火如荼的当下，海量爆发的时序数据处理成为转型成功的关键因素之一。为了帮助社区用户更好地进行数据分析和管理，丰富可视化解决方案的多样性，我们将开源的时序数据库（Time Series Database） TDengine OS…...

编程日记 2023/10/9 9:40:49

css的gap设置元素之间的间隔

在felx布局中可以使用gap来设置元素之间的间隔； .box{width: 800px;height: auto;border: 1px solid green;display: flex;flex-wrap: wrap;gap: 100px; } .inner{width: 200px;height: 200px;background-color: skyblue; } <div class"box"><…...

编程日记 2023/10/9 9:39:47

Flask-[项目]-搭建短网址系统：flask实现短网址系统，短网址系统，构建短网址系统

一、项目下载地址 https://gitee.com/liuhaizhang/short-url-systemhttps://gitee.com/liuhaizhang/short-url-system 二、项目搭建 2.1、基本环境安装 1、安装好mysql数据库 2、安装好redis数据 3、安装好python解释器 2.2、项目依赖安装 1、切换到python解释器环境中 …...

编程日记 2023/10/9 9:37:45

【从0开始配置前后端项目】——Docker环境配置

1. 准备一台纯净的服务器镜像：CentOS 7.9 64位 CPU & 内存：2核2G 系统盘：60GB 峰值带宽：30Mbps 流量包：600GB / 600GB 2. 安装Docker 2.1 卸载旧的版本 $ sudo yum remove docker \docker-client \docker-cl…...

编程日记 2023/10/9 9:36:40

R语言一种功能强大的数据分析、统计建模可视化免费、开源且跨平台的编程语言

R语言是一种广泛应用于数据分析、统计建模和可视化的编程语言。它由新西兰奥克兰大学的罗斯伊哈卡和罗伯特杰特曼开发，并于1993年首次发布。R语言是一个免费、开源且跨平台的语言，它在统计学和数据科学领域得到了广泛的应用。 R语言具有丰富的数据处理、…...

编程日记 2023/10/9 9:35:39

springmvc-JSR303进行服务端校验分组验证SpringMVC定义Restfull接口异常处理流程RestController异常处理

目录& 1. JSR303 2. JSR303中含有的注解 3. spring中使用JSR303进行服务端校验 3.1 导入依赖包 3.2 添加验证规则 3.3 执行校验 4. 分组验证 4.1 定义分组验证规则 4.2 验证时通过参数指定验证规则 4.3 验证信息的显示 5. SpringMVC定义Restfull接口 5.1 增加s…...

编程日记 2023/10/9 9:33:36

证件照换底色详细教程

说到证件照的底色更改，我想对大部分朋友来说是蛮头疼的事情，由于我们不论是在生活还是学习中，有时候总会要上传一些证件照，而当你手上有证件照准备上传时，发现底色不对，是不是很抓狂，现在&#…...

编程日记 2023/10/9 9:32:35

IGP（Interior Gateway Protocol，内部网关协议）

IGP（Interior Gateway Protocol，内部网关协议） 是一种用于在一个自治系统（AS）内部传递路由信息的路由协议，主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...

编程新知 2025/10/12 11:54:26

HTML 列表、表格、表单

1 列表标签作用：布局内容排列整齐的区域列表分类：无序列表、有序列表、定义列表。例如： 1.1 无序列表标签：ul 嵌套 li，ul是无序列表，li是列表条目。注意事项： ul 标签里面只能包裹 li…...

编程新知 2026/1/24 22:33:33

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文？ 多租户隔离：自动为接入设备追加租户前缀，后端按 ClientID 拆分队列。零代码鉴权：将入站用户名替换为 OAuth Access-Token，后端 Broker 统一校验。灰度发布：根据 IP/地理位写…...

编程新知 2025/8/1 10:20:23

【项目实战】通过多模态+LangGraph实现PPT生成助手

PPT自动生成系统基于LangGraph的PPT自动生成系统，可以将Markdown文档自动转换为PPT演示文稿。功能特点 Markdown解析：自动解析Markdown文档结构PPT模板分析：分析PPT模板的布局和风格智能布局决策：匹配内容与合适的PPT布局自动…...

编程新知 2026/2/3 22:50:07

postgresql|数据库|只读用户的创建和删除（备忘）

CREATE USER read_only WITH PASSWORD 密码 -- 连接到xxx数据库 \c xxx -- 授予对xxx数据库的只读权限 GRANT CONNECT ON DATABASE xxx TO read_only; GRANT USAGE ON SCHEMA public TO read_only; GRANT SELECT ON ALL TABLES IN SCHEMA public TO read_only; GRANT EXECUTE O…...

编程新知 2025/9/18 19:34:22

Spring Boot面试题精选汇总

🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...

编程新知 2025/9/24 23:08:17

Java入门学习详细版（一）

大家好，Java 学习是一个系统学习的过程，核心原则就是“理论实践坚持”，并且需循序渐进，不可过于着急，本篇文章推出的这份详细入门学习资料将带大家从零基础开始，逐步掌握 Java 的核心概念和编程技能。 …...

编程新知 2025/12/14 14:47:02

汇编常见指令

汇编常见指令一、数据传送指令指令功能示例说明MOV数据传送MOV EAX, 10将立即数 10 送入 EAXMOV [EBX], EAX将 EAX 值存入 EBX 指向的内存LEA加载有效地址LEA EAX, [EBX4]将 EBX4 的地址存入 EAX（不访问内存）XCHG交换数据XCHG EAX, EBX交换 EAX 和 EB…...

编程新知 2026/1/23 2:04:44

LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf

FTP 客服管理系统实现kefu123登录，不允许匿名访问，kefu只能访问/data/kefu目录，不能查看其他目录创建账号密码 useradd kefu echo 123|passwd -stdin kefu [rootcode caozx26420]# echo 123|passwd --stdin kefu 更改用户 kefu 的密码…...

编程新知 2026/1/25 9:03:19

【SSH疑难排查】轻松解决新版OpenSSH连接旧服务器的“no matching...“系列算法协商失败问题

【SSH疑难排查】轻松解决新版OpenSSH连接旧服务器的"no matching..."系列算法协商失败问题摘要： 近期，在使用较新版本的OpenSSH客户端连接老旧SSH服务器时，会遇到 "no matching key exchange method found", "n…...

编程新知 2025/9/29 4:00:38

深度强化学习之 PPO 算法

强化学习原理

学习策略 = 基于行为价值 & 基于行为概率

策略梯度算法：计算状态下所有行为的概率

演员 - 评论家算法：一半基于行为价值，一半基于行为概率

DQN 算法（深度Q网络）

Q-Learning（Q 值）

PPO 算法 = DQN算法 + 演员-评论家算法 + 策略梯度算法

相关文章：