当前位置：首页 > news >正文

【ChatGPT 默认强化学习策略】PPO 近端策略优化算法

news 2026/5/12 5:13:29

PPO 近端策略优化算法

PPO = 概率比率裁剪 + 演员-评论家算法
演员-评论家算法：多智能体强化学习核心框架
概率比率裁剪：逐步进行变化的方法
PPO 目标函数的设计
重要性采样
KL散度

PPO = 概率比率裁剪 + 演员-评论家算法

论文链接：https://arxiv.org/abs/1707.06347

OpenAI 提出 PPO 旨在解决一些在策略梯度方法中常见的问题，特别是与训练稳定性和样本效率有关的问题。

能在提高学习效率和保持训练稳定性之间找到平衡。

策略梯度方法的问题：

策略更新过快：
在传统的策略梯度方法中，如果每次更新都大幅度改变策略，可能会导致学习过程变得非常不稳定。
这种大幅更新可能会使得智能体忘记之前有效的策略，或者探索到低效的行为区域。
数据利用率低：
许多强化学习算法，特别是那些基于样本的算法，需要大量的数据才能学到有效的策略。
PPO试图通过更有效地使用数据来缓解这个问题，使得从每个数据样本中学到更多信息。
训练周期长：
由于数据利用率低，传统的强化学习算法通常需要很长的训练周期才能收敛到一个好的策略。
PPO通过改进学习算法来减少所需的训练时间。

PPO算法在演员-评论家的框架基础上，使用了 概率比率裁剪 技巧来控制策略更新的幅度，以确保训练的稳定性和性能。

演员-评论家算法：多智能体强化学习核心框架

请猛击：演员-评论家算法：多智能体强化学习核心框架

概率比率裁剪：逐步进行变化的方法

想象你有两个不同的蛋糕配方，这个比率就像是告诉你，使用新配方做蛋糕的可能性与旧配方相比有多大的变化。

如果我们的新策略和旧策略差别太大，那就像是突然完全改变蛋糕的配方，可能会做出一个很不一样的蛋糕，我们不确定它会好吃，还是不好吃。

所以，PPO通过计算概率比率来确保新策略不会偏离旧策略太远。

在每次策略更新时，它计算新策略和旧策略之间的比率，并通过限制这个比率的大小来裁剪更新幅度，以防止过大的改变。

解决如何安全地逐步进行变化，控制变化的方法。

具体请见目标函数的设计。

PPO 目标函数的设计

在测试中，PPO 基本在每个任务都是第一梯队。

那我们说一下 PPO 到底做了什么，居然比 A2C （另一种演员-评论家的改进算法）还要好。

近端，主要体现在其目标函数的设计上。

在PPO（近端策略优化）算法中，结合使用重要性采样和KL散度实现了主要的目标。

重要性采样：

探索与利用的平衡：重要性采样帮助算法判断新策略（新动作）与旧策略（旧动作）相比的效果。如果新策略比旧的好，算法会更倾向于采用新策略（这是“利用”）。但同时，算法也会尝试一些不同的策略（这是“探索”），以找到可能更好的解决方案。
渐进式更新：通过重要性采样，PPO能够逐渐、小心地改进策略，而不是一次性做出巨大的改变。这样的逐步改进有助于算法稳定地学习和适应新策略。

KL散度：

防止过度探索：KL散度用于确保新策略不会偏离旧策略太远。这个约束防止了算法在探索新策略时过度激进，从而避免了可能导致性能下降的大幅度策略变动。
维持学习的稳定性：通过限制新旧策略之间的差异，KL散度有助于保持学习过程的稳定性。这种稳定性对于复杂的学习任务特别重要，因为它减少了学习过程中的不确定性和波动。

重要性采样

你正在玩一个跳舞游戏。

在这个游戏里，你有一系列的舞蹈动作可以选择。

刚开始时，你只会一些基础的动作（这是你的“旧策略”）。

现在，你学会了一些新的、酷炫的舞蹈动作（这是你的“新策略”）。

在这个游戏里，你想要知道这些新动作是否真的比旧的好。

但是，你不能一次就完全改变你的舞蹈风格，因为这样你可能会跳得很差。

所以，你需要一种方法来慢慢地、安全地加入新动作。

使用重要性采样，你可以基于旧动作的经验来估计新动作的效果。

比如，如果新动作只是在旧动作的基础上做了一些小改动（比如多举了一下手），你可以推测这个新动作会有类似的效果。

通过比较，你可以决定哪些新动作真的相似，值得加入到你的舞蹈里，同时确保你的整体舞蹈还是很流畅。

不仅链接了新旧动作，还是渐进式更新。

在这个过程中，你不需要每次都完全重新学习动作。

相反，你只是在旧动作的基础上做一些小的调整。

这样，你可以逐渐地、稳步地改进你的动作，而不是一下子完全改变。

KL散度

你的舞蹈老师给了你一个规则：虽然可以尝试新动作，但是不能让你的舞蹈风格变化太大，否则会失去控制，可能跳得一团糟。

KL散度就像是舞蹈老师的一条规则，它告诉你新舞蹈和旧舞蹈之间的差别。

如果差别太大，就意味着你可能偏离了舞蹈的基本风格太远，需要调整一下。

这样，你就可以在尝试新动作的同时，保持你的舞蹈整体风格和质量。

仅仅使用重要性采样可能会导致策略变化过大，特别是在新策略与旧策略差异显著时。

KL散度提供了一种衡量策略之间差异的方法。

通过限制新旧策略之间的KL散度，PPO能够保证学习过程的连续性和平滑性，减少策略更新的剧烈波动。

数学公式：

$\begin{aligned} J_{\mathrm{PPO}}^{\theta^{\prime}}(\theta)& =J^{\theta^{\prime}}(\theta)-\underbrace{\beta\mathrm{KL}(\theta,\theta^{\prime})}_{\text{Regularization}} \\ &=\mathbb{E}_{(s_t,a_t)\sim\pi_{\theta^{\prime}}}\left[\frac{p_\theta\left(a_t\mid s_t\right)}{p_{\theta^{\prime}}\left(a_t\mid s_t\right)}A^{\theta^{\prime}}\left(s_t,a_t\right)\right]-\beta\mathrm{KL}(\theta,\theta^{\prime}) \end{aligned}$

这个公式是近端策略优化（PPO）算法中的一个重要部分，它包含了重要性采样和KL散度。

重要性采样：
- 公式的这部分： $\frac{p_\theta(a_t | s_t)}{p_{\theta'}(a_t | s_t)}$ ，表示的是重要性采样比率。
- 这里， $p_{\theta'}(a_t | s_t)$ 是旧策略（即上一次更新前的策略）在状态(s_t)下选择动作(a_t)的概率。
- $p_\theta(a_t | s_t)$ 是新策略（即当前更新的策略）在相同状态下选择同一动作的概率。
- 通过这个比率，我们可以量化新旧策略之间在选择特定动作上的差异。
优势函数 $A^{\theta'}(s_t, a_t)$ ：
- 公式中的 $A^{\theta'}(s_t, a_t)$ 是优势函数，它评估在特定状态下采取某个动作相对于平均情况的好坏。
- 优势函数用于量化一个特定动作比平均情况要好或坏多少。
期望值 $\mathbb{E}$ ：
- $\mathbb{E}_{(s_t,a_t)\sim\pi_{\theta'}}[…]$ 表示对于由旧策略 $\pi_{\theta'}$ 生成的状态和动作的期望值。
- 这意味着我们在计算这个公式时，考虑的是在旧策略下可能发生的所有状态和动作组合。
KL散度：
- 公式中的 $\mathrm{KL}(\theta, \theta')$ 代表KL散度，它是一种衡量两个概率分布差异的方法。
- 在这里，它用来衡量新策略和旧策略之间的差异。
- $\beta$ 是一个调节参数，它控制了我们对策略变化的惩罚强度。KL散度越大，意味着新旧策略差异越大。
整体公式：
- 整个公式的第一部分， $\mathbb{E}_{(s_t,a_t)\sim\pi_{\theta'}}[…]$ ，计算的是在旧策略下，采用新策略能带来多少优势。
- 第二部分， $-\beta\mathrm{KL}(\theta, \theta')$ ，则是在控制新策略不要偏离旧策略太远的约束。

所以，这个公式基本上是在做两件事：

一方面，它试图找到一个新策略，使得在旧策略下的表现更好；
另一方面，它确保新策略不会与旧策略差异太大，从而保持学习的稳定性。

【ChatGPT 默认强化学习策略】PPO 近端策略优化算法

PPO 近端策略优化算法 PPO 概率比率裁剪演员-评论家算法演员-评论家算法：多智能体强化学习核心框架概率比率裁剪：逐步进行变化的方法PPO 目标函数的设计重要性采样KL散度 PPO 概率比率裁剪演员-评论家算法论文链接：https://arxiv.org…...

编程日记 2023/12/29 6:50:55

【银行测试】金融银行-理财项目面试/分析总结（二）

目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜） 前言银行理财相关的项…...

编程日记 2023/12/29 6:42:49

张江智荟毁约offer

毕业8年后，找工作被国企歧视学历！已经收到了offer，在入职前一周被通知要撤回offer，拒绝录用，理由居然是他们只要本科211以上的人这是我今天（2023-12-26）亲身经历的事，听说过面试前…...

编程日记 2023/12/29 6:41:48

ubuntu 系统终端颜色设置

1 开启终端颜色 # 第一步： 在 ~/.bashrc 中设置 force_color_promptyes# 第二步： 执行 source ~/.bashrc2 对于精减的 .bashrc 在 ~/.bashrc 中添加以下内容，再执行 source ~/.bashrc ： # uncomment for a colored prompt, if…...

编程日记 2023/12/29 6:38:46

【Vue】class与style绑定

✨ 专栏介绍在当今Web开发领域中，构建交互性强、可复用且易于维护的用户界面是至关重要的。而Vue.js作为一款现代化且流行的JavaScript框架，正是为了满足这些需求而诞生。它采用了MVVM架构模式，并通过数据驱动和组件化的方式，使…...

编程日记 2023/12/29 6:36:45

大厂前端面试题总结（百度、字节跳动、腾讯、小米.....），附上热乎面试经验！

先简单介绍下自己，我“平平无奇小天才”一枚，毕业于南方普通985普通学生，有幸去百度、字节面试，感觉大公司就是不一样，印象最深的是字节，所以有必要总结一下面试经验，以及面试中遇到的一些问题&…...

编程日记 2023/12/29 6:32:42

EXPLORING DIFFUSION MODELS FOR UNSUPERVISED VIDEO ANOMALY DETECTION 论文阅读

EXPLORING DIFFUSION MODELS FOR UNSUPERVISED VIDEO ANOMALY DETECTION 论文阅读 ABSTRACT1. INTRODUCTION2. RELATEDWORK3. METHOD4. EXPERIMENTAL ANALYSIS AND RESULTS4.1. Comparisons with State-Of-The-Art (SOTA)4.2. Diffusion Model Analysis4.3. Qualitative Result…...

编程日记 2023/12/29 6:29:40

当 ML 遇到 DevOps：如何理解 MLOps

近年来，人工智能 （AI） 和机器学习 （ML） 已经席卷全球，几乎成为任何行业的重要组成部分，从零售和娱乐到医疗保健和银行业。这些技术能够通过分析大量数据实现运营自动化、降低成本和促进决策&…...

编程日记 2023/12/29 6:28:39

vue+element+springboot实现多张图片上传

1.需求说明 2.实现思路 3.el-upload组件主要属性说明 4.前端传递MultipartFile数组与服务端接收说明 5.完整代码 1.需求说明动态模块新增添加动态功能,支持多张图片上传.实现过程中对el-upload组件不是很熟悉,踩了很多坑,当然也参考过别的文章,发现处理很…...

编程日记 2023/12/29 6:27:38

react使用useState更新数组失败

失败案例： const [addBox, setAddBox] useState([])const itemAdd (item) >{addBox.push(item);setAddBox(addBox)console.log(addBox,点击添加按钮)} 原因：react的useState hook监听的是浅监听在 React 中，使用 useState Hook 来更新…...

编程日记 2023/12/29 6:26:38

《LIO-SAM阅读笔记》3.后端优化

前言： LIO-SAM后端优化部分写在了mapOptimization.cpp文件中，本部分主要进行了激光帧的scan-to-map匹配，回环检测以及关键帧的因子图优化。本部分主要有两个环节同步进行，一个单独开辟了回环检测线程，另外一个是lidar…...

编程日记 2023/12/29 6:24:36

mac下jd-gui提示没有找到合适的jdk版本

mac下jd-gui提示jdk有问题背景解决看一下是不是真有问题了方法一：修改启动脚本方法二：设置launchd环境变量扩展动态切jdk脚本(.bash_profile) 背景配置了动态jdk后，再次使用JD-GUI提示没有找到合适的jdk版本。解决看一下是不是真有问题…...

编程日记 2023/12/29 6:22:32

FlinkSQL窗口实例分析

Windowing TVFs Windowing table-valued functions (Windowing TVFs)，即窗口表值函数注意：窗口函数不可以单独使用，需要聚合函数，按照 window_start、window_end 分区，即存在：group by window_start,wind…...

编程日记 2023/12/29 6:20:31

18-网络安全框架及模型-信息系统安全保障模型

信息系统安全保障模型 1 基本概念信息系统安全保障是针对信息系统在运行环境中所面临的各种风险，制定信息系统安全保障策略，设计并实现信息系统安全保障架构或模型，采取工程、技术、管理等安全保障要素，将风险减少至预定可接受的…...

编程日记 2023/12/29 6:19:30

Android 提取(备份)apk(安装包)

Android 提取(备份)apk(安装包) 一、通过安卓代码的方式主要分三步： 根据应用找到包名根据包名获得apk提取apk 提取apk代码 private static final String BACKUP_PATH "/sdcard/backup1/"; private static final String APK ".apk";pri…...

编程日记 2023/12/29 6:18:29

gRPC-Go基础（4）metadata和超时设置

文章目录 0. 简介1. metadata1.1 metadata结构1.2 metadata创建1.3 客户端处理metadata1.4 服务端处理metadata1.5 metadata的传输 2. 超时设置2.1 客户端输出超时信息2.2 服务端端接收超时信息 3. 小结 0. 简介 Go在多个go routine之间传递数据使用的是Go SDK提供的context包…...

编程日记 2023/12/29 6:16:27

语言模型：从n-gram到神经网络的演进

目录 1 前言2 语言模型的两个任务2.1 自然语言理解2.2 自然语言生成 3 n-gram模型4 神经网络语言模型5 结语 1 前言语言模型是自然语言处理领域中的关键技术之一，它致力于理解和生成人类语言。从最初的n-gram模型到如今基于神经网络的深度学习模型，语言…...

编程日记 2023/12/29 6:15:26

docker compose 部署 grafana + loki + vector 监控kafka消息

Centos7 随笔记录记录 docker compose 统一管理 granfana loki vector 监控kafka 信息。当然如果仅仅是想通过 Grafana 监控kafka，推荐使用 Grafana Prometheus 通过JMX监控kafka 目录 1. 目录结构 2. 前提已安装Docker-Compose 3. docker-compose 自定义服…...

编程日记 2023/12/29 6:14:25

kubeadm创建k8s集群

kubeadm来快速的搭建一个k8s集群： 二进制搭建适合大集群，50台以上。 kubeadm更适合中下企业的业务集群。部署框架 master192.168.10.10dockerkubelet kubeadm kubectl flannelnode1192.168.10.20dockerkubelet kubeadm kubectl flannelnode2192.168.1…...

编程日记 2023/12/29 6:13:25

鸿蒙开发之android对比开发《基础知识》

基于华为鸿蒙未来可能不再兼容android应用，推出鸿蒙开发系列文档，帮助android开发人员快速上手鸿蒙应用开发。 1. 鸿蒙使用什么基础语言开发？ ArkTS是鸿蒙生态的应用开发语言。它在保持TypeScript（简称TS）基本语法风…...

编程日记 2023/12/29 6:11:20

别再硬改CSS了！ElementUI el-table透明背景的3种正确姿势（含Vue2/Vue3避坑指南）

别再硬改CSS了！ElementUI el-table透明背景的3种正确姿势（含Vue2/Vue3避坑指南） 在深色主题或背景融合的现代Web应用中，ElementUI的el-table组件默认的白色背景常常成为视觉设计的绊脚石。许多开发者第一反应是直接修改CSS文件&am…...

编程新知 2026/5/12 2:45:18

基于大语言模型的网页自动化智能体：Elsa OpenClaw 实战指南

1. 项目概述与核心价值最近在折腾一些自动化流程，发现很多重复性的网页操作，比如数据抓取、表单填写、状态监控，手动来做不仅耗时，还容易出错。于是我开始寻找一个能真正理解网页结构、像人一样操作浏览器的工具。市面上有不少自…...

编程新知 2026/5/12 2:21:51

深入STM32F429 LTDC双图层与DMA2D：打造流畅UI界面的性能优化指南

STM32F429 LTDC与DMA2D深度优化：构建60FPS工业级UI的实战指南在工业HMI和医疗设备等对显示性能要求严苛的场景中，流畅的UI动画和实时数据可视化往往成为系统瓶颈。STM32F429的LTDC控制器配合DMA2D加速器，通过合理的架构设计可实现媲美专业GP…...

编程新知 2026/5/11 23:13:23

手把手教你用RecFusion和3D Scan：Kinect v2与RealSense D435三维重建完整流程与软件配置

手把手教你用RecFusion和3D Scan：Kinect v2与RealSense D435三维重建完整流程与软件配置刚拿到Kinect v2或RealSense D435时，许多开发者最迫切的需求不是理解原理，而是快速完成第一次三维扫描。本文将用最简明的操作流，带你在30分…...

编程新知 2026/5/11 22:01:11

Spring Boot + JWT 实现无状态认证

1. JWT JWT（JSON Web Token）是一种开放标准（RFC 7519），用于在网络应用环境间安全地将信息作为 JSON 对象传输。JWT 是目前最流行的跨域认证解决方案，特别适合前后端分离的架构。 1.1 JWT 的结构 JWT 由三…...

编程新知 2026/5/11 21:52:20

从MATLAB验证到RTL实现：一个完整华莱士树乘法器的设计、仿真与调试实战

从MATLAB验证到RTL实现：一个完整华莱士树乘法器的设计、仿真与调试实战在数字信号处理、图形渲染和密码学等高性能计算领域，乘法器的效率往往成为系统瓶颈。传统阵列乘法器虽然结构规整，但随着位宽增加，其线性增长的延迟特性难以…...

编程新知 2026/5/11 20:00:19

从量子自旋到量子比特：原理、应用与工程实践全解析

1. 从“旋转的电子”到“内禀角动量”：自旋概念的祛魅如果你在大学里上过量子力学课，大概率在某个时刻被“自旋”这个概念迎面撞上。我记得当时教授在黑板上写下“电子自旋为1/2”，然后试图用一个小球绕自身轴旋转的经典图像来解释&#xff0…...

编程新知 2026/5/11 14:39:59

如何用5分钟彻底解决Mac菜单栏混乱？Ice菜单栏管理工具终极指南

如何用5分钟彻底解决Mac菜单栏混乱？Ice菜单栏管理工具终极指南【免费下载链接】Ice Powerful menu bar manager for macOS 项目地址: https://gitcode.com/GitHub_Trending/ice/Ice 你是否曾盯着Mac屏幕顶部那密密麻麻的图标海洋感到无力？Wi-Fi图…...

编程新知 2026/5/11 14:29:32

FanControl完整指南：免费开源的风扇控制软件让Windows散热管理如此简单

FanControl完整指南：免费开源的风扇控制软件让Windows散热管理如此简单【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/Gi…...

编程新知 2026/5/11 14:16:56

2026春招爆款！年薪40-200万！小白也能入行的智能体开发，收藏这篇超全学习指南！

本文详细介绍了智能体（Agent）的概念、核心能力及工作流程，分析了为何智能体开发成为2026年春招热门岗位，薪资可达40-200万。文章强调其转型门槛低、学习周期短，适合小白入行。同时，提供了智能体开发的核心技…...

编程新知 2026/5/11 13:33:59

PPO 近端策略优化算法