当前位置: 首页 > article >正文

深度强化学习基础 0:通用学习方法

过去自己学习深度强化学习的痛点:

  • 只能看到各种术语、数学公式勉强看懂,没有建立清晰且准确关联

  • 多变量交互关系浮于表面,有时候连环境、代理控制的变量都混淆

  • 模型种类繁多,概念繁杂难整合、对比或复用,无框架分析所有模型

  • 代码实现步骤未清晰划分:环境->定义奖励->创建代理->训练->部署

最根本的原因在于,我们需要一个既能全面表达复杂环境与交互结构,又能统一处理不确定性和动态决策的数学与计算(所有强化学习)框架

概率图模型的“图结构”天然适合分解复杂依赖:

  • 可以把一系列随机变量之间的依赖关系用图的结构直观地呈现出来。

  • 不管是MDP、HMM(隐马尔可夫模型)还是更复杂的POMDP和Bayesian网络,都可以视作是对一系列随机变量之间依赖关系的“图”式表达。

  • 概率图模型以直观的图形方式展示变量之间的因果或条件依赖关系,利于后续的解释或扩展。

强化学习本质:一个序列决策过程,状态 (St)、动作 (At) 以及奖励 (Rt) 随时间演化且相互影响

  • 图模型优势:通过节点和有向边,清晰地展现“谁依赖于谁”,帮助我们明确:

    • 当前时刻状态与动作是如何影响下一个时刻状态与奖励的?

    • 代理(Agent)与环境(Environment)分别控制或决定哪些随机变量?

    • 哪些假设(如马尔可夫性、完全可观测或部分可观测等)在图中如何体现?

概率图模型在统计推断(如Bayesian推断、最大似然估计)方面有完善的理论和工具,因此能与RL中的探索—利用(exploration-exploitation)过程自然结合。

当我们能用一个动态贝叶斯网络或马尔可夫随机场来可视化时,序列之间的关系就变得更加透明。

对于多变量混杂可二分梳理,强化学习中的主体包括“环境”和“代理”。

  • 环境负责提供状态和奖励

  • 代理在环境中采取行动以实现累积收益最大化。

所有强化学习的“通用蓝图”:

没有限定状态空间、动作空间、奖励形式、策略结构、环境类型(确定性/随机性/部分可观测...)。

只展示了宏观的交互关系,而任何“特例”都可以往里套。

环境根据动作(at)和当前状态(st)给出下一时刻状态(st+1)及相应的奖励(rt),然后智能体再继续与环境交互……

  • 状态(st)

    • 抽象了环境在时刻 t 的完整信息;如果不可完全观测,就用观测(ot)或者在 POMDP 框架里再对隐藏状态建模。

    • 不同算法的差别,大多体现在怎样定义或估计这个状态,以及是否需要显式建模环境动力学。

  • 动作(at)

    • 智能体在时刻 t 作出的决策,这个决策可来自直接表格型策略神经网络近似;既可以是离散的也可以是连续的。

    • 但无论用什么表示方法,始终绕不开“在状态下做动作”的这个核心过程。

  • 奖励(rt)

    • 环境对当前状态、动作的一次性反馈,用来指导智能体学习;兼容各种奖励设计(稀疏奖励、密集奖励、多维奖励等)。

    • 强化学习最核心的目标即是最大化“回报”,即从奖励推导的累计收益,这也体现了动态规划的思想。

  • 策略(π(at∣st))

    • 表示智能体在状态 st 下选择动作 at 的概率分布(或确定性函数),正是因为有这个策略才构成了完整的“闭环”。

    • 所有算法都需要“如何表示策略、如何更新/优化策略、如何评价策略的好坏”。

  • 状态转移和观测模型

    • 用概率分布 P(st+1∣st, at) 来刻画环境动力学和不确定性;若有部分可观测,则还要有 P(ot∣st)。

    • 任何随机性、噪声、对未来的不确定,都能融入到这条“状态演化”的概率分布里,并且与奖励、动作紧密结合。

相关文章:

深度强化学习基础 0:通用学习方法

过去自己学习深度强化学习的痛点: 只能看到各种术语、数学公式勉强看懂,没有建立清晰且准确关联 多变量交互关系浮于表面,有时候连环境、代理控制的变量都混淆 模型种类繁多,概念繁杂难整合、对比或复用,无框架分析所…...

Traefik应用:配置容器多个网络时无法访问问题

Traefik应用:配置容器多个网络时无法访问问题 介绍解决方法问题原因: **容器多网络归属导致 Traefik 无法正确发现路由规则**。解决方案方法 1:将应用容器 **仅连接** 到 traefik-public 网络方法 2:显式指定 Traefik 监听的网络 …...

虚幻5的C++调试踩坑

本地调试VS附加调试 踩坑1 预编译版本的UE5没有符号文件,无法调试源码 官方代码调试所需要的符号文件bdp需要下载导入。我安装的5.5.4是预编译版本,并非ue5源码。所以不含bdp文件。需要调试官方代码则需要通过EPIC中下载安装。右键UE版本,打…...

react 中将生成二维码保存到相册

需求:生成二维码,能保存到相册 框架用的 react 所以直接 qrcode.react 插件,然后直接用插件生成二维码,这里一定要写 renderAs{‘svg’} 属性,否则会报错,这里为什么会报错??&#…...

通信协议详解(十):PSI5 —— 汽车安全传感器的“抗干扰狙击手”

一、PSI5是什么? 一句话秒懂 PSI5就像传感器界的“防弹信使”:在汽车安全系统(如气囊)中,用两根线同时完成供电数据传输,即便车祸时线路受损,仍能确保关键信号准确送达! 基础概念…...

C语言【模仿strcpy】

题目 模仿strcpy 思路&#xff08;注意事项&#xff09; 注意需要在复制的字符串结尾加\0表示字符串的终止 纯代码 #include<stdio.h>void cpy(const char *a, char *b){int i 0;while (a[i] ! \0){b[i] a[i];i ;}b[i] \0; } int main(){char a[] "HELLO&quo…...

从零开始学Python游戏编程18-函数3

《从零开始学Python游戏编程17-函数2》中&#xff0c;通过代码重构的方式将游戏的主要代码写入到自定义函数runGame()中。对于runGame()中的代码&#xff0c;可以继续对其进行重构&#xff0c;以达到简化代码结构的目的。 1 自定义函数askPlayer() 1.1 函数作用 自定义函数a…...

Spring事务传播机制

Spring 事务传播机制定义了在多个事务方法相互调用时&#xff0c;事务如何在这些方法间传播。它决定了一个事务方法调用另一个事务方法时&#xff0c;新的事务是如何开启、是否要加入已有的事务等情况。Spring 提供了 7 种事务传播行为&#xff0c;下面是详细介绍。 解释说明&…...

不同PHP框架之间的兼容性问题及应对策略!

在PHP开发领域&#xff0c;Laravel、Symfony、Yii、ThinkPHP、亿坊PHP等框架因其高效性和便捷性广受开发者青睐。但当项目需要跨框架协作或迁移时&#xff0c;兼容性问题直击要害。本文将从实际案例出发&#xff0c;剖析不同PHP框架间常见的兼容性痛点&#xff0c;并为大家提供…...

Qt 子项目依赖管理:从原理到实践的最佳分析:depends还是 CONFIG += ordered

1. 问题背景 在Qt项目开发中&#xff0c;当一个工程包含多个子项目&#xff08;如库、插件、测试模块&#xff09;时&#xff0c;如何正确管理它们的构建顺序和依赖关系&#xff1f; 如&#xff1a; 在开发一个包含核心库&#xff08;core&#xff09;、GUI模块&#xff08;g…...

大数据专业学习路线

大数据专业学习路线 目录 基础知识核心技术进阶技能实战项目职业发展学习资源学习计划常见问题 1. 基础知识 1.1 编程语言 Python&#xff1a;大数据分析的基础语言 基础语法和数据类型函数和模块面向对象编程文件操作和异常处理常用库&#xff1a;NumPy, Pandas, Matplot…...

点云从入门到精通技术详解100篇-基于点云的三维多目标追踪与目标检测

目录 知识储备 基于Python和Open3D库实现的三维点云多目标检测与跟踪 技术要点解析 : 运行环境配置: 扩展改进建议 : 前言 三维多目标追踪技术 点云目标检测算法 2 二维多目标追踪框架及三维点云目标检测 2.1 二维多目标追踪框架 2.1.1 Deep SORT总体架构 2.1…...

dubbo配置中心

配置中心 简介 配置中心&#xff08;config-center&#xff09;在dubbo中可承担两类职责&#xff1a; 外部化配置&#xff1a;启动配置的集中式存储。流量治理规则存储。 Dubbo动态配置中心定义了两个不同层次的隔离选项&#xff0c;分别是namespace和group。 namespace&a…...

Java常用工具算法-5--哈希算法、加密算法、签名算法关系梳理

1、哈希算法 数学本质&#xff1a;将任意长度输入&#xff08;明文&#xff09;映射为固定长度输出&#xff08;哈希值&#xff0c;也称摘要&#xff09;。主要特点&#xff1a; 不可逆性&#xff1a;无法通过哈希值反推原始输入。雪崩效应&#xff1a;输入的微小变化导致哈希…...

python之安装PaddlePaddle和PaddleX解析pdf表格

目录标题 飞桨PaddlePaddle本地安装教程1-1. 基于 Docker 安装飞桨1-2. 基于 pip 安装飞桨2. 我两个环境 都选择的是pip 安装10. 如果报错10. 离线安装 飞桨PaddlePaddle本地安装教程 源码下载&#xff1a;https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-beta1/do…...

【11408学习记录】英语语法核心突破:揭秘表语从句结构与通知写作实战技巧

表语从句与通知写作 英语语法总结——主从复合句表语从句语句结构系动词表语从句的位置 写作通知写作第二段第三段落款 每日一句词汇第一步&#xff1a;找谓语第二步&#xff1a;断句第三步&#xff1a;简化第一句第二句第三句第四句第五句 英语 语法总结——主从复合句 表语…...

React Native 0.79发布 - 更快的工具及更多改进

React Native 0.79版本发布了。 此版本在多个方面进行了性能改进&#xff0c;并修复了一些漏洞。首先&#xff0c;得益于延迟哈希技术&#xff0c;Metro的启动速度变快了&#xff0c;并且对包导出提供了稳定支持。由于JS包压缩方式的改变等原因&#xff0c;Android的启动时间也…...

封装红黑树实现map和set

前言&#xff1a; 之前我们学习了set与map容器的如何使用&#xff0c;红黑树的实现。接下来我们来看看如何通过封装红黑树&#xff0c;实现我们自己的set与map 相关文章&#xff1a;oi&#xff01;让我来给你唠唠咋实现红黑树☝️-CSDN博客 超详细介绍map&…...

解码AI大脑:Claude的思维显微镜与语言炼金术

&#xff08;前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站&#xff09;。 一、多语言思维实验&#xff1a;Claude的“概念空间”如何运转&#xff1f; 跨语言谜题&#xff1a;反义词的…...

中科岩创基坑自动化监测解决方案

1.行业现状 城市基坑开挖具有施工风险高、施工难度大等特点。由于地下土体性质、荷载条件、施工环境的复杂性&#xff0c;单根据地质勘察资料和室内土工试验参数来确定设计和施工方案&#xff0c;往往含有许多不确定因素&#xff0c;对在施工过程中引发的土体性状、环境、邻近建…...

机器学习01-支持向量机(SVM)(未完)

参考浙大 胡浩基老师 的课以及以下链接&#xff1a; https://blog.csdn.net/m0_74100344/article/details/139560508 https://blog.csdn.net/2301_78630677/article/details/132657023 https://blog.csdn.net/lsb2002/article/details/131338700 一、一些定义 T是倒置&…...

CUDA编译器nvcc

nvcc&#xff08;NVIDIA CUDA Compiler&#xff09;是 NVIDIA 提供的 CUDA 编译器&#xff0c;用于编译 .cu 文件&#xff08;CUDA C/C 代码&#xff09;。它支持多种参数来控制编译过程&#xff0c;包括 GPU 架构优化、CUDA 库链接、调试选项等。以下是 nvcc 常用参数分类详解…...

Elasticsearch 系列专题 - 第一篇:Elasticsearch 入门

Elasticsearch 是一个功能强大的开源分布式搜索和分析引擎,广泛应用于日志分析、实时搜索、数据可视化等领域。本篇将带你了解 Elasticsearch 的基本概念、安装方法以及简单操作,帮助你快速上手。 1. 什么是 Elasticsearch? 1.1 Elasticsearch 的定义与核心概念 Elasticse…...

leetcode_数组 189. 轮转数组

189. 轮转数组 给定一个整数数组 nums&#xff0c;将数组中的元素向右轮转 k 个位置&#xff0c;其中 k 是非负数 示例 1: 输入: nums [1,2,3,4,5,6,7], k 3输出: [5,6,7,1,2,3,4] 示例 2: 输入&#xff1a;nums [-1,-100,3,99], k 2输出&#xff1a;[3,99,-1,-100] 思…...

Python基础全解析:从输入输出到字符编码的深度探索

一、Python程序交互的基石&#xff1a;Print函数详解 1.1 基础输出功能 # 输出数字 print(20.5) # 输出浮点数&#xff1a;20.5 print(0b0010) # 输出二进制数&#xff1a;10# 输出字符串 print(Hello World!) # 经典输出示例# 表达式计算 print(4 4 * (2-1)…...

[ctfshow web入门] web32

前置知识 协议相关博客&#xff1a;https://blog.csdn.net/m0_73353130/article/details/136212770 include&#xff1a;include "filename"这是最常用的方法&#xff0c;除此之外还可以 include url&#xff0c;被包含的文件会被当做代码执行。 data://&#xff1a…...

指针数组 vs 数组指针

一、指针数组&#xff1a;「数组装指针」—— 每个元素都是指针 &#x1f50d; 核心定义 语法&#xff1a;类型* 数组名[长度]; &#xff08;[]优先级高于*&#xff0c;先形成数组&#xff0c;元素是指针&#xff09;本质&#xff1a;一个 数组&#xff0c;数组的每个元素是 …...

鸿蒙开发中的并发与多线程

文章目录 前言异步并发 (Promise和async/await)多线程并发并发能力选择耗时任务并发执行场景常见业务场景 常驻任务并发执行场景常见业务场景 传统共享内存并发业务长时任务并发执行场景常见业务场景 并发任务管理线程间通信同语言线程间通信&#xff08;ArkTS内&#xff09;线…...

TCP和UDP的区别是什么?

1. 基本特性: TCP&#xff1a; 面向连接&#xff1a;在数据传输开始前&#xff0c;TCP需要在通信双方建立连接&#xff08;三次握手&#xff09;。可靠性&#xff1a;TCP保证数据的可靠传输&#xff0c;通过确认应答、重传机制、数据包顺序等确保数据无误到达。流量控制和拥塞…...

MySQL 函数(入门版)

目录 一、字符串函数 1、常用的字符串函数 2、函数演示 3、具体案例 二、数值函数 1、常用的数值函数 2、函数演示 3、具体案例 三、日期函数 1、常用的日期函数 2、函数演示 3、具体案例 四、流程函数 1、常用的流程函数 2、函数演示 3、具体案例 在MySQL中&a…...