当前位置：首页 > news >正文

第五篇：强化学习基础之马尔科夫决策过程

news 2026/2/9 10:47:35

你好，我是zhenguo(郭震)

今天总结强化学习第五篇：马尔科夫决策过程

基础

马尔科夫决策过程（MDP）是强化学习的基础之一。下面统一称为：MDP

MDP提供了描述序贯决策问题的数学框架。

它将决策问题建模为：

状态、动作、转移概率和奖励的组合，并通过优化累积奖励的目标来找到最优的决策策略。

详细来说，MDP包含以下要素：

状态（State）：系统或环境可能处于的不同状态。
动作（Action）：在每个状态下可选的决策或行动。
转移概率（Transition Probability）：在执行某个动作后，系统从一个状态转移到另一个状态的概率分布。
奖励（Reward）：在每个状态执行某个动作后获得的即时奖励。
策略（Policy）：根据当前状态选择动作的策略。

再看迷宫游戏

之前文章，我已经拿着迷宫例子详细阐述过一遍上面的这些概念。

"迷宫问题"是MDP的经典案例。下面我们拿着此案例，再深入理解下这些基础概念。

假设我们有一个迷宫，智能体要在迷宫中找到一个宝藏。

迷宫可以表示为一个二维网格，每个格子可以是墙壁（不可通过）或空地（可通过）。智能体可以采取四个动作：向上、向下、向左和向右移动。目标是找到宝藏，同时避免碰到墙壁。

现在，逐一解释下MDP的这些要素。

状态（State）

在这个例子中，状态是智能体所处的位置坐标，即迷宫中的某个格子。

例如，可以使用(x, y)坐标来表示状态，其中x和y是迷宫中某个格子的行和列索引。

动作（Action）

动作是智能体在某个状态下可以采取的行动，即向上、向下、向左或向右移动。

可以使用符号（U，D，L，R）来表示相应的动作。

转移概率（Transition Probability）

转移概率描述在某个状态下执行某个动作后，智能体转移到下一个状态的概率分布。

在迷宫游戏中，转移概率是确定性的，因为智能体在执行一个动作后会准确地移动到下一个状态。

例如，如果智能体在状态(x, y)执行向上的动作，那么下一个状态将是(x, y-1)，转移概率为1。

奖励（Reward）

奖励是智能体在执行某个动作后所获得的即时反馈。

在迷宫游戏中，可以设置以下奖励机制：

当智能体移动到宝藏位置时，获得正奖励（例如+10）。

当智能体移动到墙壁位置时，获得负奖励（例如-5）。

在其他情况下，获得较小的负奖励（例如-1），以鼓励尽快找到宝藏。

公式化表达

下面，我们尝试将这个例子使用公式化表达。

状态（State）

状态可以表示为一个二维坐标 (x, y)，其中 x 表示迷宫的行索引，y 表示迷宫的列索引。

假设迷宫的大小为 N × M，则状态集合为

动作（Action）

动作集合为，分别代表向上、向下、向左和向右移动。

转移概率（Transition Probability）

由于在迷宫中移动是确定性的，转移概率可以表示为函数

其中表示在状态 s 下执行动作 a 后转移到状态 s' 的概率。

根据迷宫规则，如果智能体在状态执行动作 a，那么下一个状态 s' 可以根据动作 a 来计算，例如：

如果，则
如果，则
如果，则
如果，则

注意，在边界情况下，如果智能体试图移动到迷宫之外的位置或者移动到墙壁位置，转移概率为0。

奖励（Reward）

奖励函数可以表示为函数，其中表示在状态 s 下执行动作 a 后转移到状态 `s'`` 的即时奖励。

根据迷宫的设定，定义如下奖励：

如果是宝藏位置，则
如果是墙壁位置，则
否则，

这篇文章我想重点阐述清楚MDP的这些核心要素，它们是强化学习的根基，这些你一定要理解。

下一篇介绍：MDP的决策方法

你的点赞和转发，给我更新增加更大动力，感谢你的支持。

第五篇：强化学习基础之马尔科夫决策过程

你好，我是zhenguo(郭震) 今天总结强化学习第五篇：马尔科夫决策过程基础马尔科夫决策过程（MDP）是强化学习的基础之一。下面统一称为：MDP MDP提供了描述序贯决策问题的数学框架。它将决策问题建模为： 状态…...

编程日记 2023/5/30 17:00:07

Oracle面试题

1. 什么是存储过程，使用存储过程的好处？ 存储过程（Stored Procedure ）是一组为了完成特定功能的SQL 语句集，经编译后存储在数据库中。用户通过指定存储过程的名字并给出参数（如果该存储过程带有参数&#…...

编程日记 2023/5/30 16:55:06

用Vue写教务系统学生管理

文章目录一.首先创建新的Demo二.在APP里面绑定DemoStudent三.源码附上四.效果图（新增记录还未实现） 一.首先创建新的Demo 二.在APP里面绑定DemoStudent <template><img alt"Vue logo" src"./assets/logo.png"><!--…...

编程日记 2023/5/30 16:50:05

专门用于管理企业与自己客户之间所有信息的客户管理系统

一、开源项目简介关于 NXCRM NXCRM 是一套基于 Laravel 的 CRM 应用程序。它包含了一个管理中心，可以管理用户、客户、产品、订单、商机，合同，收款，附件，联系人，跟进动态，发票，业…...

编程日记 2023/5/30 16:45:04

（转载）基于多层编码遗传算法的车间调度算法(matlab实现)

以下内容大部分来源于《MATLAB智能算法30个案例分析》，仅为学习交流所用。 1 理论基础遗传算法具有较强的问题求解能力，能够解决非线性优化问题。遗传算法中的每个染色体表示问题中的一个潜在最优解，对于简单的问题来说，染色体…...

编程日记 2023/5/30 16:40:03

Redis的常用数据结构之哈希类型

首先这里说的哈希类型针对的是redis中的value的k-v结构常见的操作命令 hset设置值 hsetnx命令，不存在可以设置，存在设置不成功 hget取值，这里与字符串类型不同是要精确到filed。前面的判断也是基于field来实现的要是field没有就返回null h…...

编程日记 2023/5/30 16:35:02

计算机组成原理-存储系统-缓存存储器(Cache)

目录一、Cache基本概念 1.2性能分析二、 Cache和主存的映射发生 2.1全相连映射编辑 2.2直接映射编辑 2.3组相连映射三、Cachae的替换算法 3.1 随机算法(RADN) 3.2 先进先出算法(FIFO) 3.3 近期最少使用(LRU) 3.4 最近不经常使用(LFU) 四、写策略 4…...

编程日记 2023/5/30 16:30:00

打开c语言生成exe文件，出现闪退的解决方法

为什么打开c语言生成的exe文件，立马闪退。起初个别问的时候，我只是简单的说明程序运行完了，就自动关了， 首先，生成的exe文件本质是控制台程序，这些都是依赖于windows的控制台窗口，程序执行完…...

编程日记 2023/5/30 16:24:59

算法基础学习笔记——⑩DFS与BFS\树与图

✨博主：命运之光 ✨专栏：算法基础学习目录 DFS与BFS\树与图 ✨DFS ✨BFS 🍓宽搜流程图如下： 🍓宽搜流程： 🍓广搜模板 ✨树与图 🍓树是特殊的图（连通无环的图&am…...

编程日记 2023/5/30 16:19:58

chatgpt赋能python：Python中可迭代对象的介绍

Python中可迭代对象的介绍 Python是一种高级编程语言，它具有简单易学、可读性强、功能强大等特点，成为了数据科学、机器学习、Web开发等领域的热门选择。Python中有很多重要的概念和功能，其中之一就是支持可迭代对象的概念。在Python中&am…...

编程日记 2023/5/30 16:14:57

报表控件FastReport使用指南——如何打开WebP格式的图片

FastReport 是功能齐全的报表控件，可以帮助开发者可以快速并高效地为.NET，VCL，COM，ActiveX应用程序添加报表支持，由于其独特的编程原则，现在已经成为了Delphi平台最优秀的报表控件，支持将编程开…...

编程日记 2023/5/30 16:09:56

【鲁棒、状态估计】用于电力系统动态状态估计的鲁棒迭代扩展卡尔曼滤波器研究（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…...

编程日记 2023/5/30 16:04:56

整理6个超好用的在线编辑器！

随着 Web 开发对图像可扩展性、响应性、交互性和可编程性的需求增加，SVG 图形成为最适合 Web 开发的图像格式之一。它因文件小、可压缩性强并且无论如何放大或缩小，图像都不会失真而受到欢迎。然而，为了编辑 SVG 图像，需要使用 SV…...

编程日记 2023/5/30 15:59:55

ArcGIS10.8下载及安装教程（附安装步骤）

谷歌云： https://drive.google.com/drive/folders/10igu7ZSMaR0v0WD7-2W-7ADJGMUFc2ze?uspsharing ArcGIS10.8 百度网盘： https://pan.baidu.com/s/1s5bL3QsCP5sgcftCPxc88w 提取码：kw4j 阿里云： https://www.aliyundriv…...

编程日记 2023/5/30 15:54:54

AI智能照片编辑：AI Photo for Mac

AI Photo是一款Mac平台上的智能照片编辑软件，它基于人工智能技术，可以帮助用户快速、轻松地对照片进行编辑和美化。AI Photo提供了多种智能修复和美化功能，包括自动调整色彩、对比度、亮度、清晰度等，使得照片的质量得到有效提升。…...

编程日记 2023/5/30 15:49:53

Tuxera for Mac2023中文版读写硬盘U盘工具

在日常生活中，我们使用Mac时经常会遇到外部设备不能正常使用的情况，如：U盘、硬盘、软盘等等一系列存储设备，而这些设备的格式大多为NTFS，Mac系统对NTFS格式分区存在一定的兼容性问题，不能正常读写。那么什…...

编程日记 2023/5/30 15:44:51

项目遇到的实际需求: java从信任所有证书到对server证书进行校验

最近项目上开发了一个rest api，放在了一台linux服务器上，并且启用了https连接；在另一台服务器上写了一个功能需要去调用linux机器上的api。项目里面自己封装了一个HttpsClient的类，用来发送https请求，并且在里面重写了…...

编程日记 2023/5/30 15:39:45

使用JS来实现轮播图的效果

最好今天分享一个使用JS制作的轮播图效果个人名片： 😊作者简介：一名大一在校生，web前端开发专业 🤡 个人主页：几何小超 🐼座右铭：懒惰受到的惩罚不仅仅是自己的失败，…...

编程日记 2023/5/30 15:34:44

Springboot +spring security，自定义认证和授权异常处理器

一.简介在Spring Security中异常分为两种： AuthenticationException 认证异常AccessDeniedException 权限异常我们先给大家演示下如何自定义异常处理器，然后再结合源码帮助大家进行分析二.创建项目如何创建一个SpringSecurity项目，前…...

编程日记 2023/5/30 15:29:43

Dockerfile（1） - FROM 指令详解

FROM 指明当前的镜像基于哪个镜像构建dockerfile 必须以 FROM 开头，除了 ARG 命令可以在 FROM 前面 FROM [--platform<platform>] <image> [AS <name>]FROM [--platform<platform>] <image>[:<tag>] [AS <name>]FROM […...

编程日记 2023/5/30 15:24:42

8k长序列建模，蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

蛋白质结合剂（如抗体、抑制肽）在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上，高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术，但这类方法普遍面临资源消耗巨大、研发周期冗长…...

编程新知 2026/1/25 13:18:12

PPT|230页| 制造集团企业供应链端到端的数字化解决方案：从需求到结算的全链路业务闭环构建

制造业采购供应链管理是企业运营的核心环节，供应链协同管理在供应链上下游企业之间建立紧密的合作关系，通过信息共享、资源整合、业务协同等方式，实现供应链的全面管理和优化，提高供应链的效率和透明度，降低供应链的成…...

编程新知 2026/1/30 22:07:56

解锁数据库简洁之道：FastAPI与SQLModel实战指南

在构建现代Web应用程序时，与数据库的交互无疑是核心环节。虽然传统的数据库操作方式（如直接编写SQL语句与psycopg2交互）赋予了我们精细的控制权，但在面对日益复杂的业务逻辑和快速迭代的需求时，这种方式的开发效率和可…...

编程新知 2025/8/13 16:42:24

【解密LSTM、GRU如何解决传统RNN梯度消失问题】

解密LSTM与GRU：如何让RNN变得更聪明？ 在深度学习的世界里，循环神经网络（RNN）以其卓越的序列数据处理能力广泛应用于自然语言处理、时间序列预测等领域。然而，传统RNN存在的一个严重问题——梯度消失&#…...

编程新知 2025/12/24 1:45:14

C# SqlSugar：依赖注入与仓储模式实践

C# SqlSugar：依赖注入与仓储模式实践在 C# 的应用开发中，数据库操作是必不可少的环节。为了让数据访问层更加简洁、高效且易于维护，许多开发者会选择成熟的 ORM（对象关系映射）框架，SqlSugar 就是其中备受…...

编程新知 2025/11/25 6:49:02

汇编常见指令

汇编常见指令一、数据传送指令指令功能示例说明MOV数据传送MOV EAX, 10将立即数 10 送入 EAXMOV [EBX], EAX将 EAX 值存入 EBX 指向的内存LEA加载有效地址LEA EAX, [EBX4]将 EBX4 的地址存入 EAX（不访问内存）XCHG交换数据XCHG EAX, EBX交换 EAX 和 EB…...

编程新知 2026/1/23 2:04:44