当前位置：首页 > article >正文

【强化学习】——03 Model-Free RL之基于价值的强化学习

article 2026/4/10 7:18:39

【强化学习】——03 Model-Free RL之基于价值的强化学习

$\quad\quad$
$\quad\quad$ 动态规划算法是基于模型的算法，要求已知状态转移概率和奖励函数。但很多实际问题中环境

可能是未知的，这就需要不基于模型（Model-Free）的RL方法。

$\quad\quad$ 其又分为：

基于价值（Value-Based RL）的强化学习，学习并贪婪地选择值最大地动作（确定性策略）
基于策略（Policy-Based RL）的强化学习，对策略进行建模和优化（随机性策略）

$\quad\quad$ 主要区别在于优化目标和动作选择的方式

基于价值的RL，优化目标是价值函数 $Q (s, a)$ 或 $V (s)$ ，通过价值函间接选择动作
基于策略的RL，优化目标是策略函数 $\pi(s)$ ，通过优化策略参数来最大化累计奖励

$\quad\quad$ 本文先介绍基于价值的强化学习

一、不基于模型的“预测”——更新 $V_\pi(s)$

（一）蒙特卡洛算法MC

主要思想：

$\quad\quad$ 通过大量采样来逼近真实值，用频率来估计概率。通过多次采样，使用一个事件发生的频率来替代其发生的概率，以解决状态转移概率未知的问题。

$\quad\quad$ Agent与环境交互产生若干完整的轨迹（从初态到末态），通过对多条轨迹的回报进行平均，进而估计状态价值或动作价值。

整体思路：

$\quad\quad$ 模拟——抽样——估值

$\quad\quad$ 强化学习的目标是寻找最优策略，方法是求 $V_\pi(s)$ 和 $Q_\pi(s,a)$

实现：

（1）策略评估：

$\quad\quad$ 初始化——选择一个 $(s, a)$

$\quad\quad$ 模拟——使用当前策略 $\pi$ ，从 $(s, a)$ 进行一次模拟，随机产生一段轨迹

$\quad\quad$ 抽样——获得这段轨迹上每个 $s_i,a_i)$ 的收获 $G(s_i,a_i)$

$G_t=R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-t-1}R_T$

$V_\pi(s)=E[G_t|S_t=s]$

$\quad\quad$ 注意：实际上我们使用N个样本回报来估计期望回报，即 $V_\pi(s)\approx1/N\sum G_t$

$\quad\quad$ 但在等待一个轨迹的过程中，会产生估计误差。

$\quad\quad$ 我们可以使用真实回报来纠偏，使得新的估计=原有估计+学习率×实际回报和估计回报的误差

$V(S_t)\leftarrow V(S_t)+\alpha[G_t-V(S_t)]$

$\quad\quad$ 直至预测的回报无限接近真实的回报

（2）策略优化：

$\quad\quad$ 如选择贪心地改进策略， $\pi(s)\dot=\argmax_a q(s,a)$

$\quad\quad$ 优化 $Q_\pi(s,a)$ 和 $\pi(s)$

（二）时序差分算法TD

$\quad\quad$ MC要求所有采样序列都是完整的状态序列。如果没有完整的状态序列，可采用时序差分算法

引导：

$\quad\quad$ 由于没有完整的状态序列，因此收获的计算不能用 $G_t$ 的公式。

$\quad\quad$ 根据状态价值函数的定义，用 $R_{t+1}+\gamma V_\pi(S_{t+1})$ 来替代 $G_t$ ，作为TD的目标值

$\quad\quad$ 这一过程称为引导，使只需要两个连续的状态和奖励，便可以尝试求解强化学习问题

时序差分的预测问题：

$\quad\quad$ 根据状态价值函数的定义 $V_\pi(s)=E[G_t|S_t=s]$

$\quad\quad$ 对于蒙特卡洛算法， $G_t=R_{t+1}+\gamma R_{t+2}+...$ 带入计算

$\quad\quad$ 对于时序差分算法， $G_t=R_{t+1}+\gamma V(S_{t+1})$ 带入计算

$\quad\quad$ 从中也可以看出，时序差分方法是一种当前状态价值的有偏估计，而蒙特卡洛算法是无偏估计

$\quad\quad$ 类似地，用误差学习方法进行纠偏从而对状态价值函数进行估计：

【强化学习】——03 Model-Free RL之基于价值的强化学习

【强化学习】——03 Model-Free RL之基于价值的强化学习 \quad\quad \quad\quad 动态规划算法是基于模型的算法，要求已知状态转移概率和奖励函数。但很多实际问题中环境可能是未知的，这就需要不基于模型（Model-Free）的RL方法。 \quad\quad 其又分为：基于价值（Valu…...

编程日记 2026/3/15 15:20:53

Edge(Bing)自动领积分脚本部署——基于python和Selenium(附源码)

微软的 Microsoft Rewards 计划可以通过 Bing 搜索赚取积分，积分可以兑换礼品卡、游戏等。每天的搜索任务不多，我们可以用脚本自动完成，提高效率，解放双手。本文将手把手教你如何部署一个自动刷积分脚本，并解释其背…...

编程日记 2026/4/7 2:40:30

html表格转换为markdown

文章目录工具功能亮点1.核心实现解析1. 剪贴板交互2. HTML检测与提取3. 转换规则设计 2. 完整代码在日常工作中，我们经常遇到需要将网页表格快速转换为Markdown格式的场景。无论是文档编写、知识整理还是数据迁移，手动转换既耗时又容易出错。本文将介绍…...

编程日记 2026/3/10 9:29:49

VsCode 安装 Cline 插件并使用免费模型(例如 DeepSeek)

当前时间为 25/6/3，Cline 版本为 3.17.8 点击侧边栏的“扩展”图标在搜索框中输入“Cline” 找到 Cline 插件，然后点击“安装” 安装完成后，Cline 图标会出现在 VS Code 的侧边栏中点击 Use your own API key API Provider 选择 OpenRouter…...

编程日记 2026/4/9 12:13:36

短视频矩阵系统源码新发布技术方案有那几种？

短视频矩阵运营在平台政策频繁更迭的浪潮中，已成为内容分发的核心战场。行业领先者如筷子科技、云罗抖去推、超级编导等平台，其稳定高效的代发能力背后，离不开前沿技术方案的强力支撑。本文将深入剖析当前主流的六大短视频矩阵系统代发解决方…...

编程日记 2026/4/8 3:37:25

React 第五十二节 Router中 useResolvedPath使用详解和注意事项示例

前言 useResolvedPath 是 React Router v6 提供的一个实用钩子，用于解析给定路径为完整路径对象。它根据当前路由上下文解析相对路径，生成包含 pathname、search 和 hash 的完整路径对象。一、useResolvedPath 核心用途路径解析：将相对…...

编程日记 2026/4/8 4:15:08

【PmHub面试篇】性能监控与分布式追踪利器Skywalking面试专题分析

你好，欢迎来到本次关于PmHub整合性能监控与分布式追踪利器Skywalking的面试系列分享。在这篇文章中，我们将深入探讨这一技术领域的相关面试题预测。若想对相关内容有更透彻的理解，强烈推荐参考之前发布的博文：【PmHub后端篇】Skyw…...

编程日记 2026/3/7 20:03:16

Cursor快速梳理ipynb文件Prompt

1. 整体鸟瞰请在不运行代码的前提下，总结 <文件名.ipynb> 的主要目的、核心逻辑流程和输出结果。阅读整个项目目录，列出每个 .ipynb / .py 文件的角色，以及它们之间的数据依赖关系（输入→处理→输出）。2. 结构…...

编程日记 2026/4/8 7:08:23

天机学堂-分页查询

需求分页查询我的课表返回： 总条数、总页数、当前页的课表信息的集合返回的VO（已经封装成统一的LearningLessonsVO） 定义Controller RestController RequestMapping("/lessons") RequiredArgsConstructor public class Lear…...

编程日记 2026/4/8 4:22:42

业态即战场：零售平台的生意模型与系统设计解构

目录一、当我们在电商买菜、点外卖时，其实是零售业态在进化（一）从“商场选货”到“算法推货”：零售的时代已经不同（二）“控货”和“卖场”——零售的两种基本商业模式二、四种经典零售业态解析：控货 vs 卖场，地面 vs 线上（一）地面控货零售：直营模式的黄金…...

编程日记 2026/3/25 15:24:55

微算法科技(NASDAQ:MLGO)基于信任的集成共识和灰狼优化(GWO)算法,搭建高信任水平的区块链网络

随着数字化转型的加速，区块链技术作为去中心化、透明且不可篡改的数据存储与交换平台，正逐步渗透到金融、供应链管理、物联网等多个领域，探索基于信任的集成共识机制，并结合先进的优化算法来提升区块链网络的信任水平，…...

编程日记 2026/4/8 3:32:27

全新Xsens Animate版本是迄今为止最大的软件升级，提供更清晰的数据、快捷的工作流程以及从录制开始就更直观的体验

我们整合了专业人士喜爱的 Xsens 动捕功能，并使其更加完善。全新Xsens Animate版本是我们迄今为止最大的软件升级，旨在提供更清晰的数据、更快捷的工作流程以及从录制开始就更直观的体验。从制作游戏动画到流媒体直播头像或构建实时电影内容&#xff0…...

编程日记 2026/4/8 4:18:41

大语言模型评测体系全解析（下篇）：工具链、学术前沿与实战策略

文章目录一、评测工具链：从手工测试到自动化工程的效率革命（一）OpenCompass：开源评测框架的生态构建1. 技术架构：三层架构实现评测自动化2. 开发者赋能：从入门到进阶的工具矩阵 （二&#xff09…...

编程日记 2026/4/8 6:43:15

python打卡day46@浙大疏锦行

知识点回顾： 不同CNN层的特征图：不同通道的特征图什么是注意力：注意力家族，类似于动物园，都是不同的模块，好不好试了才知道。通道注意力：模型的定义和插入的位置通道注意力后的特征图和热力图内…...

编程日记 2026/4/8 12:06:46

C++.OpenGL （1/64）创建窗口（Hello Window）

OpenGL 创建窗口（Hello Window）步骤详解与代码实现 #mermaid-svg-436DlGvysFQogISc {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-436DlGvysFQogISc .error-icon{fill:#552222;}#mermaid-svg-436DlGvysFQogISc…...

编程日记 2026/3/11 11:22:30

Excel 发现此工作表中有一处或多处公式引用错误。请检查公式中的单元格引用、区域名称、已定义名称以及到其他工作簿的链接是否均正确无误。弹窗

Excel 提示“发现此工作表中有一处或多处公式引用错误”通常表示公式中存在无效引用。以下是系统化的检查步骤，帮助你定位和修复问题： 1. 检查单元格引用： 无效单元格引用：检查公式中的单元格地址（如 A1、B10&…...

编程日记 2026/4/10 4:15:55

NVIDIA DRIVE AGX平台：引领智能驾驶安全新时代

随着科技的不断进步，汽车行业正迎来前所未有的变革，智能驾驶技术成为全球产业竞相布局的焦点之一。然而，这场技术革命的背后，最关键且被广泛关注的是安全性问题。近日，我认真研读了NVIDIA发布的《自动驾驶安全报告》白…...

编程日记 2026/4/8 1:29:03

沙市区举办资本市场赋能培训会点赋科技分享智能消费新实践

荆州市沙市区，2025年6月5日—— 在沙市区政府主办的“发挥区域性股权市场功能，助力企业拥抱资本市场”专题培训会上，区委副书记、区长郭熙胜强调要充分发挥资本市场服务实体经济功能，推动本土创新企业高质量发展。区内重点企业点赋…...

编程日记 2026/4/8 5:00:20

Docker 容器化基础：镜像、容器与仓库的本质解析

Docker 概念与容器化技术 Docker 是一种容器化平台，能够将应用程序及其依赖项打包成一个容器，确保在任何环境中都能一致运行。容器化技术通过操作系统级别的虚拟化，为应用程序提供了一个独立的运行环境。容器化技术的核心优势一致性&…...

编程日记 2026/3/10 22:10:01

九.C++ 对引用的学习

一.基本概念引用即内存的别名 int a 10; int& b a; 引用本身不占用内存，并非实体，对引用的所有操作都是在对目标内存进行操作引用必须初始化，且不能更换对象 int c 5; b c; // 仅仅是在对引用的目标内存进行赋值 #include <ios…...

编程日记 2026/2/18 3:05:29

探秘鸿蒙 HarmonyOS NEXT：实战用 CodeGenie 构建鸿蒙应用页面

在开发鸿蒙应用时，你是否也曾为一个页面的布局反复调整？是否还在为查 API、写模板代码而浪费大量时间？今天带大家实战体验一下鸿蒙官方的 AI 编程助手——CodeGenie（代码精灵） ，如何从 0 到 1 快速构建一个…...

编程日记 2026/4/8 7:31:26

art-pi2 上手记录（二）

功能比较庞杂，写得不好，抛砖引玉预备知识 stm32 默认从主闪存0x08000000启动 art-pi2的psram 映射0x90000000 art-pi2的8线ospi flash 映射0x70000000 stm32h7比较灵活，通过修改选项字节，可以实现从 0x0000 0000 到 0x3FFF 0…...

编程日记 2026/4/8 6:11:34