当前位置：首页 > news >正文

强化学习小笔记 —— 如何选择合适的更新步长

news 2026/4/29 4:46:03

在强化学习中，动作价值函数的更新可以使用增量法，如下所示：
$\begin{align*} Q_k &= \frac{1}{k}\sum_{i=1}^k r_i \\ &= \frac{1}{k}(r_k + \sum_{i=1}^{k-1}r_i) \\ &= \frac{1}{k}(r_k + (k-1)Q_{k-1}) \\ &= \frac{1}{k}(r_k + kQ_{k-1} - Q_{k-1}) \\ &= Q_{k-1} + \frac{1}{k}[r_k - Q_{k-1}] \end{align*}$
因此，根据最新观测到的奖励 $r_k$ ，使用增量计算方法根据误差 $r_k - Q_{k-1}$ 调整当前的估计值 $Q_k$ ，步长为 $\frac{1}{k}$ ，继而获得新的估计值 $Q_{k}$ 。这意味着，如果最近观测到的奖励大于当前的估计值，我们会向上修改行动值的估计值。

请注意，由于存在 $\frac{1}{k}$ 项，随着我们进行更多的观测，我们调整估计的比率将变小（公式中的 $k$ 随着访问次数的增加而不断增加，导致 $\frac{1}{k}$ 越来越小）。因此，我们对最新的观测不太重视，对特定动作的动作值的估计会随着时间的推移而逐渐稳定下来。这意味着学习过程会逐渐变得保守，因为我们更加相信之前的经验。

但是，如果环境不是静止而是随时间变化的，这可能是不利的。在某些情况下，我们希望使用不会随时间减小的固定不长，例如，固定的步长 $\alpha \in (0,1)$ 。当环境随时间变化时，我们希望智能体能够适应环境的变化，而不是过分依赖过去的经验。如果我们使用固定步长，智能体将更好地适应这些变化，因为它会持续地从新的经验中学习，而不是逐渐降低学习速率。

综上，在一个平稳问题（环境）中，我们通常设置步长不断递减，这将有助于模型更快收敛。在一个随时间变化的环境中，我们通常设置固定的步长，避免模型过分依赖过去的经验。

强化学习小笔记 —— 如何选择合适的更新步长

相关文章：

强化学习小笔记 —— 如何选择合适的更新步长

容斥 C. Strange Function改编题

C++笔记

python-opencv 培训课程笔记（1）

【C++初阶】STL详解（七）Stack与Queue的模拟实现

校园报修抢修小程序系统开发物业小区报修预约上门维修工单系统

【Android】Hilt比Android好在哪里

计算方法期末总结

【面试】jvm中堆是分配对象存储的唯一选择吗

音视频同步笔记 - 以音频时间为基

JavaScript 原始数据类型和对应的对象类型（内置对象）之间的关系

报错For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

whisper使用方法

通过easyexcel实现数据导入功能

Springboot_文件下载功能(前端后端)

Vue框架学习笔记——v-bind数据单向绑定和v-model数据双向绑定

将对象转成URL参数

【论文阅读】MAG：一种用于航天器遥测数据中有效异常检测的新方法

超级武器！深入LoadRunner性能测试流程及极速分析结果！

解决requests库进行爬虫ip请求时遇到的错误的方法

4月29日直播丨DSL 助力DeepSeek-V4快速适配与调优

如何用Python工具3步获取百度网盘直链：告别限速的完整指南

5分钟彻底清理Windows 11：Win11Debloat终极免费优化指南

远程办公新选择：除了腾讯云，ToDesk云电脑如何成为我的主力‘云主机’（含分屏、外设连接技巧）

上市公司会计审计报告5种意见的含义，看完秒懂

如何在MZmine3中高效处理DIA数据？5个关键问题与解决方案解析

从3D打印机到机械臂：TB6600驱动器的细分与电流设置实战指南（以42/57步进电机为例）

面试官直播拷打我：“是否了解Harness Engineering？”，我笑了：“LLM很强，但如果不能拴住、监测、约束，都白搭”。面试官一直在点头。

戴尔笔记本风扇终极管理指南：免费开源智能散热解决方案

别再乱刷了！手把手教你读懂Android卡刷包里的updater-script脚本（附权限设置详解）