当前位置：首页 > article >正文

强化学习入门ⅡCS188 Note10 学习笔记

article 2026/5/24 7:37:02

更好的阅读体验Approximate Q-learningQ-learning虽然很有优势但是缺乏了泛化能力。当pacman学习了figure1中的困境后智能体是不会意识到figure2,figure3中的情景和figure1中的困境基本一样所以说Q-Learning很有局限性这时候该算法就不再记下具体状态而是记住状态特征将状态表示为特征向量比如pacman的特征向量就可以编码为离最近ghost的距离离最近food的距离ghost的数量pacman是否被困住了0 or 1Q函数建模为特征的线性组合Q ( s , a ) w 1 f 1 ( s , a ) w 2 f 2 ( s , a ) ⋯ w n f n ( s , a ) w ⃗ ⋅ f ⃗ ( s , a ) \begin{align*} Q(s,a) w_1 f_1(s,a) w_2 f_2(s,a) \cdots w_n f_n(s,a) \vec{w}\cdot\vec{f}(s,a) \end{align*}Q(s,a)w1f1(s,a)w2f2(s,a)⋯wnfn(s,a)w⋅f(s,a)每一步需要计算difference,并且更新权重difference [ R ( s , a , s ′ ) γ max ⁡ a ′ Q ( s ′ , a ′ ) ] − Q ( s , a ) \begin{align*} \text{difference} \big[ R(s,a,s) \gamma \max_{a} Q(s,a) \big] - Q(s,a) \end{align*}difference[R(s,a,s′)γa′maxQ(s′,a′)]−Q(s,a)w i ← w i α ⋅ d i f f e r e n c e ⋅ f i ( s , a ) \begin{align*} w_i \leftarrow w_i \alpha \cdot \mathrm{difference} \cdot f_i(s,a) \end{align*}wi←wiα⋅difference⋅fi(s,a)这样一来我们的内存使用效率就极高泛化能力也具备了。在这个过程中相似状态会得到相似的Q值即使没有被访问过得状态也能合理估计Exploration vs. Exploitation在强化学习中智能体agent需要在以下两者之间做出权衡Exploitation利用按照当前已知的最优策略行动以最大化即时奖励。Exploration探索尝试未知的动作以发现可能更优的策略从而获得长期收益。如果只利用不探索可能陷入局部最优如果只探索不利用则无法积累有效经验。因此如何在两者之间取得平衡是强化学习的核心问题之一ε-Greedy Policies一种很基础来强迫智能体做出Exploration的方法给定一个0 ε 1有 ε 的概率随机选择动作( Exploration )有1- ε 的概率来选择当前最优动作( Exploitation )非常的简单且有效但是缺点也十分明显在已经学习到最佳动作后仍然有很大的概率来做出随机行为。但是如果ε太小了的话又会导致探索不足学习速度过慢。一种简单解决问题的办法就是使ε随时间衰减Exploration Functions这是一种更智能的选择这种方式通过在Q值更新中引入探索奖励Q值迭代表达式更新变为Q ( s , a ) ← ( 1 − α ) Q ( s , a ) α [ R ( s , a , s ′ ) γ max ⁡ a ′ f ( s ′ , a ′ ) ] \begin{align*} Q(s,a) \leftarrow (1-\alpha)Q(s,a) \alpha\big[ R(s,a,s) \gamma \max_{a} f(s,a) \big] \end{align*}Q(s,a)←(1−α)Q(s,a)α[R(s,a,s′)γa′maxf(s′,a′)]其中f( s, a )为探索函数常见形式为f ( s , a ) Q ( s , a ) k N ( s , a ) \begin{align*} f(s,a) Q(s,a) \frac{k}{N(s,a)} \end{align*}f(s,a)Q(s,a)N(s,a)k其中N( s, a )表示状态-动作对( s, a )被访问的次数。k表示偏好系数即控制探索( Exploration )的强度RL SummaryModel-based Learning基于模型的学习在Note9中有详细介绍:先估计环境的转移函数T和奖励函数R再用这些估计值进行规划如 Value Iteration/ Policy Iteration)Model-free Learning无模型学习在Note9中有详细介绍不显式估计 TT 和 RR直接学习值函数或策略方法描述特点Direct Evaluation根据策略π ππ统计每个状态的累计奖励简单但收敛慢忽略状态间转移信息Temporal Difference Learning (TD Learning)用指数移动平均更新值函数在线学习收敛更快适合 on-policyQ-Learning用 Q 值迭代直接学习最优策略Off-policy可容忍次优行为Approximate Q-Learning用特征表示状态泛化能力强适合大规模状态空间On-policy vs. Off-policy类型定义例子On-policy学习当前策略下的值函数Direct Evaluation, TD LearningOff-policy学习最优策略即使当前行为是次优的Q-LearningRegret还有一个重要概念叫做Regret我们至今不知道如何评判一个智能体强化学习性能的好坏无法评判智能体学习到了哪一步不知道智能体在Exploration vs. Exploitation之间取舍是否理智我们就引入了RegretR e g r e t 最优策略累计奖励 − 算法实际累计奖励 Regret最优策略累计奖励−算法实际累计奖励Regret最优策略累计奖励−算法实际累计奖励低 regret 表示算法在早期也能做出较好的决策

强化学习入门ⅡCS188 Note10 学习笔记

相关文章：

强化学习入门ⅡCS188 Note10 学习笔记

Go语言消息队列集成与异步通信实践

e-cology单点登录token认证失败排查指南

百度网盘直链解析技术实现与高速下载架构设计

【独家实测】12种火焰风格生成成功率排行榜（含燃烧强度/流体轨迹/余烬衰减量化评分），第7名99%人从未试过

【限时技术解密】Midjourney未公开的饱和度隐式约束机制：基于2372条训练图像元数据逆向推演的4项硬性规则

从博弈论到Python代码：手把手拆解SHAP值计算，告别‘调包侠’

别再死记硬背EM算法了！用Python手写一个硬币实验，5分钟搞懂E步和M步

如何彻底解决洛雪音乐音源失效问题：六音音源修复完全指南

DLSS Swapper终极指南：免费开源的DLSS文件智能管理工具

英雄联盟智能助手Seraphine：从青铜到王者的游戏效率革命 [特殊字符]

量子机器学习中的偏见：从编码到测量的系统性挑战与缓解策略

机器学习辅助第一性原理：高精度计算电化学氧化还原电位

布里渊散射与机器学习势场协同表征MOF力学性能

神经符号系统实践：耦合机器学习与本体论提升机器人自主诊断能力

鲸震恩！DeepSeek V4 价格永久“打骨折”，网友疯狂“表白”：梁圣的恩情还不完

Linux 文本三剑客组合实战（grep + sed + awk）

GitHub界面本地化：从语言障碍到无障碍协作的技术演进

量子核方法：从经典核技巧到量子特征映射的实践指南

非Root安卓设备上使用Frida Gadget实现应用层Hook

Unity Android读取SD卡图片的5种实战方案与选型指南

去偏机器学习在左截断右删失数据因果生存分析中的应用

从博弈论到可解释AI：Shapley值及其交互指数的原理与应用

UFLUX v2.0：融合P模型与XGBoost的GPP估算混合建模框架

IGND算法：融合高斯牛顿法与增量学习的优化新范式

BetterGI原神自动化工具：5大核心功能让你每天节省2小时游戏时间

DVWA靶场实战避坑指南：Docker环境搭建与四层安全等级解析

保姆级避坑指南：用Python处理泰坦尼克号数据时，90%新手都会犯的5个错误

别再被异常值坑了！用Python+OpenCV手把手教你实现RANSAC直线拟合（附完整代码）

CVPR 2023新作DoNet实战：用Python+Detectron2搞定重叠细胞分割（附代码）