当前位置: 首页 > article >正文

强化学习入门ⅡCS188 Note10 学习笔记

更好的阅读体验Approximate Q-learningQ-learning虽然很有优势但是缺乏了泛化能力。当pacman学习了figure1中的困境后智能体是不会意识到figure2,figure3中的情景和figure1中的困境基本一样所以说Q-Learning很有局限性这时候该算法就不再记下具体状态而是记住状态特征将状态表示为特征向量比如pacman的特征向量就可以编码为离最近ghost的距离离最近food的距离ghost的数量pacman是否被困住了0 or 1Q函数建模为特征的线性组合Q ( s , a ) w 1 f 1 ( s , a ) w 2 f 2 ( s , a ) ⋯ w n f n ( s , a ) w ⃗ ⋅ f ⃗ ( s , a ) \begin{align*} Q(s,a) w_1 f_1(s,a) w_2 f_2(s,a) \cdots w_n f_n(s,a) \vec{w}\cdot\vec{f}(s,a) \end{align*}Q(s,a)​w1​f1​(s,a)w2​f2​(s,a)⋯wn​fn​(s,a)w⋅f​(s,a)​每一步需要计算difference,并且更新权重difference [ R ( s , a , s ′ ) γ max ⁡ a ′ Q ( s ′ , a ′ ) ] − Q ( s , a ) \begin{align*} \text{difference} \big[ R(s,a,s) \gamma \max_{a} Q(s,a) \big] - Q(s,a) \end{align*}difference​[R(s,a,s′)γa′max​Q(s′,a′)]−Q(s,a)​w i ← w i α ⋅ d i f f e r e n c e ⋅ f i ( s , a ) \begin{align*} w_i \leftarrow w_i \alpha \cdot \mathrm{difference} \cdot f_i(s,a) \end{align*}wi​​←wi​α⋅difference⋅fi​(s,a)​这样一来我们的内存使用效率就极高泛化能力也具备了。在这个过程中相似状态会得到相似的Q值即使没有被访问过得状态也能合理估计Exploration vs. Exploitation在强化学习中智能体agent需要在以下两者之间做出权衡Exploitation利用按照当前已知的最优策略行动以最大化即时奖励。Exploration探索尝试未知的动作以发现可能更优的策略从而获得长期收益。如果只利用不探索可能陷入局部最优如果只探索不利用则无法积累有效经验。因此如何在两者之间取得平衡是强化学习的核心问题之一ε-Greedy Policies一种很基础来强迫智能体做出Exploration的方法给定一个0 ε 1有 ε 的概率随机选择动作( Exploration )有1- ε 的概率来选择当前最优动作( Exploitation )非常的简单且有效但是缺点也十分明显在已经学习到最佳动作后仍然有很大的概率来做出随机行为。但是如果ε太小了的话又会导致探索不足学习速度过慢。一种简单解决问题的办法就是使ε随时间衰减Exploration Functions这是一种更智能的选择这种方式通过在Q值更新中引入探索奖励Q值迭代表达式更新变为Q ( s , a ) ← ( 1 − α ) Q ( s , a ) α [ R ( s , a , s ′ ) γ max ⁡ a ′ f ( s ′ , a ′ ) ] \begin{align*} Q(s,a) \leftarrow (1-\alpha)Q(s,a) \alpha\big[ R(s,a,s) \gamma \max_{a} f(s,a) \big] \end{align*}Q(s,a)​←(1−α)Q(s,a)α[R(s,a,s′)γa′max​f(s′,a′)]​其中f( s, a )为探索函数常见形式为f ( s , a ) Q ( s , a ) k N ( s , a ) \begin{align*} f(s,a) Q(s,a) \frac{k}{N(s,a)} \end{align*}f(s,a)​Q(s,a)N(s,a)k​​其中N( s, a )表示状态-动作对( s, a )被访问的次数。k表示偏好系数即控制探索( Exploration )的强度RL SummaryModel-based Learning基于模型的学习在Note9中有详细介绍:先估计环境的转移函数T和奖励函数R再用这些估计值进行规划如 Value Iteration/ Policy Iteration)Model-free Learning无模型学习在Note9中有详细介绍不显式估计 TT 和 RR直接学习值函数或策略方法描述特点Direct Evaluation根据策略π ππ统计每个状态的累计奖励简单但收敛慢忽略状态间转移信息Temporal Difference Learning (TD Learning)用指数移动平均更新值函数在线学习收敛更快适合 on-policyQ-Learning用 Q 值迭代直接学习最优策略Off-policy可容忍次优行为Approximate Q-Learning用特征表示状态泛化能力强适合大规模状态空间On-policy vs. Off-policy类型定义例子On-policy学习当前策略下的值函数Direct Evaluation, TD LearningOff-policy学习最优策略即使当前行为是次优的Q-LearningRegret还有一个重要概念叫做Regret我们至今不知道如何评判一个智能体强化学习性能的好坏无法评判智能体学习到了哪一步不知道智能体在Exploration vs. Exploitation之间取舍是否理智我们就引入了RegretR e g r e t 最优策略累计奖励 − 算法实际累计奖励 Regret最优策略累计奖励−算法实际累计奖励Regret最优策略累计奖励−算法实际累计奖励低 regret 表示算法在早期也能做出较好的决策

相关文章:

强化学习入门ⅡCS188 Note10 学习笔记

更好的阅读体验 Approximate Q-learning Q-learning虽然很有优势,但是缺乏了泛化能力。当pacman学习了figure1中的困境后,智能体是不会意识到figure2,figure3中的情景和figure1中的困境基本一样 所以说Q-Learning很有局限性,这时候该算法…...

Go语言消息队列集成与异步通信实践

Go语言消息队列集成与异步通信实践 引言 消息队列是微服务架构中实现异步通信的核心组件。本文将深入探讨Go语言中常见的消息队列系统(Kafka、RabbitMQ、Redis)的集成与最佳实践。 一、消息队列概述 1.1 消息队列的作用 场景说明解耦生产者和消费者解耦&…...

e-cology单点登录token认证失败排查指南

1. 这不是账号被锁,而是认证链路上某个环节“失联”了“e-cology token认证时报错该账号存在异常,单点登录失败”——这句话我去年在客户现场听运维同事念了不下二十遍。它不像“密码错误”或“用户不存在”那样直白,也不像“系统繁忙请稍后再…...

百度网盘直链解析技术实现与高速下载架构设计

百度网盘直链解析技术实现与高速下载架构设计 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 在云存储服务日益普及的今天,百度网盘作为国内用户量最大的云存储平台…...

【独家实测】12种火焰风格生成成功率排行榜(含燃烧强度/流体轨迹/余烬衰减量化评分),第7名99%人从未试过

更多请点击: https://codechina.net 第一章:火焰风格生成效果的评估体系与实测方法论 火焰风格图像生成质量评估需兼顾视觉感知一致性、物理合理性与算法可复现性。单一指标(如PSNR或LPIPS)无法全面刻画火焰特有的动态纹理、亮度…...

【限时技术解密】Midjourney未公开的饱和度隐式约束机制:基于2372条训练图像元数据逆向推演的4项硬性规则

更多请点击: https://intelliparadigm.com 第一章:Midjourney饱和度调整的底层认知重构 传统图像处理中,饱和度常被简化为“色彩强度调节滑块”,但在 Midjourney 的扩散生成范式下,饱和度并非独立通道参数&#xff0…...

从博弈论到Python代码:手把手拆解SHAP值计算,告别‘调包侠’

从博弈论到Python代码:手把手拆解SHAP值计算,告别‘调包侠’在机器学习可解释性领域,SHAP值已经成为解释模型预测的黄金标准。但当你反复调用shap.TreeExplainer(model).shap_values(X)时,是否曾好奇这些神奇的数字究竟如何从数学…...

别再死记硬背EM算法了!用Python手写一个硬币实验,5分钟搞懂E步和M步

用Python实现EM算法:从硬币实验到高斯混合模型实战 很多人在学习EM算法时,都会被复杂的数学推导劝退。但今天我要带你用Python手写一个硬币实验,通过不到50行代码直观理解E步和M步的奥妙。我们不仅会复现经典的双硬币问题,还会延伸…...

如何彻底解决洛雪音乐音源失效问题:六音音源修复完全指南

如何彻底解决洛雪音乐音源失效问题:六音音源修复完全指南 【免费下载链接】New_lxmusic_source 六音音源修复版 项目地址: https://gitcode.com/gh_mirrors/ne/New_lxmusic_source 还在为洛雪音乐1.6.0版本后无法正常播放音乐而烦恼吗?六音音源修…...

DLSS Swapper终极指南:免费开源的DLSS文件智能管理工具

DLSS Swapper终极指南:免费开源的DLSS文件智能管理工具 【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper 你是否曾经遇到过这样的困扰:你心爱的游戏明明支持DLSS技术,但游戏自带的DLSS…...

英雄联盟智能助手Seraphine:从青铜到王者的游戏效率革命 [特殊字符]

英雄联盟智能助手Seraphine:从青铜到王者的游戏效率革命 🎮 【免费下载链接】Seraphine 英雄联盟战绩查询工具 项目地址: https://gitcode.com/gh_mirrors/se/Seraphine 还在为错过排位对局而懊恼吗?还在BP阶段手忙脚乱查询对手战绩吗…...

量子机器学习中的偏见:从编码到测量的系统性挑战与缓解策略

1. 量子机器学习中的偏见:一个被忽视的工程挑战量子机器学习(QML)正从理论实验室走向现实应用,从药物分子筛选到金融衍生品定价,其潜力令人兴奋。然而,作为一名长期关注量子算法落地的从业者,我…...

机器学习辅助第一性原理:高精度计算电化学氧化还原电位

1. 项目概述:当机器学习遇上第一性原理,破解电化学模拟的精度瓶颈在电化学、材料科学和计算化学的交叉领域,预测一个分子或离子在溶液中的氧化还原电位,就像试图在暴风雨中测量一滴雨滴的精确落点。这个数值,直接决定了…...

布里渊散射与机器学习势场协同表征MOF力学性能

1. 项目概述:当布里渊散射遇见机器学习势场在材料科学的前沿探索中,我们常常面临一个核心挑战:如何精确、无损地获取复杂材料的本征力学性能,尤其是那些结构精巧但晶体尺寸微小的新材料。金属有机框架(MOFs&#xff09…...

神经符号系统实践:耦合机器学习与本体论提升机器人自主诊断能力

1. 项目概述:当机器学习遇见本体论 在机器人圈子里摸爬滚打十几年,我见过太多“聪明”但“不可靠”的自主系统。它们能精准识别物体、规划路径,但一旦遇到训练数据之外的场景,或者传感器出现一点小毛病,行为就可能变得…...

鲸震恩!DeepSeek V4 价格永久“打骨折”,网友疯狂“表白”:梁圣的恩情还不完

①2026 年 5 月 22 日 20:36,DeepSeek 官宣,deepseek-v4-pro 模型 API 价格将于北京时间 2026/05/31 23:59 结束 2.5 折优惠活动后,正式调整为原定价的 1/4。也就是说,从 6 月 1 日起当前 2.5 折直接变成常态价了。在上次&#xf…...

Linux 文本三剑客组合实战(grep + sed + awk)

前言 Linux 文本处理三剑客: grep:过滤、筛选行(抓出想要的内容)sed:替换、删除、修改文本(批量改内容)awk:按列截取、统计、计算(取字段、做统计) 真正工…...

GitHub界面本地化:从语言障碍到无障碍协作的技术演进

GitHub界面本地化:从语言障碍到无障碍协作的技术演进 【免费下载链接】github-chinese GitHub 汉化插件,GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese 对于众多中文开发者而…...

量子核方法:从经典核技巧到量子特征映射的实践指南

1. 量子核方法:从理论到实践的跨越 核方法在机器学习领域已经是一个相当成熟的技术,它的核心魅力在于“核技巧”——通过一个巧妙的函数,我们可以在不显式计算高维甚至无限维特征向量的情况下,直接得到它们的内积。这让我们能用线…...

非Root安卓设备上使用Frida Gadget实现应用层Hook

1. 为什么非Root设备上Hook安卓App不再是“不可能任务”很多人第一次听说Frida,脑海里自动浮现出的场景是:一台已Root的测试机、adb shell里敲着su、frida-server在后台静静运行、然后用frida-trace监听onCreate——一套行云流水的操作,但前提…...

Unity Android读取SD卡图片的5种实战方案与选型指南

1. 为什么在 Unity Android 上“读取 sdcard 图片”会让人反复踩坑? “Unity Android 读取 sdcard 路径下指定文件夹的所有图片”——这句话看似平平无奇,但凡是真正在项目里做过相册预览、本地图库导入、离线资源加载、用户截图归档这类功能的开发者&am…...

去偏机器学习在左截断右删失数据因果生存分析中的应用

1. 项目概述:当生存分析遇上复杂数据与因果推断在生物医学、流行病学乃至社会科学研究中,我们常常关心一个关键事件发生的时间:从接受某种治疗到疾病复发,从开始暴露于某种风险因素到出现特定结局,或者从产品发布到用户…...

从博弈论到可解释AI:Shapley值及其交互指数的原理与应用

1. 从博弈论到可解释AI:理解Shapley值的核心思想在机器学习模型日益复杂的今天,理解一个模型为何做出某个预测,其重要性不亚于模型本身的性能。想象一下,你训练了一个精准的房价预测模型,当它判断某套房子价值500万时&…...

UFLUX v2.0:融合P模型与XGBoost的GPP估算混合建模框架

1. 项目概述与核心价值如果你正在从事全球变化生态学、碳循环研究或者遥感应用领域的工作,那么“如何更准确地估算陆地生态系统的总初级生产力”这个问题,大概率是你绕不开的挑战。总初级生产力,也就是我们常说的GPP,它衡量的是植…...

IGND算法:融合高斯牛顿法与增量学习的优化新范式

1. IGND算法:当高斯牛顿法遇见增量学习在机器学习的世界里,模型训练的本质就是一场持续的优化之旅。我们手握一个由参数构成的复杂函数,目标是在浩瀚的参数空间中,找到那个能让预测误差最小化的“甜蜜点”。多年来,随机…...

BetterGI原神自动化工具:5大核心功能让你每天节省2小时游戏时间

BetterGI原神自动化工具:5大核心功能让你每天节省2小时游戏时间 【免费下载链接】better-genshin-impact 📦BetterGI 更好的原神 - 自动拾取 | 自动剧情 | 全自动钓鱼(AI) | 全自动七圣召唤 | 自动伐木 | 自动刷本 | 自动采集/挖矿/锄地 | 一条龙 | 全连…...

DVWA靶场实战避坑指南:Docker环境搭建与四层安全等级解析

1. 这不是“又一个DVWA教程”,而是一份能让你在真实渗透测试中少走三周弯路的靶场操作手册很多人第一次接触渗透测试,打开浏览器输入http://192.168.1.10/dvwa,看到那个灰扑扑的登录页,就以为自己已经站在了红队门口。结果刚点开S…...

保姆级避坑指南:用Python处理泰坦尼克号数据时,90%新手都会犯的5个错误

保姆级避坑指南:用Python处理泰坦尼克号数据时,90%新手都会犯的5个错误泰坦尼克号数据集是Kaggle上最经典的机器学习入门项目之一,但看似简单的数据背后却暗藏无数新手陷阱。我曾辅导过数百名数据科学初学者,发现他们在处理这个数…...

别再被异常值坑了!用Python+OpenCV手把手教你实现RANSAC直线拟合(附完整代码)

实战PythonOpenCV:用RANSAC算法驯服异常值的终极指南当你面对一堆被噪声和异常点污染的数据点时,传统的最小二乘法就像是用放大镜找蚂蚁——稍微有点干扰就彻底失效。想象一下这样的场景:你正在处理来自传感器的二维坐标数据,或者…...

CVPR 2023新作DoNet实战:用Python+Detectron2搞定重叠细胞分割(附代码)

DoNet实战指南:基于Detectron2的细胞重叠分割全流程解析医学图像分析领域近年来迎来爆发式增长,其中细胞实例分割作为基础性技术,在癌症筛查、药物研发等场景中扮演关键角色。然而传统方法面对细胞重叠、半透明边界等复杂情况时往往表现不佳。…...