当前位置: 首页 > article >正文

强化学习实战:用Python手搓Sarsa和Q-Learning,在悬崖漫步里看谁更“怂”

强化学习实战Python实现Sarsa与Q-Learning在悬崖漫步中的策略差异从游戏视角理解强化学习核心算法想象你正站在一个4×12的网格世界起点目标是到达右下角的终点。但中间有一片悬崖——任何踏入都会让你回到起点并承受巨大惩罚。每走一步都会消耗体力负奖励而安全到达终点则获得奖励。这就是经典的悬崖漫步环境也是理解强化学习基础算法的绝佳试验场。本文将带你用Python实现两种最基础的时序差分(TD)算法——Sarsa和Q-Learning通过直观的代码实验揭示它们在策略安全性上的本质差异。不同于单纯的理论讲解我们将使用Gym库搭建可视化环境从零编写算法代码调整关键参数观察策略变化可视化智能体的走位决策过程import gym import numpy as np import matplotlib.pyplot as plt # 创建悬崖漫步环境 env gym.make(CliffWalking-v0) print(f状态空间大小: {env.observation_space.n}) print(f动作空间: {env.action_space.n}) # 0:上, 1:右, 2:下, 3:左1. 环境解析与Q表初始化悬崖漫步环境是一个典型的离散状态-动作空间问题非常适合表格型方法。环境特点状态48个离散位置4行×12列动作4个方向移动上、右、下、左奖励每步-1掉崖-100并重置到达终点0我们先初始化Q表这是两种算法共享的数据结构class CliffWalkingAgent: def __init__(self, env, alpha0.1, gamma0.9, epsilon0.1): self.env env self.alpha alpha # 学习率 self.gamma gamma # 折扣因子 self.epsilon epsilon # 探索率 self.q_table np.zeros((env.observation_space.n, env.action_space.n))2. Sarsa算法实现保守派的路径选择Sarsa是一种on-policy算法其名称源自更新公式中使用的状态-动作序列(S, A, R, S, A)。核心特点是当前策略决定下一个动作导致更保守的行为模式。2.1 算法原理Sarsa的更新公式Q(S,A) ← Q(S,A) α[R γQ(S,A) - Q(S,A)]其中α学习率γ折扣因子A根据当前策略在S状态下选择的动作class SarsaAgent(CliffWalkingAgent): def update(self, s, a, r, s_, a_): # Sarsa更新公式 td_target r self.gamma * self.q_table[s_, a_] td_error td_target - self.q_table[s, a] self.q_table[s, a] self.alpha * td_error def train(self, episodes500): rewards [] for _ in range(episodes): s env.reset() a self._choose_action(s) episode_reward 0 done False while not done: s_, r, done, _ env.step(a) a_ self._choose_action(s_) self.update(s, a, r, s_, a_) episode_reward r s, a s_, a_ rewards.append(episode_reward) return rewards2.2 策略可视化与结果分析训练完成后我们可以可视化学习到的策略def plot_policy(q_table): arrows [↑, →, ↓, ←] policy np.argmax(q_table, axis1).reshape(4,12) for row in range(4): line [] for col in range(12): if row 3 and (0 col 11): line.append(×) # 悬崖 else: line.append(arrows[policy[row,col]]) print( .join(line))典型输出→ → → → → → → → → → → ↓ → → → → → → → → → → → ↓ → → → → → → → → → → → ↓ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ →可以看到Sarsa倾向于选择远离悬崖的安全路径尽管这条路更长。这是因为在靠近悬崖的状态下随机探索可能导致掉崖算法会将这些高风险状态的Q值降低最终策略会避开这些高风险区域3. Q-Learning实现冒险家的最优路径Q-Learning是off-policy算法其更新公式为Q(S,A) ← Q(S,A) α[R γmax_a Q(S,a) - Q(S,A)]关键区别在于使用最优未来价值而非实际采取的动作。3.1 代码实现class QLearningAgent(CliffWalkingAgent): def update(self, s, a, r, s_, done): # Q-Learning更新公式 if done: td_target r else: td_target r self.gamma * np.max(self.q_table[s_]) td_error td_target - self.q_table[s, a] self.q_table[s, a] self.alpha * td_error def train(self, episodes500): rewards [] for _ in range(episodes): s env.reset() episode_reward 0 done False while not done: a self._choose_action(s) s_, r, done, _ env.step(a) self.update(s, a, r, s_, done) episode_reward r s s_ rewards.append(episode_reward) return rewards3.2 策略对比Q-Learning的典型策略→ → → → → → → → → → → ↓ → → → → → → → → → → → ↓ → → → → → → → → → → → ↓ ↑ → → → → → → → → → → →Q-Learning倾向于贴着悬崖的最短路径因为它学习的是最优策略的价值估计不考虑探索时的随机动作影响理论上当探索率ε→0时能收敛到最优路径4. 参数实验探索率ε的影响探索率ε是控制算法行为的关键参数。我们通过实验观察不同ε值对策略的影响epsilons [0.01, 0.1, 0.3] results {} for eps in epsilons: agent SarsaAgent(env, epsiloneps) results[fSarsa(ε{eps})] agent.train() agent QLearningAgent(env, epsiloneps) results[fQ-Learning(ε{eps})] agent.train() # 绘制学习曲线 plt.figure(figsize(10,6)) for label, rewards in results.items(): plt.plot(np.convolve(rewards, np.ones(50)/50, modevalid), labellabel) plt.legend() plt.xlabel(Episode) plt.ylabel(Average Reward) plt.title(Performance under Different Exploration Rates) plt.show()实验发现Sarsa高ε值导致更保守的策略Q-Learning高ε值增加掉崖风险但保持最优路径倾向5. 算法本质差异解析两种算法在悬崖漫步中表现差异的根本原因特性SarsaQ-Learning策略类型On-policyOff-policy更新目标当前策略的动作最优可能动作安全性高低路径长度长但安全短但有风险适用场景高风险环境确定性环境用驾驶比喻Sarsa新手司机考虑实际可能采取的操作包括失误Q-Learning理想化驾驶假设总能做出完美决策6. 进阶技巧与优化6.1 动态探索率class DecayEpsilonAgent(CliffWalkingAgent): def __init__(self, env, epsilon_start1.0, epsilon_end0.01, epsilon_decay0.995): super().__init__(env) self.epsilon epsilon_start self.epsilon_end epsilon_end self.epsilon_decay epsilon_decay def _choose_action(self, s): self.epsilon max(self.epsilon_end, self.epsilon*self.epsilon_decay) return super()._choose_action(s)6.2 可视化价值函数def plot_value_function(q_table): v np.max(q_table, axis1).reshape(4,12) plt.imshow(v, cmaphot) plt.colorbar() plt.title(State Value Function) plt.axis(off) for i in range(4): for j in range(12): plt.text(j, i, f{v[i,j]:.1f}, hacenter, vacenter, colorblue)7. 工程实践建议在实际项目中应用这些算法时环境敏感性分析先理解环境特性再选择算法超参数调优系统性地探索参数空间可视化调试价值函数和策略可视化至关重要基准测试与随机策略或规则策略比较稳定性处理考虑使用滑动平均评估性能# 性能评估函数 def evaluate(agent, runs100): total_rewards [] for _ in range(runs): s env.reset() done False rewards 0 while not done: a np.argmax(agent.q_table[s]) # 使用贪婪策略 s, r, done, _ env.step(a) rewards r total_rewards.append(rewards) return np.mean(total_rewards), np.std(total_rewards)通过这个完整的实现和实验过程我们直观地验证了Sarsa的保守特性使其适合安全关键应用Q-Learning在充分探索后能找到最优路径探索率对策略安全性的显著影响可视化在强化学习开发中的重要性

相关文章:

强化学习实战:用Python手搓Sarsa和Q-Learning,在悬崖漫步里看谁更“怂”

强化学习实战:Python实现Sarsa与Q-Learning在悬崖漫步中的策略差异从游戏视角理解强化学习核心算法想象你正站在一个412的网格世界起点,目标是到达右下角的终点。但中间有一片"悬崖"——任何踏入都会让你回到起点并承受巨大惩罚。每走一步都会…...

告别调参噩梦!用Ball k-means在Python里5分钟搞定百万级数据聚类

百万级数据聚类的革命:用Ball k-means实现Python高效实战 当你的数据集膨胀到百万级别时,传统k-means算法突然变得像老牛拉车——迭代缓慢、调参困难、内存告急。我曾在一个电商用户分群项目中,面对120万条用户行为数据,sklearn的…...

AI时代版权新范式:智能代理如何重塑数据交易与创作者权益

1. 项目概述:当AI遇见版权,一场静默的“数据战争”正在上演如果你是一位内容创作者,无论是撰写深度文章的记者、绘制插画的艺术家,还是谱写旋律的音乐人,过去几年可能都经历过一种复杂的情绪:看着自己的作品…...

AI司法应用中的算法公平性:从数据偏见到保护属性选择的技术实践

1. 项目概述:当算法开始“断案”,公平性成了第一道坎最近几年,AI系统在司法领域的渗透速度远超很多人的想象。从辅助量刑建议、评估再犯风险,到自动化审阅海量卷宗,算法正试图将法官和检察官从繁重的重复性劳动中解放出…...

低代码Agent平台是怎样实现自动化流程编排的?深度拆解2026企业级智能体底层架构

站在2026年这个时间节点回看,企业数字化转型已从“自动化”全面进化为“智能化”。 过去那种依赖硬编码、高频维护的线性脚本正迅速退场,取而代之的是具备深度推理能力的低代码Agent平台。 很多技术同行在实践中经常问到一个核心问题: 低代码…...

统计学习理论:从VC维到泛化误差,构建稳健CV系统的数学基石

1. 项目概述:从“炼丹”到“建楼”的范式转变在计算机视觉和机器学习这个圈子里混了十几年,我见过太多“炼丹”的场景了。大家热衷于调参、换模型、堆数据,一个模型效果好,大家就一拥而上,但很少有人能说清楚它为什么好…...

AI社交对话设计:如何避免商业场景中的期望违背与尴尬感

1. 项目概述:当AI的“聪明”变成商业场景的“尴尬”最近几年,AI驱动的社交对话机器人,从智能客服到虚拟销售助理,几乎成了商业互动的标配。我们总在谈论它们如何提升效率、降低成本、提供7x24小时服务。但作为一名在数字化营销和客…...

告别K-means!用DBSCAN搞定雷达点云聚类,手把手教你调参(附Matlab代码)

毫米波雷达点云聚类的DBSCAN实战:从算法原理到参数调优 在自动驾驶和智能交通系统中,毫米波雷达因其全天候工作能力和稳定的测距测速性能,成为不可或缺的环境感知传感器。然而,原始雷达数据往往呈现为稀疏、噪声密集且分布不规则的…...

实战指南:用Python和PyTorch一步步搭建TFT模型,搞定电力负荷多步预测

实战指南:用Python和PyTorch一步步搭建TFT模型,搞定电力负荷多步预测 电力负荷预测是能源管理系统的核心环节,准确的多步预测能帮助电网运营商优化发电计划、降低运营成本。传统统计方法如ARIMA在处理复杂非线性关系时表现有限,而…...

保姆级教程:用Python脚本把UAVDT无人机数据集转成YOLOv5/YOLOv8能用的格式

无人机视觉实战:UAVDT数据集高效转YOLO格式全流程解析无人机目标检测正成为计算机视觉领域的热门方向,而UAVDT作为最具代表性的低空无人机检测数据集,其丰富的场景覆盖和精准标注使其成为算法验证的黄金标准。但原始数据与YOLO训练格式的不匹…...

【2026年阿里巴巴集团暑期实习- 5月23日-算法岗-第二题- 多约束条件下的元素匹配统计】(题目+思路+JavaC++Python解析+在线测试)

题目内容 给定三个长度为 nnn 的数组 { a1,a2,…,an}\{a_1, a_2, \dots, a_n\}{ a...

基于RNN的数字-实体关系抽取:从非结构化文本中提取结构化信息

1. 项目概述与核心价值在信息爆炸的时代,我们每天都会接触到海量的非结构化文本,比如医学文献、金融报告、新闻资讯。这些文本中蕴含着大量有价值的结构化信息,例如“患者平均年龄67.6岁”、“手术成功率为38%”、“公司营收增长15%”。传统上…...

机器人导航核心技术:深度感知与传感器融合的工程实践

1. 项目概述:从“看见”到“理解”的机器人导航革命在机器人技术领域,导航能力是其智能化的核心体现。传统的机器人导航,无论是依赖预设地图的循迹,还是基于简单激光雷达的避障,都像是蒙着眼睛在熟悉的房间里摸索——虽…...

【2026年阿里巴巴集团暑期实习- 5月23日-算法岗-第一题- 荆棘林的最优砍断计划】(题目+思路+JavaC++Python解析+在线测试)

题目内容 林中共有 n n n 株荆棘,第 i i i 株的坚硬度为 a i a_i...

在VirtualBox里跑Win10,远程桌面连不上?试试这个被忽略的虚拟机专用配置

VirtualBox虚拟机Win10远程桌面黑屏?这个隐藏配置项可能是关键在混合开发环境中,许多技术从业者习惯使用VirtualBox等虚拟化工具搭建多操作系统平台。一个常见场景是在Windows 7宿主机上运行Windows 10虚拟机,通过远程桌面进行跨系统操作。但…...

Evident方法论:用观察、假设、测试构建可复现的数据科学工作流

1. 项目概述:为什么我们需要一种新的数据科学方法论?干了十多年数据科学和机器学习项目,从初创公司到大型企业都待过,我越来越觉得,我们这行当的“工作方式”有点不对劲。项目周期总是难以预估,代码和数据像…...

别再只跑代码了!用泰坦尼克号数据集,手把手教你从EDA到模型调优的完整数据分析实战

从数据洞察到模型优化:泰坦尼克号生存预测的深度实践指南 如果你已经能够熟练运行数据分析代码,却依然对项目全流程缺乏系统性认知,这篇文章将带你超越基础操作,深入理解数据分析的完整闭环。我们将以经典的泰坦尼克号数据集为例&…...

告别眨眼误判!用Python+OpenCV优化人脸68关键点疲劳检测的3个实用技巧

告别眨眼误判!用PythonOpenCV优化人脸68关键点疲劳检测的3个实用技巧在计算机视觉应用中,人脸关键点检测一直是热门研究方向。特别是68关键点检测技术,因其在表情识别、疲劳监测等场景中的实用性而备受关注。然而,许多开发者在实际…...

数字孪生与视频孪生空间智能治理技术白皮书

数字孪生与视频孪生空间智能治理技术白皮书——镜像视界浙江科技有限公司:无感定位跨镜追踪透明化空间管- 编制单位:镜像视界浙江科技有限公司- 权威背书:国家十四五重点课题研究、镜像视界浙江普陀时空大数据应用技术联合研究院联合研究、河…...

视频融合与空间计算先行者

视频融合与空间计算先行者 镜像视界(浙江)科技有限公司,以SpaceOS™空间操作系统为底座,开创“像素即坐标”的技术范式,是视频融合与空间计算领域的先行者 。 技术创新:全栈自研,定义行业标杆…...

别再傻傻分不清了!用DPABI和Matlab实操,带你搞懂脑影像分析里的ROI和VBM

从零掌握脑影像分析:DPABIMatlab实战ROI与VBM全流程 第一次打开MRI数据时,那种面对海量体素无从下手的感觉,相信每个神经影像研究者都记忆犹新。作为实验室新人,我花了整整三个月才弄明白ROI和VBM这两种基础方法的实操差异——而现…...

如何用OpenSpeedy实现单机游戏5倍速运行:完整免费加速教程

如何用OpenSpeedy实现单机游戏5倍速运行:完整免费加速教程 【免费下载链接】OpenSpeedy 🎮 An open-source game speed modifier. 项目地址: https://gitcode.com/gh_mirrors/op/OpenSpeedy 还在为游戏卡顿和漫长的等待时间烦恼吗?Ope…...

SVR模型可视化对比:RBF、线性、多项式核,哪个对你的数据更有效?(Python+Matplotlib实战)

SVR模型可视化对比:RBF、线性、多项式核,哪个对你的数据更有效?(PythonMatplotlib实战)当面对一份新的回归数据集时,选择合适的核函数往往成为支持向量回归(SVR)应用中的关键决策点。…...

Linux内核安全模块深入剖析【2.5】

10.2.2 域间转换同 Tomoyo 一样, AppArmor 的强制访问控制机制是基于文件路径的。在 AppArmor 中的域主要是由进程所执行的文件的路径决定的。 Tomoyo 会不厌其烦地将进程以及进程的祖先所执行过的文件的路径都记录在进程的域中。 AppArmor 不同,它只会将…...

LLM多智能体驱动微服务自治:从架构设计到Sock Shop实战评估

1. 项目概述:当微服务遇见大模型,自管理不再是空谈在云原生和微服务架构成为主流的今天,我们运维工程师面对的早已不是几台物理服务器,而是一个由成百上千个容器化服务实例构成的、动态且复杂的生态系统。服务间的调用链路像一张错…...

别再傻等下载了!手把手教你用wget离线部署sentence-transformers模型(以all-MiniLM-L6-v2为例)

离线部署sentence-transformers模型的终极指南:以all-MiniLM-L6-v2为例你是否曾在下载Hugging Face模型时遭遇网络中断,眼睁睁看着进度条卡在99%却无能为力?本文将彻底解决这一痛点,教你用wget命令行工具实现模型的离线部署。不同…...

AI赋能工程教育:构建个性化、多元化与伦理驱动的学习生态

1. 项目概述:当工程教育遇见AI,我们到底在谈论什么?最近几年,AI这个词快被说烂了。从ChatGPT的横空出世,到各类生成式AI工具的遍地开花,似乎每个行业都在讨论如何“被赋能”。工程教育这个领域也不例外&…...

量子计算中的ZZ串扰问题与周期感知优化方法

1. 量子硬件中的ZZ串扰问题解析在NISQ(含噪声中等规模量子)时代,量子硬件面临的最大挑战之一就是各种噪声源对量子计算过程的干扰。其中,ZZ串扰(ZZ crosstalk)是一种特别棘手的噪声机制,它源于量…...

基于RTK-GPS与ResNet50的自主草坪清扫机器人系统设计与实践

1. 项目概述与核心挑战在公园维护的日常工作中,草坪垃圾清理是一项既耗费人力又效率低下的重复性劳动。传统的清扫方式要么依赖人工,要么使用大型、笨重且可能损伤草皮的设备。我们团队的目标,是设计并实现一个能够自主、高效且温和地完成这项…...

布莱克威尔三大定理:从统计理论到AI工程的核心支柱

1. 项目概述:当统计学遇上人工智能如果你在机器学习领域摸爬滚打了一段时间,可能会发现一个有趣的现象:很多听起来很“新潮”的算法,其核心思想往往能在几十年前的统计学论文里找到源头。这并非巧合,而是学科发展的必然…...