当前位置：首页 > article >正文

强化学习实战：用Python手搓Sarsa和Q-Learning，在悬崖漫步里看谁更“怂”

article 2026/5/24 3:22:00

强化学习实战Python实现Sarsa与Q-Learning在悬崖漫步中的策略差异从游戏视角理解强化学习核心算法想象你正站在一个4×12的网格世界起点目标是到达右下角的终点。但中间有一片悬崖——任何踏入都会让你回到起点并承受巨大惩罚。每走一步都会消耗体力负奖励而安全到达终点则获得奖励。这就是经典的悬崖漫步环境也是理解强化学习基础算法的绝佳试验场。本文将带你用Python实现两种最基础的时序差分(TD)算法——Sarsa和Q-Learning通过直观的代码实验揭示它们在策略安全性上的本质差异。不同于单纯的理论讲解我们将使用Gym库搭建可视化环境从零编写算法代码调整关键参数观察策略变化可视化智能体的走位决策过程import gym import numpy as np import matplotlib.pyplot as plt # 创建悬崖漫步环境 env gym.make(CliffWalking-v0) print(f状态空间大小: {env.observation_space.n}) print(f动作空间: {env.action_space.n}) # 0:上, 1:右, 2:下, 3:左1. 环境解析与Q表初始化悬崖漫步环境是一个典型的离散状态-动作空间问题非常适合表格型方法。环境特点状态48个离散位置4行×12列动作4个方向移动上、右、下、左奖励每步-1掉崖-100并重置到达终点0我们先初始化Q表这是两种算法共享的数据结构class CliffWalkingAgent: def __init__(self, env, alpha0.1, gamma0.9, epsilon0.1): self.env env self.alpha alpha # 学习率 self.gamma gamma # 折扣因子 self.epsilon epsilon # 探索率 self.q_table np.zeros((env.observation_space.n, env.action_space.n))2. Sarsa算法实现保守派的路径选择Sarsa是一种on-policy算法其名称源自更新公式中使用的状态-动作序列(S, A, R, S, A)。核心特点是当前策略决定下一个动作导致更保守的行为模式。2.1 算法原理Sarsa的更新公式Q(S,A) ← Q(S,A) α[R γQ(S,A) - Q(S,A)]其中α学习率γ折扣因子A根据当前策略在S状态下选择的动作class SarsaAgent(CliffWalkingAgent): def update(self, s, a, r, s_, a_): # Sarsa更新公式 td_target r self.gamma * self.q_table[s_, a_] td_error td_target - self.q_table[s, a] self.q_table[s, a] self.alpha * td_error def train(self, episodes500): rewards [] for _ in range(episodes): s env.reset() a self._choose_action(s) episode_reward 0 done False while not done: s_, r, done, _ env.step(a) a_ self._choose_action(s_) self.update(s, a, r, s_, a_) episode_reward r s, a s_, a_ rewards.append(episode_reward) return rewards2.2 策略可视化与结果分析训练完成后我们可以可视化学习到的策略def plot_policy(q_table): arrows [↑, →, ↓, ←] policy np.argmax(q_table, axis1).reshape(4,12) for row in range(4): line [] for col in range(12): if row 3 and (0 col 11): line.append(×) # 悬崖 else: line.append(arrows[policy[row,col]]) print( .join(line))典型输出→ → → → → → → → → → → ↓ → → → → → → → → → → → ↓ → → → → → → → → → → → ↓ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ →可以看到Sarsa倾向于选择远离悬崖的安全路径尽管这条路更长。这是因为在靠近悬崖的状态下随机探索可能导致掉崖算法会将这些高风险状态的Q值降低最终策略会避开这些高风险区域3. Q-Learning实现冒险家的最优路径Q-Learning是off-policy算法其更新公式为Q(S,A) ← Q(S,A) α[R γmax_a Q(S,a) - Q(S,A)]关键区别在于使用最优未来价值而非实际采取的动作。3.1 代码实现class QLearningAgent(CliffWalkingAgent): def update(self, s, a, r, s_, done): # Q-Learning更新公式 if done: td_target r else: td_target r self.gamma * np.max(self.q_table[s_]) td_error td_target - self.q_table[s, a] self.q_table[s, a] self.alpha * td_error def train(self, episodes500): rewards [] for _ in range(episodes): s env.reset() episode_reward 0 done False while not done: a self._choose_action(s) s_, r, done, _ env.step(a) self.update(s, a, r, s_, done) episode_reward r s s_ rewards.append(episode_reward) return rewards3.2 策略对比Q-Learning的典型策略→ → → → → → → → → → → ↓ → → → → → → → → → → → ↓ → → → → → → → → → → → ↓ ↑ → → → → → → → → → → →Q-Learning倾向于贴着悬崖的最短路径因为它学习的是最优策略的价值估计不考虑探索时的随机动作影响理论上当探索率ε→0时能收敛到最优路径4. 参数实验探索率ε的影响探索率ε是控制算法行为的关键参数。我们通过实验观察不同ε值对策略的影响epsilons [0.01, 0.1, 0.3] results {} for eps in epsilons: agent SarsaAgent(env, epsiloneps) results[fSarsa(ε{eps})] agent.train() agent QLearningAgent(env, epsiloneps) results[fQ-Learning(ε{eps})] agent.train() # 绘制学习曲线 plt.figure(figsize(10,6)) for label, rewards in results.items(): plt.plot(np.convolve(rewards, np.ones(50)/50, modevalid), labellabel) plt.legend() plt.xlabel(Episode) plt.ylabel(Average Reward) plt.title(Performance under Different Exploration Rates) plt.show()实验发现Sarsa高ε值导致更保守的策略Q-Learning高ε值增加掉崖风险但保持最优路径倾向5. 算法本质差异解析两种算法在悬崖漫步中表现差异的根本原因特性SarsaQ-Learning策略类型On-policyOff-policy更新目标当前策略的动作最优可能动作安全性高低路径长度长但安全短但有风险适用场景高风险环境确定性环境用驾驶比喻Sarsa新手司机考虑实际可能采取的操作包括失误Q-Learning理想化驾驶假设总能做出完美决策6. 进阶技巧与优化6.1 动态探索率class DecayEpsilonAgent(CliffWalkingAgent): def __init__(self, env, epsilon_start1.0, epsilon_end0.01, epsilon_decay0.995): super().__init__(env) self.epsilon epsilon_start self.epsilon_end epsilon_end self.epsilon_decay epsilon_decay def _choose_action(self, s): self.epsilon max(self.epsilon_end, self.epsilon*self.epsilon_decay) return super()._choose_action(s)6.2 可视化价值函数def plot_value_function(q_table): v np.max(q_table, axis1).reshape(4,12) plt.imshow(v, cmaphot) plt.colorbar() plt.title(State Value Function) plt.axis(off) for i in range(4): for j in range(12): plt.text(j, i, f{v[i,j]:.1f}, hacenter, vacenter, colorblue)7. 工程实践建议在实际项目中应用这些算法时环境敏感性分析先理解环境特性再选择算法超参数调优系统性地探索参数空间可视化调试价值函数和策略可视化至关重要基准测试与随机策略或规则策略比较稳定性处理考虑使用滑动平均评估性能# 性能评估函数 def evaluate(agent, runs100): total_rewards [] for _ in range(runs): s env.reset() done False rewards 0 while not done: a np.argmax(agent.q_table[s]) # 使用贪婪策略 s, r, done, _ env.step(a) rewards r total_rewards.append(rewards) return np.mean(total_rewards), np.std(total_rewards)通过这个完整的实现和实验过程我们直观地验证了Sarsa的保守特性使其适合安全关键应用Q-Learning在充分探索后能找到最优路径探索率对策略安全性的显著影响可视化在强化学习开发中的重要性

强化学习实战：用Python手搓Sarsa和Q-Learning，在悬崖漫步里看谁更“怂”

相关文章：

强化学习实战：用Python手搓Sarsa和Q-Learning，在悬崖漫步里看谁更“怂”

告别调参噩梦！用Ball k-means在Python里5分钟搞定百万级数据聚类

AI时代版权新范式：智能代理如何重塑数据交易与创作者权益

AI司法应用中的算法公平性：从数据偏见到保护属性选择的技术实践

低代码Agent平台是怎样实现自动化流程编排的？深度拆解2026企业级智能体底层架构

统计学习理论：从VC维到泛化误差，构建稳健CV系统的数学基石

AI社交对话设计：如何避免商业场景中的期望违背与尴尬感

告别K-means！用DBSCAN搞定雷达点云聚类，手把手教你调参（附Matlab代码）

实战指南：用Python和PyTorch一步步搭建TFT模型，搞定电力负荷多步预测

保姆级教程：用Python脚本把UAVDT无人机数据集转成YOLOv5/YOLOv8能用的格式

【2026年阿里巴巴集团暑期实习- 5月23日-算法岗-第二题- 多约束条件下的元素匹配统计】（题目+思路+JavaC++Python解析+在线测试)

基于RNN的数字-实体关系抽取：从非结构化文本中提取结构化信息

机器人导航核心技术：深度感知与传感器融合的工程实践

【2026年阿里巴巴集团暑期实习- 5月23日-算法岗-第一题- 荆棘林的最优砍断计划】（题目+思路+JavaC++Python解析+在线测试)

在VirtualBox里跑Win10，远程桌面连不上？试试这个被忽略的虚拟机专用配置

Evident方法论：用观察、假设、测试构建可复现的数据科学工作流

别再只跑代码了！用泰坦尼克号数据集，手把手教你从EDA到模型调优的完整数据分析实战

告别眨眼误判！用Python+OpenCV优化人脸68关键点疲劳检测的3个实用技巧

数字孪生与视频孪生空间智能治理技术白皮书

视频融合与空间计算先行者

别再傻傻分不清了！用DPABI和Matlab实操，带你搞懂脑影像分析里的ROI和VBM

如何用OpenSpeedy实现单机游戏5倍速运行：完整免费加速教程

SVR模型可视化对比：RBF、线性、多项式核，哪个对你的数据更有效？（Python+Matplotlib实战）

Linux内核安全模块深入剖析【2.5】

LLM多智能体驱动微服务自治：从架构设计到Sock Shop实战评估

别再傻等下载了！手把手教你用wget离线部署sentence-transformers模型（以all-MiniLM-L6-v2为例）

AI赋能工程教育：构建个性化、多元化与伦理驱动的学习生态

量子计算中的ZZ串扰问题与周期感知优化方法

基于RTK-GPS与ResNet50的自主草坪清扫机器人系统设计与实践

布莱克威尔三大定理：从统计理论到AI工程的核心支柱