当前位置：首页 > news >正文

强化学习系列--时序差分学习方法（SARSA算法）

news 2026/2/10 7:57:35

强化学习系列--时序差分学习方法（SARSA算法）

介绍
- 示例代码

介绍

SARSA（State-Action-Reward-State-Action）是一种强化学习算法，用于解决马尔可夫决策过程（MDP）中的问题。SARSA算法属于基于值的强化学习算法，用于学习最优策略。

在SARSA算法中，智能体通过与环境进行交互来学习。它基于当前状态、选择的动作、获得的奖励、下一个状态和下一个动作来更新价值函数（或者动作值函数），并根据更新后的价值函数选择下一个动作。

SARSA算法的更新规则如下：

Q(s, a) = Q(s, a) + α * (r(s,a,s’) + γ * Q(s’, a’) - Q(s, a))

其中，Q(s, a) 表示在状态 s 执行动作 a 的动作值函数，α 是学习率，r 是即时奖励，γ 是折扣因子，s’ 是下一个状态，a’ 是在下一个状态下选择的动作。

SARSA算法的核心思想是根据当前策略进行动作选择，并根据选择的动作和环境的反馈进行更新。它使用一种称为ε-greedy策略的方法，即以ε的概率选择一个随机动作，以1-ε的概率选择当前最优的动作。这样可以在探索和利用之间进行权衡，有助于智能体探索新的状态和动作，并最终学习到最优策略。

SARSA算法的步骤如下：

初始化动作值函数 Q(s, a) 为任意值；
选择初始状态 s；
根据当前策略选择动作 a；
执行动作 a，观察下一个状态 s’ 和即时奖励 r；
根据当前策略选择下一个动作 a’；
更新动作值函数：Q(s, a) = Q(s, a) + α * (r + γ * Q(s’, a’) - Q(s, a))；
将状态更新为下一个状态：s = s’；
将动作更新为下一个动作：a = a’；
重复步骤3到8，直到达到终止状态。

通过不断与环境交互和更新动作值函数，SARSA算法能够逐步学习到最优策略，并在最优策略下获得最大的累积奖励。

示例代码

以下是一个简单的示例代码，演示了如何使用SARSA算法来解决一个简单的强化学习问题：

import numpy as np# 定义环境
num_states = 5
num_actions = 3
Q = np.zeros((num_states, num_actions))  # 动作值函数
rewards = np.array([[-1, 0, -1],  # 状态0的奖励表[-1, -1, 0],  # 状态1的奖励表[0, -1, -1],  # 状态2的奖励表[-1, 0, -1],  # 状态3的奖励表[-1, -1, 0]])  # 状态4的奖励表
gamma = 0.8  # 折扣因子
alpha = 0.1  # 学习率
epsilon = 0.1  # ε-greedy策略的ε值# 定义SARSA算法
def sarsa(num_episodes):for episode in range(num_episodes):state = 0  # 初始状态action = epsilon_greedy(state)  # 初始动作while state != num_states - 1:  # 直到达到终止状态next_state = action  # 下一个状态为当前动作next_action = epsilon_greedy(next_state)  # 下一个动作# 使用SARSA更新动作值函数Q[state, action] += alpha * (rewards[state, action] + gamma * Q[next_state, next_action] - Q[state, action])state = next_stateaction = next_action# ε-greedy策略
def epsilon_greedy(state):if np.random.uniform(0, 1) < epsilon:action = np.random.randint(num_actions)  # 随机选择一个动作else:action = np.argmax(Q[state])  # 选择具有最大动作值的动作return action# 运行SARSA算法
sarsa(num_episodes=100)# 输出结果
print("最优动作值函数：")
print(Q)

这个示例代码是一个简单的强化学习问题，具有5个状态和3个动作。在每个状态下，根据rewards矩阵给出的即时奖励，智能体通过SARSA算法逐步更新动作值函数Q。最后，输出最优的动作值函数Q。

强化学习系列--时序差分学习方法（SARSA算法）

强化学习系列--时序差分学习方法（SARSA算法）

介绍

示例代码

相关文章：

强化学习系列--时序差分学习方法（SARSA算法）

深度学习9:简单理解生成对抗网络原理

adb shell setprop 、开发者选项

性能测试面试问题，一周拿3个offer不嫌多

Android Bitmap压缩

不同子网络中的通信过程

Ubuntu Touch OTA-2 推出，支持 Fairphone 3 和 F(x)tec Pro1 X

【网络】数据链路层——MAC帧协议 | ARP协议

【Spring Boot】Spring Boot自动加载机制：简化应用程序的启动

centos7搭建apache作为文件站后，其他人无法访问解决办法

【开个空调】语音识别+红外发射

【hibernate validator】（二）声明和验证Bean约束

Redis持久化机制之RDB，AOF与混合AOF

为啥外卖小哥宁愿600一月租电动车，也不花2、3千买一辆送外卖！背后的原因......

分布式定时任务框架Quartz总结和实践（2）—持久化到Mysql数据库

Linux 服务器搭建配置，开发效率一飞冲天 - Centos 篇

Day46|leetcode 139.单词拆分

深入理解高并发编程 - Thread 类的 stop () 和 interrupt ()

C语言之三子棋游戏实现篇

jupyter notebook 插件nbextensions的安装

深入剖析AI大模型：大模型时代的 Prompt 工程全解析

《Playwright：微软的自动化测试工具详解》

基于服务器使用 apt 安装、配置 Nginx

Go 语言接口详解

leetcodeSQL解题：3564. 季节性销售分析

如何理解 IP 数据报中的 TTL？

保姆级教程：在无网络无显卡的Windows电脑的vscode本地部署deepseek

解读《网络安全法》最新修订，把握网络安全新趋势

Ubuntu系统复制（U盘-电脑硬盘）

Spring Security 认证流程——补充