动手学强化学习-记录
3.5 蒙特卡洛方法

统计每一个状态s出现的总次数和总回报,用大数定律,总回报/总次数≈状态s的期望回报
第4章 动态规划算法
策略迭代中的策略评估使用贝尔曼期望方程来得到一个策略的状态价值函数,这是一个动 态规划的过程;而价值迭代直接使用贝尔曼最优方程来进行动态规划,得到最终的最优状态价值函数。
基于动态规划的这两种强化学习算法要求事先知道环境的状态转移函数和奖励函数,也就是需要知道整个马尔可夫决策过程。在这样一个白盒环境中,不需要通过智能体和环境的大量交互来学习,可以直接用动态规划求解状态价值函数。但是现实中的白盒环境很少,这也是动态规划算法的局限之处,我们无法将其运用到很多实际场景中。
动态规划不是使用的时序差分思想,计算每一个状态S的最大Q作为下一个动作,当误差最大的那个状态S的误差小于阙值时停止。因为要计算所有状态 s 下的所有 Q(s,a)价值,所以需要对全部状态迭代多次完成收敛
策略迭代是策略评估和策略提升不断循环交替,直至最后得到最优策略的过程
1. 策略评估
2. 策略提升

如果只在策略评估中进行一轮价值更新,然后直接根据更新后的价值进行策略提升, 这样是否可以呢?答案是肯定的,这其实就是本节将要讲解的价值迭代算法,它可以被认为是 一种策略评估只进行了一轮更新的策略迭代算法。
价值迭代
1. 如果只在策略评估中进行一轮价值更新,然后直接根据更新后的价值进行策略提升, 这样是否可以呢?答案是肯定的,这其实就是本节将要讲解的价值迭代算法,它可以被认为是 一种策略评估只进行了一轮更新的策略迭代算法


5.3 Sarsa算法
Q_table记录每一个表格位置的所有动作价值,初始值都等于0
根据公式计算Q(S,a),状态和动作必须配对,更新Q是更新的Q(S,a),不同Q(S,a)对应迭代公式中不同动作a的值

5.4 多步Sarsa算法
多步时序差分的意思是使用n步的奖励,然后使用之后状态的价值估计

当前在s,当采集够n步(s,a,r,s',a')时,计算一次当前s的Q_table

5.5 Q-learning 算法
用S‘最大Q的动作a所在状态作为目标值,取未来状态的最大Q值,不依赖当前策略的动作选择
![]()

后面计算的时候取所有动作中的maxQ作为目标target,而Sarsa是(s,a)匹配的
Sarsa和Q-learing区别
Sarsa更保守而Q-learing更激进,因为前者会考虑不利动作的风险,而后者只盲目选择最大Q的动作,不考虑会以epsilon概率选择其他动作的风险,在悬崖漫步问题中,Q-learing绕远会降低收益,而紧靠悬崖走收益最大,而Sarsa会考虑到掉进悬崖的风险。
相关文章:
动手学强化学习-记录
3.5 蒙特卡洛方法 统计每一个状态s出现的总次数和总回报,用大数定律,总回报/总次数≈状态s的期望回报 第4章 动态规划算法 策略迭代中的策略评估使用贝尔曼期望方程来得到一个策略的状态价值函数,这是一个动 态规划的过程;而价值迭代直接使用贝尔曼最…...
RocketMQ性能优化篇
在分布式消息系统中,RocketMQ以其高性能、高可靠性和高可扩展性而被广泛应用。然而,为了充分发挥其性能优势,需要进行一系列的性能测试和优化。本文将从性能测试方法和优化实践两个方面,详细介绍如何对RocketMQ进行性能优化。通过…...
C语言为例谈数据依赖性
数据依赖性(Data Dependency)是指程序中后续操作的计算结果或内存访问依赖于前面操作的结果。在存在数据依赖的情况下,编译器或处理器会保证这些操作的执行顺序,因此不需要显式地使用内存屏障(Memory Barrierÿ…...
阿里云操作系统控制台评测:国产AI+运维 一站式运维管理平台
阿里云操作系统控制台评测:国产AI运维 一站式运维管理平台 引言 随着云计算技术的飞速发展,企业在云端的运维管理面临更高的要求。阿里云操作系统控制台作为一款集运维管理、智能助手和系统诊断等多功能于一体的工具,正逐步成为企业高效管理…...
C++中的const与类型转换艺术
目录 强制转换 static_cast const_cast reinterpret_cast dynamic_cast const关键字 修饰内置类型* 修饰指针类型* 类比 数组指针 指针数组 函数指针 指针函数 强制转换 C语言中的强制转换在C代码中依然可以使用,这种C风格的转换格式非常简单 TYPE a …...
网络安全演练有哪些形式
OPENVAS使用 1、确定指定IP是否能ping通 2、创建扫描目标 3、创建扫描任务(scan management →newtask) 4、开始任务start 5、查看扫描细节 6、查看扫描结果,包含漏洞详细信息,亦可到处PDF文件 7、导出扫描结果报告 8、为…...
c++常用的算术生成算法
注意: 算术生成算法属于小型算法,使用时包含的头文件为 #include <numeric> 算法简介: accumulate //计算容器元素累加总和fill //向容器中添加元素 1. accumulate 功能描述: 计算区间内 容器元素…...
2011. 执行操作后的变量值
执行操作后的变量值 题目描述尝试做法推荐做法 题目描述 存在一种仅支持 4 种操作和 1 个变量 X 的编程语言: X 和 X 使变量 X 的值 加 1 –X 和 X-- 使变量 X 的值 减 1 最初,X 的值是 0 给你一个字符串数组 operations ,这是由操作组成的…...
特辣的海藻!10
基础知识点 1.清除换行符 scan.nextInt()要加scan.nextLine()清楚换行符。 2.Map.Entry<K, V> Map.Entry是Map接口的嵌套接口,表示一个键值对(Key-Value) 常用方法: entry.getKey():获取键 …...
SpringBoot动态加载JAR包实战:实现插件化架构的终极指南
在需要热插拔业务模块、支持灰度发布的系统中,动态加载外部JAR包是提升系统扩展性的核心技术。本文将手把手实现3种动态加载方案,包含可直接运行的SpringBoot代码,并深入分析类加载机制与内存泄漏预防策略。 一、动态加载的应用场景 电商…...
双因素拆解法 - 分析比例型指标的因子贡献度
什么是比例型指标 比例型指标是指那些以比例或比率形式表示的指标,通常涉及两个相关量的比较。以下是一些常见的比例型指标的例子: 毛利率:毛利率是毛利与销售收入的比率,公式为: 毛利率 毛利 销售收入 100 % \tex…...
sqli-lab靶场学习(八)——Less26-28
前言 25关已经出现了初步的一些关键字过滤,通过双写可以绕过。后面的关卡,我们会遇到更多关键字过滤,需要各种技巧绕过。 Less26 第26关写了会过滤空格和注释符。有很多的答案,会用%a0替代空格,但据说这是sqli-labs部…...
Netty基础—4.NIO的使用简介二
大纲 1.Buffer缓冲区 2.Channel通道 3.BIO编程 4.伪异步IO编程 5.改造程序以支持长连接 6.NIO三大核心组件 7.NIO服务端的创建流程 8.NIO客户端的创建流程 9.NIO优点总结 10.NIO问题总结 4.伪异步IO编程 (1)BIO的主要问题 (2)BIO编程模型的改进 (3)伪异步IO编程 …...
双指针算法专题之——复写零
文章目录 题目介绍思路分析异地复写优化为就地复写 AC代码 题目介绍 链接: 1089. 复写零 思路分析 那么这道题我们依然可以使用双指针算法来解决 异地复写 先不考虑题目的要求,直接就地在原数组上修改,可能不太好想,我们这里可以先在一个…...
【Pandas】pandas Series last_valid_index
Pandas2.2 Series Time Series-related 方法描述Series.asfreq(freq[, method, how, …])用于将时间序列数据转换为指定的频率Series.asof(where[, subset])用于返回时间序列中指定索引位置的最近一个非缺失值Series.shift([periods, freq, axis, …])用于将时间序列数据沿指…...
python-leetcode-子数组最大平均数 I
643. 子数组最大平均数 I - 力扣(LeetCode) 可以使用滑动窗口(Sliding Window)的方法来解决这个问题。具体步骤如下: 先计算数组 nums 中前 k 个元素的和 sum_k,作为初始窗口的和。然后滑动窗口࿰…...
【度的数量——数位DP】
题目 分析 数位DP可以解决“区间内满足某种性质的数的个数”的问题 通常按照数位分支,形成一颗数位树 最左分支的值由上界值决定,右分支可以直接计算权重 有可能最左分支会有一个权重 代码 #include <bits/stdc.h> using namespace std;cons…...
STM32使用EXTI触发进行软件消抖(更新中)
在STM32的HAL库中,为了实现按键的软件消抖,通常需要在按键中断处理或轮询程序中加入一定的延时和状态检测逻辑。以下是一个简单的示例,展示了如何使用HAL库来实现按键的软件消抖。 假设你有一个按键连接到GPIO引脚,并且已经配置好…...
计算机操作系统进程(3)
系列文章目录 第二章:进程的描述与控制 文章目录 系列文章目录前言一、进程同步的基本概念:二、临界资源:总结 前言 前面我们学习了进程的定义和特征,进程状态的转换,接下来我们开始学习我们最重要的一点也是相对最难…...
搭建阿里云专有网络VPC
目录 一、概述 二、专有网络vpc 2.1 vpc基本信息 2.2 vpc资源管理 2.3 vpc网段管理 三、交换机 四、NAT网关 4.1 绑定弹性公网IP 4.2 NAT网关信息 4.3 绑定的弹性公网IP 4.4 DNAT 4.5 SNAT 五、弹性公网IP 六、访问控制ACL(绑定交换机) 6…...
centos steam8 部署k8s
kubernetes搭建 文章目录 kubernetes搭建[toc] 准备工作(三节点)安装docker(三节点)安装cri-dockerd(三节点)添加阿里云软件源(三节点)安装kubeadm、kubelet、kubectl(三节点)初始化…...
DB2 字符串比较 (= 或 IN) 时,忽略末尾的空格踩坑与解决方法
一、问题描述 在 DB2 中,VARCHAR 类型的字段在 字符串比较 ( 或 IN) 时会忽略末尾的空格,这可能导致查询结果与预期不符。例如: SELECT * FROM t_user WHERE id IN (016110110000011763); 如果 id 字段中存储的值为016110110000011763 &…...
windows系统,pycharm运行.sh文件
博主亲身试验过,流程简单,可用。 需要pycharm ,git。 注意需要Git Bash.exe ,也就是Git Bash的应用程序,而不是快捷方式。 需要把这个应用程序的路径复制一下。可以通过右键,复制文件地址的方式。 接着在…...
论文调研 | 一些开源的AI代码生成模型调研及总结【更新于250313】
本文主要介绍主流代码生成模型,总结了基于代码生成的大语言模型,按照时间顺序排列。 在了解代码大语言模型之前,需要了解代码相关子任务 代码生成 文本生成代码(Text to code):根据自然语言描述生成代码 重构代码(Refactoring …...
筛选法找质数(信息学奥赛一本通-2040)
【题目描述】 用筛法求出n(2≤n≤1000)以内的全部质数。 【输入】 输入n。 【输出】 多行,由小到大的质数。 【输入样例】 10 【输出样例】 2 3 5 7 【题解代码】 #include<bits/stdc.h> using namespace std;const int N 1e3 10; int nums[N];void isprim…...
第5关:猴子爬山
任务描述 本关任务:一个顽猴在一座有n级台阶的小山上爬山跳跃,猴子上山一步可跳1级,或跳3级,试求上山的n级台阶有多少种不同的爬法。 编程要求 根据提示,在右侧编辑器补充代码,求上山的n级台阶有多少种不同…...
保险项目的基本流程
保险项目的基本流程通常包括以下几个阶段,涵盖从产品设计到理赔的完整生命周期: 1. 保险产品设计与开发 市场调研:分析目标客户需求、市场趋势、监管要求。产品设计:确定保障范围、保险责任、保费计算方式、免责条款等。风险评估…...
Unity Timeline 扩展
这里认为大家已经会timeline的基本使用了,只介绍怎么自定义扩展。 第一步.自定义Track 首先要自定义一条轨道。剪辑是要在轨道里跑的,系统自带的轨道我们加不了自定义剪辑,得新建自己用的。这个很简单。 [TrackClipType(typeof(TransformTw…...
qt介绍信号槽一
信号和槽时qt框架中事件处理的一种机制,qt是基于窗口框架的程序,基于窗口框架额程序都是基于事件的,本质信号对应的就是一个事件,槽对应事件处理的动作。信号槽机制类似于设计模式力的观察者模式。观察者模式就是我一直观察是否有…...
【linux】解决 Linux 系统中 root 用户无法打开图形界面问题
【linux】解决 Linux 系统中 root 用户无法打开图形界面问题 问题描述: 在 Linux 系统中,当我们远程SSH尝试以 root 用户身份运行需要图形界面的应用程序时,可能会遇到以下错误信息: MoTTY X11 proxy: Unsupported authorisati…...

