当前位置：首页 > news >正文

机器学习 Q-Learning

news 2025/7/8 7:58:05

对马尔可夫奖励的理解

看的这个教程

公式：V(s) = R(s) + γ * V(s’)
V(s) 代表当前状态 s 的价值。
R(s) 代表从状态 s 到下一个状态 s’ 执行某个动作后所获得的即时奖励。
γ 是折扣因子，它表示未来奖励的重要性，通常取值在 0 到 1 之间。
V(s’) 代表下一个状态 s’ 的价值。
理解

如果折扣因子γ为1，那么从现在开始，一直到结束，所有的即时奖励加在一起就是当前状态的价值。所以，现在的价值是以后的所有即时奖励决定的。但是，实际中，γ是0到1的一个小数。就是说，相同的动作，离现在越远，带来的收益越小。还有，我发现，终点是没有价值的，或者他的价值对于算法没有帮助，只是终点前一步到终点这个动作，或者状态转移产生了一个大的奖励。不知道对不对。请大家提出意见。
假设我们把所有的状态价值放在一个shape为（16，4）的表格里，我们把它称为Q表。16代表16个格子，4代表每一个动作。（数字是16，4是因为图片有16个格子，每个格子都能执行四个动作，这里只是举个简单的例子，你有多少种状态和有几个动作都没有关系，可以随便改，只要合理）。初始值都为0。就是说当前所有位置的所有动作的价值都为0。
在这个格子里，我们的目的是走到终点。规则是，每次任意方向走一步，走到终点胜利，走到陷阱，就失败。胜利与失败就结束游戏。胜利，这次游戏的一分，失败则是得-100分。每走一步扣一分。
要知道，Q表的所有格子初始值为0，是不符合现实的，那么，怎么把值逐步更改为现实中对应的值呢？
假设，我们走对了一次，倒数第二个格子，在向终点方向的那个动作就有了价值（不是0了，而且大于0）。
假设，我们走错了一次，那么走错的倒数第二个格子，向陷阱走的那个动作就有了价值，（不是0，并且小于0）。这样打完一局游戏，不论走对还是走错，都会产生1个有价值的格子。如果这个格子不是起点，那就肯定还有倒数第三个格子，根据公式，倒数第三个格子的那个方向价值也能算出来。如果倒数第三个格子不是起点…就这样，一点一点的“辐射”。所有的，走过的格子都有了价值。
假如走到了一个格子，我们只要查Q表，就能知道，往哪里走比较安全，能通向终点，往哪里走比较危险，会掉进陷阱。所以Q表会指引我们，走向正确的道路，避开危险的道路。
算法成立的前提是，有过走成功的经历，这样才会把最终的那个奖励，“扩散”到起点。
实际上，我们不是直接从终点扩散的，而是直接采样足够多的样本，一点点更新Q表。比如，我们采样到一步数据，拿Q表查询当前状态的当前动作的价值（V(s) ）计作A，还有查询下一个状态的价值（V(s’)）计作B。再拿到这一步的奖励R(s)计作R，假设折扣是0.9，那么A = R+0.9*B 。看到没有，是未来的价值决定现在的价值。如果Q表是正确的，这个等式就成立，但是我们会发现有误差，所以，我们得计算出误差（等式右边减去左边），误差 = （R+0.9*B - A）0.1，0.1是学习率，再拿这个误差更新A，就是Q表中，当前的状态这个动作的价值。这样，Q表就会距离理想中的绝对正确的Q表更进一步了。至于为什么有学习率，我的理解是，R+0.9*B这个东西也是估算出来的，不是真正的值，（但是按道理他是和奖励R决定A的），所以只取用他的影响*，不取用他真正的值。**（大家可以谈谈自己的看法，本人能力尚浅）**什么是影响，我也不清楚，可能在这个领域有他的名字，只是我不知道，或者没有察觉出是哪个概念。

关于陷阱的作用

在这里插入图片描述

加入把打叉的都变成陷阱，那么，我们就会更快的到达终点，因为走进陷阱后，Q表就不会让他再次掉进陷阱。所以说，陷阱在某种程度上，帮助我们接近终点。有不同意见，可以提出来，让大家讨论。

代码，上面的链接里有完整版。还有视频，我也是从B站找到的

这个代码在2023-10-11 跑成功过
gym== 0.26.2
python == 3.9
ipython == 8.16.1
ipython-genutils == 0.2.0 （不确定有没有用到）
用的conda（这个倒是无所谓）

import randomimport gym
import numpy as np
from IPython import displayclass NasWrapper(gym.Wrapper):def __init__(self):env = gym.make('FrozenLake-v1',render_mode='rgb_array',is_slippery=False)super(NasWrapper, self).__init__(env)self.env = envdef reset(self):state, _ = self.env.reset()return statedef step(self, action):state, reward, terminated, truncated, info = self.env.step(action)over = terminated or truncatedif not over:reward = -1# elif reward == 1:#     reward = 100if over and reward == 0:reward = -100return state, reward, overdef show(self):from matplotlib import pyplot as pltplt.figure(figsize=(3, 3))plt.imshow(self.env.render())plt.show()nw = NasWrapper()
Q = np.zeros((16, 4))def play(isShow=False):data = []reword_sum = 0state = nw.reset()over = Falsewhile not over:action = Q[state].argmax()if random.random() < 0.1:action = nw.action_space.sample()next_state, reward, over = nw.step(action)reword_sum += rewarddata.append((state, action, reward, next_state, over))state = next_stateif isShow:display.clear_output(wait=True)nw.show()return data, reword_sumclass Pool():def __init__(self):self.pool = []def __len__(self):return len(self.pool)def __getitem__(self, item):return self.pool[item]def update(self):old_len = len(pool)while len(pool) - old_len < 200:self.pool.extend(play()[0])self.pool = self.pool[-10000:]# 获取一批数据样本def sample(self):return random.choice(self.pool)pool = Pool()# pool.update()def train():for epoch in range(100):pool.update()for i in range(100):state, action, reward, next_state, over = pool.sample()value = Q[state, action]target = Q[next_state].max() * 0.9 + rewardupdate = (target - value) * 0.1Q[state, action] += updateif epoch % 100 == 0:print(epoch, len(pool), play()[-1])train()
print("train ok")
print(Q)
play(isShow=True)
# nw.reset()
# while True:
#     inputNumber = input()
#     print("---")
#     nw.step(int(inputNumber))
#     nw.show()

机器学习 Q-Learning

对马尔可夫奖励的理解看的这个教程公式：V(s) R(s) γ * V(s’) V(s) 代表当前状态 s 的价值。 R(s) 代表从状态 s 到下一个状态 s’ 执行某个动作后所获得的即时奖励。 γ 是折扣因子，它表示未来奖励的重要性，通常取值在 0 到 1 之间。…...

编程日记 2023/10/15 4:32:20

产品设计心得体会优漫动游

产品设计需要综合考虑用户需求、市场需求和技术可行性，从而设计出能够满足用户需求并具有市场竞争力的产品。以下是我在产品设计方面的心得体会： 产品设计心得体会 1.深入了解用户需求：在产品设计之前，需要进行充分的用户调研…...

编程日记 2023/10/15 4:31:19

前端--CSS

文章目录 CSS的介绍引入方式代码风格选择器复合选择器 (选学) 常用元素属性背景属性圆角矩形 Chrome 调试工具 -- 查看 CSS 属性元素的显示模式盒模型弹性布局一、CSS的介绍层叠样式表 (Cascading Style Sheets). CSS 能够对网页中元素位置的排版进行像素级精…...

编程日记 2023/10/15 4:30:17

实操指南|如何用 OpenTiny Vue 组件库从 Vue 2 升级到 Vue 3

前言根据 Vue 官网文档的说明，Vue2 的终止支持时间是 2023 年 12 月 31 日，这意味着从明年开始： Vue2 将不再更新和升级新版本，不再增加新特性，不再修复缺陷虽然 Vue3 正式版本已经发布快3年了，但据我了…...

编程日记 2023/10/15 4:27:14

系统架构设计：15 论软件架构的生命周期

目录一软件架构的生命周期 1 需求分析阶段 2 设计阶段 3 实现阶段 4 构件组装阶段...

编程日记 2023/10/15 4:26:13

金山wps golang面试题总结

简单自我介绍如果多个协程并发写map 会导致什么问题如何解决（sync.map，互斥锁，信号量）chan 什么时候会发生阻塞如果 chan 缓冲区满了是阻塞还是丢弃还是panicchan 什么时候会 panic描述一下 goroutine 的调度机制goroutine 什么时…...

编程日记 2023/10/15 4:24:10

计算机视觉实战--直方图均衡化和自适应直方图均衡化

计算机视觉文章目录计算机视觉前言一、直方图均衡化1.得到灰度图2. 直方图统计3. 绘制直方图4. 直方图均衡化二、自适应直方图均衡化1.自适应直方图均衡化（AHE）2.限制对比度自适应直方图均衡化（CRHE）3.读取图片4.自适应直方图均…...

编程日记 2023/10/15 4:23:09

501. 二叉搜索树中的众数 # Definition for a binary tree node. # class TreeNode: # def __init__(self, val0, leftNone, rightNone): # self.val val # self.left left # self.right right class Solution:def findMode(self, root: Option…...

编程日记 2023/10/15 4:21:07

【Linux】常用命令

目录文件解压缩服务器文件互传scprsync 进程资源网络curl发送简单get请求发送 POST 请求发送 JSON 数据保存响应到文件文件 ls,打印当前目录下所有文件和目录; ls -l,打印每个文件的基本信息 pwd,查看当前目录的路径查看文件 catless：可以左右滚动阅读more :翻…...

编程日记 2023/10/15 4:20:06

机器人制作开源方案 | 齿轮传动轴偏心轮摇杆简易四足

1. 功能描述齿轮传动轴偏心轮摇杆简易四足机器人是一种基于齿轮传动和偏心轮摇杆原理的简易四足机器人。它的设计原理通常如下： ① 齿轮传动：通过不同大小的齿轮传动，实现机器人四条腿的运动。通常采用轮式齿轮传动或者行星齿轮传动&#xf…...

编程日记 2023/10/15 4:19:05

Windows中将tomcat以服务的形式安装,然后在服务进行启动管理

Windows中将tomcat以服务的形式安装,然后在服务进行启动管理第一步： 在已经安装好的tomcat的bin目录下： 输入cmd，进入命令窗口安装服务： 输入如下命令，最后是你的服务名，避免中文和特殊字符 service.…...

编程日记 2023/10/15 4:17:03

解决ERROR: No query specified的错误以及\G 和 \g 的区别

文章目录 1. 复现错误2. 分析错误3. 解决问题4. \G和\g的区别 1. 复现错误今天使用powershell连接数据库后，执行如下SQL语句： mysql> select * from student where id 39 \G;虽然成功查询除了数据，但报出如下错误的信息： my…...

编程日记 2023/10/15 4:16:02

mysql中SUBSTRING_INDEX函数用法详解

MySQL中的SUBSTRING_INDEX函数用于从字符串中提取子字符串，其用法如下： SUBSTRING_INDEX(str, delim, count)参数说明： str：要提取子字符串的原始字符串。delim：分隔符，用于确定子字符串的位置。count&am…...

编程日记 2023/10/15 4:15:02

AndroidStudio报错：android.support.v4.app.Fragment

解决办法一 android.support.v4.app.Fragment替换为android.app.Fragment 解决办法二有时太多，先类型过去再说。找到gradle.properties，修改： android.useAndroidXfalse android.enableJetifierfalse...

编程日记 2023/10/15 4:13:00

今年这情况，还能不能选计算机了？

在知乎上看到一个有意思的问题，是劝退计算机的。主要观点： 计算机从业人员众多加班，甚至需要99635岁危机秃头综上所属，计算机不仅卷，而且还是一个高危职业呀，可别来干了。关于卷近两年确实能明显感觉…...

编程日记 2023/10/15 4:08:55

Elastic Cloud v.s. Zilliz Cloud：性能大比拼

Elastic Cloud v.s. Zilliz Cloud：性能大比拼 Zilliz 经常会收到来自开发者和架构师的提问：“Zilliz Cloud 和 Elastic Cloud 比起来，谁进行向量处理能力比较强？” 诸如此类的问题很多，究其根本，大都是开发者/架构师在为语义相似性检索系统进行数据库选型时缺少决策依据有…...

编程日记 2023/10/15 4:07:52

设计模式03———包装器模式 c#

首先我们打开一个项目在这个初始界面我们需要做一些准备工作创建基础通用包创建一个Plane 重置后缩放100倍加一个颜色 （个人喜好）调节渐变色可更改同种颜色的色调 （个人喜好） 调节天空盒准备工作做完后接下我们做【…...

编程日记 2023/10/15 4:06:50

《动手学深度学习 Pytorch版》 8.3 语言模型和数据集

8.3.1 学习语言模型依靠在 8.1 节中对序列模型的分析，可以在单词级别对文本数据进行词元化。基本概率规则如下： P ( x 1 , x 2 , … , x T ) ∏ t 1 T P ( x t ∣ x 1 , … , x t − 1 ) P(x_1,x_2,\dots,x_T)\prod^T_{t1}P(x_t|x_1,\dots,x_{t-1}) …...

编程日记 2023/10/15 4:05:49

Linux桌面环境（桌面系统）

早期的 Linux 系统都是不带界面的，只能通过命令来管理，比如运行程序、编辑文档、删除文件等。所以，要想熟练使用 Linux，就必须记忆很多命令。后来随着 Windows 的普及，计算机界面变得越来越漂亮，点点鼠标…...

编程日记 2023/10/15 4:03:46

【LeetCode刷题（数据结构）】：二叉树的前序遍历

给你二叉树的根节点root 返回它节点值的前序遍历示例1： 输入：root [1,null,2,3] 输出：[1,2,3] 示例 2： 输入：root [] 输出：[] 示例 3： 输入：root [1] 输出：[1] 示例…...

编程日记 2023/10/15 4:01:44

测试微信模版消息推送

进入“开发接口管理”--“公众平台测试账号”，无需申请公众账号、可在测试账号中体验并测试微信公众平台所有高级接口。获取access_token: 自定义模版消息： 关注测试号：扫二维码关注测试号。发送模版消息： import requests da…...

编程新知 2025/7/8 2:12:39

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧一、链表基础概念与内核链表优势1.1 为什么使用链表？1.2 Linux 内核链表与用户态链表的区别二、内核链表结构与宏解析常用宏/函数三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

编程新知 2025/6/21 5:31:03

8k长序列建模，蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

蛋白质结合剂（如抗体、抑制肽）在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上，高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术，但这类方法普遍面临资源消耗巨大、研发周期冗长…...

编程新知 2025/7/6 20:12:25

解锁数据库简洁之道：FastAPI与SQLModel实战指南

在构建现代Web应用程序时，与数据库的交互无疑是核心环节。虽然传统的数据库操作方式（如直接编写SQL语句与psycopg2交互）赋予了我们精细的控制权，但在面对日益复杂的业务逻辑和快速迭代的需求时，这种方式的开发效率和可…...

编程新知 2025/7/7 10:49:48

dedecms 织梦自定义表单留言增加ajax验证码功能

增加ajax功能模块，用户不点击提交按钮，只要输入框失去焦点，就会提前提示验证码是否正确。一，模板上增加验证码 <input name"vdcode"id"vdcode" placeholder"请输入验证码" type"text&quo…...

编程新知 2025/7/7 20:47:23

页面渲染流程与性能优化

页面渲染流程与性能优化详解（完整版） 一、现代浏览器渲染流程（详细说明） 1. 构建DOM树浏览器接收到HTML文档后，会逐步解析并构建DOM（Document Object Model）树。具体过程如下： (…...

编程新知 2025/7/8 6:26:33

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

引言：为什么 Eureka 依然是存量系统的核心？ 尽管 Nacos 等新注册中心崛起，但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制，是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

编程新知 2025/7/6 0:21:40

以光量子为例，详解量子获取方式

光量子技术获取量子比特可在室温下进行。该方式有望通过与名为硅光子学（silicon photonics）的光波导（optical waveguide）芯片制造技术和光纤等光通信技术相结合来实现量子计算机。量子力学中，光既是波又是粒子。光子本…...

编程新知 2025/7/5 12:24:36

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析一、第一轮提问（基础概念问题） 1. 请解释Spring框架的核心容器是什么？它在Spring中起到什么作用？ Spring框架的核心容器是IoC容器&#…...

编程新知 2025/6/16 22:53:40

tomcat入门

1 tomcat 是什么 apache开发的web服务器可以为java web程序提供运行环境tomcat是一款高效，稳定，易于使用的web服务器tomcathttp服务器Servlet服务器 2 tomcat 目录介绍 -bin #存放tomcat的脚本 -conf #存放tomcat的配置文件 ---catalina.policy #to…...

编程新知 2025/7/7 19:44:31

对马尔可夫奖励的理解

关于陷阱的作用

代码，上面的链接里有完整版。还有视频，我也是从B站找到的

相关文章：