当前位置：首页 > news >正文

[machine Learning]强化学习

news 2026/2/9 2:43:33

强化学习和前面提到的几种预测模型都不一样,reinforcement learning更多时候使用在控制一些东西上,在算法的本质上很接近我们曾经学过的DFS求最短路径.

强化学习经常用在一些游戏ai的训练,以及一些比如火星登陆器,月球登陆器等等工程领域,强化学习的内容很简单,本质就是获取状态,决定下一步动作,从而得到更好的分数或者收益,亦或者更低一些的损耗.

1.强化学习的准备(一些概念)

强化学习的本质就是通过一些数据训练,让模型知道什么时候采取什么action能获得更好的return,并且修改自身的state,这样的数据可以写成如下格式

$(s^{i},a^{i},R(s^{i}),a^{i+1})$

第一项为当前的状态 ,

第二项为即将采取的行动 ,

第三项为当前状态得到的奖励 ,

第四项为下一步的动作 ,

这四项就能满足我们对于数据训练和信息检索等等要求 .

回报return:

回报指的是在某个状态,模型能拿到的奖励数值,通常使用R来进行表示. 而r称之为折扣因子,也叫做时间代价.一般情况下,总回报的计算方法为

$returnSum=R_{0}+r*R_{1}+r^{2}*R_{2}.........$

策略action:

策略指的是不同的动作,更改当前的状态.比如直升机当前状态为收到微风,悬停能拿到更好的稳定性,则策略就算加快尾翼转速.

状态state:

这个就不用多说了

状态价值函数Q(s,a):

状态价值函数的值的含义是,在S状态下,选择a动作,最后能拿到的最大总收益

举个例子,我们现在有这样一个情况

我们设定一个小车或者是一些别的东西,在2345四个状态上能拿到的收益都是0,但是在两侧分别能拿到100和40的奖励数值

这个图里,我们在某个位置出发,能达到最大点的情况我们先列出来

(因为只有左右两种走法,很容易计算出来,具体的计算可以用递归实现)

接下来,比如说

Q(3,左)=0+ 0.5*0 + 100* 0.25 =25(我们假设r=0.5)

Q(4,左)=0+ 0.5*0 + 0* 0.25+ 0.125*0 + 0.0625*100=6.25

贝尔曼方程:

贝尔曼方程其实就是一个计算式子,很符合直观逻辑(某种意义上是一个状态转移方程或者递归方程式?)

我们假设

s,a为当前的状态和准备动作,s'和a'为下一个状态和准备动作

$Q(s,a)=R(s)+r*Q(s',a')$

这不就是状态转移方程????

2.关于如何获取数据并且训练

一般来说,我们的每个数组都可以凑成一个元组 $(s^{i},a^{i},R(s^{i}),a^{i+1})$

我们仍然可以用神经网络等等手段进行计算,只要凑出监督学习的数据

$\left\{\begin{matrix} x=(s^{i},a^{i}) & \\ y=R(s^{i})+r*Q(s^{i+1},a^{i+1}) & \end{matrix}\right.$

这样使用一个元组数据就可以获得一个用来计算的数据

将这些数据投入神经网络进行计算即可.

最后再使用训练好的模型的时候,比如说投入一个s和a,我们可以得到预测的y值

从各种预测的y值中,选择一个最好的情况,与之对应的动作a,就是我们应该采取的方案

(end)写在最后

从八月初开始学习机器学习,中途历经回家,做项目,做课程作业,演示汇报等等一系列杂事,终于是在九月初学习完了机器学习基础.

这一系列的博客最开始使用英语写的,但是因为一些原因,我需要加速学完机器学习,所以后面全部使用中文书写了.后面有机会我会搬到其他地方在换成英语.

这个系列的博客有些理解来自我的个人想法,可能不是很正确,也有很多错误.后面的代码实现我计划使用d2l或者pytorch来完成一些简单的模拟.

emm如果有错误希望能够指出来吧,小白感谢各位大神的指正

2023.9.7

[machine Learning]强化学习

强化学习和前面提到的几种预测模型都不一样,reinforcement learning更多时候使用在控制一些东西上,在算法的本质上很接近我们曾经学过的DFS求最短路径. 强化学习经常用在一些游戏ai的训练,以及一些比如火星登陆器,月球登陆器等等工程领域,强化学习的内容很简单,本质就是获取状…...

编程日记 2023/9/11 14:00:11

09-JVM垃圾收集底层算法实现

上一篇：08-JVM垃圾收集器详解 1.三色标记在并发标记的过程中，因为标记期间应用线程还在继续跑，对象间的引用可能发生变化，多标和漏标的情况就有可能发生。这里我们引入“三色标记”来给大家解释下，把Gcroots可达…...

编程日记 2023/9/11 13:59:10

系统软件启动过程

实验一：系统软件启动过程参考重要文件调用顺序 1. boot/bootasm.S | bootasm.asm（修改了名字，以便于彩色显示）a. 开启A20 16位地址线实现 20位地址访问芯片版本兼容通过写键盘控制器8042 的 64h端口与 60h端口。b.…...

编程日记 2023/9/11 13:58:09

【自学笔记】Python中的逻辑函数：any()、all()及同类函数的用法与示例

文章目录 Python中的逻辑函数：any()、all()及其他any()函数使用示例all()函数使用示例其他同类函数Python中的逻辑函数：any()、all()及其他在Python中，any()和all()是两种常用的逻辑函数，它们在处理布尔值（True或False）的集合时非常有用。除此之外，Python还提供了一些其…...

编程日记 2023/9/11 13:57:07

OpenCV的绘图函数，实力绘画篮球场

关键函数：cv2.line()，cv2.circle()，cv2.rectangle()，cv2.ellipse()，cv2.putText() 等。绘制几何形状 import cv2 as cv import numpy as npcv.rectangle()，cv.circle()，cv.line()&#xff0c…...

编程日记 2023/9/11 13:56:06

Java之包装类的算法小题的练习

算法小题练习一： 需求： 键盘录入一些1~10日之间的整数，并添加到集合中。直到集合中所有数据和超过200为止。代码示例： public class Test1 {public static void main(String[] args) {/*键盘录入一些1~10日之间的整数&…...

编程日记 2023/9/11 13:55:06

干涉阵相关知识

文章目录 Dirty ImageDirty BeamClean ImagePoint Spread Function(PSF)Station Beam关系Dirty Image 脏图像（Dirty Image）：脏图像是在射电干涉测量中观测到的图像，它是真实图像和仪器效应（包括PSF和站波束）的组合结果。在射电干涉测量中，观测到的结果被称为“脏图像…...

编程日记 2023/9/11 13:54:04

如何使用Python进行可视化/音视频处理？

要使用Python进行可视化和音视频处理，可以使用以下库： matplotlib：用于绘制各种类型的图表和图形，包括折线图、柱状图、散点图等。 seaborn：基于matplotlib的可视化库，提供更高级别的图表和样式&#xff0…...

编程日记 2023/9/11 13:53:03

NIFI实现数据库数据增量同步

说明 nifi版本：1.23.2（docker镜像） 需求背景将数据库中的数据同步到另一个数据库中，要求对于新增的数据和历史有修改的数据进行增量同步模拟数据建表语句源数据库和目标数据库结构要保持一致，这样可以避免后…...

编程日记 2023/9/11 13:52:01

【C#实战】控制台游戏勇士斗恶龙(3)——营救公主以及结束界面

君兮_的个人主页即使走的再远，也勿忘启程时的初心 C/C 游戏开发 Hello,米娜桑们，这里是君兮_，最近开始正式的步入学习游戏开发的正轨，想要通过写博客的方式来分享自己学到的知识和经验，这就是开设本专栏的目的。希望…...

编程日记 2023/9/11 13:50:59

RBTree模拟实现

一、概念概念：红黑树，是一种二叉搜索树，但在每个结点上增加一个存储位表示结点的颜色，可以是Red或 Black。通过对任何一条从根到叶子的路径上各个结点着色方式的限制，红黑树确保没有一条路径会比其他路径长出俩倍&a…...

编程日记 2023/9/11 13:49:58

AUTOSAR规范与ECU软件开发(实践篇）10.4、AP和CP

目录 1、AP和CP 1、AP和CP 自适应AUTOSAR平台（AP）并不是传统经典AUTOSAR平台（CP）的替代品，不同的版本可同时存在于同一个车辆中，两个ECU间可通过一些途径，例如以太网，将经典应用和自适应性应用进行无缝衔接。简单而言，两者的应用场景不太一样：经典AUTOSAR平…...

编程日记 2023/9/11 13:48:58

css 命名规则

一个有规则的命名会提高代码的可读性一、命名规则说明： 1）、所有的命名最好都小写 2）、属性的值一定要用双引号(“”)括起来 3）、给图片加上alt标签 4）、尽量使用英文命名原则 5）、尽量不缩写&#xff0…...

编程日记 2023/9/11 13:47:57

正中优配：旅游餐饮板块走高，曲江文旅涨停，西安旅游等拉升

旅行餐饮板块7日盘中拉升走高，截至发稿，曲江文旅涨停，西安旅行涨超5%，君亭酒店、华天酒店、国旅联合、宋城演演艺等均上扬。中国旅行研究院数据显现，今年暑期国内旅行人数达18.39亿人次，占全年国内旅行出…...

编程日记 2023/9/11 13:46:56

世界青岛中国海洋大学金秋悦读《乡村振兴战略下传统村落文化旅游设计》2023新学年许少辉八一新书

世界青岛中国海洋大学金秋悦读《乡村振兴战略下传统村落文化旅游设计》2023新学年许少辉八一新书...

编程日记 2023/9/11 13:45:55

15 | Spark SQL 的 SQL API 操作

SQL API：Spark SQL 允许使用标准 SQL 语句来查询和分析数据。用户可以通过 SparkSession 执行 SQL 查询，并将结果返回为 DataFrame。这使得熟悉 SQL 的用户能够方便地使用 Spark SQL 进行数据处理。示例 1: 基本查询执行基本的 SQL 查询，选择数据中的特定列并过滤数据。…...

编程日记 2023/9/11 13:44:54

为什么工作流中围绕XML做EDI报文数据解析/生成？

经常有客户问起，为什么在处理EDI文件时不一次到位，而需要使用多个端口来分次进行处理呢，是不是想要多占用几个端口好多卖钱呀？ 实际上，在一开始的知行EDI产品中，功能还没有这么完善，当时只支持…...

编程日记 2023/9/11 13:43:53

C++的运算符重载介绍

所谓重载，就是赋予新的含义。函数重载（Function Overloading）可以让一个函数名有多种功能，在不同情况下进行不同的操作。运算符重载（Operator Overloading）也是一个道理，同一个运算符可以有不同的功能。实际上，我们已经在不知不觉中使用了运算符重载。例如，+号可以对…...

编程日记 2023/9/11 13:42:52

C++vector的使用

vector的使用 1.vector的介绍2.vector的使用3.Member functions3.1构造函数3.2拷贝构造3.3赋值运算符重载 4.iterator5.capacity6.Element access7.增删查改7.1增7.2删7.3查7.4改 1.vector的介绍 1.vector是表示可变大小数组的序列容器. 2.vector也采用连续空间存储元素&#x…...

编程日记 2023/9/11 13:41:51

angular测试API

1.resetTestEnvironment 是 Angular 测试中的一个函数，用于重置测试环境。它通常与 initTestEnvironment 和 platformBrowserDynamicTesting 一起使用，以确保在多个测试套件之间正确清理和重置 Angular 测试环境。这是 resetTestEnvironment 函数的形式…...

编程日记 2023/9/11 13:40:51

ubuntu搭建nfs服务centos挂载访问

在Ubuntu上设置NFS服务器在Ubuntu上，你可以使用apt包管理器来安装NFS服务器。打开终端并运行： sudo apt update sudo apt install nfs-kernel-server创建共享目录创建一个目录用于共享，例如/shared： sudo mkdir /shared sud…...

编程新知 2026/2/6 23:18:59

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

下面我将详细介绍如何使用HarmonyOS SDK在HarmonyOS 5中实现类似抖音的点赞功能，包括动画效果、数据同步和交互优化。 1. 基础点赞功能实现 1.1 创建数据模型 // VideoModel.ets export class VideoModel {id: string "";title: string ""…...

编程新知 2025/11/14 9:31:35

深入浅出：JavaScript 中的 `window.crypto.getRandomValues()` 方法

深入浅出：JavaScript 中的 window.crypto.getRandomValues() 方法在现代 Web 开发中，随机数的生成看似简单，却隐藏着许多玄机。无论是生成密码、加密密钥，还是创建安全令牌，随机数的质量直接关系到系统的安全性。Jav…...

编程新知 2025/10/8 4:56:09

从深圳崛起的“机器之眼”：赴港乐动机器人的万亿赛道赶考路

进入2025年以来，尽管围绕人形机器人、具身智能等机器人赛道的质疑声不断，但全球市场热度依然高涨，入局者持续增加。以国内市场为例，天眼查专业版数据显示，截至5月底，我国现存在业、存续状态的机器人相关企…...

编程新知 2026/2/8 7:23:45

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

编程新知 2026/1/26 21:56:38

思维导图 1-3 章 4-7章 8-11 章参考资料源码： https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...

编程新知 2026/1/31 14:55:53

【OSG学习笔记】Day 16: 骨骼动画与蒙皮（osgAnimation）

骨骼动画基础骨骼动画是 3D 计算机图形中常用的技术，它通过以下两个主要组件实现角色动画。骨骼系统 (Skeleton)：由层级结构的骨头组成，类似于人体骨骼蒙皮 (Mesh Skinning)：将模型网格顶点绑定到骨骼上，使骨骼移动…...

编程新知 2026/2/1 5:42:50

AI，如何重构理解、匹配与决策？

AI 时代，我们如何理解消费？ 作者｜王彬封面｜Unplash 人们通过信息理解世界。曾几何时，PC 与移动互联网重塑了人们的购物路径：信息变得唾手可得，商品决策变得高度依赖内容。但 AI 时代的来…...

编程新知 2026/1/30 2:33:11

【无标题】路径问题的革命性重构：基于二维拓扑收缩色动力学模型的零点隧穿理论

路径问题的革命性重构：基于二维拓扑收缩色动力学模型的零点隧穿理论一、传统路径模型的根本缺陷在经典正方形路径问题中（图1）： mermaid graph LR A((A)) --- B((B)) B --- C((C)) C --- D((D)) D --- A A -.- C[无直接路径] B -…...

编程新知 2025/10/21 1:07:59

Chromium 136 编译指南 Windows篇：depot_tools 配置与源码获取（二）

引言工欲善其事，必先利其器。在完成了 Visual Studio 2022 和 Windows SDK 的安装后，我们即将接触到 Chromium 开发生态中最核心的工具——depot_tools。这个由 Google 精心打造的工具集，就像是连接开发者与 Chromium 庞大代码库的智能桥梁…...

编程新知 2026/2/8 22:05:17

[machine Learning]强化学习

相关文章：

[machine Learning]强化学习

09-JVM垃圾收集底层算法实现

系统软件启动过程

【自学笔记】Python中的逻辑函数：any()、all()及同类函数的用法与示例

OpenCV的绘图函数，实力绘画篮球场

Java之包装类的算法小题的练习

干涉阵相关知识

如何使用Python进行可视化/音视频处理？

NIFI实现数据库数据增量同步

【C#实战】控制台游戏勇士斗恶龙(3)——营救公主以及结束界面

RBTree模拟实现

AUTOSAR规范与ECU软件开发(实践篇）10.4、AP和CP

css 命名规则

正中优配：旅游餐饮板块走高，曲江文旅涨停，西安旅游等拉升

世界青岛中国海洋大学金秋悦读《乡村振兴战略下传统村落文化旅游设计》2023新学年许少辉八一新书

15 | Spark SQL 的 SQL API 操作

为什么工作流中围绕XML做EDI报文数据解析/生成？

C++的运算符重载介绍

C++vector的使用

angular测试API

ubuntu搭建nfs服务centos挂载访问

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

深入浅出：JavaScript 中的 `window.crypto.getRandomValues()` 方法

从深圳崛起的“机器之眼”：赴港乐动机器人的万亿赛道赶考路

STM32F4基本定时器使用和原理详解

《基于Apache Flink的流处理》笔记

【OSG学习笔记】Day 16: 骨骼动画与蒙皮（osgAnimation）

AI，如何重构理解、匹配与决策？

【无标题】路径问题的革命性重构：基于二维拓扑收缩色动力学模型的零点隧穿理论

Chromium 136 编译指南 Windows篇：depot_tools 配置与源码获取（二）