当前位置：首页 > news >正文

强化学习部分代码的注释分析

news 2025/7/7 15:58:51

引言

对一些代码块进行注释。我直接复制过来的，不能运行的话别怪我。

多臂赌博机

代码来自链接。欢迎回到原来的链接学习。

%I thought what I'd do was I'd pretend I was one of those deaf-mutes，or should I ?clear all;
epsilon=[0.5,0.2,0.1,0.02,0.005];  %epsilon概率进行探索（exploration），1-epsilon概率进行利用(exploitation)
m=5; 表示一共有5种情况T=10000; 表示一共运行1万次
%决策机内存初始化
Avegain=zeros(m,5);  % 每种情况，标记当下每一个摇臂的中奖概率
Testtime=zeros(m,5);	% 每种情况下，标记每一个实验摇臂的实验次数
Reward=zeros(5,T);		% 奖励for k=1:mfor i=1:Tif rand(1)<=epsilon(k) %探索num=unidrnd(5);  %随机生成最大为5的正整数，随机选择摇臂else   %利用a=findmax(Avegain(k,:)); % 自主建立函数，选择在当前情况下最大中奖概率的摇臂num=a(2);%选择平均奖赏最大的摇臂。因为是自建函数，这个应该是返回摇臂的序号endr=Slotmachine5(num);% 自建函数，拉下摇杆，获得回报。if i==1                                            %更新累计奖赏Reward(k,i)=r;elseReward(k,i)=(Reward(k,i-1)*(i-1)+r)/i;end        Avegain(k,num)=(Avegain(k,num)*Testtime(k,num)+r)/(Testtime(k,num)+1); %更新所选臂的平均奖赏Testtime(k,num)=Testtime(k,num)+1;                 %更新所选臂的实验次数end
end
result.Testtime=Testtime;
result.Avegain=Avegain;
result.Reward=Reward;
plot(1:10000,Reward);
xlabel('测试次数');
ylabel('平均累计奖赏');
legend('ε=0.5','ε=0.2','ε=0.1','ε=0.02','ε=0.005');

剩下的我相信大家都已经懂了。这就是相信的力量。

风场中的Q-learning

风场中的Q-learning源自网址：

%I thought what I'd do was I'd pretend I was one of those deaf-mutes, or should I?clear all;%风速初始化
Windyworld.windx=zeros(7,10);
Windyworld.windy=zeros(7,10);
Windyworld.windy(:,4:9)=Windyworld.windy(:,4:9)+1;  % 定义风速向量（在4-9之间为x=0,  y=1）targetxy=[6,8];                 %!!注意：第一个坐标为y坐标，第二个坐标为x坐标  终点坐标alpha=0.5;
gamma=0.99;                     
Tloop=6000;                       %总学习循环次数
mark=zeros(1,Tloop);             %记录是否成功%迭代为二重时间循环
Q_func=zeros(7,10,4);            %!!三维值函数矩阵：（z=1：+x）（z=2：-x）（z=3：+y）（z=4：-y）  初始化定义Q表格
Q_func(:,:,1)=0.2;               %size(B),ndims(B)
Q_func(targetxy(1),targetxy(2),:)=0;     %目标值的所有Q函数始终为0for Ts=1:Tloop                   %Ts=study time%单次运动初始化rolexy=[4,1];  % 初始化出发result(Ts).Q_func=zeros(7,10,4); % result(Ts).trace=zeros(40,3);result(Ts).trace(1,:)=([1,rolexy(1),rolexy(2)]);for Tm=1:40% 按照策略获得到达下一步的动作。这其中包括智能体选择动作的ε-greedy策略，函数名tcegreedy，Ts为训练次数，Q_func(rolexy(1),rolexy(2),:)为当下Q表格的内容；act=tcegreedy(Ts,Q_func(rolexy(1),rolexy(2),:));% 智能体在风的影响下运动，函数名movement；输入参数包括，选择的动作act，当下的位置rolexy以及风速运行的方位Windyworldnextxy=movement(act,rolexy,Windyworld);%TD算法进行策略值迭代%计算reward% 计算，如果到达目标则返回奖励；超出边界则返回惩罚，没有超出边界且没到达目标则返回0奖励  if nextxy(1)==targetxy(1)&&nextxy(2)==targetxy(2)  %到达目标reward=5;else if nextxy(1)<1||nextxy(1)>7||nextxy(2)<1||nextxy(2)>10 %超出边界reward=-1;elsereward=0;end                     %reward不考虑超出步数的问题end%计算下一步的策略函数最大值%Qlearning方式进行Q函数更新，更新Q值中所用的s'状态下动作与实际在s'状态下做出动作不一定相同（因为e-greedy的存在）if nextxy(1)<1||nextxy(1)>7||nextxy(2)<1||nextxy(2)>10 %超出边界Q1=0;elseQ1=max(Q_func(nextxy(1),nextxy(2),:));endQ_func(rolexy(1),rolexy(2),act)=(1-alpha)*Q_func(rolexy(1),rolexy(2),act)+alpha*(reward+gamma*Q1);%更新坐标rolexy=nextxy;result(Ts).trace(Tm+1,:)=([Tm+1,rolexy(1),rolexy(2)]);%判断是否跳出本episodeif rolexy(1)==targetxy(1)&&rolexy(2)==targetxy(2)mark(Ts)=1;   % 如果到达目标，则返回成功标记break;else if rolexy(1)<1||rolexy(1)>7||rolexy(2)<1||rolexy(2)>10break;    % 否则出界，直接退出endend        endresult(Ts).Q_func=Q_func;
endAvegain=zeros(1,Tloop);
for i=1:TloopAvegain(i)=sum(mark(1:i))/i;  % 返回不同时期的成功概率
end

强化学习部分代码的注释分析

引言对一些代码块进行注释。我直接复制过来的，不能运行的话别怪我。多臂赌博机代码来自链接。欢迎回到原来的链接学习。 %I thought what Id do was Id pretend I was one of those deaf-mutes，or should I ?clear all; epsilon[0.5,0.2,0.1,0.0…...

编程日记 2024/10/6 23:51:58

ctf.bugku-备份是个好习惯

访问页面得到字符串这串字符串是重复的； d41d8cd98f00b204e9800998ecf8427e 从前端、源码上看，除了这段字符串，没有其他信息；尝试解密，长度32位；各种解密方式试试； MD5免费在线解密破解_MD5在…...

编程日记 2024/10/6 23:47:55

C++面试速通宝典——14

220. static关键字的作用 ‌‌‌‌　　static关键字在编程中有多种作用： 在类的成员变量前使用，表示该变量属于类本身，而不是任何类的实例。在类的成员函数前使用，表示该函数不需要对象实例即可调用，且只能访问类的静…...

编程日记 2024/10/6 23:45:53

k8s的简介和部署

一、k8s简介在部署应用程序的方式上面，主要经历了三个阶段： 传统部署:互联网早期，会直接将应用程序部署在物理机上优点:简单，不需要其它技术的参与缺点:不能为应用程序定义资源使用边界，很难合理地分配计算资源&…...

编程日记 2024/10/6 23:41:49

Thingsboard 网关实战 modbus通信 rpc下发控制指令

我们这里说的是Thingsboard通过网关modbus通信接入设备，然后通过rpc下发指令去控制开关信号的设备，不会网关通过modbus接入设备的，可以看我之前的文章，从小白教学。下面我们就说如何下发rpc开关信号指令第一步.在modbus配置文…...

编程日记 2024/10/6 23:40:48

import pandas as pd import numpy as np import torch import matplotlib import matplotlib.pyplot as plt from torch.utils.data import TensorDataset, DataLoadermatplotlib.use(tkAgg)# 设置图形配置 config {"font.family": serif,"mathtext.fontset&q…...

编程日记 2024/10/6 23:39:47

MySQL 实验 7：索引的操作

MySQL 实验 7：索引的操作索引是对数据表中一列或多列的值进行排序的一种结构，索引可以大大提高 MySQL 的检索速度。合理使用索引，可以大大提升 SQL 查询的性能。索引好比是一本书前面的目录，假如我们需要从书籍查找与 xx 相关…...

编程日记 2024/10/6 23:38:46

为Floorp浏览器添加搜索引擎及搜索栏相关设置. 2024-10-05

Floorp浏览器开源项目地址: https://github.com/floorp-Projects/floorp/ 1.第一步为Floorp浏览器添加搜索栏 (1.工具栏空白处次键选择定制工具栏 (2. 把搜索框拖动至工具栏 2.添加搜索引擎以添加搜狗搜索为例 (1.访问搜索引擎网址搜狗搜索引擎 - 上网从搜狗开始 (2…...

编程日记 2024/10/6 23:37:45

如何设置WSL Ubuntu在Windows开机时自动启动

如何设置WSL Ubuntu在Windows开机时自动启动步骤详解1. 创建批处理脚本2. 添加到Windows启动项注意事项结语在使用Windows Subsystem for Linux (WSL) 时,我们可能希望Ubuntu能够在Windows启动时自动运行。本文将介绍如何实现这一功能,让您的开发环境更加便捷。步骤详解 …...

编程日记 2024/10/6 23:36:44

使用TensorBoard可视化模型

目录 TensorBoard简介神经网络模型可视化轮次-损失曲线轮次-准确率曲线轮次-学习率曲线迭代-评估准确率曲线迭代-评估损失曲线 TensorBoard简介 TensorBoard是一款出色的交互式的模型可视化工具。安装TensorFlow时，会自动安装TensorBoard。如图： TensorFlow可…...

编程日记 2024/10/6 23:27:33

《深度学习》OpenCV 图像拼接原理、参数解析、案例实现

目录一、图像拼接 1、直接看案例图1与图2展示： 合并完结果： 2、什么是图像拼接 3、图像拼接步骤 1）加载图像 2）特征点检测与描述 3）特征点匹配 4）图像配准 5）图像变换和拼接 6&am…...

编程日记 2024/10/6 23:26:32

Hive数仓操作（三）

一、Hive 数据库操作 1. 创建数据库基本创建数据库命令： CREATE DATABASE bigdata;说明： 数据库会在 HDFS 中以目录的形式创建和保存，数据库名称会存储在 Hive 的元数据中。如果不指定目录，数据库将在 /user/hive/warehouse 下…...

编程日记 2024/10/6 23:23:29

TDSQL-C电商可视化，重塑电商决策新纪元

前言： 在数字化浪潮席卷全球的今天，电子商务行业以其独特的魅力和无限潜力，成为了推动全球经济增长的重要引擎。然而，随着业务规模的急剧扩张，海量数据的涌现给电商企业带来了前所未有的挑战与机遇。如何高效地处理、…...

编程日记 2024/10/6 23:22:28

翔云 OCR：发票识别与验真

在数字化时代，高效处理大量文档和数据成为企业和个人的迫切需求。翔云 OCR 作为一款强大的光学字符识别工具，在发票识别及验真方面表现出色，为我们带来了极大的便利。一、翔云 OCR 简介翔云 OCR 是一款基于先进的人工智能技术开发的文字识别…...

编程日记 2024/10/6 23:21:26

HTML ASCII：Web 开发中的字符编码基础

HTML ASCII：Web 开发中的字符编码基础 ASCII，全称为美国信息交换标准代码（American Standard Code for Information Interchange），是一种用于电子通信的字符编码标准。它最初于1963年提出，用于在不同的计算…...

编程日记 2024/10/6 23:19:23

Meta 首个多模态大模型一键启动！首个多针刺绣数据集上线，含超 30k 张图片

小扎在 Meta Connect 2024 主题演讲中宣布推出首个多模态大模型 Llama 3.2 vision！该模型有 11B 和 90B 两个版本，成为首批支持多模态任务的 Llama 系列模型，根据官方数据，这两个开原模型的性能已超越闭源模型。小编已经迫不及待…...

编程日记 2024/10/6 23:18:22

阿里云ECS服务器仿真

1.首先使用qemu-img对RAW镜像进行转换，qemu-img convert -O vmdk 1.raw 2.vmdk 2.使用WinHex对镜像的root密码进行删除 3.由于这次阿里云ECS使用了CONFIG_SYSTEM_TRUSTED_KEYS验证，无法直接仿真，需使用live系统对内核进行修改。分为以下几步&…...

编程日记 2024/10/6 23:17:21

如何为树莓派安装操作系统，以及远程操控树莓派的两种方法，无线操控和插网线操控

文章目录一、下载树莓派的系统二、将文件下载到SD卡中1.使用官方软件2.其他选择三、远程连接电脑安装vnc-viewer1.无线操作（配置树莓派，开启VNC）电脑远程配置2.有线连接（需要一根网线） 总结一、下载树莓派的系统下…...

编程日记 2024/10/6 23:15:19

【最新华为OD机试E卷-支持在线评测】简单的自动曝光(100分)多语言题解-(Python/C/JavaScript/Java/Cpp)

🍭 大家好这里是春秋招笔试突围，一枚热爱算法的程序员 💻 ACM金牌🏅️团队｜大厂实习经历｜多年算法竞赛经历 ✨ 本系列打算持续跟新华为OD-E/D卷的多语言AC题解 🧩 大部分包含 Python / C / Javascript / Java / Cpp 多语言代码 👏 感谢大家的订阅➕ 和喜欢�…...

编程日记 2024/10/6 23:14:16

每日一练：等差数列划分

413. 等差数列划分 - 力扣（LeetCode） 题目要求： 如果一个数列至少有三个元素 ，并且任意两个相邻元素之差相同，则称该数列为等差数列。例如，[1,3,5,7,9]、[7,7,7,7] 和 [3,-1,-5,-9] 都是等差数列。给…...

编程日记 2024/10/6 23:09:12

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章传送阵>> 点我查看说明：假设每台服务器已…...

编程新知 2025/7/7 11:02:25

Qt/C++开发监控GB28181系统/取流协议/同时支持udp/tcp被动/tcp主动

一、前言说明在2011版本的gb28181协议中，拉取视频流只要求udp方式，从2016开始要求新增支持tcp被动和tcp主动两种方式，udp理论上会丢包的，所以实际使用过程可能会出现画面花屏的情况，而tcp肯定不丢包，起码…...

编程新知 2025/7/6 3:45:35

rknn优化教程（二）

文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK，开始写第二篇的内容了。这篇博客主要能写一下： 如何给一些三方库按照xmake方式进行封装，供调用如何按…...

编程新知 2025/6/11 15:25:30

大数据零基础学习day1之环境准备和大数据初步理解

学习大数据会使用到多台Linux服务器。一、环境准备 1、VMware 基于VMware构建Linux虚拟机是大数据从业者或者IT从业者的必备技能之一也是成本低廉的方案所以VMware虚拟机方案是必须要学习的。 （1）设置网关打开VMware虚拟机，点击编辑…...

编程新知 2025/7/4 2:40:04

Go 语言接口详解

Go 语言接口详解核心概念接口定义在 Go 语言中，接口是一种抽象类型，它定义了一组方法的集合： // 定义接口 type Shape interface {Area() float64Perimeter() float64 } 接口实现 Go 接口的实现是隐式的： // 矩形结构体…...

编程新知 2025/7/7 11:11:25

智能分布式爬虫的数据处理流水线优化：基于深度强化学习的数据质量控制

在数字化浪潮席卷全球的今天，数据已成为企业和研究机构的核心资产。智能分布式爬虫作为高效的数据采集工具，在大规模数据获取中发挥着关键作用。然而，传统的数据处理流水线在面对复杂多变的网络环境和海量异构数据时，常出现数据质…...

编程新知 2025/7/5 23:55:13

GC1808高性能24位立体声音频ADC芯片解析

1. 芯片概述 GC1808是一款24位立体声音频模数转换器（ADC），支持8kHz~96kHz采样率，集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器，适用于高保真音频采集场景。 2. 核心特性高精度：24位分辨率&#xff0c…...

编程新知 2025/7/7 12:16:45

PHP 8.5 即将发布：管道操作符、强力调试

前不久，PHP宣布了即将在 2025 年 11 月 20 日正式发布的 PHP 8.5！作为 PHP 语言的又一次重要迭代，PHP 8.5 承诺带来一系列旨在提升代码可读性、健壮性以及开发者效率的改进。而更令人兴奋的是，借助强大的本地开发环境 ServBay&am…...

编程新知 2025/7/4 12:14:45

如何应对敏捷转型中的团队阻力

应对敏捷转型中的团队阻力需要明确沟通敏捷转型目的、提升团队参与感、提供充分的培训与支持、逐步推进敏捷实践、建立清晰的奖励和反馈机制。其中，明确沟通敏捷转型目的尤为关键，团队成员只有清晰理解转型背后的原因和利益，才能降低对变化的…...

编程新知 2025/7/4 13:13:42

通过MicroSip配置自己的freeswitch服务器进行调试记录

之前用docker安装的freeswitch的，启动是正常的， 但用下面的Microsip连接不上主要原因有可能一下几个 1、通过下面命令可以看 [rootlocalhost default]# docker exec -it freeswitch fs_cli -x "sofia status profile internal"Name …...

编程新知 2025/7/5 23:47:44

强化学习部分代码的注释分析

引言

多臂赌博机

风场中的Q-learning

相关文章：

强化学习部分代码的注释分析

ctf.bugku-备份是个好习惯

C++面试速通宝典——14

k8s的简介和部署

Thingsboard 网关实战 modbus通信 rpc下发控制指令

基于pytorch的手写数字识别

MySQL 实验 7：索引的操作

为Floorp浏览器添加搜索引擎及搜索栏相关设置. 2024-10-05

如何设置WSL Ubuntu在Windows开机时自动启动

使用TensorBoard可视化模型

《深度学习》OpenCV 图像拼接原理、参数解析、案例实现

Hive数仓操作（三）

TDSQL-C电商可视化，重塑电商决策新纪元

翔云 OCR：发票识别与验真

HTML ASCII：Web 开发中的字符编码基础

Meta 首个多模态大模型一键启动！首个多针刺绣数据集上线，含超 30k 张图片

阿里云ECS服务器仿真

如何为树莓派安装操作系统，以及远程操控树莓派的两种方法，无线操控和插网线操控

【最新华为OD机试E卷-支持在线评测】简单的自动曝光(100分)多语言题解-(Python/C/JavaScript/Java/Cpp)

每日一练：等差数列划分

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

Qt/C++开发监控GB28181系统/取流协议/同时支持udp/tcp被动/tcp主动

rknn优化教程（二）

大数据零基础学习day1之环境准备和大数据初步理解

Go 语言接口详解

智能分布式爬虫的数据处理流水线优化：基于深度强化学习的数据质量控制

GC1808高性能24位立体声音频ADC芯片解析

PHP 8.5 即将发布：管道操作符、强力调试

如何应对敏捷转型中的团队阻力

通过MicroSip配置自己的freeswitch服务器进行调试记录