当前位置：首页 > article >正文

b站——《【强化学习】一小时完全入门》学习笔记及代码（1-3 多臂老虎机）

article 2026/4/25 4:04:34

问题陈述

我们有两个多臂老虎机（Multi-Armed Bandit），分别称为左边的老虎机和右边的老虎机。每个老虎机的奖励服从不同的正态分布：

左边的老虎机：奖励服从均值为 500，标准差为 50 的正态分布，即 N(500,50)N(500,50)。
右边的老虎机：奖励服从均值为 550，标准差为 100 的正态分布，即 N(550,100)N(550,100)。

我们的目标是使用 ε-greedy 强化学习算法（ε=0.1，初始值为 998）来估计这两个老虎机的奖励期望值。具体来说，我们需要通过多次尝试（拉动手臂）来逐步更新对每个老虎机奖励的估计，最终找到两个老虎机的奖励期望值。

问题分解

目标：
- 使用 ε-greedy 算法估计两个老虎机的奖励期望值。
- 通过多次尝试，逐步更新对每个老虎机奖励的估计。
ε-greedy 算法：
- ε=0.1：表示有 10% 的概率进行随机探索（随机选择一个老虎机），90% 的概率进行利用（选择当前估计奖励最高的老虎机）。
- 初始值=998：表示每个老虎机的初始奖励估计值为 998。
奖励分布：
- 左边的老虎机：N(500,50)N(500,50)
- 右边的老虎机：N(550,100)N(550,100)
输出：
- 经过多次尝试后，输出两个老虎机的奖励期望值的估计结果
- 通过运行代码，我们可以得到一个图表，显示两个老虎机奖励期望估计值随着时间的变化情况。随着拉动次数的增加，两个估计值应该逐渐接近它们各自的真实奖励期望值（500 和 550）。

import numpy as np
import matplotlib.pyplot as plt# 参数初始化
epsilon = 0.1  # ε-greedy算法中的ε
Q1 = 998  # 左边老虎机的奖励期望估计
Q2 = 998  # 右边老虎机的奖励期望估计
n1 = 0  # 左边老虎机的拉动次数
n2 = 0  # 右边老虎机的拉动次数
num_plays = 10000  # 总共拉动的次数# 奖励的真实分布
mu1, sigma1 = 500, 50  # 左边老虎机的真实奖励分布（均值，标准差）
mu2, sigma2 = 550, 100  # 右边老虎机的真实奖励分布（均值，标准差）# 用于存储结果
Q1_estimates = []
Q2_estimates = []# ε-greedy策略的实验
for t in range(num_plays):# 根据ε-greedy策略选择一个老虎机if np.random.random() < epsilon:action = np.random.choice([1, 2])  # 随机选择左或右else:action = 1 if Q1 > Q2 else 2  # 选择当前估计奖励最大的老虎机if action == 1:reward = np.random.normal(mu1, sigma1)  # 从左边老虎机获得奖励n1 += 1Q1 += (reward - Q1) / n1  # 更新左边老虎机的奖励期望估计Q1_estimates.append(Q1)else:reward = np.random.normal(mu2, sigma2)  # 从右边老虎机获得奖励n2 += 1Q2 += (reward - Q2) / n2  # 更新右边老虎机的奖励期望估计Q2_estimates.append(Q2)# 最终的奖励期望估计
print(f"最终左边老虎机的奖励期望估计: {Q1}")
print(f"最终右边老虎机的奖励期望估计: {Q2}")# 绘图
plt.figure(figsize=(12, 6))# 绘制左边老虎机奖励期望估计的变化
plt.plot(Q1_estimates, label="Left Slot Machine (Q1)", color="blue")# 绘制右边老虎机奖励期望估计的变化
plt.plot(Q2_estimates, label="Right Slot Machine (Q2)", color="red")# 绘制真实奖励期望值的参考线
plt.axhline(y=mu1, color="blue", linestyle="--", label="True Q1 (500)")
plt.axhline(y=mu2, color="red", linestyle="--", label="True Q2 (550)")# 图表设置
plt.title("Reward Estimation in ε-greedy Slot Machine Experiment")
plt.xlabel("Number of Plays")
plt.ylabel("Estimated Reward")
plt.legend(loc="best")
plt.grid(True)# 显示图表
plt.show()

显示结果如图：

b站——《【强化学习】一小时完全入门》学习笔记及代码（1-3 多臂老虎机）

问题陈述我们有两个多臂老虎机（Multi-Armed Bandit），分别称为左边的老虎机和右边的老虎机。每个老虎机的奖励服从不同的正态分布： 左边的老虎机：奖励服从均值为 500，标准差为 50 的正态分布，即…...

编程日记 2026/4/21 15:18:21

数据结构与算法之排序算法-插入排序

排序算法是数据结构与算法中最基本的算法之一，其作用就是将一些可以比较大小的数据进行有规律的排序，而想要实现这种排序就拥有很多种方法~ 那么我将通过几篇文章，将排序算法中各种算法细化的，详尽的为大家呈现出来： &…...

编程日记 2026/4/11 23:31:51

基于YoloV11和驱动级鼠标模拟实现Ai自瞄

本文将围绕基于 YoloV11 和驱动级鼠标实现 FPS 游戏 AI 自瞄展开阐述。需要着重强调的是，本文内容仅用于学术研究和技术学习目的。严禁任何个人或组织将文中所提及的技术、方法及思路应用于违法行为，包括但不限于在各类游戏中实施作弊等违规操作。若因违…...

编程日记 2026/4/11 20:58:24

【核心特性】从鸭子类型到Go的io.Writer设计哲学

在编程语言的设计中，鸭子类型和接口设计是两种非常重要的理念。它们都强调了对象的行为和能力，而非其具体的类型或继承关系。Go 语言的io.Writer 接口是这种设计理念的典型代表，它通过简洁的接口定义，实现了强大的功能和灵活性。 …...

编程日记 2026/2/17 2:37:54

InfiniBand与IP over InfiniBand（IPOIB）：实现高性能网络通信的底层机制

在现代高性能计算（HPC）和数据中心环境中，网络通信的效率和性能至关重要。InfiniBand（IB）作为一种高性能的串行计算机总线架构，以其低延迟、高带宽和高可靠性而广泛应用于集群计算和数据中心。IP over InfiniBand（IPOIB）则是在InfiniBand网络上实现IP协议的一种方式，它…...

编程日记 2026/2/23 0:22:45

vue2和vue3插槽slot最通俗易懂的区别理解

在 Vue 的组件通信中，slot（插槽）的编译优化是一个重要的性能提升点。以下是 Vue2 和 Vue3 在 slot 处理上的差异及优化原理，用更直观的方式解释： Vue2 的 Slot 更新机制想象一个父子组件场景： 父组件&am…...

编程日记 2026/2/9 5:58:36

在 Go 中实现事件溯源：构建高效且可扩展的系统

事件溯源（Event Sourcing）是一种强大的架构模式，它通过记录系统状态的变化（事件）来重建系统的历史状态。这种模式特别适合需要高可扩展性、可追溯性和解耦的系统。在 Go 语言中，事件溯源可以通过一些简单的…...

编程日记 2026/2/17 1:51:10

七、I2C通信读取LM75B温度

7.1 概述 I2C（Inter-Integrated Circuit）是一种同步、多主从、串行通信协议，由飞利浦公司开发，主要用于短距离通信，尤其在集成电路之间。 7.1.1 主要特点两线制：仅需SDA（数据线）…...

编程日记 2026/4/12 12:41:40

Python 调用 Azure OpenAI API

在人工智能和机器学习快速发展的今天，Azure OpenAI 服务为开发者提供了强大的工具来集成先进的 AI 能力到他们的应用中。本文将指导您如何使用 Python 调用 Azure OpenAI API，特别是使用 GPT-4 模型进行对话生成。准备工作在开始之前，请确保您已经：拥有一个 Azure 账户…...

编程日记 2026/2/18 20:38:06

Spring Boot 配置JPA数据库主从读写分离失败及解决办法

因为是老项目, Spring Boot 是1.4, 使用 AbstractRoutingDataSource 来做主从切换, 配置切面类在进入事务时切换成主库, 但实际运行起来却失败, 写操作路由到了从库查了很多文章, 试了很多方法都无效, 包括修改注解 Transactional 的 propagation 属性, 清空主从标记等等打…...

编程日记 2026/2/16 23:08:15

基于华为云镜像加速器的Docker环境搭建与项目部署指南

基于华为云镜像加速器的Docker环境搭建与项目部署指南一、安装Docker1.1 更新系统包1.2 安装必要的依赖包1.3 移除原有的Docker仓库配置（如果存在）1.4 添加华为云Docker仓库1.5 安装Docker CE1.6 启动Docker服务1.7 验证Docker是否安装成功1.8 添加华为云镜像加速器地址二、…...

编程日记 2026/2/17 1:22:51

讲解下SpringBoot中MySql和MongoDB的配合使用

在Spring Boot中，MySQL和MongoDB可以配合使用，以充分发挥关系型数据库和非关系型数据库的优势。MySQL适合处理结构化数据，而MongoDB适合处理非结构化或半结构化数据。以下是如何在Spring Boot中同时使用MySQL和MongoDB的详细讲解。 1. 添加依…...

编程日记 2026/2/16 18:10:14

CSS 属性选择器详解与实战示例

CSS 属性选择器是 CSS 中非常强大且灵活的一类选择器，它能够根据 HTML 元素的属性和值来进行精准选中。在实际开发过程中，属性选择器不仅可以提高代码的可维护性，而且能够大大优化页面的样式控制。本文将结合菜鸟教程的示例，从基础…...

编程日记 2026/4/13 22:16:17

2025 游戏试玩打码平台PHP源码

源码介绍 2025 游戏试玩打码平台PHP源码开发语言：PHP 数据库：MySQL 源码程序采用yii框架phpMysql语言开发功能完善，无后门程序功能有: 1.游戏试玩功能 2.广告体验功能 3.打码功能 4.新人任务 5.开启宝箱功能 6.站长联盟功能 7.兑换商城功…...

编程日记 2026/4/19 8:48:04

【Matlab算法】基于人工势场的多机器人协同运动与避障算法研究（附MATLAB完整代码）

📚基于人工势场的多机器人协同运动与避障算法研究摘要1. 引言2. 方法说明2.1 人工势场模型2.2 运动控制流程3. 核心函数解释3.1 主循环结构3.2 力计算函数4. 实验设计4.1 参数配置4.2 测试场景5. 结果分析5.1 典型运动轨迹5.2 性能指标6. 总结与建议成果总结改进方向附录：完…...

编程日记 2025/5/26 2:34:01

自动化办公|xlwings 数据类型和转换

xlwings 数据类型和转换：Python 与 Excel 的桥梁在使用 xlwings 进行 Python 和 Excel 数据交互时，理解两者之间的数据类型对应关系至关重要。本篇将详细介绍 Python 数据类型与 Excel 数据类型的对应关系，以及如何进行数据类型转换。一、…...

编程日记 2026/2/17 12:25:14

北斗导航 | 基于多假设解分离（MHSS）模型的双星故障监测算法（MATLAB代码实现——ARAIM）

===================================================== github：https://github.com/MichaelBeechan CSDN：https://blog.csdn.net/u011344545 ===================================================== 双星故障监测算法一、多星故障MHSS模型流程1、数据预处理2、构建假设模…...

编程日记 2026/4/23 19:56:11

部署 ollama + deepseek + open-webui 遇到的常见问题与解决建议

前言前面部署了 ollama deepseek open-webui 这里聊聊部署过程中遇到的一些问题和解决方案。包含 ollama 容器部署和本地部署中所遇问题和解决方案。 1. ollama proxy 网络代理问题 ollama 容器部署用不了 http https 的 proxy 代理（配全局都没用&#xf…...

编程日记 2026/4/14 6:32:59

sql难点

一、假设你有一个查询，需要根据 id 是否为 null 来动态生成 SQL 条件： xml复制 <select id"getResources" resultType"Resource">SELECT * FROM resources<where><if test"id ! null">and id <!…...

编程日记 2026/4/20 0:16:45

oracle表分区--范围分区

文章目录 oracle表分区分区的原因分区的优势oracle表分区的作用oracle表分区类型一、范围分区二、创建分区表和使用：1、按照数值范围划分2、按照时间范围3、MAXVALUE2. 向现有表添加新的分区3、分区维护和重新组织（合并/删除） oracle表分区…...

编程日记 2026/4/24 21:22:07

mysql读写分离与proxysql的结合

上一篇文章介绍了mysql如何设置成主从复制模式，而主从复制的目的，是为了读写分离。读写分离，拿spring boot项目来说，可以有2种方式： 1）设置2个数据源，读和写分开使用 2）使用中间件…...

编程日记 2026/4/11 20:55:58

elment-plus的表单的其中一项通过了验证再去走别的函数怎么写，不是全部内容通过验证

<template> <el-form ref"formRef" :model"formData" :rules"formRules"> <el-form-item label"身份证号" prop"idCard"> <el-input v-model"formData.idCard" blur"getDetail()"…...

编程日记 2026/2/17 7:12:56

蓝桥杯试题：归并排序

一、问题描述在一个神秘的岛屿上，有一支探险队发现了一批宝藏，这批宝藏是以整数数组的形式存在的。每个宝藏上都标有一个数字，代表了其珍贵程度。然而，由于某种神奇的力量，这批宝藏的顺序被打乱了，探险队…...

编程日记 2026/2/17 4:00:28

Untiy3d 铰链、弹簧，特殊的物理关节

（一）铰链组件 1.创建一个立方体和角色胶囊 2.给角色胶囊挂在控制脚本和刚体 using System.Collections; using System.Collections.Generic; using UnityEngine;public class plyer : MonoBehaviour {// Start is called once before the first execut…...

编程日记 2026/4/11 20:58:54

Visual Studio 进行单元测试【入门】

摘要：在软件开发中，单元测试是一种重要的实践，通过验证代码的正确性，帮助开发者提高代码质量。本文将介绍如何在VisualStudio中进行单元测试，包括创建测试项目、编写测试代码、运行测试以及查看结果。 1. 什么是单元测…...

编程日记 2026/4/11 20:56:00

Leetcode - 周赛435

目录一、3442. 奇偶频次间的最大差值 I二、3443. K 次修改后的最大曼哈顿距离三、3444. 使数组包含目标值倍数的最少增量四、3445. 奇偶频次间的最大差值 II 一、3442. 奇偶频次间的最大差值 I 题目链接本题使用数组统计字符串 s s s 中每个字符的出现次数，然后…...

编程日记 2026/4/18 18:40:22

CentOS本机配置为时间源

CentOS本机配置为时间源安装chrony，默认已安装修改配置文件 /etc/chrony.conf客户端配置安装chrony，默认已安装 yum -y install chrony修改配置文件 /etc/chrony.conf # cat /etc/chrony.conf | grep -Ev "^$|#" server ceph00 iburst dri…...

编程日记 2025/11/10 4:09:05

算法之数论

文章目录质数判断质数3115.质数的最大距离质数筛选204.计数质数2761.和等于目标值的质数对 2521.数组乘积中的不同质因数数目质数质数的定义：除了本身和1，不能被其他小于它的数整除，最小的质数是 2 求解质数的几种方法法1，根…...

编程日记 2026/4/21 9:26:00

Android车机DIY开发之软件篇(十二) AOSP12下载编译

Android车机DIY开发之软件篇(十二) AOSP12下载编译 sudo apt-get update sudo apt-get install git-core gnupg flex bison gperf build-essential zip curl zlib1g-dev gcc-multilib gmultilib libc6-dev-i386 lib32ncurses5-dev libx11-dev lib32z-dev ccache libgl1-mesa-…...

编程日记 2026/2/17 2:00:22

docker 导出导入

1第一步骤docker save docker save -o database-export-4.1.0.tar database-export-4.1.0.jar:latest 2检查镜像ls -l, 注意：文件可能没有其他文件导出权限：chmod 644 database-export-4.1.0.tar 3在新的服务器导入： docker load -i databa…...

编程日记 2026/4/21 14:52:07

问题陈述

问题分解

相关文章：