当前位置：首页 > news >正文

b站——《【强化学习】一小时完全入门》学习笔记及代码（1-3 多臂老虎机）

news 2025/7/8 10:18:12

问题陈述

我们有两个多臂老虎机（Multi-Armed Bandit），分别称为左边的老虎机和右边的老虎机。每个老虎机的奖励服从不同的正态分布：

左边的老虎机：奖励服从均值为 500，标准差为 50 的正态分布，即 N(500,50)N(500,50)。
右边的老虎机：奖励服从均值为 550，标准差为 100 的正态分布，即 N(550,100)N(550,100)。

我们的目标是使用 ε-greedy 强化学习算法（ε=0.1，初始值为 998）来估计这两个老虎机的奖励期望值。具体来说，我们需要通过多次尝试（拉动手臂）来逐步更新对每个老虎机奖励的估计，最终找到两个老虎机的奖励期望值。

问题分解

目标：
- 使用 ε-greedy 算法估计两个老虎机的奖励期望值。
- 通过多次尝试，逐步更新对每个老虎机奖励的估计。
ε-greedy 算法：
- ε=0.1：表示有 10% 的概率进行随机探索（随机选择一个老虎机），90% 的概率进行利用（选择当前估计奖励最高的老虎机）。
- 初始值=998：表示每个老虎机的初始奖励估计值为 998。
奖励分布：
- 左边的老虎机：N(500,50)N(500,50)
- 右边的老虎机：N(550,100)N(550,100)
输出：
- 经过多次尝试后，输出两个老虎机的奖励期望值的估计结果
- 通过运行代码，我们可以得到一个图表，显示两个老虎机奖励期望估计值随着时间的变化情况。随着拉动次数的增加，两个估计值应该逐渐接近它们各自的真实奖励期望值（500 和 550）。

import numpy as np
import matplotlib.pyplot as plt# 参数初始化
epsilon = 0.1  # ε-greedy算法中的ε
Q1 = 998  # 左边老虎机的奖励期望估计
Q2 = 998  # 右边老虎机的奖励期望估计
n1 = 0  # 左边老虎机的拉动次数
n2 = 0  # 右边老虎机的拉动次数
num_plays = 10000  # 总共拉动的次数# 奖励的真实分布
mu1, sigma1 = 500, 50  # 左边老虎机的真实奖励分布（均值，标准差）
mu2, sigma2 = 550, 100  # 右边老虎机的真实奖励分布（均值，标准差）# 用于存储结果
Q1_estimates = []
Q2_estimates = []# ε-greedy策略的实验
for t in range(num_plays):# 根据ε-greedy策略选择一个老虎机if np.random.random() < epsilon:action = np.random.choice([1, 2])  # 随机选择左或右else:action = 1 if Q1 > Q2 else 2  # 选择当前估计奖励最大的老虎机if action == 1:reward = np.random.normal(mu1, sigma1)  # 从左边老虎机获得奖励n1 += 1Q1 += (reward - Q1) / n1  # 更新左边老虎机的奖励期望估计Q1_estimates.append(Q1)else:reward = np.random.normal(mu2, sigma2)  # 从右边老虎机获得奖励n2 += 1Q2 += (reward - Q2) / n2  # 更新右边老虎机的奖励期望估计Q2_estimates.append(Q2)# 最终的奖励期望估计
print(f"最终左边老虎机的奖励期望估计: {Q1}")
print(f"最终右边老虎机的奖励期望估计: {Q2}")# 绘图
plt.figure(figsize=(12, 6))# 绘制左边老虎机奖励期望估计的变化
plt.plot(Q1_estimates, label="Left Slot Machine (Q1)", color="blue")# 绘制右边老虎机奖励期望估计的变化
plt.plot(Q2_estimates, label="Right Slot Machine (Q2)", color="red")# 绘制真实奖励期望值的参考线
plt.axhline(y=mu1, color="blue", linestyle="--", label="True Q1 (500)")
plt.axhline(y=mu2, color="red", linestyle="--", label="True Q2 (550)")# 图表设置
plt.title("Reward Estimation in ε-greedy Slot Machine Experiment")
plt.xlabel("Number of Plays")
plt.ylabel("Estimated Reward")
plt.legend(loc="best")
plt.grid(True)# 显示图表
plt.show()

显示结果如图：

b站——《【强化学习】一小时完全入门》学习笔记及代码（1-3 多臂老虎机）

问题陈述我们有两个多臂老虎机（Multi-Armed Bandit），分别称为左边的老虎机和右边的老虎机。每个老虎机的奖励服从不同的正态分布： 左边的老虎机：奖励服从均值为 500，标准差为 50 的正态分布，即…...

编程日记 2025/2/12 19:38:07

【Mac排错】ls: command not found 终端命令失效的解决办法

【TroubleShooting on Mac】ls: command not found 终端命令失效的解决办法 A Solution to Solve “Command not found” of Terminal on Mac 一直在使用心爱的MacBook Pro的Terminal，并且为她定制了不同的Profile。这样，看起来她可以在不同季节&…...

编程日记 2025/2/12 19:35:04

探秘Hugging Face与DeepSeek：AI开源世界的闪耀双子星

目录一、引言：AI 开源浪潮的澎湃二、Hugging Face：AI 开源社区的基石（一）起源与发展历程（二）核心技术与特色（三）在 AI 领域的广泛应用三、DeepSeek：东方崛起的 AI 新势…...

编程日记 2025/2/12 19:32:00

SkyWalking 10.1.0 实战：从零构建全链路监控，解锁微服务性能优化新境界

文章目录前言一、集成SkyWalking二、SkyWalking使用三、SkyWalking性能剖析四、SkyWalking 告警推送4.1 配置告警规则4.2 配置告警通知地址4.3 下发告警信息4.4 测试告警4.5 慢SQL查询总结前言在传统监控系统中，我们通过进程监控和日志分析来发现系统问题&…...

编程日记 2025/2/12 19:24:53

本地部署DeepSeek-R1（Mac版）

本地部署DeepSeek-R1（Mac版） 前言：过年这段时间，DeepSeek火遍全球，但遭受黑客攻击，10次对话基本9次都是服务器繁忙，请稍后重试。那么，本地部署整起来总体来说，本地部署…...

编程日记 2025/2/12 19:22:50

网易易盾接入DeepSeek，数字内容安全“智”理能力全面升级

今年农历新年期间，全球AI领域再度掀起了一波革命性浪潮，国产通用大模型DeepSeek凭借其强大的多场景理解与内容生成能力迅速“出圈”，彻底改写全球人工智能产业的格局。作为国内领先的数字内容风控服务商，网易易盾一直致力于探索…...

编程日记 2025/2/12 19:13:40

apachePoi中XSSFClientAnchor图片坐标简述；填充多张图片

概述业务中经常会遇到在单元格内填充图片的需求，而且要求指定图片在单元格内的位置。一般都是用的apache的poi，设置图片坐标。 HSSFClientAnchor(int dx1, int dy1, int dx2, int dy2, short col1, int row1, short col2, int row2)dx1 dy1 起始单元…...

编程日记 2025/2/12 19:12:39

Java、Go、Rust、Node.js 的内存占比及优缺点分析

在选择编程语言进行项目开发时，内存占用是一个重要的考量因素。不同语言在内存管理、垃圾回收、并发模型等方面各有特点，影响着它们的内存使用情况。本文将对 Java、Go、Rust 和 Node.js 的内存占比进行对比，并分析它们的优缺点。 1. Java 的…...

编程日记 2025/2/12 19:10:37

C++智能指针的使用

文章目录智能指针的使用和原理智能指针的使用场景RAII和智能指针C标准库智能指针的使用智能指针的使用和原理智能指针的使用场景 1. 下面的程序中，new了以后，我们也delete了，但是因为抛异常导致后面的delete没有得到执行，所以…...

编程日记 2025/2/12 19:08:34

计算机毕业设计——Springboot的社区维修平台旅游管理

📘 博主小档案： 花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。 🔧 技术专长： 花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更…...

编程日记 2025/2/12 19:07:32

MySQL ALTER 命令详解

MySQL ALTER 命令详解引言 MySQL 是一款广泛使用的开源关系数据库管理系统，ALTER 命令在 MySQL 数据库管理中扮演着至关重要的角色。ALTER 命令用于修改现有的数据库、表或列的定义。本文将详细介绍 MySQL ALTER 命令的用法、功能及其在实际应用中的重要性。 ALTER 命令概…...

编程日记 2025/2/12 19:00:24

QLExpress从入门到放弃,相关API和文档一、属性开关 public class ExpressRunner {private boolean isTrace;private boolean isShortCircuit;private boolean isPrecise; }/*** 是否需要高精度计算*/ private boolean isPrecise false;高精度计算在会计财务中非常重要&…...

编程日记 2025/2/12 18:52:17

Mp4视频播放机无法播放视频-批量修改视频分辨率（帧宽、帧高）

背景家人有一台夏新多功能视频播放器（夏新多功能视频播放器），用来播放广场舞。下载了一些广场舞视频，只有部分视频可以播放，其他视频均无法播放，判断应该不是帧速率和数据速率的限制，分析可能是播放器不支持帧高度大于720的视频。由于视频文件较多，需要借助视频编…...

编程日记 2025/2/12 18:47:12

deepseek大模型集成到idea

1 下载插件安装CodeGPT打开 IntelliJ IDEA，鼠标点击左上角导航栏，File --> Setting 2 申请API key 3 配置deepseek 在 Settings 界面中的搜索框中，搜索 CodeGPT，路径 Tools --> CodeGPT --> Providers --> 如下一…...

编程日记 2025/2/12 18:46:09

AI基础 -- AI学习路径图

人工智能从数学到大语言模型构建教程第一部分：AI 基础与数学准备 1. 绪论：人工智能的过去、现在与未来人工智能的定义与发展简史从符号主义到统计学习、再到深度学习与大模型的变迁本书内容概览与学习路径指引 2. 线性代数与矩阵运算向量与矩阵的…...

编程日记 2025/2/12 18:41:03

在 Visual Studio Code 与微信开发者工具中调试使用 emscripten 基于 C 生成的 WASM 代码

最近在尝试将一些 C/C、Lua 项目挪到 Web 上跑, 接触到了 emscripten. 这里会介绍下在 Visual Studio Code 与微信开发者工具中调试使用 emscripten 基于 C 生成的 WASM 代码 (WebAssembly) 的一些方法. Emscripten 与 WebAssebmly WebAssembly 是一种新的编码方式, 可以在现代…...

编程日记 2025/2/12 18:37:58

elasticsearch实战应用从入门到高效使用java集成es快速上手

Elasticsearch 因其出色的性能、可扩展性和易用性，成为了处理大规模数据和构建搜索引擎的首选工具。本文将通过一个实际案例，详细讲解如何在 Spring Boot 项目中集成 Elasticsearch，进行数据索引、搜索、聚合分析等操作。一、Elasticsearch 简介 Elasticsearch 是一个基于…...

编程日记 2025/2/12 18:36:57

【OneAPI】通过网页预渲染让搜索引擎收录网页

API简介网页预渲染，适用于动态网页以及单页面的SEO，支持网页缓存。您无须更改代码即可让搜索引擎收录您的网页。只要将需要预渲染的页面转发的本接口即可。如果您使用Nginx作为网页服务器，推荐使用以下配置： #您的网站locat…...

编程日记 2025/2/12 18:35:56

【网络安全.渗透测试】Cobalt strike（CS）工具使用说明

目录前言一、工具显著优势二、安装 Java 运行环境三、实验环境搭建要点四、核心操作流程详解（一）环境准备与连接步骤（二）主机上线与深度渗透流程五、其他实用功能应用指南（一）office 宏 payload 应用（二）Https Payload 应用（三）信息收集策略 …...

编程日记 2025/2/12 18:34:53

港中文腾讯提出可穿戴3D资产生成方法BAG，可自动生成服装和配饰等3D资产如，并适应特定的人体模型。

今天给大家介绍一种名为BAG（Body-Aligned 3D Wearable Asset Generation）的新方法，可以自动生成可穿戴的3D资产，如服装和配饰，以适应特定的人体模型。BAG方法通过构建一个多视图图像扩散模型，生成与人体对齐…...

编程日记 2025/2/12 18:30:49

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

编辑：陈萍萍的公主一点人工一点智能未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

编程新知 2025/7/7 13:25:45

高频面试之3Zookeeper

高频面试之3Zookeeper 文章目录高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个？3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制半数机制（过半机制&#xff0…...

编程新知 2025/7/8 9:08:51

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...

编程新知 2025/7/8 7:00:30

全志A40i android7.1 调试信息打印串口由uart0改为uart3

一，概述 1. 目的将调试信息打印串口由uart0改为uart3。 2. 版本信息 Uboot版本：2014.07； Kernel版本：Linux-3.10； 二，Uboot 1. sys_config.fex改动使能uart3(TX:PH00 RX:PH01)，并让boo…...

编程新知 2025/7/7 16:25:34

Python ROS2【机器人中间件框架】简介

销量过万TEEIS德国护膝夏天用薄款优惠券冠生园百花蜂蜜428g 挤压瓶纯蜂蜜巨奇严选鞋子除臭剂360ml 多芬身体磨砂膏280g健70%-75%酒精消毒棉片湿巾1418cm 80片/袋3袋大包清洁食品用消毒优惠券AIMORNY52朵红玫瑰永生香皂花同城配送非鲜花七夕情人节生日礼物送女友热卖妙洁棉…...

编程新知 2025/7/4 0:33:02

R语言速释制剂QBD解决方案之三

本文是《Quality by Design for ANDAs: An Example for Immediate-Release Dosage Forms》第一个处方的R语言解决方案。第一个处方研究评估原料药粒径分布、MCC/Lactose比例、崩解剂用量对制剂CQAs的影响。第二处方研究用于理解颗粒外加硬脂酸镁和滑石粉对片剂质量和可生产…...

编程新知 2025/7/6 17:04:20

iview框架主题色的应用

1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题，无需引入，直接可…...

编程新知 2025/7/8 7:29:21

elementUI点击浏览table所选行数据查看文档

项目场景： table按照要求特定的数据变成按钮可以点击解决方案： <el-table-columnprop"mlname"label"名称"align"center"width"180"><template slot-scope"scope"><el-buttonv-if&qu…...

编程新知 2025/7/4 16:26:43

Qt 事件处理中 return 的深入解析

Qt 事件处理中 return 的深入解析在 Qt 事件处理中，return 语句的使用是另一个关键概念，它与 event->accept()/event->ignore() 密切相关但作用不同。让我们详细分析一下它们之间的关系和工作原理。核心区别：不同层级的事件处理方…...

编程新知 2025/6/10 21:19:52

加密通信 + 行为分析：运营商行业安全防御体系重构

在数字经济蓬勃发展的时代，运营商作为信息通信网络的核心枢纽，承载着海量用户数据与关键业务传输，其安全防御体系的可靠性直接关乎国家安全、社会稳定与企业发展。随着网络攻击手段的不断升级，传统安全防护体系逐渐暴露出局限性&a…...

编程新知 2025/7/5 20:17:27

b站——《【强化学习】一小时完全入门》学习笔记及代码（1-3 多臂老虎机）

问题陈述

问题分解

相关文章：

b站——《【强化学习】一小时完全入门》学习笔记及代码（1-3 多臂老虎机）

【Mac排错】ls: command not found 终端命令失效的解决办法

探秘Hugging Face与DeepSeek：AI开源世界的闪耀双子星

SkyWalking 10.1.0 实战：从零构建全链路监控，解锁微服务性能优化新境界

本地部署DeepSeek-R1（Mac版）

网易易盾接入DeepSeek，数字内容安全“智”理能力全面升级

apachePoi中XSSFClientAnchor图片坐标简述；填充多张图片

Java、Go、Rust、Node.js 的内存占比及优缺点分析

C++智能指针的使用

计算机毕业设计——Springboot的社区维修平台旅游管理

MySQL ALTER 命令详解

02、QLExpress从入门到放弃,相关API和文档

Mp4视频播放机无法播放视频-批量修改视频分辨率（帧宽、帧高）

deepseek大模型集成到idea

AI基础 -- AI学习路径图

在 Visual Studio Code 与微信开发者工具中调试使用 emscripten 基于 C 生成的 WASM 代码

elasticsearch实战应用从入门到高效使用java集成es快速上手

【OneAPI】通过网页预渲染让搜索引擎收录网页

【网络安全.渗透测试】Cobalt strike（CS）工具使用说明

港中文腾讯提出可穿戴3D资产生成方法BAG，可自动生成服装和配饰等3D资产如，并适应特定的人体模型。

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

高频面试之3Zookeeper

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

全志A40i android7.1 调试信息打印串口由uart0改为uart3

Python ROS2【机器人中间件框架】简介

R语言速释制剂QBD解决方案之三

iview框架主题色的应用

elementUI点击浏览table所选行数据查看文档

Qt 事件处理中 return 的深入解析

加密通信 + 行为分析：运营商行业安全防御体系重构