当前位置：首页 > news >正文

【大数据】机器学习----------强化学习机器学习阶段尾声

news 2025/9/7 18:38:24

一、强化学习的基本概念

注：圈图与折线图引用知乎博主斜杠青年

1. 任务与奖赏

任务：强化学习的目标是让智能体（agent）在一个环境（environment）中采取一系列行动（actions）以完成一个或多个目标。智能体通过与环境进行交互，根据环境的状态（states）选择动作，并根据环境的反馈调整自己的行为。
奖赏：环境会给智能体一个反馈信号，即奖赏（reward），奖赏是一个标量值，代表智能体采取行动后的即时奖励或惩罚。智能体的目标是最大化累积奖赏，通常使用折扣累积奖赏公式：

，其中
是在时刻
获得的奖赏，(\gamma\in[0,1]) 是折扣因子，用于平衡短期和长期奖赏，越接近 0 表示越关注短期奖赏，越接近 1 表示越关注长期奖赏。

二、k-摇臂赌博机

1. 基本概念

k-摇臂赌博机是强化学习中的一个经典问题，它有 (k) 个摇臂，每个摇臂被拉动时会给出一个随机的奖赏。智能体的任务是通过多次试验找到能带来最大累积奖赏的摇臂。

2. 代码示例（(\epsilon)-贪心算法）

import numpy as npdef k_arm_bandit(k, num_steps, epsilon):# 初始化每个摇臂的真实奖赏期望，这里假设服从正态分布true_rewards = np.random.normal(0, 1, k)estimated_rewards = np.zeros(k)num_pulls = np.zeros(k)rewards = []for step in range(num_steps):if np.random.rand() < epsilon:# 以 epsilon 的概率随机选择一个摇臂action = np.random.randint(k)else:# 以 1 - epsilon 的概率选择估计奖赏最大的摇臂action = np.argmax(estimated_rewards)# 从选中的摇臂获得一个随机奖赏，假设服从正态分布reward = np.random.normal(true_rewards[action], 1)rewards.append(reward)# 更新估计奖赏和拉动次数num_pulls[action] += 1estimated_rewards[action] += (reward - estimated_rewards[action]) / num_pulls[action]return rewards# 示例运行
k = 10
num_steps = 1000
epsilon = 0.1
rewards = k_arm_bandit(k, num_steps, epsilon)
print("Total rewards:", np.sum(rewards))

三、有模型学习

1. 基本概念

有模型学习中，智能体尝试学习环境的模型，即状态转移概率 (P(s’|s,a))（从状态 (s) 采取动作 (a) 转移到状态 (s’) 的概率）和奖赏函数 (R(s,a))（在状态 (s) 采取动作 (a) 获得的奖赏）。然后可以使用规划算法（如动态规划）来求解最优策略。

2. 数学公式（Bellman 方程）

状态值函数 (V(s)) 的 Bellman 期望方程：
动作值函数 (Q(s,a)) 的 Bellman 期望方程：
，其中 (\pi(a|s)) 是策略，表示在状态 (s) 下采取动作 (a) 的概率。

3. 代码示例（价值迭代）

import numpy as npdef value_iteration(P, R, gamma, theta):num_states = P.shape[0]num_actions = P.shape[1]V = np.zeros(num_states)while True:delta = 0for s in range(num_states):v = V[s]V[s] = max([sum([P[s][a][s_prime] * (R[s][a] + gamma * V[s_prime])for s_prime in range(num_states)]) for a in range(num_actions)])delta = max(delta, abs(v - V[s]))if delta < theta:breakreturn V# 示例运行
# 假设环境的状态转移矩阵 P 和奖赏矩阵 R
P = np.random.rand(3, 2, 3)  # P[s][a][s_prime]
R = np.random.rand(3, 2)  # R[s][a]
gamma = 0.9
theta = 0.001
V = value_iteration(P, R, gamma, theta)
print("Optimal state values:", V)

四、免模型学习

1. 基本概念

免模型学习不尝试学习环境的完整模型，而是直接学习价值函数或策略函数。常见的方法包括蒙特卡洛（Monte Carlo）、时序差分（Temporal Difference，TD）学习等。

2. 数学公式（TD(0) 更新）

在这里插入图片描述
，其中 (S_t) 和 (S_{t+1}) 是连续的状态，(R_{t+1}) 是从 (S_t) 到 (S_{t+1}) 获得的奖赏，(\alpha) 是学习率。

3. 代码示例（TD(0)）

import numpy as npdef td_0(env, num_episodes, alpha, gamma):V = np.zeros(env.num_states)for _ in range(num_episodes):state = env.reset()done = Falsewhile not done:action = np.random.randint(env.num_actions)  # 这里使用随机策略next_state, reward, done = env.step(action)V[state] += alpha * (reward + gamma * V[next_state] - V[state])state = next_statereturn Vclass SimpleEnvironment:def __init__(self):self.num_states = 5self.num_actions = 2def reset(self):return 0def step(self, action):# 简单模拟环境的状态转移和奖赏，实际应用中需要根据具体环境定义if action == 0:next_state = np.random.choice(self.num_states)reward = np.random.normal(0, 1)else:next_state = np.random.choice(self.num_states)reward = np.random.normal(1, 1)done = False  # 假设不会结束return next_state, reward, done# 示例运行
env = SimpleEnvironment()
num_episodes = 1000
alpha = 0.1
gamma = 0.9
V = td_0(env, num_episodes, alpha, gamma)
print("Estimated state values:", V)

在这里插入图片描述

五、值函数近似

1. 基本概念

当状态空间很大或连续时，使用表格存储值函数变得不可行，因此使用值函数近似。通常使用函数逼近器（如线性函数、神经网络）来表示 (V(s)) 或 (Q(s,a))。

2. 数学公式（线性值函数近似）

(V(s;\theta)=\theta^T\phi(s))，其中 (\theta) 是参数向量，(\phi(s)) 是状态 (s) 的特征向量。

3. 代码示例（线性函数近似）

import numpy as npdef linear_value_approximation(env, num_episodes, alpha, gamma, theta):for _ in range(num_episodes):state = env.reset()done = Falsewhile not done:action = np.random.randint(env.num_actions)  # 随机策略next_state, reward, done = env.step(action)# 特征向量表示phi_state = np.array([state, state**2])phi_next_state = np.array([next_state, next_state**2])target = reward + gamma * np.dot(theta, phi_next_state)delta = target - np.dot(theta, phi_state)theta += alpha * delta * phi_statestate = next_statereturn thetaclass SimpleEnvironment:def __init__(self):self.num_states = 5self.num_actions = 2def reset(self):return 0def step(self, action):# 简单模拟环境的状态转移和奖赏if action == 0:next_state = np.random.choice(self.num_states)reward = np.random.normal(0, 1)else:next_state = np.random.choice(self.num_states)reward = np.random.normal(1, 1)done = False  # 假设不会结束return next_state, reward, done# 示例运行
env = SimpleEnvironment()
num_episodes = 1000
alpha = 0.1
gamma = 0.9
theta = np.random.rand(2)
theta = linear_value_approximation(env, num_episodes, alpha, gamma, theta)
print("Estimated theta:", theta)

六、模仿学习

1. 基本概念

模仿学习旨在让智能体通过模仿专家的行为来学习策略，通常用于解决难以通过奖赏函数定义的任务。包括行为克隆（Behavior Cloning）、逆强化学习（Inverse Reinforcement Learning）等方法。

2. 代码示例（行为克隆）

import numpy as np
from sklearn.linear_model import LogisticRegressiondef behavior_cloning(expert_states, expert_actions):# 假设专家状态和动作是已知的model = LogisticRegression()model.fit(expert_states, expert_actions)return model# 示例运行
expert_states = np.random.rand(100, 2)  # 假设专家状态是二维的
expert_actions = np.random.randint(0, 2, 100)  # 专家动作是 0 或 1
model = behavior_cloning(expert_states, expert_actions)
print("Trained model:", model)

在这里插入图片描述

代码解释

k-摇臂赌博机代码解释：

k_arm_bandit 函数：
true_rewards：每个摇臂的真实期望奖赏。
estimated_rewards：对每个摇臂奖赏的估计。
num_pulls：每个摇臂被拉动的次数。
使用 (\epsilon)-贪心算法，以概率 (\epsilon) 随机选择摇臂，以概率 (1 - \epsilon) 选择估计奖赏最高的摇臂。

有模型学习代码解释：

value_iteration 函数：
P：状态转移矩阵。
R：奖赏矩阵。
通过迭代更新状态值函数 (V(s))，直到收敛（(\Delta < \theta)）。

免模型学习代码解释：

td_0 函数：
V：状态值函数。
通过 TD(0) 更新规则 (V(S_t)\leftarrow V(S_t)+\alpha(R_{t+1}+\gamma V(S_{t+1})-V(S_t))) 来更新值函数。

值函数近似代码解释：

linear_value_approximation 函数：
使用线性函数 (V(s;\theta)=\theta^T\phi(s)) 来近似值函数。
通过更新参数 (\theta) 来学习。

模仿学习代码解释：

behavior_cloning 函数：
使用逻辑回归模型来学习专家的状态 - 动作映射。

算法比对

在这里插入图片描述

请注意，上述代码仅为简单示例，在实际应用中可能需要更复杂的环境和算法调整。同时，对于使用的库，如 numpy 和 sklearn，你可以使用 pip 安装：

pip install numpy sklearn

在这里插入图片描述

【大数据】机器学习----------强化学习机器学习阶段尾声

一、强化学习的基本概念注： 圈图与折线图引用知乎博主斜杠青年 1. 任务与奖赏任务：强化学习的目标是让智能体（agent）在一个环境（environment）中采取一系列行动（actions）以完成一个…...

编程日记 2025/1/26 20:09:59

flink写parquet解决timestamp时间格式字段问题

背景 Apache Parquet 是一种开源的列式数据文件格式，旨在实现高效的数据存储和检索。它提供高性能压缩和编码方案(encoding schemes)来批量处理复杂数据，并且受到许多编程语言和分析工具的支持。在我们通过flink写入parquet文件的时候，会遇到timestamp时间格式写入的问题。…...

编程日记 2025/1/26 20:08:56

redis实现lamp架构缓存

redis服务器环境下mysql实现lamp架构缓存 ip角色环境192.168.242.49缓存服务器Redis2.2.7192.168.242.50mysql服务器mysql192.168.242.51web端php ***默认已安装好redis，mysql 三台服务器时间同步（非常重要） # 下载ntpdate yum -y install…...

编程日记 2025/1/26 20:07:55

正则表达式中常见的贪婪词

1. * 含义：匹配前面的元素零次或者多次。示例：对于正则表达式 a*，在字符串 "aaaa" 中，它会匹配整个 "aaaa"，因为它会尽可能多地匹配 a 字符。代码示例（Python）&#xff1a…...

编程日记 2025/1/26 20:02:51

CF 339A.Helpful Maths(Java实现)

题目分析输入一串式子，输出从小到大排列的式子思路分析如上所说核心思路，但是我要使用笨方法，输入一串式子用split分割开，但是此时需要用到转义字符，即函数内参数不能直接使用“”，而是“\\”。分割开后…...

编程日记 2025/1/26 20:01:49

SQL 指南

SQL 指南引言 SQL（Structured Query Language，结构化查询语言）是一种用于管理关系数据库系统的标准计算机语言。自1970年代问世以来，SQL已经成为了数据库管理和数据操作的事实标准。本文旨在为初学者和有经验的数据库用户提供一个全面的SQL指南，涵盖SQL的基础知识、高级…...

编程日记 2025/1/26 19:58:41

DDD架构实战第七讲总结：分层模型和代码组织

云架构师系列课程之DDD架构实战第七讲总结：分层模型和代码组织一、引言在前几讲中，我们介绍了领域驱动设计（DDD）的基本构造块和生命周期模型中的聚合。本讲将重点讨论如何将这些构造块和代码组织起来，探讨分层架构和六边形模型，以及如何组织代码结构。二、工厂和资…...

编程日记 2025/1/26 19:56:34

Python “字典” 实战案例：5个项目开发实例

Python “字典” 实战案例：5个项目开发实例内容摘要本文包括 5 个使用 Python 字典的综合应用实例。具体是： 电影推荐系统配置文件解析器选票统计与排序电话黄页管理系统缓存系统（LRU 缓存） 以上每一个实例均有完整的程序代…...

编程日记 2025/1/26 19:49:24

（一）QT的简介与环境配置WIN11

目录一、QT的概述二、QT的下载三、简单编程常用快捷键一、QT的概述简介 Qt（发音：[kjuːt]，类似“cute”）是一个跨平台的开发库，主要用于开发图形用户界面（GUI）应用程序，…...

编程日记 2025/1/26 19:47:19

在 Windows 系统上，将 Ubuntu 从 C 盘迁移到 D 盘

在 Windows 系统上，如果你使用的是 WSL（Windows Subsystem for Linux）并安装了 Ubuntu，你可以将 Ubuntu 从 C 盘迁移到 D 盘。迁移过程涉及导出当前的 Ubuntu 发行版，然后将其导入到 D 盘的目标目录。以下是详细的步骤…...

编程日记 2025/1/26 19:45:16

vue2的$el.querySelector在vue3中怎么写

这个也属于直接操作 dom 了，不建议在项目中这样操作，不过我是在vue2升级vue3的时候遇到的，是以前同事写的代码，也没办法先来看一下对比在vue2中获取实例是直接通过 this.$refs.xxx 获取绑定属性 refxxx 的实例，并且…...

编程日记 2025/1/26 19:40:09

GPSd定时检测保活TCP GPS源

为了在 TCP GPS 源丢失连接时自动重新连接，可以编写一个监控脚本，定期检查 gpspipe 输出中的 TCP 源数据是否存在。如果检测到丢失，则使用 gpsdctl 或直接命令重新添加 TCP 源。 1、工具检查并安装必要工具，本例需要使用 gpspi…...

编程日记 2025/1/26 19:37:04

IDEA中Maven使用的踩坑与最佳实践

文章目录 IDEA中Maven使用的踩坑与最佳实践一、环境配置类问题1. Maven环境配置2. IDEA中Maven配置建议二、常见问题与解决方案1. 依赖下载失败2. 依赖冲突解决3. 编译问题修复三、效率提升技巧1. IDEA Maven Helper插件使用2. 常用Maven命令配置3. 多模块项目配置4. 资源文件…...

编程日记 2025/1/26 19:35:01

使用 Python 调用 OpenAI 的接口初识

使用 Python 调用 OpenAI 的接口非常简单，以下将结合实际代码示例和使用场景进行详细讲解，步骤如下： 文章目录 1. 安装 OpenAI 官方库2. 准备 API Key3. 基本使用示例：调用 ChatGPT**代码示例：****运行结果&#xff1a…...

编程日记 2025/1/26 19:31:57

2025 最新flutter面试总结

目录 1.Dart是值传递还是引用传递？ 2.Flutter 是单引擎还是双引擎 3. StatelessWidget 和 StatefulWidget 在 Flutter 中有什么区别？ 4.简述Dart语音特性 5. Navigator 是什么？在 Flutter 中 Routes 是什么？ 6、Dart 是不是…...

编程日记 2025/1/26 19:29:55

【MQ】RabbitMq的可靠性保证

消息队列中的可靠性主要是分为三部分： 消息不丢失：确保消息从生产者发送到消费者消息不丢失消息不重复：确保消息不被重复消费消息顺序性：确保消费的顺序性解决方案主要有以下几部分： 消息不丢失生产者确认机制持久…...

编程日记 2025/1/26 19:27:51

STM32 GPIO配置点亮LED灯

本次是基于STM32F407ZET6做一个GPIO配置，实现点灯实验。新建文件 LED.c、LED.h文件，将其封装到Driver文件中。双击Driver文件将LED.c添加进来编写头文件，这里注意需要将Driver头文件声明一下。在LED.c、main.c里面引入头文件LED.h LED初…...

编程日记 2025/1/26 19:23:46

Flink把kafa数据写入Doris的N种方法及对比。

用Flink+Doris来开发实时数仓，首要解决是如何接入kafka实时流，下面是参考Doris官方文档和代码，在自己项目开发的实践中总结，包括一些容易踩坑的细节。目录 Routine Load方法接入kafka实时数据踩坑的问题细节 Flink Doris Connector方法完整示例 Routine Load方法…...

编程日记 2025/1/26 19:19:42

Vue - 标签中 ref 属性的使用

在 Vue 3 中，ref 属性用于在模板中引用 DOM 元素或组件实例。通过 ref，可以直接访问这些元素或组件的实例，从而进行更复杂的操作，比如获取元素的尺寸、调用组件的方法等。基本语法： <template><div ref&qu…...

编程日记 2025/1/26 19:18:41

leetcode-不同路径问题

一个机器人位于一个 m x n 网格的左上角 （起始点在下图中标记为 “Start” ）。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角（在下图中标记为 “Finish” ）。问总共有多少条不同的路径？ 看见题目…...

编程日记 2025/1/26 19:16:38

Docker 离线安装指南

参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性，不同版本的Docker对内核版本有不同要求。例如，Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本，Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...

编程新知 2025/9/1 18:08:39

微信小程序之bind和catch

这两个呢，都是绑定事件用的，具体使用有些小区别。官方文档： 事件冒泡处理不同 bind：绑定的事件会向上冒泡，即触发当前组件的事件后，还会继续触发父组件的相同事件。例如，有一个子视图绑定了b…...

编程新知 2025/9/7 8:54:08

【Go】3、Go语言进阶与依赖管理

前言本系列文章参考自稀土掘金上的【字节内部课】公开课，做自我学习总结整理。 Go语言并发编程 Go语言原生支持并发编程，它的核心机制是 Goroutine 协程、Channel 通道，并基于CSP（Communicating Sequential Processes&#xff0…...

编程新知 2025/7/11 5:22:11

TRS收益互换：跨境资本流动的金融创新工具与系统化解决方案

一、TRS收益互换的本质与业务逻辑 （一）概念解析 TRS（Total Return Swap）收益互换是一种金融衍生工具，指交易双方约定在未来一定期限内，基于特定资产或指数的表现进行现金流交换的协议。其核心特征包括&am…...

编程新知 2025/8/4 11:36:24

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。本弹重点聚焦于服务端的模块划分与架构设计，提升代码结构的可维护性与扩展性。二、服务端模块设计目标高内聚低耦合：各模块职责清晰，便于独立开发…...

编程新知 2025/7/8 14:06:13

dify打造数据可视化图表

一、概述在日常工作和学习中，我们经常需要和数据打交道。无论是分析报告、项目展示，还是简单的数据洞察，一个清晰直观的图表，往往能胜过千言万语。一款能让数据可视化变得超级简单的 MCP Server，由蚂蚁集团 AntV 团队…...

编程新知 2025/9/7 8:50:34

企业如何增强终端安全？

在数字化转型加速的今天，企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机，到工厂里的物联网设备、智能传感器，这些终端构成了企业与外部世界连接的 “神经末梢”。然而，随着远程办公的常态化和设备接入的爆炸式…...

编程新知 2025/9/3 1:54:06

Hive 存储格式深度解析：从 TextFile 到 ORC，如何选对数据存储方案？

在大数据处理领域，Hive 作为 Hadoop 生态中重要的数据仓库工具，其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式，很多开发者常常陷入选择困境。本文将从底…...

编程新知 2025/8/9 22:34:22

SiFli 52把Imagie图片，Font字体资源放在指定位置，编译成指定img.bin和font.bin的问题

分区配置 (ptab.json) img 属性介绍： img 属性指定分区存放的 image 名称，指定的 image 名称必须是当前工程生成的 binary 。如果 binary 有多个文件，则以 proj_name:binary_name 格式指定文件名， proj_name 为工程名&…...

编程新知 2025/9/2 21:29:46

网站指纹识别

网站指纹识别网站的最基本组成：服务器（操作系统）、中间件（web容器）、脚本语言、数据厍为什么要了解这些？举个例子：发现了一个文件读取漏洞，我们需要读/etc/passwd，如…...

编程新知 2025/9/2 18:41:56

一、强化学习的基本概念

1. 任务与奖赏

二、k-摇臂赌博机

1. 基本概念

2. 代码示例（(\epsilon)-贪心算法）

三、有模型学习

1. 基本概念

2. 数学公式（Bellman 方程）

3. 代码示例（价值迭代）

四、免模型学习

1. 基本概念

2. 数学公式（TD(0) 更新）

3. 代码示例（TD(0)）

五、值函数近似

1. 基本概念

2. 数学公式（线性值函数近似）

3. 代码示例（线性函数近似）

六、模仿学习

1. 基本概念

2. 代码示例（行为克隆）

代码解释

k-摇臂赌博机代码解释：

有模型学习代码解释：

免模型学习代码解释：

值函数近似代码解释：

模仿学习代码解释：

算法比对

相关文章：