当前位置：首页 > article >正文

强化学习基础概念图文版笔记

article 2026/2/8 7:22:30

📘 强化学习基础概念图文版笔记

1️⃣ 基本框架：Agent 与 Environment

🧠 核心角色：

Agent（智能体）：做出决策的“大脑”，根据当前状态选择动作。
Environment（环境）：Agent 所处的世界，接收动作并返回下一个状态和奖励。

🔄 工作流程：

Agent 观察 → 环境反馈状态 (state)
Agent 决策 → 选择动作 (action)
环境响应 → 返回奖励 (reward) 和新状态
Agent 更新策略

📌 图形示意：

[Agent] —— action ——> [Environment]<—— reward/state ——

2️⃣ 状态（State） vs 观测（Observation）

概念	描述
State（状态）	环境的完整信息，通常 Agent 不一定能直接观察到
Observation（观测）	Agent 实际看到的信息，可能是 state 的一部分或噪声版本

✅ 在 RLHF 中，prompt 可以视为一种 observation

3️⃣ 动作空间（Action Space）

🧩 定义：

Agent 可以采取的所有动作的集合。

✅ 类型：

离散动作空间：比如上下左右（游戏控制）
连续动作空间：比如力度、角度（机器人控制）

🔍 示例：

在 LLM 中，一个动作可以是一个 token 输出
整个回答就是一系列动作组成的序列

4️⃣ 奖励函数（Reward Function）

🎯 定义：

环境对 Agent 动作的即时反馈，表示这个动作是否“好”。

🧮 示例：

正确回答问题：+1
回答有害内容：-1
长度过长：-0.1

⚠️ 注意：

奖励设计直接影响训练效果
在 RLHF 中，Reward Model 提供打分信号

5️⃣ 策略（Policy）

🧠 定义：

策略是 Agent 的行为规则，即给定状态，输出动作的概率分布。

$\pi(a|s) = P(a_t = a \mid s_t = s)$

📌 举例：

在 prompt “量子计算是什么？” 下，模型可能生成多个回答，策略决定了每个回答被选中的概率

6️⃣ 价值函数（Value Function）

📈 定义：

价值函数衡量某个状态的好坏，代表从该状态出发未来能获得的期望回报。

$V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t r_t \mid s_0 = s \right]$

其中 $\gamma$ 是折扣因子（0 ≤ γ ≤ 1），用于权衡当前奖励和未来奖励。

7️⃣ Q 函数（Action-Value Function）

📈 定义：

Q 函数衡量在某个状态下采取某个动作的价值。

$Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t r_t \mid s_0 = s, a_0 = a \right]$

8️⃣ Advantage 函数（优势函数）

🧠 定义：

Advantage 表示某个动作相对于当前状态平均表现的优势。

$A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s)$

📌 含义：

$ A > 0 $：该动作优于平均水平，应增强其概率
$ A < 0 $：该动作不如平均水平，应降低其概率

9️⃣ 策略梯度方法（Policy Gradient）

🧮 基本思想：

通过梯度上升优化策略参数 $\theta$ ，使期望回报最大化：

$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^T \gamma^t r_t \right]$

梯度更新公式为：

$\nabla_\theta J(\theta) \approx \sum_{t=0}^T \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot A(s_t, a_t)$

🔟 PPO 中的 Advantage 使用方式

📐 Clip 操作的作用：

为了避免策略更新过大导致不稳定，PPO 对 ratio 做裁剪处理：

$r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}$

最终损失函数为：

$L^{\text{PPO}}(\theta) = \mathbb{E}_t\left[\min \left( r_t(\theta) \hat{A}_t,\ \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon)\hat{A}_t \right)\right]$

🔟 什么是 GAE（Generalized Advantage Estimation）？

📌 目标：

GAE 是一种更稳定地估计 Advantage 的方法，通过引入参数 $\lambda$ 来平衡偏差与方差。

🧮 公式（简化理解）：

$\hat{A}_t^{\text{GAE}(\gamma, \lambda)} = \sum_{l=0}^\infty (\gamma \lambda)^l \delta_{t+l}$

其中：

$\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$ 是 TD 误差

🔟 策略优化方法对比表

方法	是否需要 RM	是否需要 RL	是否使用 preference pair	是否支持 SFT	特点
PPO	✅ 需要	✅ 需要	❌ 否	❌ 否	经典强化学习方法
DPO	❌ 不需要	❌ 不需要	✅ 是	❌ 否	偏好优化主流方法
KTO	❌ 不需要	❌ 不需要	✅ 是	❌ 否	结合拒绝采样思想
ORPO	❌ 不需要	❌ 不需要	✅ 是	✅ 是	统一 SFT + Preference
GRPO	❌ 不需要	✅ 是（简化版）	✅ 是	✅ 是	加入引导机制

📌 附录：RLHF 三阶段流程图

1. SFT（Supervised Fine-Tuning）└── 使用人工标注数据进行有监督微调2. RM（Reward Model 训练）└── 使用 preference pair 数据训练 Reward Model3. PPO / DPO / GRPO / ORPO└── 利用 Reward Model 或 preference pair 进行策略优化

📄 总结一句话：

强化学习的核心在于通过奖励信号不断调整策略，使得 Agent 能够学会如何在复杂环境中做出最优决策。

强化学习基础概念图文版笔记

📘 强化学习基础概念图文版笔记 1️⃣ 基本框架：Agent 与 Environment 🧠 核心角色： Agent（智能体）：做出决策的“大脑”，根据当前状态选择动作。Environment（环境&…...

编程日记 2025/11/22 5:50:05

前提已经完成k8s安装已经完成相关组件如helm的安装下载es的chart包如下地址 https://helm.elastic.co/helm/elasticsearch/elasticsearch-版本号.tgz 如6.8.10 https://helm.elastic.co/helm/elasticsearch/elasticsearch-6.8.10.tgz 修改配置修改value.yaml文件…...

编程日记 2025/9/21 4:06:39

WAF绕过，网络层面后门分析，Windows/linux/数据库提权实验

一、WAF绕过文件上传漏洞 win7：10.0.0.168 思路：要想要绕过WAF，第一步是要根据上传的内容找出来被拦截的原因。对于文件上传有三个可以考虑的点：文件后缀名，文件内容，文件类型。第二步是根据找出来的拦截原…...

编程日记 2026/2/7 5:25:04

Oracle杀进程注意事项

文章目录一、哪些后台进程杀死会导致数据库重启二、杀死哪些后台进程会导致数据库关闭三、杀死哪些后台进程对数据库没有影响一、哪些后台进程杀死会导致数据库重启 CKPT：检查点进程，checkpoint 检查点，检查点事件的责任是：标志…...

编程日记 2026/1/30 18:24:11

Vue 3 弹出式计算器组件（源码 + 教程）

🧮 Vue 3 弹出式计算器组件（源码教程） 📌 建议收藏点赞关注，本组件支持加减乘除、双向绑定、计算过程展示，适用于表单辅助输入场景。 🔧 一、完整源码（复制即用） …...

编程日记 2026/2/5 14:55:40

监测预警系统重塑隧道安全新范式

在崇山峻岭的脉络间延伸的隧道，曾是交通安全的薄弱环节。智慧隧道监测预警系统的诞生，正在彻底改变这种被动防御格局，通过数字神经网络的构建，为地下交通动脉注入智能守护基因。一、安全防控体系的质变升级 1.风险感知维度革命…...

编程日记 2026/2/5 15:16:36

solidity中sar和＞＞的区别

sar和>>都是右移操作，其区别简而言之前者保留符号位，后者不保留。要解释清楚这个问题，需要从有符号数和无符号数讲起: 有符号数和无符号数打个比方int8和uint8 uint8（无符号 8 位整数） 取值范围：…...

编程日记 2026/1/14 10:20:00

ESP32与STM32

ESP32与STM32深度对比：物联网与嵌入式开发的王者之争一、核心架构对比 1.1 ESP32 - 无线物联网霸主 // 典型双核架构配置 #include "freertos/FreeRTOS.h" #include "freertos/task.h"void app_main() {// 核心0执行无线通信任务xTaskCreat…...

编程日记 2026/1/14 10:19:58

vue在打包的时候能不能固定assets里的js和css文件名称

在 Vue 项目中（特别是使用 Vue CLI 构建的项目），打包时生成的 assets 目录下的 .js 和 .css 文件默认会带有哈希值（如 app.123abc.js），这是为了缓存优化。但你可以配置固定名称，方法如下&#x…...

编程日记 2026/1/14 10:19:57

用设计模式重新思考(类FSM)验证：从混乱到优雅

在数字设计的世界里，Finite-State Machine（FSM）就像一个城市的交通信号系统。每个状态都有自己的规则，每个转换都需要精确的条件。而对于验证工程师来说，如何优雅地验证这些状态机，一直是个让人头疼的问题。…...

编程日记 2026/1/14 10:19:55

技巧小结：外部总线访问FPGA寄存器

概述需求：stm32的fsmc总线挂载fpga，stm32需要访问fpga内部寄存器 1、分散加载文件将变量存放到指定地址即FPGA寄存器地址 sct文件指定变量存储地址，从而可以直接访问外设，（28335也可以，不过用的是cmd文件…...

编程日记 2026/2/5 14:56:21

Qt客户端技巧 -- 窗口美化 -- 圆角窗口

不解析，直接给代码例子利用窗口重绘事件处理函数paintEvent main.cpp #include <QtCore/qglobal.h> #if QT_VERSION > 0x050000 #include <QtWidgets/QApplication> #else #include <QtGui/QApplication> #endif#include "roundedwin…...

编程日记 2026/1/14 10:19:53

Go语言爬虫系列教程5：HTML解析技术以及第三方库选择

Go语言爬虫系列教程5：HTML解析技术以及第三方库选择在上一章中，我们使用正则表达式提取网页内容，但这种方法有局限性。对于复杂的HTML结构，我们需要使用专门的HTML解析库。在这一章中，我们将介绍HTML解析技术以及如何…...

编程日记 2025/9/7 23:50:13

理解JavaScript中map和parseInt的陷阱：一个常见的面试题解析

前言在JavaScript面试中，map和parseInt的组合常常被用作考察候选人对这两个方法理解深度的题目。让我们通过一个简单的例子来深入探讨其中的原理。问题现象 [1, 2, 3].map(parseInt) // 输出结果是什么？很多人可能会预期输出[1, 2, 3]，但…...

编程日记 2025/10/12 19:58:36

文件上传漏洞深度解析：检测与绕过技术矩阵

文件上传漏洞深度解析：检测与绕过技术矩阵引言：无处不在的文件上传风险在当今的Web应用生态系统中，文件上传功能几乎无处不在。从社交媒体分享图片到企业文档管理系统，用户上传文件已成为现代Web应用的核心功能之一。然而&…...

编程日记 2025/11/22 15:25:38

3.2 HarmonyOS NEXT跨设备任务调度与协同实战：算力分配、音视频协同与智能家居联动

HarmonyOS NEXT跨设备任务调度与协同实战：算力分配、音视频协同与智能家居联动在万物互联的全场景时代，设备间的高效协同是释放分布式系统潜力的关键。HarmonyOS NEXT通过分布式任务调度技术，实现了跨设备算力动态分配与任务无缝流转&#…...

编程日记 2025/11/9 11:58:35

Elasticsearch 海量数据写入与高效文本检索实践指南

Elasticsearch 海量数据写入与高效文本检索实践指南一、引言在大数据时代，企业和组织面临着海量数据的存储与检索需求。Elasticsearch（以下简称 ES）作为一款基于 Lucene 的分布式搜索和分析引擎，凭借其高可扩展性、实时搜索和…...

编程日记 2025/12/28 17:10:59

jenkins集成gitlab发布到远程服务器

jenkins集成gitlab发布到远程服务器前面我们讲了通过创建maven项目部署在jenkins本地服务器，这次实验我们将部署在远程服务器，再以nginx作为前端项目做一个小小的举例 1、部署nginx服务 [rootweb ~]# docker pull nginx [rootweb ~]# docker images …...

编程日记 2026/2/8 6:02:44

AI问答-vue3+ts+vite：http://www.abc.com:3022/m-abc-pc/#/snow 这样的项目在服务器怎么部署

为什么记录有子路径项目的部署，因为，通过子路径可以区分项目，那么也就可以实现微前端架构，并且具有独特优势，每个项目都是绝对隔离的。要将 Vue3 项目（如路径为 http://www.abc.com:3022/m-saas-pc/#/sno…...

编程日记 2025/10/6 0:30:59

当主观认知遇上机器逻辑：减少大模型工程化中的“主观性”模糊

一、人类与机器的认知差异当自动驾驶汽车遇到紧急情况需要做出选择时，人类的决策往往充满矛盾：有人会优先保护儿童和老人，有人坚持"不主动变道"的操作原则。这种差异背后，体现着人类特有的情感判断与价值选择。而机器的…...

编程日记 2026/2/7 4:30:27

会计 - 金融负债和权益工具

一、金融负债和权益工具区分的基本原则（1）是否存在无条件地避免交付现金或其他金融资产的合同义务如果企业不能无条件地避免以交付现金或其他金融资产来履行一项合同义务，则该合同义务符合金融负债的义务。常见的该类合同义务情形包括：- 不能无条件避免的赎回； -强制…...

编程日记 2026/2/5 15:16:26

.net Span类型和Memory类型

.NET 中 Span 类型和 Memory 类型的深度剖析在 .NET 编程的世界里，高效处理内存是提升程序性能的关键。Span<T> 和 Memory<T> 类型的出现，为开发者提供了强大而灵活的工具，用于高效地访问和操作连续内存区域。今天，…...

编程日记 2025/12/1 21:08:17

Dify工具插件开发和智能体开发全流程

想象一下，你正在开发一个 AI 聊天机器人，想让它能实时搜索 Google、生成图像，甚至自动规划任务，但手动集成这些功能耗时又复杂。Dify 来了！这个开源的 AI 应用平台让你轻松开发工具插件和智能体策略插件，快…...

编程日记 2026/2/7 12:03:28

ES6——对象扩展之Set对象

在ES6（ECMAScript 2015）中，Set 对象允许存储任何类型的唯一值，无论是原始值还是对象引用。Set 对象有一些有用的方法，可以操作集合中的数据。以下是一些常用的 Set 对象方法： 方法描述 add 向 Set 对象添加…...

编程日记 2025/12/20 22:35:44

AI书签管理工具开发全记录（十三）：TUI基本框架搭建

文章目录 AI书签管理工具开发全记录（十三）：TUI基本框架搭建前言 📝1.TUI介绍 🔍2. 框架选择 ⚙️3. 功能梳理 🎯4. 基础框架搭建⚙️4.1 安装4.2 参数设计4.3 绘制ui4.3.1 设计结构体4.3.2 创建头部4.3.3 创…...

编程日记 2026/2/5 11:09:31

＜2＞-MySQL库的操作

目录一，创建数据库二，查看字符集和校验规则三，修改数据库四，删除数据库五，备份和恢复数据库六，查看连接一，创建数据库创建一个名为bin_db的数据库，并设置字符集为utf8…...

编程日记 2025/11/22 15:28:08

Apache DolphinScheduler 和 Apache Airflow 对比

Apache DolphinScheduler 和 Apache Airflow 都是开源的工作流调度平台，用于管理和编排复杂的数据处理任务和管道。以下是对两者在功能、架构、使用场景等方面的对比，用中文清晰说明： 1. 概述 Apache DolphinScheduler： 一个分布…...

编程日记 2025/9/19 12:43:54

初识结构体，整型提升及操作符的属性

目录一、结构体成员访问操作符1.1 结构体二、操作符的属性：优先级、结合性2.1 优先级2.2 结合性C 运算符优先级三、表达式求值3.1 整型提升3.2 算数转化总结一、结构体成员访问操作符 1.1 结构体 C语言已经提供了内置类型，如：char,shor…...

编程日记 2026/2/5 11:09:30

检测到 #include 错误。请更新 includePath。已为此翻译单元(D:\软件\vscode\test.c)禁用波形曲线

原文链接：【VScodeMinGw】安装配置教程下载mingw64 打开可以看到bin文件夹下是多个.exe文件，gcc.exe地址在环境配置中要用到原文链接：VSCode中出现“#include错误，请更新includePath“问题，解决方法重新VScode后…...

编程日记 2026/2/5 11:09:27

python --导出数据库表结构(pymysql)

import pymysql from pymysql.cursors import DictCursor from typing import Optional, Dict, List, Anyclass DBSchemaExporter:"""MySQL数据库表结构导出工具，支持提取表和字段注释使用示例:>>> exporter DBSchemaExporter("local…...

编程日记 2025/12/2 17:14:17

📘 强化学习基础概念图文版笔记

1️⃣ 基本框架：Agent 与 Environment

🧠 核心角色：

🔄 工作流程：

📌 图形示意：

2️⃣ 状态（State） vs 观测（Observation）

3️⃣ 动作空间（Action Space）

🧩 定义：

✅ 类型：

🔍 示例：

4️⃣ 奖励函数（Reward Function）

🎯 定义：

🧮 示例：

⚠️ 注意：

5️⃣ 策略（Policy）

🧠 定义：

📌 举例：

6️⃣ 价值函数（Value Function）

📈 定义：

7️⃣ Q 函数（Action-Value Function）

📈 定义：

8️⃣ Advantage 函数（优势函数）

🧠 定义：

📌 含义：

9️⃣ 策略梯度方法（Policy Gradient）

🧮 基本思想：

🔟 PPO 中的 Advantage 使用方式

📐 Clip 操作的作用：

🔟 什么是 GAE（Generalized Advantage Estimation）？

📌 目标：

🧮 公式（简化理解）：

🔟 策略优化方法对比表

📌 附录：RLHF 三阶段流程图

📄 总结一句话：

相关文章：