当前位置：首页 > news >正文

强化学习（一）简介

news 2025/7/9 7:37:35

在这里插入图片描述

强化学习这一概念在历史上来源于行为心理学，来描述生物为了趋利避害而改变自己行为的学习过程。人类学习的过程其实就是为达到某种目的不断地与环境进行互动试错，比如婴儿学习走路。强化学习算法探索了一种从交互中学习的计算方法。

1、强化学习

强化学习算法的逻辑是，如何将接收的信息映射到行为从而获得最多的奖励。学习者只能通过不断尝试来发现哪些行为会产生最多的奖励，注意：当前的行为不仅会影响当前，还会影响未来，因此会影响所有随后的奖励。因此强化学习有两个重要的特征：试错搜索与延迟奖励。

强化学习不同于监督学习。监督学习是指从标记的训练数据来推断一个功能，当出现训练集中没有的情况时可以正常地行动。强化学习不同于无监督学习。无监督学习是在未标记的数据集中寻找隐藏的结构。强化学习是试图最大化奖励信号，因此，可以认为其是第三种机器学习范式。在所有形式的机器学习中，强化学习是最接近人类的学习方式。

2、典型案例

象棋博弈中所谓的 “走一步，看十步”、“棋输一着，满盘皆输” 。
小羚羊在出生半个小时后就可以奔跑。
扫地机器人根据电池电量和过去返回充电点的经历来决定是继续收集垃圾还是返回充电点。

这些案例都涉及决策主体与其环境的互动，通过预测未来环境的状态，来正确地选择有远见的行动。另外，这些案例都涉及明确的目标，棋手知道自己是否赢了，小羚羊知道自己什么时候摔倒，扫地机器人知道电池电量什么时候耗尽。随着时间的推移，决策主体可以根据其经验来提高其相应的能力。

3、强化学习的要素

除了智能体（Agent）外，强化学习系统包括四个要素：策略（Policy），奖励（Reward），价值（Value）以及环境模型（Model）。

策略（Policy）
策略定义了智能体对于给定状态所作出的行为，换句话说，就是一个从环境中感知的状态到采取行动的映射。策略是强化学习系统的核心，因为可以通过策略来确定每个状态下的行为。
奖励（Reward）
奖励定义了强化学习问题的目标，在每个步长中，环境向智能体发送的标量即为奖励，智能体的唯一目标就是在长期运行中最大化所获得的总奖励，因此它能定义智能体表现的好坏，也可以认为奖励是影响策略的主要因素。
价值（Value）
奖励是对即时收益的衡量，而价值是对长期收益的衡量。简单来说，一个状态的价值是智能体从该状态开始，未来积累的奖励总量的期望值。例如，一种状态总是产生很低的即时奖励，却具有较高的价值，因为该状态的未来会伴随产生具有较高即时奖励的其他状态。这类似于，备考的过程很痛苦（较低的奖励），但考试会取得好的成绩（较高的价值）。
没有奖励就没有价值，评估价值的唯一目的是为了获得更多的奖励，但是，当我们评估策略的好坏时，我们最关心的是价值，我们寻求能带来最高价值而不是最高的奖励的动作，因为从长远来看，这种动作可以带来最大化的奖励总和。不幸的是，奖励基本上是由环境直接给予的，而价值必须根据智能体在整个周期中的表现进行估计。事实上，几乎所有强化学习算法的最重要的组成部分就是有效估计价值的方法。
环境模型（Model of the environment）
环境模型是一种对环境的模拟，或者说，它允许对环境的行为进行推断。例如，给定一个状态和动作，模型可能会预测下一个状态和下一个奖励。但并非所有的强化学习系统都需要一个模型，因此有基于模型（Model-based）和不基于模型（Model-free）两种不同的方法，

4、限制和范围

强化学习在很大程度上依赖状态，因为状态作为策略和价值函数的输入，同时也作为环境模型的输入，它向智能体转达 “环境如何” 的感觉，状态可以视为智能体可以获得的关于环境的任何信息。

大多数强化学习方法都是围绕价值函数构建的，但是解决强化学习问题并不一定要这样做，例如遗传算法、遗传规划、模拟退火等求解方法和其他优化方法从不估计价值函数，我们称这些方法为进化方法，如果策略的空间足够小，或者说构造成好的策略比较容易找到，并且有足够的时间用于搜索，那么进化方法是有效的。此外，当智能体无法感知环境的完整状态时，进化方法具有优势。

强化学习方法可以在与环境互动的同时学习，这是进化方法不能做到的。在许多情况下，能够利用个体行为相互作用细节的方法可能比进化方法更有效。进化方法忽略了强化学习问题的许多有用的结构：① 它们所搜索的策略是从状态到动作的函数；② 它们不会注意个体在其生命周期经历了哪些状态，或采取了哪些动作。

强化学习（一）简介

1、强化学习

2、典型案例

3、强化学习的要素

4、限制和范围

相关文章：

强化学习（一）简介

外贸常用网站

Android中集成FFmpeg及NDK基础知识

1.13寒假集训

删除排序链表中的重复元素

echarts的dispatchAction

Java IO学习和总结（超详细）

mysql忘记root密码后怎么重置

计算机图形学作业：三维线段的图形变换

Linux mren命令教程：批量重命名文件(附实际操作案例和注意事项)

LLVM系列（1）：在微软Visual Studio下编译LLVM

分布式系统的三字真经CAP

大模型背景下计算机视觉年终思考小结（一）

Modbus协议学习第一篇之基础概念

gem5学习（12）：理解gem5 统计信息和输出——Understanding gem5 statistics and output

索引的概述和使用

力扣210. 课程表 II

[Docker] Mac M1系列芯片上完美运行Docker

CompletableFuture、ListenableFuture高级用列

什么是云服务器，阿里云优势如何？

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

Qt Widget类解析与代码注释

Leetcode 3577. Count the Number of Computer Unlocking Permutations

《用户共鸣指数（E）驱动品牌大模型种草：如何抢占大模型搜索结果情感高地》

Qwen3-Embedding-0.6B深度解析：多语言语义检索的轻量级利器

【RockeMQ】第2节｜RocketMQ快速实战以及核⼼概念详解（二）

【OSG学习笔记】Day 16: 骨骼动画与蒙皮（osgAnimation）

成都鼎讯硬核科技！雷达目标与干扰模拟器，以卓越性能制胜电磁频谱战

初学 pytest 记录

嵌入式学习笔记DAY33（网络编程——TCP）