当前位置: 首页 > news >正文

【ML】强化学习(Reinforcement Learning)及其拆解

【ML】强化学习(Reinforcement Learning)

    • 1. RL Outline 强化学习(Reinforcement Learning)概述
      • 1.1 RL的基本框架
    • 2. RL 引入:从这个小游戏开始
    • 3. Policy Gradient 方法
    • 4. Actor-Critic 方法
    • 5. [奖励塑形(Reward Shaping)](https://www.bilibili.com/video/BV1Wv411h7kN?p=117&spm_id_from=pageDriver&vd_source=0ad81bc7001a125d9e2c7ebf1e07d502)
    • 6. No Reward: Learning from Demonstration

1. RL Outline 强化学习(Reinforcement Learning)概述

What is RL? (Three steps in ML)
Policy Gradient
Actor-Critic
Reward Shaping
No Reward: Learning from Demonstration

强化学习(Reinforcement Learning, RL)是机器学习(Machine Learning, ML)中的一个重要范式,它与监督学习和无监督学习并列。RL的核心在于通过智能体(agent)与环境的交互,智能体通过观察环境状态并采取行动,以最大化累积奖励(cumulative reward)为目标进行学习。

1.1 RL的基本框架

强化学习(RL)概述及其关键技术

强化学习(Reinforcement Learning, RL)是机器学习的一个分支,它关注如何让代理(agent)通过与环境互动,学习做出决策以最大化累积奖励的过程。在典型的强化学习框架下,代理会根据观察到的状态选择动作,并接收到一个反馈信号——奖励,以此来指导其未来的行动选择。强化学习通常被分为三个关键步骤:状态观测、动作选择和奖励接收。

三步骤详解

  1. 状态观测:代理观测当前环境的状态。
  2. 动作选择:基于当前状态,代理决定采取的动作。
  3. 奖励接收:代理执行动作后,从环境中获得正向或负向的奖励。

关键技术

1)Policy Gradient 方法

  • 定义:策略梯度是一种直接优化策略函数的参数化方法。这种方法通过梯度上升的方式调整策略函数的参数,以期望最大化策略函数所对应的长期回报。
  • 公式:对于离散动作空间,策略梯度可以通过以下公式表示
    Δ θ = α ∑ t ∇ θ log ⁡ π ( a t ∣ s t , θ ) R ( t ) \Delta \theta = \alpha \sum_t \nabla_\theta \log \pi(a_t|s_t,\theta) R(t) Δθ=αtθlogπ(atst,θ)R(t)
    其中 ( \theta ) 是策略参数,( \alpha ) 是学习率,( R(t) ) 是从时间步 ( t ) 开始的累计奖励。

2)Actor-Critic 方法

  • 定义:Actor-Critic 方法结合了策略梯度和值迭代的思想,其中Actor负责决策(选择动作),Critic负责评估决策的好坏(计算动作价值)。
  • 原理:Actor更新策略以增加有利动作的概率,Critic评估动作并指导Actor的更新方向。

3)奖励塑形(Reward Shaping)

  • 定义:奖励塑形是一种技术,它通过修改原始奖励函数来加速学习过程。
  • 目的:通过添加额外的奖励(如局部奖励)以引导代理更快地学习目标行为。

4)No Reward: Learning from Demonstration

  • 定义:在没有即时奖励的情况下,通过模仿专家演示来学习最优策略。

  • 应用场景:当直接获得即时奖励较为困难时采用此方法。

  • 强化学习:是一种通过与环境互动学习决策的过程,其核心在于通过观察、动作选择以及奖励接收来不断优化代理的行为策略。

  • 关键技术:包括策略梯度(直接优化策略)、Actor-Critic(结合策略优化与值估计)、奖励塑形(调整奖励函数)和Learning from Demonstration(无直接奖励情况下的学习)。

综上所述,强化学习是通过与环境的交互学习如何做出最佳决策的一种方法,上述提到的技术在这一过程中扮演着重要角色。

2. RL 引入:从这个小游戏开始

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. Policy Gradient 方法

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

4. Actor-Critic 方法

在这里插入图片描述

5. 奖励塑形(Reward Shaping)

6. No Reward: Learning from Demonstration

相关文章:

【ML】强化学习(Reinforcement Learning)及其拆解

【ML】强化学习(Reinforcement Learning) 1. RL Outline 强化学习(Reinforcement Learning)概述1.1 RL的基本框架 2. RL 引入:从这个小游戏开始3. Policy Gradient 方法4. Actor-Critic 方法5. [奖励塑形(R…...

在宝塔面板下安装WordPress

宝塔面板是服务器管理好助手,尤其在Linux系统下,提高了管理的可视化,降低了Linux服务器的使用门槛。 WordPress是个非常好的博客系统,由于支持海量主题模板、各种类型的插件,因此已经成为建设各类网站的首选框架。 今…...

纷享销客CRM AI产品架构概览、产品特色

一、纷享销客CRM AI产品架构概览 纷享AI平台架构分为三个主要层次:AI基础设施层、AI平台层和AI应用层。每个层次都由一系列功能模块组成,旨在为客户提供强大的技术支持和灵活的解决方案。 1.Al基础设施层 AI基础设施层是整个AI平台的底层支撑&#xff…...

【文件IO】文件系统操作

文章目录 基本操作概述1. 文件属性2. 文件构造方法3. 文件方法1. 文件创建2. 文件删除3. 查看目录下所有的文件名4. 遍历目录5. 创建目录5. 目录重命名 基本操作概述 创建文件删除文件创建目录重命名文件判定文件存在… Java 中,提供了一个 File 类,进…...

Spring Cloud Alibaba 集成分布式定时任务调度功能

作者:千习 背景简介 定时任务是指在约定的时间,或者按照固定频率周期性执行的任务。在企业应用中,非用户行为发起的后台业务,一般都是通过定时任务来实现,常见场景如下: 异步数据处理:比如先…...

中职云计算实训室

一、实训室建设背景 随着信息技术的飞速发展,云计算已成为推动数字化转型、促进经济社会发展的重要力量。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》明确提出,要加快数字化发展,建设数字中国。云计算作为数…...

【python制作一个小程序作为七夕礼物】

制作一个七夕节礼物的小程序,我们可以考虑一个简单的互动程序,比如一个“七夕情侣姓名配对指数计算器”。这个程序将接收两个名字作为输入,然后输出一个随机的“配对指数”和一些浪漫的话语。以下是一个使用Python实现的简单示例:…...

一篇文章教会你如何使用Haproxy,内含大量实战案例

1. Haproxy 介绍 HAProxy是法国开发者 威利塔罗(Willy Tarreau) 使用C语言编写的自由及开放源代码软件,是一款具备高并发(万级以上)、高性能的TCP和HTTP应用程序代理. HAProxy运行在当前的硬件上,可以支持…...

PythonStudio 控件使用常用方式(二十二)TFlowPanel

PythonStudio是一个极强的开发Python的IDE工具,官网地址是:https://glsite.com/ ,在官网可以下载最新版的PythonStudio,同时,在使用PythonStudio时,它也能及时为用户升到最新版本。它使用的是Delphi的控件&…...

培训第二十七天(lvs_nat模式与lvs_dr模式配置)

上午 核心:内核中的ipvs,ipvsadm1、安装ipvsadm[rootnat ~]# yum -y install ipvsadm2、配置规则查看所有的规则,如果已经配置好规则,重启之后也就没有了[rootnat ~]# ipvsadm -L -n 1、配置vip网卡 (1)在…...

JAVA中DateFormat详解

在Java中,DateFormat 是一个抽象类,它用于格式化和解析日期。DateFormat 允许进行日期-文本之间的转换,以及日期-时间之间的解析和格式化。Java 提供了多个 DateFormat 的具体子类,其中最常用的是 SimpleDateFormat,它…...

uniapp——列表选择样式

案例 代码 <view class"list"><block v-for"(item,index) in 8" :key"index"><view class"item" click"choosePackage(item)" :class"{active:item current}"><view class"i_money&q…...

解决客户访问超时1s问题

访问公网地址返回状态码499-CSDN博客 需求描述 客户访问公司公网服务,期望在1s内完成。他们在客户端设置了超时1s的配置,如果超过1s公司服务就会报错499,这是正常的请求返回。 这里是业务简易的连路图: 分析问题 目前这个服务通过公网的alb负载均衡到ecs,通过ecs再转发…...

Linux命令(基础面试可用,都是自己觉得平时使用多的)

1.cat 参数&#xff1a;-n&#xff1a;显示行号-s&#xff1a;压缩连续的空行&#xff0c;只显示一个空行2.chattr 改变文件属性 语法&#xff1a;chattr [-RV] [/-/<属性>][文件或目录] 属性&#xff1a;a&#xff1a;让文件或目录仅供附加用途i&#xff1a;不得任意更…...

opencv-python图像增强一:传统图像去噪方法整理

一、简介&#xff1a; 在数字图像处理领域&#xff0c;噪声一直是影响图像质量的重要因素。无论是拍摄过程中的环境干扰&#xff0c;还是传输过程中的信号失真&#xff0c;噪声都可能导致图像模糊、细节丢失&#xff0c;甚至影响后续的图像分析和应用。为了提高图像的视觉效果…...

Canal单机部署

目录 一、前期准备 1、配置binlog日志 2、配置MQ服务 二、搭建canal 1、下载安装包 2、部署canal-admin的UI管理界面 2-1、创建&解压admin 2-2、配置UI管理界面 2-3、初始化元数据库 2-4、启动Canal Admin 3、部署canal-server服务 3-1、创建&解压deployer…...

java,每日练习02

题目 选自牛客网 1.下列关于Java中类的构造方法的描述&#xff0c;正确的是&#xff08;&#xff09; A.构造方法的返回类型为void B.可以定义一个类而在代码中不写构造方法。 C.在同一个类中定义的重载构造方法不可以相互调用。 D.子类不允许调用父类的构造方法。 正确答案…...

C# TreeView

添加 TreeView 控件&#xff1a;定义节点&#xff1a;添加节点&#xff1a;设置节点属性&#xff1a;处理节点事件&#xff1a;自定义节点绘制&#xff1a;数据绑定&#xff1a;节点选择&#xff1a;节点展开和折叠&#xff1a;搜索和过滤&#xff1a;示例代码总结 C# 中的 Tre…...

通过xshell使用密钥连接阿里云服务器

目录 步骤1&#xff1a;创建密钥对 步骤2&#xff1a;连接服务器 步骤3&#xff1a;连接服务器 连接阿里云服务器有几种方式&#xff0c;例如有密码进行连接&#xff0c;但是密码连接安全风险较大&#xff0c;所以我们选择密钥方式进行连接。操作简单且安全性高 步骤1&…...

<数据集>路面坑洼识别数据集<目标检测>

数据集格式&#xff1a;VOCYOLO格式 图片数量&#xff1a;681张 标注数量(xml文件个数)&#xff1a;681 标注数量(txt文件个数)&#xff1a;681 标注类别数&#xff1a;1 标注类别名称&#xff1a;[pothole] 使用标注工具&#xff1a;labelImg 标注规则&#xff1a;对类…...

Tree-sitter解析代码

Tree-sitter 语法树 到底是什么、长什么样、包含什么东西。一、通俗解释Tree-sitter 会把一行行代码&#xff0c;解析成一棵结构化的「语法树」&#xff08;像家族树一样有层级、有分类&#xff09;&#xff0c;让机器能看懂代码的结构&#xff08;哪个是方法、哪个是方法名、哪…...

如何使用Unlocker工具在VMware中启用macOS虚拟机支持

如何使用Unlocker工具在VMware中启用macOS虚拟机支持 【免费下载链接】unlocker VMware Workstation macOS 项目地址: https://gitcode.com/gh_mirrors/unloc/unlocker Unlocker是一款开源工具&#xff0c;能够帮助用户在VMware虚拟机软件中解锁对macOS操作系统的支持。…...

2026年济南本凡科技小程序开发前10大推荐,助您拥抱智能时代新风尚

在当今快速发展的智能时代&#xff0c;企业在市场竞争中需要不断创新以满足客户的需求。济南本凡科技小程序开发服务&#xff0c;凭借其多元化的功能和高效的技术架构&#xff0c;为各类企业提供了灵活的解决方案。本文将深入探讨十家领先的小程序开发公司&#xff0c;包括聚翔…...

OpenClaw简历优化助手:Qwen2.5-VL-7B分析岗位JD生成匹配度报告

OpenClaw简历优化助手&#xff1a;Qwen2.5-VL-7B分析岗位JD生成匹配度报告 1. 为什么需要简历优化助手 去年换工作时&#xff0c;我花了整整两周时间反复修改简历。每次看到"岗位职责"里那些模糊的要求&#xff0c;总担心自己的简历不够匹配。最痛苦的是&#xff0…...

【深度长文】一篇讲清 Kubernetes 控制平面架构,四个组件如何协同

引言 很多人第一次接触 Kubernetes&#xff0c;记住的是一串组件名称&#xff1a;API Server、etcd、Scheduler、Controller Manager、kubelet。再往后一些&#xff0c;会知道 Deployment 管副本&#xff0c;Scheduler 管调度&#xff0c;Operator 能做自动化运维。但如果继续…...

创新流复用架构:OBS Multi RTMP插件技术方案与商业价值实现

创新流复用架构&#xff1a;OBS Multi RTMP插件技术方案与商业价值实现 【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン 项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp OBS Multi RTMP插件通过创新的流复用架构&#xff0c;解决了多平…...

MyLD2410:面向LD2410毫米波传感器的Arduino/ESP32嵌入式C++库

1. 项目概述MyLD2410 是一款专为 HLK-LD2410B 和 HLK-LD2410C 毫米波存在检测传感器设计的嵌入式 C 库&#xff0c;面向 Arduino 与 ESP32 平台构建。该库完全自主开发&#xff0c;不依赖任何第三方驱动或中间件&#xff0c;具备高度可移植性——可在所有支持 HardwareSerial 的…...

GLM-4.1V-9B-Base效果展示:书法作品字体+内容+文化内涵中文解析

GLM-4.1V-9B-Base效果展示&#xff1a;书法作品字体内容文化内涵中文解析 1. 模型能力概览 GLM-4.1V-9B-Base是智谱开源的视觉多模态理解模型&#xff0c;在中文视觉理解任务上表现出色。不同于常规的图片识别工具&#xff0c;这款模型能够深入理解图像中的文化元素&#xff…...

如何进行有效的友链seo优化_seo优化需要注意哪些要点

如何进行有效的友链SEO优化 在网络世界中&#xff0c;SEO&#xff08;搜索引擎优化&#xff09;是提升网站可见性和流量的关键手段之一。而在SEO优化的过程中&#xff0c;友链&#xff08;友情链接&#xff09;也是一种重要的手段。如何进行有效的友链SEO优化&#xff0c;是许…...

Wan2.2-T2V-A5B轻量级优势:普通显卡也能秒出视频

Wan2.2-T2V-A5B轻量级优势&#xff1a;普通显卡也能秒出视频 1. 为什么选择轻量级视频生成模型 在AI视频生成领域&#xff0c;大多数模型对硬件的要求高得令人望而却步。传统视频生成模型通常需要专业级显卡和大量显存&#xff0c;这让普通开发者和内容创作者难以接触这项技术…...