当前位置：首页 > news >正文

深度学习10--强化学习

news 2026/2/9 21:05:19

强化学习(增强学习、再励学习、评价学习简称RL)是近年来机器学习领域最热门的方向之一，是实现通用人工智能的重要方法之一。本章将通俗易懂地讲一下强化学习中的两个重要的模型DQN 和DDPG。

马尔可夫决策过程(Markov Decison Process,MDP)包括两个对象：Agent 和环境。包含4个要素：环境状态、智能体动作、智能体策略和奖励。Agent 从环境中获取“状态”,然后根据“策略”做出“动作”,改变了“环境”,得到了“奖励”。而希望得到的，就是一个好的“策略”,在RL 中，这个“策略”就是一个神经网络，输入是环境状态，输出是动作。

分清楚回报和奖赏的区别：因为强化学习的目的是最大化长期未来奖励，寻找最大的G 。这容易理解，如果只看重奖赏R, 用一个成语--鼠目寸光；如果看重的是长期的回报，那就是深谋远虑。

价值函数主要有两种：

(1)状态价值函数：意思就是一个状态的价值是基于一定的动作选择策略的未来回报的期望。先理解含义，不考虑怎么计算这个很抽象的公式。

(2)动作价值函数：就是当前状态s, 情况下采取了a, 动作的未来回报的期望。

DQN

DQN 是 Deep Q-learning Network的缩写，一般人们称为深度Q 学习。训练集中的数据都是统一的格式。DDQN 就是 Double DQN。策略梯度(Policy Gradient,PG)就是基于策略的强化学习方法。DQN 是解决离散动作空间的算法。

为什么说PG 是可以解决连续动作空间的呢?因为PG中避免了对最优动作的选取，而是输出连续动作的概率分布，然后进行采样。这意味着，不管是多么糟糕的行为，在PG中都有可能执行，只是执行的概率非常的小。

DQN 是一个典型的确定性策略，在策略不变的情况下，只会选择价值最大的那一个动作。相同的环境重复100次决策，也只会选择100次同样的动作；而PG 是随机性策略，因为是从概率分布中采样，同样的环境重复100次决策，可能会有不同的决策产生。相应地，AC 算法也是随机性策略。

深度学习10--强化学习

相关文章：

深度学习10--强化学习

SSA-SVM多变量回归预测|樽海鞘群优化算法-支持向量机|Matalb

KEEPALIVED高可用集群知识大全

JavaWeb系列三: JavaScript学习下

web开发，过滤器，前后端交互

CUDA-MODE 第一课课后实战（下）

PostgreSQL数据库内核（三）：缓冲区管理器

[log4cplus]: 快速搭建分布式日志系统

redis I/O复用机制

Adobe PhotoShop - 制图操作

Mysql 中的Undo日志

虹软科技25届校招笔试算法 A卷

C++ | Leetcode C++题解之第345题反转字符串中的元音字母

Kubernetes拉取阿里云的私人镜像

Leetcode每日刷题之118.杨辉三角

【ARM 芯片安全与攻击 5.2 -- 芯片中侧信道攻击与防御方法介绍】

XSS-games

日撸Java三百行（day25：栈实现二叉树深度遍历之中序遍历）

【vue讲解：ref属性、动态组件、插槽、vue-cli创建项目、vue项目目录介绍、vue项目开发规范、es6导入导出语法】

ubuntu：最新安装使用docker

Python爬虫实战：研究MechanicalSoup库相关技术

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

Ubuntu系统下交叉编译openssl

Neo4j 集群管理：原理、技术与最佳实践深度解析

听写流程自动化实践，轻量级教育辅助

html css js网页制作成品——HTML+CSS榴莲商城网页设计（4页）附源码

HashMap中的put方法执行流程（流程图）

AirSim/Cosys-AirSim 游戏开发（四）外部固定位置监控相机

Qt 事件处理中 return 的深入解析

WebRTC调研