当前位置：首页 > news >正文

强化学习入门

news 2026/2/9 0:10:10

简介

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

四要素

状态(state)，动作(action)，策略(policy)，奖励(reward)

强化学习在交通信号灯中应用

agent即为信号灯，状态S（t）是环境告诉我们的，我们把当前的环境状态视为S（t），agent根据S（t）的状态进行一个动作action，动作可以是减少当前灯的持续时间或者切换灯的颜色，agent做出动作以后状态会更新到S（t+1），同时环境会给agent一个奖励，此时agent继续上述的操作

状态（state）

即环境状态，各种交通状况（高峰期、雨天等）

动作（action）

信号灯的颜色和持续时间

策略（policy）

通过算法控制信号灯颜色的持续时间

奖励（reward）

平均车辆排队长度：位于交叉口内进口车道上处于等待状态的平均车辆数量。

平均车辆延误：位于交叉口内进口车道上所有车辆的平均延误时间。

平均车速：位于交叉口内进口车道上所有车辆的平均速度。

强化学习入门

简介

四要素

强化学习在交通信号灯中应用

状态（state）

动作（action）

策略（policy）

奖励（reward）

交通仿真软件：sumo

相关文章：

强化学习入门

简约不简单，建筑装饰演绎现代美学

SpringBoot调用WebService的实践

源码编译构建LAMP

搜索是门艺术，大神都是这样找资源

【设计模式深度剖析】【5】【行为型】【迭代器模式】

怎么更快捷的修改图片大小？压缩图片jpg、png、gif的快捷方法

Shell脚本 if语句

集合查询-并(UNION)集运算、交(INTERSECT)集运算、差(EXCEPT)集运算

常用的bit位操作

自动控制原理【期末复习】（二）

机器学习——集成学习和梯度提升决策树

MYSQL 查看SQL执行计划

ARM-V9 RME(Realm Management Extension)系统架构之系统安全能力的MPAM

cuda 架构设置

基于 Vue 3 封装一个 ECharts 图表组件

LeetCode 算法：旋转图像c++

Java Android 静态内部类以及优雅实现单例模式/避免handler内存泄漏

Flink协调器Coordinator及自定义Operator

C调用C++中的类

conda相比python好处

日语AI面试高效通关秘籍：专业解读与青柚面试智能助攻

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

OkHttp 中实现断点续传 demo

Axios请求超时重发机制

SpringCloudGateway 自定义局部过滤器

浅谈不同二分算法的查找情况

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析

基于Java+MySQL实现（GUI）客户管理系统

GitHub 趋势日报 (2025年06月06日)