当前位置：首页 > news >正文

深度强化学习中收敛图的横坐标是steps还是episode？

news 2026/2/9 14:44:33

在深度强化学习（Deep Reinforcement Learning, DRL）的收敛图中，横坐标选择 steps 或者 episodes 主要取决于算法的设计和实验的需求，两者的差异和使用场景如下：

Steps（步数）：
- 定义：一个 step 通常指的是在环境中执行一次动作并收到一次反馈（即状态转移和奖励）。因此，steps 代表的是智能体与环境交互的总次数。
- 使用场景：当我们关心算法每一步（action）如何影响学习效果，或想评估算法在更细粒度时间尺度下的学习过程时，常用 steps 作为横坐标。对于一些环境来说，steps 可以更好地反映学习的进展，尤其是当每个 episode 的长度不固定或差异较大时，steps 会提供更一致的度量。
- 适用算法：比如在一些连续控制任务中，steps 更有意义，因为这些任务中的 episode 可能较长或很难明确划分。
Episodes（回合）：
- 定义：一个 episode 是智能体从环境的初始状态开始执行动作，直到到达终止状态（例如游戏结束、目标达成、或者智能体失败等）。一个 episode 包含了多个 steps。
- 使用场景：当我们关心智能体在整个任务中的表现变化时，episodes 作为横坐标更常见。通常，用于表示算法在完成完整任务（例如游戏、导航等）过程中逐渐收敛的情况，适合于那些有明确开始和结束的任务。
- 适用算法：例如在基于离散动作空间的任务（如游戏、迷宫导航等）中，episodes 更容易反映智能体在每次尝试完成任务时的表现。

选择依据：

任务的结构：如果任务有明确的回合（例如一个游戏关卡），那么使用 episodes 更直观。如果任务没有明显的回合，或者回合长度变化较大，steps 可能是更好的选择。
评估目标：如果你想观察智能体在每一个决策点的学习情况，用 steps 可能更合适；如果你更关注智能体在整个任务（回合）中的学习进展，episodes 会更合理。
算法特点：一些算法可能对每步的细粒度表现（如 steps）更加敏感，而另一些算法则关注整体表现（如 episodes）。

简而言之，steps 适用于精细粒度的分析，episodes 适用于较高层次的任务表现分析。

深度强化学习中收敛图的横坐标是steps还是episode？

在深度强化学习（Deep Reinforcement Learning, DRL）的收敛图中，横坐标选择 steps 或者 episodes 主要取决于算法的设计和实验的需求，两者的差异和使用场景如下： Steps（步数）： 定义&a…...

编程日记 2024/10/6 11:33:43

一个真实可用的登录界面！

编程日记 2024/10/6 11:32:42

Vue中watch监听属性的一些应用总结

【1】vue2中watch的应用 ① 简单监视在 Vue 2 中，如果你不需要深度监视，即只需监听顶层属性的变化，可以使用简写形式来定义 watch。这种方式更加简洁，适用于大多数基本场景。示例代码假设你有一个 Vue 组件，其中…...

编程日记 2024/10/6 11:30:39

MongoDB-aggregate流式计算：带条件的关联查询使用案例分析

在数据库的查询中，是一定会遇到表关联查询的。当两张大表关联时，时常会遇到性能和资源问题。这篇文章就是用一个例子来分享MongoDB带条件的关联查询发挥的作用。假设工作环境中有两张MongoDB集合：SC_DATA（学生基本信息集合&…...

编程日记 2024/10/6 11:28:35

Redis数据库与GO（一）：安装，string,hash

安装包地址：https://github.com/tporadowski/redis/releases 建议下载zip版本，解压即可使用。解压后，依次打开目录下的redis-server.exe和redis-cli.exe，redis-cli.exe用于输入指令。一、基本结构如图，redis对外有个…...

编程日记 2024/10/6 11:26:33

expressjs，实现上传图片，返回图片链接

在 Express.js 中实现图片上传并返回图片链接，你通常需要使用一个中间件来处理文件上传，比如 multer。multer 是一个 node.js 的中间件，用于处理 multipart/form-data 类型的表单数据，主要用于上传文件。以下是一个简单的示例&a…...

编程日记 2024/10/6 11:25:32

爬虫——XPath基本用法

第一章XML 一、xml简介 1.什么是XML？ 1，XML指可扩展标记语言 2，XML是一种标记语言，类似于HTML 3，XML的设计宗旨是传输数据，而非显示数据 4，XML标签需要我们自己自定义 5，XML被…...

编程日记 2024/10/6 11:24:31

常见排序算法汇总

排序算法汇总这篇文章说明下排序算法，直接开始。 1.冒泡排序最简单直观的排序算法了，新手入门的第一个排序算法，也非常直观，最大的数字像泡泡一样一个个的“冒”到数组的最后面。算法思想：反复遍历要排序的序列…...

编程日记 2024/10/6 11:23:30

Golang | Leetcode Golang题解之第459题重复的子字符串

题目： 题解： func repeatedSubstringPattern(s string) bool {return kmp(s s, s) }func kmp(query, pattern string) bool {n, m : len(query), len(pattern)fail : make([]int, m)for i : 0; i < m; i {fail[i] -1}for i : 1; i < m; i {j : …...

编程日记 2024/10/6 11:22:29

0.计网和操作系统

0.计网和操作系统熟悉计算机网络和操作系统知识，包括 TCP/IP、UDP、HTTP、DNS 协议等。常见的页面置换算法： 先进先出（FIFO）算法：将最早进入内存的页面替换出去。最近最少使用（LRU）算法&am…...

编程日记 2024/10/6 11:21:28

探索Prompt Engineering：开启大型语言模型潜力的钥匙

前言什么是Prompt？Prompt Engineering? Prompt可以理解为向语言模型提出的问题或者指令，它是激发模型产生特定类型响应的“触发器”。 Prompt Engineering，即提示工程，是近年来随着大型语言模型（LLM，Larg…...

编程日记 2024/10/6 11:20:27

滚雪球学Oracle[3.3讲]：数据定义语言（DDL）

全文目录： 前言一、约束的高级使用1.1 主键（Primary Key）案例演示：定义主键 1.2 唯一性约束（Unique）案例演示：定义唯一性约束 1.3 外键（Foreign Key）案例演示&#xff1a…...

编程日记 2024/10/6 11:19:26

ssrf学习（ctfhub靶场）

ssrf练习目录 ssrf类型漏洞形成原理（来自网络） 靶场题目第一题（url探测网站下文件） 第二关（使用伪协议） 关于http和file协议的理解 file协议 http协议第三关（端口扫描&#xff09…...

编程日记 2024/10/6 11:17:24

ElasticSearch之网络配置

对官方文档Networking的阅读笔记。 ES集群中的节点，支持处理两类通信平面集群内节点之间的通信，官方文档称之为transport layer。集群外的通信，处理客户端下发的请求，比如数据的CRUD，检索等，官方文档称之…...

编程日记 2024/10/6 11:16:23

【C语言进阶】系统测试与调试

1. 引言在开始本教程的深度学习之前，我们需要了解整个教程的目标及其结构，以及为何进阶学习是提升C语言技能的关键。目标和结构： 教程目标：本教程旨在通过系统化的学习，从单元测试、系统集成测试到调试技巧&#xf…...

编程日记 2024/10/6 11:14:21

多个单链表的合成

建立两个非递减有序单链表，然后合并成一个非递增有序的单链表。注意：建立非递减有序的单链表，需要采用创建单链表的算法输入格式: 1 9 5 7 3 0 2 8 4 6 0 输出格式: 9 8 7 6 5 4 3 2 1 输入样例: 在这里给出一组输入。例如&#xf…...

编程日记 2024/10/6 11:10:17

『建议收藏』ChatGPT Canvas功能进阶使用指南！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，专注于分享AI全维度知识，包括但不限于AI科普，AI工…...

编程日记 2024/10/6 11:09:16

Ollama 运行视觉语言模型LLaVA

Ollama的LLaVA（大型语言和视觉助手）模型集已更新至 1.6 版，支持： 更高的图像分辨率：支持高达 4 倍的像素，使模型能够掌握更多细节。改进的文本识别和推理能力：在附加文档、图表和图表数据集上进…...

编程日记 2024/10/6 11:08:15

gdb 调试 linux 应用程序的技巧介绍

使用 gdb 来调试 Linux 应用程序时，可以显著提高开发和调试的效率。gdb（GNU 调试器）是一款功能强大的调试工具，适用于调试各类 C、C 程序。它允许我们在运行程序时检查其状态，设置断点，跟踪变量值的变化&am…...

编程日记 2024/10/6 11:05:12

Java项目实战II基于Java+Spring Boot+MySQL的房产销售系统(源码+数据库+文档)

目录一、前言二、技术介绍三、系统实现四、文档参考五、核心代码六、源码获取全栈码农以及毕业设计实战开发，CSDN平台Java领域新星创作者一、前言随着房地产市场的蓬勃发展，房产销售业务日益复杂，传统的手工管理方式已难以满…...

编程日记 2024/10/6 11:04:11

大话软工笔记—需求分析概述

需求分析，就是要对需求调研收集到的资料信息逐个地进行拆分、研究，从大量的不确定“需求”中确定出哪些需求最终要转换为确定的“功能需求”。需求分析的作用非常重要，后续设计的依据主要来自于需求分析的成果，包括: 项目的目的…...

编程新知 2026/1/28 10:58:50

（十）学生端搭建

本次旨在将之前的已完成的部分功能进行拼装到学生端，同时完善学生端的构建。本次工作主要包括： 1.学生端整体界面布局 2.模拟考场与部分个人画像流程的串联 3.整体学生端逻辑一、学生端在主界面可以选择自己的用户角色选择学生则进入学生登录界面…...

编程新知 2026/2/5 4:23:32

DeepSeek 赋能智慧能源：微电网优化调度的智能革新路径

目录一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...

编程新知 2025/11/20 2:48:44

反向工程与模型迁移：打造未来商品详情API的可持续创新体系

在电商行业蓬勃发展的当下，商品详情API作为连接电商平台与开发者、商家及用户的关键纽带，其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息（如名称、价格、库存等）的获取与展示，已难以满足市场对个性化、智能…...

编程新知 2025/9/15 5:56:53

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?

论文网址：pdf 英文是纯手打的！论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误，若有发现欢迎评论指正！文章偏向于笔记，谨慎食用目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2…...

编程新知 2026/2/6 14:42:11

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现（两者等价），用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例： 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

编程新知 2025/11/21 22:02:37

USB Over IP专用硬件的5个特点

USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中，从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备（如专用硬件设备），从而消除了直接物理连接的需要。USB over IP的…...

编程新知 2026/2/6 13:42:22

什么是VR全景技术

VR全景技术，全称为虚拟现实全景技术，是通过计算机图像模拟生成三维空间中的虚拟世界，使用户能够在该虚拟世界中进行全方位、无死角的观察和交互的技术。VR全景技术模拟人在真实空间中的视觉体验，结合图文、3D、音视频等多媒体元素…...

编程新知 2026/2/5 19:40:10

go 里面的指针

指针在 Go 中，指针（pointer）是一个变量的内存地址，就像 C 语言那样： a : 10 p : &a // p 是一个指向 a 的指针 fmt.Println(*p) // 输出 10，通过指针解引用• &a 表示获取变量 a 的地址 p 表示…...

编程新知 2025/8/18 12:09:07

Linux 下 DMA 内存映射浅析

序系统 I/O 设备驱动程序通常调用其特定子系统的接口为 DMA 分配内存，但最终会调到 DMA 子系统的dma_alloc_coherent()/dma_alloc_attrs() 等接口。关于 dma_alloc_coherent 接口详细的代码讲解、调用流程，可以参考这篇文章，我觉得写的非常…...

编程新知 2026/2/7 0:29:10

选择依据：

相关文章：