当前位置：首页 > news >正文

强化学习RL 02: Value-based Reinforcement Learning

news 2026/2/9 23:33:24

DQN和TD更新算法。

Review

1. Deep Q-Network(DQN)

1.1 Approximate the Q*(s,a) Function

1.2 Apply DQN to Play Game

1.3 Temporal Difference(TD) Learning

1.4 TD Learning for DQN

1.4.1 TD使用条件 condition

1.4.2 Train DQN using TD learning

1.5 summary: DQN and TD learning

参考

Review

Ut是未来奖励reward的加权和
Qπ(st, at)可以反应当前状态st下动作at的好坏程度。
对Qπ关于π求最大化，Q*函数可以给所有动作打分。

1. Deep Q-Network(DQN)

本质：用神经网络近似Q*函数

1.1 Approximate the Q*(s,a) Function

Goal: Win the game(≈ maximize the total world.)

Question: If we know Q*(s, a), what is the best action? 假设我们知道Q*函数

Q* is an indication for how good it is for an agent to pick action a while being in state s.

Challenge: we do not know Q*(s, a)函数

value-based model，就是学习一个函数来近似Q*函数。--> DQN

Solution: Deep Q Network (DQN)
Use neural network Q(s, a; w) to approximate Q*(s, a)

用一个神经网络去近似Q*(s,a)函数，神经网络参数是w、输入是s、输出是很多数值(这些数值是对所有可能动作的打分)，通过奖励reward来学习这个网络，这个网络对动作的打分就会逐渐改进，打分会越来越准。

1.2 Apply DQN to Play Game

当前观测到状态st，用DQN把st作为输入给所有的动作actions打分，选出分数最高的动作作为at，agent执行动作at后，
environment会改变状态S，用状态转移函数p来随机抽一个新的状态st+1，还会告诉我们这一步的奖励rt(rt可以是正的、负的、0)。
奖励reward就是强化学习中的监督信号，DQN要靠这些奖励来训练。
有了新的状态st+1，DQN对所有动作进行打分，agent选择分数最高的动作作为at+1。at+1后，环境会再更新状态st+2、再给一个奖励r+1。
然后重复这个过程，直到游戏结束。

how to train a DQN？

1.3 Temporal Difference(TD) Learning

TD算法，时间差分算法。

challenge: Can I update the model before finishing the trip?

TD 算法。

TD target。
TD error。
用梯度下降来减小TD error

1.4 TD Learning for DQN

1.4.1 TD使用条件 condition

证明：

左边称为Prediction；右边称为TD target。

1.4.2 Train DQN using TD learning

agent在t+1时刻的动作at+1，DQN对所有动作a进行打分，分数最高的动作作为at+1。

注意，这里的a不等于at。

1.5 summary: DQN and TD learning

参考

1. 王树森~强化学习 Reinforcement Learning

2. https://www.cnblogs.com/pinard/category/1254674.html

强化学习RL 02: Value-based Reinforcement Learning

DQN和TD更新算法。目录 Review 1. Deep Q-Network(DQN) 1.1 Approximate the Q*(s,a) Function 1.2 Apply DQN to Play Game 1.3 Temporal Difference(TD) Learning 1.4 TD Learning for DQN 1.4.1 TD使用条件 condition 1.4.2 Train DQN using TD learning 1.5 summ…...

编程日记 2023/2/28 4:35:27

08_MySQL聚合函数

1. 聚合函数介绍什么是聚合函数聚合函数作用于一组数据，并对一组数据返回一个值。聚合函数类型AVG()SUM()MAX()MIN()COUNT()注意：聚合函数不能嵌套调用。比如不能出现类似“AVG(SUM(字段名称))”形式的调用。1.1 AVG和SUM函数可以对数值型数据使用AVG 和…...

编程日记 2023/2/28 4:34:20

「TCG 规范解读」词汇表

可信计算组织（Ttrusted Computing Group,TCG）是一个非盈利的工业标准组织，它的宗旨是加强在相异计算机平台上的计算环境的安全性。TCG于2003年春成立，并采纳了由可信计算平台联盟（the Trusted Computing Platform Alli…...

编程日记 2023/2/28 4:33:10

第三阶段-03MyBatis 中使用XML映射文件详解

MyBatis 中使用XML映射文件什么是XML映射使用注解的映射SQL的问题： 长SQL需要折行，不方便维护动态SQL查询拼接复杂源代码中的SQL，不方便与DBA协作 MyBatis建议使用XML文件映射SQL才能最大化发挥MySQL的功能统一管理SQL， 方…...

编程日记 2023/2/28 4:32:01

从0开始学python -41

Python3 命名空间和作用域命名空间先看看官方文档的一段话： A namespace is a mapping from names to objects.Most namespaces are currently implemented as Python dictionaries。命名空间(Namespace)是从名称到对象的映射，大部分的命名空间都是…...

编程日记 2023/2/28 4:30:54

如何将Google浏览器安装到D盘（内含教学视频）

如何将Google浏览器安装到D盘（内含教学视频） 教学视频下载链接地址：https://download.csdn.net/download/weixin_46411355/87503968 目录如何将Google浏览器安装到D盘（内含教学视频）教学视频下载链接地址：…...

编程日记 2023/2/28 4:29:47

三战阿里测试岗，成功上岸，面试才是测试员涨薪真正的拦路虎...

第一次面试阿里记得是挂在技术面上，当时也是技术不扎实，准备的不充分，面试官出的面试题确实把我问的一头雾水，还没结束我就已经知道我挂了这次面试。第二次面试，我准备的特别充分，提前刷了半个月的面试题…...

编程日记 2023/2/28 4:28:40

Java代码弱点与修复之——ORM persistence error(对象关系映射持久错误)

弱点描述 ORM persistence error, ORM 持久化错误。表示 ORM 工具在尝试将对象保存到数据库中时出现了问题。可能的原因包括：数据库连接错误：ORM 工具无法连接到数据库，或者连接到数据库的权限不足。数据库表结构错误：ORM 工具无法正确映射对象和数据库表之间的关系，可…...

编程日记 2023/2/28 4:27:33

原始GAN-pytorch-生成MNIST数据集（原理）

文章目录1. GAN 《Generative Adversarial Nets》1.1 相关概念1.2 公式理解1.3 图片理解1.4 熵、交叉熵、KL散度、JS散度1.5 其他相关（正在补充！）1. GAN 《Generative Adversarial Nets》 Ian J. Goodfellow, Jean Pouget-Abadie, Yoshua Be…...

编程日记 2023/2/28 4:26:26

Vue下载安装步骤的详细教程(亲测有效) 1

目录一、【准备工作】nodejs下载安装(npm环境) 1 下载安装nodejs 2 查看环境变量是否添加成功 3、验证是否安装成功 4、修改模块下载位置 （1）查看npm默认存放位置 （2）在 nodejs 安装目录下，创建 “node_global…...

编程日记 2023/2/28 4:25:20

[Android Studio] Android Studio生成数字证书，为应用签名

🟧🟨🟩🟦🟪 Android Debug🟧🟨🟩🟦🟪 Topic 发布安卓学习过程中遇到问题解决过程，希望我的解决方案可以对小伙伴们有帮助。 📋笔记目…...

编程日记 2023/2/28 4:24:12

应用IC 卡继续教育网络管理系统前后影响因素比较

3.1 实现了继续护理教育网络化管理近年来，随着一些医院继续护理教育管理信息系统的建立，有效改进了学分档案管理模式和教学模式，但这些继续护理教育管理信息系统一般为局域网，仅能达到满足自身管理的基本需求，而系统如…...

编程日记 2023/2/28 4:23:03

Clickhouse学习(一):MergeTree概述

MergeTree一、Clickhouse表引擎概述二、MergeTree表引擎<一>、ReplacingMergeTree引擎<二>、SummingMergeTree引擎<三>、AggregatingMergeTree引擎三、MergeTree分区一、Clickhouse表引擎概述 MergeTree表引擎:允许根据日期和主键创建索引 1、ReplacingMerge…...

编程日记 2023/2/28 4:21:58

Windows离线安装rust

目前rust安装常用的方式就是通过Rustup安装，此安装方式需要访问互联网。在生产环境中由于网络限制，不能直接访问互联网或者不能访问目标网站，这时候需要用离线安装的方式，本文将详细介绍离线安装步骤，并给出了vscode如…...

编程日记 2023/2/28 4:20:52

Android与flutter混合开发

这里我使用的android studio版本是2020.3.1；flutter版本2.5.3。此前在网上搜索的很多教教程版本都不一样，新版的IDE和SDK让我遇到了很多坑故这里整理一下。一、创建项目1.在Android项目中点击File->New->New Flutter Project。File->New->Ne…...

编程日记 2023/2/28 4:19:44

Linux和C语言的学习方法你真的知道吗？

★Linux的使用第一天，就给我们讲了为什么要先学c、学linux：因为嵌入式的根本就是软件驱动硬件，而C语言是最接近硬件的语言、有指针的概念、可以直接操作硬件，另外，功能复杂的硬件是含有操作系统的，这就需…...

编程日记 2023/2/28 4:18:39

代码随想录day42

1049. 最后一块石头的重量 II https://leetcode.cn/problems/last-stone-weight-ii/ 这个自己还是没想出来01背包对应。本题其实就是尽量让石头分成重量相同的两堆，相撞之后剩下的石头最小，这样就化解成01背包问题了。 stones [2,7,4,1,8,1]也就是sum…...

编程日记 2023/2/28 4:17:33

【笔记】两台1200PLC进行S7 通信（1）

使用两台1200系列PLC进行S7通信（入门） 文章目录目录文章目录前言一、通信 1.概念 2.PLC通信 1.串口 2.网口 …...

编程日记 2023/2/28 4:16:27

统一网关Gateway

为什么需要网关网关功能： 身份认证和权限校验服务路由，负载均衡根据请求判断找到对应的服务路由，然后服务可能有多个实例，这个时候网关就会做一个负载均衡去挑选一个实例调用.请求限流限制请求的数量，这是微服务的…...

编程日记 2023/2/28 4:15:20

6、kubernetes（k8s）安装

本文内容以语雀为准文档等等，Docker 被 Kubernetes 弃用了?容器运行时端口和协议kubeadm initkubeadm config安装网络策略驱动使用 kubeadm 创建集群控制平面节点隔离持久卷为容器设置环境变量在CentOS上安装Docker引擎Pod 网络无法访问排查处理说明本文…...

编程日记 2023/2/28 4:14:13

挑战杯推荐项目

“人工智能”创意赛 - 智能艺术创作助手：借助大模型技术，开发能根据用户输入的主题、风格等要求，生成绘画、音乐、文学作品等多种形式艺术创作灵感或初稿的应用，帮助艺术家和创意爱好者激发创意、提高创作效率。 - 个性化梦境…...

编程新知 2025/11/6 5:46:16

《通信之道——从微积分到 5G》读书总结

第1章绪论 1.1 这是一本什么样的书通信技术，说到底就是数学。那些最基础、最本质的部分。 1.2 什么是通信通信发送方接收方承载信息的信号解调出其中承载的信息信息在发送方那里被加工成信号（调制） 把信息从信号中抽取出来&am…...

编程新知 2026/2/7 11:01:56

今日科技热点速览

🔥 今日科技热点速览 🎮 任天堂Switch 2 正式发售任天堂新一代游戏主机 Switch 2 今日正式上线发售，主打更强图形性能与沉浸式体验，支持多模态交互，受到全球玩家热捧。 🤖 人工智能持续突破 DeepSeek-R1&…...

编程新知 2025/11/20 14:26:29

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现（两者等价），用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例： 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

编程新知 2025/11/21 22:02:37

Linux离线（zip方式）安装docker

目录基础信息操作系统信息docker信息安装实例安装步骤示例遇到的问题问题1：修改默认工作路径启动失败问题2 找不到对应组基础信息操作系统信息 OS版本：CentOS 7 64位内核版本：3.10.0 相关命令： uname -rcat /etc/os-rele…...

编程新知 2025/11/23 23:50:53

LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf

FTP 客服管理系统实现kefu123登录，不允许匿名访问，kefu只能访问/data/kefu目录，不能查看其他目录创建账号密码 useradd kefu echo 123|passwd -stdin kefu [rootcode caozx26420]# echo 123|passwd --stdin kefu 更改用户 kefu 的密码…...

编程新知 2026/2/9 20:16:17

【从零开始学习JVM | 第四篇】类加载器和双亲委派机制(高频面试题)

前言： 双亲委派机制对于面试这块来说非常重要，在实际开发中也是经常遇见需要打破双亲委派的需求，今天我们一起来探索一下什么是双亲委派机制，在此之前我们先介绍一下类的加载器。目录编辑前言： 类加载器 1. …...

编程新知 2026/1/23 7:37:12

Ubuntu Cursor升级成v1.0

0. 当前版本低使用当前 Cursor v0.50时 GitHub Copilot Chat 打不开，快捷键也不好用，当看到 Cursor 升级后，还是蛮高兴的 1. 下载 Cursor 下载地址：https://www.cursor.com/cn/downloads 点击下载 Linux (x64) ，…...

编程新知 2026/2/4 16:04:11