当前位置：首页 > news >正文

用DQN实现Atari game（Matlab代码实现）

news 2026/2/9 12:27:00

💥1 概述

📚2 运行结果

🎉3 参考文献

👨‍💻4 Matlab代码

💥1 概述

强化学习研究的是Agent和环境交互中如何学习最优策略，以获得最大收益。Agent需要能够观察环境(observe)所处的状态，评判（value）状态下每个动作的价值，并选出最优的动作（act）来和环境交互。因此，observe，value和act是强化学习Agent必不可少的元素。

对于复杂的问题，state维度非常大，我们很难基于tabular method来判断每一个(state, action)的价值。这种情况下，我们利用function approximation方法，构建一个深度神经网络(Deep-Q Network, DQN)，来估计(state, action)的价值。value()中Deep-Q Network模块就是一个神经网络，输入是atari game中的一帧图像，输出是每个action的价值。

强化学习，指的就是Agent与环境交互，不断强化，不断学习，最终找到解决问题的最优策略，那么学习（learn）就是强化学习必不可少的元素。在深度强化学习中，主要关注的就是DQN权重的学习，与深度神经网络的学习很相近，都是算一个loss，然后通过back-prop更新权重。

📚2 运行结果

主函数部分代码：

% RunDQN.m

clear; clc; close all;

tic;

% First specify if you use Octave (true) or Matlab (false)

Octave = false;

% Set State for Random Generator

if Octave

rand('state', 895647); % 895647

else

rng(895647);

end

global fieldHeight

global fieldWidth

global Memory

% Fix size of the Pong Field

fieldHeight = 64;

fieldWidth = 32;

% ---------------------- Step 1: Initializazion ------------------------ %

% ---------------------- 1. Setup Learning Parameters ------------------ %

if Octave

StartLearning = 1600 ; % # of Random Episodes before Learning starts

NEpisodes = 20000; % Octave is much slower but this works as well (at least on Windows?)

LearningRate = 6e-1 ;

MaxMemory = 1e4 ; % Size of the Memory (Again smaller for Octave)

UpdateTarget = 4001 ; % Periode with which Target is updated

else

StartLearning = 5000 ; % # of Random Episodes before Learning starts

NEpisodes = 46000;

LearningRate = 4e-1 ;

MaxMemory = 1e5 ; % Size of the Memory

UpdateTarget = 10001; % Periode with which Target is updated

end

🎉3 参考文献

[1]董永峰,杨琛,董瑶等.基于改进的DQN机器人路径规划[J].计算机工程与设计,2021,42(02):552-558.DOI:10.16208/j.issn1000-7024.2021.02.037.

用DQN实现Atari game（Matlab代码实现）

💥1 概述

📚2 运行结果

🎉3 参考文献

👨‍💻4 Matlab代码

相关文章：

用DQN实现Atari game（Matlab代码实现）

【JavaSE专栏11】Java的 if 条件语句

【opensea】opensea-js 升级 Seaport v1.4 导致的问题及解决笔记

JS语法（扫盲）

归并排序的学习过程（代码实现）

add_header重写的坑

跑步耳机入耳好还是不入耳好，最适合运动的蓝牙耳机

深度学习知识点简单概述【更新中】

【编程基础】009.输入两个正整数m和n，求其最大公约数和最小公倍数。

Golang错误处理

English Learning - L2 语音作业打卡复习对比 [ɑ:] [æ] Day18 2023.3.10 周五

LabVIEW中以编程方式获取VI克隆名称

Mysql count(*)的使用原理以及InnoDb的优化策略

一文入门HTML+CSS+JS（样例后续更新）

【STL】Vector剖析及模拟实现

数据库建表的一些技巧

线程（一）

[深入理解SSD系列闪存实战2.1.8] NAND FLASH Multi Plane Program（写）操作_multi plane 为何能提高闪存速度

计算机网络（第八版）——第一章知识总结

Linux学习笔记

CTF show Web 红包题第六弹

1688商品列表API与其他数据源的对接思路

什么？连接服务器也能可视化显示界面？：基于X11 Forwarding + CentOS + MobaXterm实战指南

Android第十三次面试总结（四大组件基础）

【C++特殊工具与技术】优化内存分配(一)：C++中的内存分配

Chrome 浏览器前端与客户端双向通信实战

API网关Kong的鉴权与限流：高并发场景下的核心实践

二维数组行列混淆区分 js

python打卡day47

timestamp时间戳转换工具