当前位置: 首页 > article >正文

用Python和Pandas手把手实现你的第一个Q-learning寻宝游戏(附完整代码)

用Python和Pandas手把手实现你的第一个Q-learning寻宝游戏附完整代码在人工智能的众多分支中强化学习因其独特的试错学习机制而备受关注。想象一下你正在教一个孩子玩迷宫游戏——你不会直接告诉他每一步该怎么走而是让他在尝试中找到通往终点的最佳路径并在每次成功时给予奖励。这正是Q-learning的核心思想通过与环境互动来学习最优策略。本文将带你用Python和Pandas从零构建一个完整的Q-learning寻宝游戏。不同于理论讲解我们会聚焦于可运行的代码实现让你在动手实践中理解如何用Pandas DataFrame构建Q-tableε-greedy策略的Python实现细节时序差分(TD)更新的具体计算过程可视化环境反馈的技巧1. 环境搭建与基础配置1.1 初始化游戏环境我们的寻宝游戏设定在一个线性轨道上探险者o需要找到宝藏T。环境状态可以用字符串表示例如-o---T表示探险者在第二个位置宝藏在最右侧。首先导入必要的库并设置超参数import numpy as np import pandas as pd import time # 设置随机种子保证结果可复现 np.random.seed(2) # 游戏参数配置 N_STATES 6 # 状态数量轨道长度 ACTIONS [left, right] # 可用动作 EPSILON 0.9 # ε-greedy策略参数 ALPHA 0.1 # 学习率 GAMMA 0.9 # 奖励衰减系数 MAX_EPISODES 13 # 最大训练轮次 FRESH_TIME 0.3 # 可视化刷新间隔1.2 构建Q-tableQ-table是Q-learning的核心数据结构记录每个状态-动作对的预期收益。我们用Pandas DataFrame实现def build_q_table(n_states, actions): 初始化Q-table return pd.DataFrame( np.zeros((n_states, len(actions))), columnsactions ) # 示例输出 left right 0 0.0 0.0 1 0.0 0.0 2 0.0 0.0 3 0.0 0.0 4 0.0 0.0 5 0.0 0.0 注意初始时所有Q值设为0表示智能体对环境的初始无知状态2. 核心算法实现2.1 ε-greedy动作选择平衡探索(exploration)与利用(exploitation)是强化学习的关键挑战。我们采用ε-greedy策略def choose_action(state, q_table): 基于ε-greedy策略选择动作 state_actions q_table.iloc[state, :] # 10%概率随机选择探索或当所有Q值为0时 if np.random.uniform() EPSILON or state_actions.all() 0: return np.random.choice(ACTIONS) # 90%概率选择当前最优动作利用 return state_actions.idxmax()2.2 环境反馈机制定义状态转移和奖励规则def get_env_feedback(S, A): 环境对动作的反馈 if A right: if S N_STATES - 2: # 到达宝藏位置 return terminal, 1 return S 1, 0 else: # 向左移动 return max(S - 1, 0), 0 # 确保不会越界2.3 可视化更新为直观观察训练过程添加可视化功能def update_env(S, episode, step_counter): 更新命令行可视化 env [-]*(N_STATES-1) [T] if S terminal: print(f\rEpisode {episode1}: steps{step_counter}, end) time.sleep(2) else: env[S] o print(\r .join(env), end) time.sleep(FRESH_TIME)3. Q-learning主循环3.1 TD更新实现时序差分(Temporal Difference)是Q-learning的核心更新方法def rl(): q_table build_q_table(N_STATES, ACTIONS) for episode in range(MAX_EPISODES): step_counter 0 S 0 # 初始状态 is_terminated False update_env(S, episode, step_counter) while not is_terminated: A choose_action(S, q_table) S_, R get_env_feedback(S, A) # 计算预测值和目标值 q_predict q_table.loc[S, A] q_target R if S_ terminal else R GAMMA * q_table.iloc[S_].max() # Q-table更新 q_table.loc[S, A] ALPHA * (q_target - q_predict) S S_ step_counter 1 is_terminated S_ terminal update_env(S, episode, step_counter) return q_table3.2 训练过程解析让我们拆解一个训练episode的完整流程初始化状态S0最左侧位置根据当前Q值和ε-greedy策略选择动作执行动作获得新状态S和奖励R计算TD误差(R γ*maxQ(S) - Q(S,A))更新Q-tableQ(S,A) α * TD误差重复直到到达terminal状态4. 结果分析与优化4.1 训练结果观察运行完整训练后典型的Q-table输出如下left right 0 0.000000 0.005314 1 0.000000 0.027405 2 0.000000 0.112025 3 0.000000 0.378929 4 0.000000 0.747209 5 0.000000 0.000000从Q-table可以看出右侧动作的Q值随着接近宝藏位置逐渐增大左侧动作始终为0因为向左移动无法获得奖励状态5宝藏位置的Q值为0因为到达后episode结束4.2 参数调优建议通过实验发现以下规律参数增大效果减小效果α学习更快但可能不稳定学习稳定但速度慢γ更重视远期奖励更关注即时奖励ε更多探索更多利用已知策略推荐初始参数组合ALPHA 0.1 # 适中学习率 GAMMA 0.9 # 适度考虑远期奖励 EPSILON 0.9 # 高探索率4.3 常见问题排查问题1智能体始终随机行动检查ε值是否过高确认奖励设置是否正确问题2Q值不收敛尝试减小学习率α增加训练episode数量问题3可视化显示异常确保终端支持\r回车符调整FRESH_TIME避免刷新过快5. 项目扩展方向5.1 增加环境复杂度将线性环境扩展为网格世界# 二维状态表示 states [(x,y) for x in range(5) for y in range(5)] actions [up, down, left, right]5.2 添加障碍物修改环境反馈函数def get_env_feedback(S, A): if S obstacle_pos and A right: return S, -1 # 碰到障碍物惩罚 ...5.3 改用神经网络近似Q函数对于大型状态空间可以用深度学习替代Q-tableimport torch import torch.nn as nn class QNetwork(nn.Module): def __init__(self, state_dim, action_dim): super().__init__() self.fc nn.Sequential( nn.Linear(state_dim, 64), nn.ReLU(), nn.Linear(64, action_dim) ) def forward(self, x): return self.fc(x)在实际项目中我发现调整ε的衰减策略能显著提升性能——初期高探索率帮助广泛尝试后期逐渐降低以利用学到的策略。一个简单的线性衰减实现epsilon max(0.01, 0.9 - 0.8 * episode / MAX_EPISODES)

相关文章:

用Python和Pandas手把手实现你的第一个Q-learning寻宝游戏(附完整代码)

用Python和Pandas手把手实现你的第一个Q-learning寻宝游戏(附完整代码) 在人工智能的众多分支中,强化学习因其独特的"试错学习"机制而备受关注。想象一下,你正在教一个孩子玩迷宫游戏——你不会直接告诉他每一步该怎么走…...

别再硬啃理论了!用‘主从博弈’的视角理解Benders分解

主从博弈:用故事思维拆解Benders分解算法 想象一下你是一家跨国公司的CEO(主问题),需要决定在哪些国家开设工厂(x变量)。而每个国家的分公司经理(子问题)会根据你的决策,…...

【GD32】TIMER基本定时器实战:从时钟树解析到精准微秒延时实现

1. 认识GD32基本定时器:你的精准时间管家 第一次接触GD32的定时器时,我完全被那些专业术语吓到了——APB总线、预分频、自动重装载值...直到有一次做传感器数据采集项目,因为延时不准导致数据错位,才真正明白定时器的重要性。简单…...

MetaboAnalystR 4.2:代谢组学数据分析的完整R包解决方案指南

MetaboAnalystR 4.2:代谢组学数据分析的完整R包解决方案指南 【免费下载链接】MetaboAnalystR R package for MetaboAnalyst 项目地址: https://gitcode.com/gh_mirrors/me/MetaboAnalystR MetaboAnalystR 4.2是一个功能强大的R语言代谢组学数据分析工具包&a…...

梁高直降25cm!HPH新构造省时又省钱

一、建筑与新能源的“双重风口”,催生HPH技术新浪潮 迎来刚刚落下帷幕结果的,是二零二六年于北京亦庄举办的人形机器人半程马拉松,从中我们看到前沿技术从实验室迈向真实场景所具备的速度。于此同时,在刚刚对外进行公布的二零二六…...

2026届必备的五大AI辅助论文神器推荐榜单

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 人工智能助力撰写开题报告,能大幅提高研究框架搭建效率,它依据自然语…...

告别工厂模式:用更清晰的方式在Spring Boot里玩转MQTT发布与订阅(附可运行Demo)

Spring Boot极简MQTT实战:从零构建智能灯控系统 物联网开发中,MQTT协议因其轻量级和高效性成为设备通信的首选方案。但对于刚接触Spring Boot的开发者来说,网上充斥着大量使用复杂工厂模式的实现方案,不仅增加了学习曲线&#xff…...

ConvNeXt 系列改进:位置信息补全:ConvNeXt 结合 CoordAtt(坐标注意力),提升密集预测任务表现

一、写在前面:ConvNeXt 的“阿喀琉斯之踵” 2022年,Meta AI(FAIR)团队推出ConvNeXt,以纯卷积架构在ImageNet-1K上拿下87.8%的top-1准确率,在COCO目标检测和ADE20K语义分割任务上全面超越Swin Transformer,让整个社区重新认识到卷积网络的潜力。2023年,ConvNeXt V2更进…...

【算法日记】Day 20 动态规划专题——状态压缩DP(三)

Abstract:#动态规划 #状压DP #TSP问题 1. 题目 题目:Luogu P1171 售货员的难题核心思路:状态压缩动态规划。定义dp[status][cur]表示当前已经访问过的城市集合为status,且当前位于城市cur,要访问完所有剩余城市并最终…...

HAKE模型实战:用极坐标嵌入搞定知识图谱的层级关系预测

HAKE模型实战:极坐标嵌入在知识图谱层级关系预测中的应用 知识图谱作为结构化的人类知识库,在智能搜索、推荐系统和问答系统等领域展现出巨大价值。然而,现实中的知识图谱往往面临数据不完整的问题——大量有效三元组缺失。传统基于规则或统计…...

CANoe COM接口深度探索:如何像查字典一样使用Type Library和对象层次图

CANoe COM接口深度探索:如何像查字典一样使用Type Library和对象层次图 当你在深夜调试CANoe自动化脚本时,是否曾被满屏的"Method not found"错误折磨得抓狂?作为经历过数百小时COM接口调试的老手,我发现大多数开发者卡…...

Cadence SPB16.6 自带400+原理图库(.olb)快速盘点与高效复用指南

Cadence SPB16.6 自带原理图库高效复用全攻略:从海量元件中快速定位与集成 1. 原理图库资源概览与分类解析 Cadence SPB16.6作为业界领先的EDA工具套件,其自带的原理图库资源堪称硬件设计领域的"宝藏"。安装目录下的capture/library文件夹内包…...

用Python实战模糊粗糙集:从理论到代码,5步搞定高维数据降维

用Python实战模糊粗糙集:从理论到代码,5步搞定高维数据降维 当你的数据集包含数百个传感器读数或用户行为指标时,传统降维方法往往会丢失关键信息。我在处理电商用户画像数据时就遇到过这个问题——PCA处理后那些微妙的购买模式特征全都不见了…...

互联网大厂 Java 求职面试:音视频场景中的技术挑战

互联网大厂 Java 求职面试:音视频场景中的技术挑战 在一个晴朗的下午,面试官小李正坐在会议室中,等候着候选人燕双非的到来。这位看似轻松的程序员,今天却要面对一系列技术问题。小李微笑着,开始了第一轮提问。第一轮提…...

RKMEDIA VO图层实战:从DRM基础到双屏叠加配置

1. DRM基础与屏幕检测入门 在RK平台开发中,显示系统是整个交互体验的核心。我刚开始接触RV1126开发板时,第一件事就是确认屏幕能否正常点亮。这里不得不提modetest这个神器——它是DRM(Direct Rendering Manager)子系统提供的调试…...

ThinkPHP5常见问题及解决方案

关于 THINKPHP 5 框架的答疑,请具体描述您遇到的问题(例如:路由配置、模型操作、模板渲染、扩展机制等)。以下常见方向供参考:路由问题自定义路由规则失效RESTful 接口配置冲突路由参数解析异常数据库操作模型关联查询…...

还在终端里用 Claude Code?CC GUI 把 AI 编码工作流搬回 IDEA

导读Claude Code 很火,Codex 也很火,但对一批长期驻守 IntelliJ IDEA 的开发者来说,真正影响效率的,往往不是模型本身,而是使用姿势。代码写在 IDE 里,工程上下文在 IDE 里,排查问题在 IDE 里&a…...

开发者的新武器:利用Claude Skill实现自动化代码审查与单元测试生成

你可能已经听说过Claude Skill——Anthropic在2025年10月推出的这个功能,一时间成了开发者圈子的热门话题。但说实话,刚开始我也觉得这不过是又一个“AI新特性”,听听就好,不用当真。直到有一天,我对着一个2000多行的R…...

SpringBoot多模块开发,启动类扫描不到SDK的Bean?试试这3种注入方式(含实战避坑)

SpringBoot多模块开发中Bean注入难题的3种实战解决方案 最近在重构一个电商后台系统时,我把通用功能抽离成了独立SDK模块。本以为引入依赖就能万事大吉,结果主项目启动时频频报NoSuchBeanDefinitionException。这才意识到,在多模块架构中&…...

用PYNQ-Z2开发板玩转ZYNQ XADC:手把手教你监控芯片温度与电压(附完整SDK代码)

PYNQ-Z2实战:XADC温度电压监控系统开发全指南 刚拿到PYNQ-Z2开发板时,我第一件事就是检查芯片的工作状态——温度是否正常?供电电压是否稳定?这些关键参数直接关系到系统的可靠性。Xilinx在ZYNQ芯片中内置的XADC模块(X…...

避坑指南:STM32定时器PWM模式与输出比较(OC)模式混用,为何你的电平‘锁不住’?

STM32定时器PWM与输出比较模式深度解析:如何避免电平锁定失效 在嵌入式开发中,定时器的PWM模式和输出比较(OC)模式是控制外设的两种常用方式。许多开发者在使用过程中会遇到一个典型问题:为什么在关闭中断或停止定时器时,PWM输出能…...

AD9364 SPI配置避坑指南:从寄存器0x3DF到0x015,手把手带你走通初始化流程

AD9364 SPI配置避坑指南:从寄存器0x3DF到0x015,手把手带你走通初始化流程 第一次接触AD9364的SPI配置时,我盯着密密麻麻的寄存器列表和长达数十页的配置流程,感觉像是面对一座难以攀登的高山。经过多次调试和失败后,终…...

对于有生成视频需求的电商,如何选择大模型性价比最高?

老张,你上次说想给店铺的货批量做短视频展示,问我有啥方案。我研究了一圈,发现这事儿比我想的靠谱——本地跑AI视频生成的门槛,已经低到让人有点意外了。 前段时间老张来找我吃饭,说最近搞电商压力挺大,淘宝和抖音上同行都在刷产品视频,他手里几百个SKU,找团队拍一条就…...

nRF52832串口DMA效率翻倍秘籍:从“定长接收”到“伪不定长”的完整配置流程

nRF52832串口DMA效率翻倍秘籍:从“定长接收”到“伪不定长”的完整配置流程 在嵌入式开发中,串口通信是最基础也最常用的外设之一。对于nRF52832这样的低功耗蓝牙SoC来说,如何高效利用其UARTE外设配合DMA实现可靠的数据传输,是每个…...

从LCD到MicroLED:手把手拆解主流显示技术演进史,看懂未来屏幕长啥样

从LCD到MicroLED:手把手拆解主流显示技术演进史,看懂未来屏幕长啥样 每次点亮手机屏幕时,你有没有想过——这些色彩斑斓的像素点是如何从实验室走向我们掌心的?显示技术的进化就像一场接力赛,每一代技术都在解决前代的…...

从技术黑箱到法律可溯:2026奇点大会强制推行的AGI“行为日志双签名”标准(含ISO/IEC 27001-AI附录草案)

第一章:2026奇点智能技术大会:AGI的法律框架 2026奇点智能技术大会(https://ml-summit.org) 全球AGI治理共识的里程碑 2026奇点智能技术大会首次将通用人工智能(AGI)的法律人格认定、责任归属与跨司法管辖区监管协同列为最高优先…...

XML CDATA

XML CDATA 概述 XML(可扩展标记语言)是一种用于存储和传输数据的标记语言。在XML中,CDATA(Character Data)是一种特殊的数据类型,用于包含文本数据,使其不会被XML解析器解释为XML标签或属性。本文将详细介绍XML CDATA的概念、使用方法及其在XML文档中的作用。 CDATA的…...

OpenClaw能力扩展机制完全解读:插件、Skill、API,怎么玩都行

OpenClaw的能力扩展基于一套分层、模块化的架构,核心在于通过不同层级的扩展机制满足从简单行为规范到深度系统集成的各类需求。这套体系主要由 Skill(技能)、Hook(钩子)、Plugin(插件) 和 多Ag…...

人形机器人半马:进步与失控并存,短板暴露促进行业迭代

北京亦庄:机器人半马现意外在北京亦庄南海子公园的终点线前,“天工Ultra”曾是去年北京亦庄人形机器人半程马拉松的王者,以2小时40分42秒的成绩夺冠。但在今年的比赛中,它触线后未停下,径直冲入路边绿化带,…...

体验 ROCm 和 Strix Halo:从系统设置到模型运行全流程分享!

又一个博客在这里,我将分享我对 ROCm 和 Strix Halo 的初印象,以及我是如何完成所有设置的。操作系统选择与驱动安装我习惯使用 Ubuntu 系统,所以这次依旧选择了受支持的 24.04 LTS 版本,并按官方安装说明进行了操作。BIOS 更新似…...