当前位置: 首页 > article >正文

智能体(Agent)开发入门:基于PyTorch与强化学习库的实战

智能体Agent开发入门基于PyTorch与强化学习库的实战1. 为什么学习智能体开发最近几年智能体技术越来越火。从游戏AI到自动驾驶从聊天机器人到自动化交易系统智能体正在改变我们与技术互动的方式。简单来说智能体就是一个能感知环境、做出决策并采取行动的程序。强化学习是训练智能体的主要方法之一。通过PyTorch这样的深度学习框架配合Gymnasium这样的强化学习环境库我们可以相对轻松地构建和训练自己的智能体。今天我们就从最经典的CartPole平衡问题开始带你一步步搭建你的第一个智能体。2. 环境准备与快速部署2.1 安装必要工具首先确保你已经安装了Python 3.8或更高版本。然后创建一个新的虚拟环境python -m venv rl_env source rl_env/bin/activate # Linux/Mac rl_env\Scripts\activate # Windows接下来安装必要的库pip install torch gymnasium matplotlib2.2 验证环境让我们先快速验证一下环境是否正常工作import gymnasium as gym env gym.make(CartPole-v1) observation, info env.reset() print(初始观察值:, observation) env.close()如果运行后看到类似初始观察值: [-0.012 0.041 -0.03 0.039]的输出说明环境已经正确安装。3. 理解CartPole问题CartPole是一个经典的强化学习测试环境。问题描述很简单一个小车可以在轨道上左右移动车上有一根可以自由旋转的杆子。你的目标是控制小车移动让杆子保持直立不倒。环境会给你4个观察值小车位置小车速度杆子角度杆子顶端速度你的智能体需要根据这些观察值决定是向左推(0)还是向右推(1)小车。每保持杆子直立一步就会得到1分的奖励。如果杆子倾斜超过15度或者小车移动超过轨道边界游戏就结束了。4. 构建智能体的大脑4.1 设计策略网络我们的智能体需要一个大脑来做决策。这里我们用一个简单的神经网络import torch import torch.nn as nn import torch.nn.functional as F class PolicyNetwork(nn.Module): def __init__(self): super().__init__() self.fc1 nn.Linear(4, 128) # 输入层4个观察值 self.fc2 nn.Linear(128, 2) # 输出层2个动作 def forward(self, x): x F.relu(self.fc1(x)) x F.softmax(self.fc2(x), dim-1) return x这个网络接收4个观察值经过一个128个神经元的隐藏层最后输出两个动作的概率分布。4.2 理解网络输出网络最后使用了softmax激活函数这意味着它会输出两个动作的概率。比如可能输出[0.7, 0.3]表示有70%的概率选择动作0(左推)30%的概率选择动作1(右推)。这种概率性的选择在强化学习中很重要因为它允许智能体探索不同的动作而不是总是选择当前看起来最好的动作。5. 训练智能体5.1 训练循环的基本结构训练一个强化学习智能体通常包含以下几个步骤让智能体与环境交互收集经验根据这些经验计算好动作和不好动作调整网络参数使智能体更倾向于选择好动作重复上述过程让我们来实现这个训练循环def train(env, policy, episodes1000, learning_rate0.01): optimizer torch.optim.Adam(policy.parameters(), lrlearning_rate) for episode in range(episodes): obs, _ env.reset() done False rewards [] log_probs [] # 与环境交互 while not done: obs_tensor torch.FloatTensor(obs) action_probs policy(obs_tensor) # 根据概率选择动作 action torch.multinomial(action_probs, 1).item() log_prob torch.log(action_probs[action]) obs, reward, terminated, truncated, _ env.step(action) done terminated or truncated rewards.append(reward) log_probs.append(log_prob) # 计算并应用梯度 returns [] R 0 for r in reversed(rewards): R r 0.99 * R # 折扣因子0.99 returns.insert(0, R) returns torch.FloatTensor(returns) returns (returns - returns.mean()) / (returns.std() 1e-9) policy_loss [] for log_prob, R in zip(log_probs, returns): policy_loss.append(-log_prob * R) optimizer.zero_grad() loss torch.stack(policy_loss).sum() loss.backward() optimizer.step() if episode % 50 0: print(fEpisode {episode}, 总奖励: {sum(rewards)})5.2 开始训练现在我们可以创建环境实例和策略网络然后开始训练env gym.make(CartPole-v1) policy PolicyNetwork() train(env, policy, episodes1000)训练过程中你会看到每50个episode输出一次总奖励。随着训练进行这个数字应该会逐渐增加说明智能体正在学习如何保持杆子平衡。6. 测试训练效果训练完成后让我们看看智能体的表现def test(env, policy, episodes10): for episode in range(episodes): obs, _ env.reset() done False total_reward 0 while not done: obs_tensor torch.FloatTensor(obs) action_probs policy(obs_tensor) action torch.argmax(action_probs).item() obs, reward, terminated, truncated, _ env.step(action) done terminated or truncated total_reward reward print(f测试Episode {episode}, 总奖励: {total_reward}) test(env, policy)理想情况下经过足够训练后智能体应该能在大多数测试中达到200分的满分(这是CartPole-v1环境的最高分限制)。7. 可视化训练过程为了更直观地理解训练过程我们可以绘制奖励随训练次数的变化import matplotlib.pyplot as plt def train_with_logging(env, policy, episodes1000): # ... (与之前相同的训练代码但添加以下内容) episode_rewards [] for episode in range(episodes): # ... (之前的训练循环代码) episode_rewards.append(sum(rewards)) plt.plot(episode_rewards) plt.xlabel(Episode) plt.ylabel(Total Reward) plt.title(训练过程) plt.show() env gym.make(CartPole-v1) policy PolicyNetwork() train_with_logging(env, policy)这张图会显示智能体的表现如何随着训练逐步提升。一开始奖励可能很低随着训练进行曲线应该会稳步上升。8. 下一步学习建议现在你已经成功训练了第一个强化学习智能体如果想继续深入学习可以考虑以下方向尝试更复杂的环境如LunarLander或Atari游戏实现更高级的算法如DQN、PPO或SAC添加经验回放(experience replay)机制尝试连续动作空间的问题探索多智能体强化学习强化学习是一个广阔的领域这个简单的CartPole示例只是冰山一角。随着你深入学习你会发现更多有趣且具有挑战性的问题等待解决。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

智能体(Agent)开发入门:基于PyTorch与强化学习库的实战

智能体(Agent)开发入门:基于PyTorch与强化学习库的实战 1. 为什么学习智能体开发 最近几年,智能体技术越来越火。从游戏AI到自动驾驶,从聊天机器人到自动化交易系统,智能体正在改变我们与技术互动的方式。…...

告别数据线!用ESP32经典蓝牙和手机App实现无线串口调试(附完整代码)

无线串口革命:用ESP32经典蓝牙打造零束缚开发环境 每次调试都要弯腰插拔数据线?设备装进外壳后调试口难以触及?是时候拥抱无线串口调试的新时代了。本文将带你用ESP32的经典蓝牙功能,把手机变成随身无线调试终端,彻底摆…...

保姆级教程:在Windows 10上搞定Quartus Prime 18.0与Nios II EDS完整开发环境(含破解与器件库安装)

从零构建Intel FPGA开发环境:Quartus Prime 18.0与Nios II EDS实战指南 第一次接触Intel FPGA开发工具链时,面对Quartus Prime、Nios II EDS、Platform Designer等组件的组合,许多开发者都会感到迷茫。本文将带你以工程化思维完成开发环境搭建…...

别再让客户端排队了!用C++多线程搞定TCP并发服务器(附完整代码)

突破单线程瓶颈:C高并发TCP服务器实战指南 当你的Echo服务器只能服务一个客户端时,意味着你正面临网络编程中最经典的并发挑战。本文将带你从零构建一个工业级C多线程TCP服务器,彻底解决客户端排队问题。 1. 单线程服务器的致命缺陷 在传统的…...

用STM32L496的ADC玩点不一样的:手把手教你给正点原子潘多拉开发板做个“迷你示波器”

用STM32L496的ADC玩转迷你示波器:从硬件加速到波形绘制的全链路实战 在嵌入式开发领域,ADC(模数转换器)是最基础却又最容易被低估的模块之一。大多数教程止步于单次采样的实现,却很少探讨如何将ADC的性能压榨到极致。本…...

AI写论文是作弊还是工具?关于AI创作的4个核心争议,一次性说清楚

AI写论文这件事,为什么越讨论越让人焦虑?前几天刷到一条新闻,说有个学生把自己纯手写的5.8万字论文送去AI检测,结果报告显示AI生成率86.8%,连致谢部分都被判定为“机器写的”。另一头,南京大学历史学院却发…...

STM32F407 + LAN8720A + LWIP 实现TCP服务器:从热拔插支持到数据回显的实战解析

1. 硬件选型与基础环境搭建 STM32F407搭配LAN8720A的方案在工业物联网领域非常常见,我经手过的十几个项目里这套组合的稳定性确实经得起考验。先说说硬件连接要点:LAN8720A通过RMII接口与STM32F407通信,注意检查开发板上PHYAD0引脚的电平状态…...

【Maven】从零开始:环境搭建、IDEA集成与核心概念解析

1. Maven入门:为什么你需要这个构建工具 第一次接触Maven时,我和大多数Java新手一样困惑:明明手动导入jar包也能开发,为什么要用这个看似复杂的工具?直到接手一个需要30多个依赖库的项目,手动管理依赖版本冲…...

CasRel模型处理Mathtype公式上下文:抽取数学符号关系

CasRel模型处理Mathtype公式上下文:抽取数学符号关系 最近在尝试一些信息抽取任务时,我突发奇想:那些专门用来抽取实体关系的模型,比如CasRel,如果让它去“读”一篇充满数学公式的学术论文,会怎么样&#…...

告别手动K帧!HY-Motion 1.0实测:文本生成3D动画全流程解析

告别手动K帧!HY-Motion 1.0实测:文本生成3D动画全流程解析 你是否曾经为了制作一个简单的3D角色动画,不得不花费数小时手动调整每一帧的关键姿势?或者因为找不到合适的动作素材而不得不妥协创意?现在,这一…...

SSH配置与GitHub项目拉取操作指南

SSH配置与GitHub项目拉取操作指南 文章目录SSH配置与GitHub项目拉取操作指南[toc]🔐 SSH密钥基础知识什么是公钥和私钥?👥 大白话解释👨‍💻 专业解释在GitHub场景中的应用一、操作前准备1.1 环境要求1.2 检查Git安装二…...

别再让晶振拖后腿!手把手教你搞定STM32/ESP32的PCB时钟电路(附常见不起振排查清单)

别再让晶振拖后腿!手把手教你搞定STM32/ESP32的PCB时钟电路(附常见不起振排查清单) 时钟电路就像嵌入式系统的心跳,一旦出现问题,整个系统都可能陷入混乱。最近在调试一块STM32H7开发板时,我遇到了一个诡异…...

月薪 3 万去草原给 DeepSeek 守机房

最近一则招聘信息火了:DeepSeek 在内蒙古乌兰察布的智算机房招人,月薪开到 15K-30K,还配 14 薪,直接把“草原守机房”送上热搜。很多人第一反应是:去大草原看服务器?听起来像段子,其实是真事&am…...

老板裁员后很奇怪:原先 100 个人干 50 个人的活,裁掉一半后,剩下 50 人干 25 个人的活,但好像并没有提高工作效率

职场最大的笑话,就是老板裁完员,才发现自己把公司的根给砍了。最近刷到一个 CEO 的吐槽:公司 100 个人干 50 个人的活,他大手一挥裁掉一半,结果剩下 50 人只干了 25 人的活,效率不升反降。网友一句话点醒梦…...

雷军再次回应“1300 公里中间只充一次电”

4 月 16 日中午,雷军一条微博又引发热议。①他官宣:4 月 17 日早 6 点半,全程直播驾驶新一代 SU7,挑战北京到上海约 1265 公里高速,中间只充一次电,全程约 15 个小时。这事源于 2025 年年初他说开 YU7 标准…...

前端技术中的框架选择工程化建设与性能监控

前端技术中的框架选择、工程化建设与性能监控是现代Web开发中至关重要的环节。随着应用复杂度不断提升,开发者需要在技术选型、开发流程和性能保障之间找到平衡点。本文将围绕这三个核心领域展开探讨,帮助团队构建高效、可维护的前端架构。 框架选择的权…...

Windows Cleaner终极指南:简单三步彻底解决C盘爆红和电脑卡顿问题

Windows Cleaner终极指南:简单三步彻底解决C盘爆红和电脑卡顿问题 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你是不是经常遇到C盘爆红、电脑卡顿…...

Kandinsky-5.0-I2V-Lite-5s效果展示:基于卷积神经网络的风格迁移视频生成

Kandinsky-5.0-I2V-Lite-5s效果展示:基于卷积神经网络的风格迁移视频生成 1. 开篇:当艺术创作遇上AI 想象一下,你随手拍的一张普通照片,能在几秒钟内变成梵高风格的动态视频。这不是科幻电影里的场景,而是Kandinsky-…...

给Nuke新手的保姆级避坑指南:从导入素材到输出渲染的完整流程

给Nuke新手的保姆级避坑指南:从导入素材到输出渲染的完整流程 第一次打开Nuke时,那个布满节点的界面可能会让你感到不知所措。作为影视后期行业的标准合成软件,Nuke以其强大的功能和极高的自由度著称,但这也意味着新手需要跨越一个…...

Nanbeige4.1-3B开源大模型部署:支持国产昇腾/海光平台适配可行性分析

Nanbeige4.1-3B开源大模型部署:支持国产昇腾/海光平台适配可行性分析 1. 引言 最近,一个名为Nanbeige4.1-3B的开源小模型在开发者社区里引起了不小的讨论。它只有30亿参数,却宣称在推理、代码生成和智能体任务上有着不错的表现。更吸引人的…...

Java 锁优化的底层原理

Java锁优化:提升并发性能的底层奥秘 在多线程编程中,锁是保证线程安全的核心机制,但不当的锁使用可能导致性能瓶颈。Java虚拟机(JVM)通过一系列底层优化技术,显著提升了锁的效率。本文将深入探讨Java锁优化…...

Grafana告警邮件模板定制实战:从基础配置到高级优化

1. Grafana告警邮件模板基础配置 第一次接触Grafana告警邮件模板时,我被它强大的自定义能力所震撼。记得去年给客户部署监控系统时,他们提出一个很实际的需求:告警邮件必须包含服务器名称、具体告警事项和当前指标值这三要素。当时用默认模板…...

别再只跑SPSSAU了!验证性因子分析(CFA)从问卷设计到结果解读的完整避坑指南

验证性因子分析全流程实战:从问卷设计到结果解读的深度避坑手册 第一次做验证性因子分析时,我盯着满屏的红色警告和未达标指标,感觉整个人都不好了——明明按照教程一步步操作,为什么模型拟合度这么差?直到导师指出问题…...

s2-pro效果展示:财经新闻语音(数字/百分比/汇率)准确播报

s2-pro效果展示:财经新闻语音(数字/百分比/汇率)准确播报 1. 专业语音合成新标杆 s2-pro作为Fish Audio开源的专业级语音合成模型镜像,正在重新定义文本转语音的技术标准。这个强大的工具不仅能将文字转化为自然流畅的语音&…...

用 Python 模拟鼠标键盘操作,实现自动控制电脑版微信发送消息

用 Python 模拟鼠标键盘操作,实现自动控制电脑版微信发送消息 前言 在日常办公中,我们经常会遇到一些重复性的电脑操作,例如打开某个软件、点击固定位置、输入一段文字、按下快捷键等。如果这些操作规则比较固定,就可以考虑使用…...

别再混淆了!SAP ABAP里bgRFC的Inbound和Outbound到底怎么选?附SBGRFCCONF配置详解

SAP ABAP开发实战:bgRFC的Inbound与Outbound场景深度解析 在SAP系统集成领域,bgRFC(Background Remote Function Call)作为传统RFC的增强版本,已经成为处理异步系统通信的核心技术。但许多ABAP开发者在面对Inbound和Ou…...

SerialPlot实战指南:3步掌握串口数据可视化,让调试效率翻倍

SerialPlot实战指南:3步掌握串口数据可视化,让调试效率翻倍 【免费下载链接】serialplot Small and simple software for plotting data from serial port in realtime. 项目地址: https://gitcode.com/gh_mirrors/se/serialplot 你是否曾经面对串…...

想在瑞芯微RK3588上跑视频分类模型?避开3D卷积这个坑,试试这几种NPU友好的方案

瑞芯微RK3588视频分类模型部署实战:3D卷积替代方案与性能优化 在嵌入式AI领域,瑞芯微RK3588凭借其强大的NPU加速能力成为众多开发者的首选平台。然而当我们将目光投向视频理解任务时,一个关键问题浮出水面:如何在不支持原生3D卷积…...

关系型数据库MySQL(三):主从复制

数据库主从复制一、主从复制核心概念定义:主从复制是一种数据库架构模式,允许一个 MySQL 数据库服务器(主库)将其数据变更自动复制到一个或多个其他 MySQL 服务器(从库)。 目的:高可用&#xff…...

服务网格治理功能

服务网格治理功能:构建高效微服务架构的核心支柱 在云原生与微服务架构盛行的今天,服务网格(Service Mesh)已成为企业实现服务间通信、监控与安全的关键基础设施。而服务网格治理功能,则是其核心价值所在,…...