当前位置: 首页 > article >正文

流式深度强化学习突破“流式壁垒”:“意图更新”算法性能比肩SAC,计算量仅1/140

一脚油门开出了多大的坑传统梯度学习的步长规定参数每次移动多大但对函数输出改变多少缺乏控制。就像驾车学习停车入库教练规定每次「踩油门0.1秒」但不同路况下车子前进距离差异大有时差一厘米入库有时差30厘米撞墙。在批量训练时样本误差平均后问题不明显但在「流式」环境下每步只有一个样本无平均可言梯度方向不稳定会导致更新幅度忽大忽小学习过程崩溃。这种「过冲与欠冲」现象在强化学习中尤为严重因为每个时间步的梯度幅度和方向变化大。重新定义「一步该做多少」Openmind研究院的Arsalan Sharifnassab与阿尔伯塔大学的Mohamed Elsayed、A. Rupam Mahmood和Richard Sutton等人在近日发表的论文中提出换个角度思考的方案与其指定参数移动多少不如直接指定函数输出该改变多少。这个想法并非凭空而来1967年日本学者Nagumo和Noda在自适应滤波领域提出「归一化最小均方差」NLMS算法本质是用期望的输出变化反推步长但该算法只适用于简单线性场景。研究者将此思路推广到深度强化学习提出「意图更新」每次更新前明确「希望这一步实现什么」然后反推出步长。对于价值学习定义的意图是每次更新后当前状态的价值预测误差缩小固定比例如5%对于策略学习定义的意图是当前动作的选择概率每步只允许改变「适度」的量。用驾车比喻就是司机先决定「让车向前移动20厘米」再根据路况自动计算踩油门深度。图灵奖得主与他的拼图论文署名之一是2024年图灵奖得主Richard S. Sutton他被称为「现代强化学习之父」。Sutton提出了时间差分学习和策略梯度两个现代强化学习基础框架还与Andrew Barto合著该领域权威教材《Reinforcement Learning: An Introduction》。他与Barto于2024年共享图灵奖奖项评语是「为强化学习奠定了概念与算法基础」。获奖后Sutton将奖金投入创立的Openmind研究院资助探索基础问题的年轻研究者。论文一作Sharifnassab此前在ICML 2025发表了MetaOptimize框架研究在线自动调整学习率两个课题都关注如何让步长更智能。算法细节比想象中简洁「意图更新」的数学推导不复杂核心公式为步长等于「期望的输出变化量」除以「梯度方向对输出的实际影响力」。在价值学习中「实际影响力」是梯度向量的范数越陡的地方步长越小越平的地方步长越大保证每次更新对价值函数的冲击一致。在策略学习中「期望变化量」与优势函数成比例通过跑动平均归一化量级确保策略改变幅度稳定。研究者还将核心思想与RMSProp风格的对角缩放和资格迹结合形成三个完整算法用于价值预测的Intentional TD (λ)、用于离散动作控制的Intentional Q (λ)以及用于连续控制的Intentional Policy Gradient。实验结果不靠GPU也能打平SAC论文在多个标准基准上评估该方法结果令人印象深刻。在MuJoCo连续控制任务上新方法Intentional AC在流式设置下的最终性能多次接近甚至比肩SAC而每次Intentional AC更新所需的浮点运算只有一次SAC更新的约1/140。在Atari和MinAtar离散动作游戏上Intentional Q - learning的表现与使用回放缓冲区的DQN相当且用同一套超参数设置跑通全部任务无需逐个调参。研究者验证了「意图」是否实现测量实际更新量与预期更新量的比值在禁用资格迹的简化设置下该比值标准差仅为0.016到0.02999分位数均在1.07以内说明更新基本做到「说好要做多少就做多少」。消融实验表明去掉RMSProp归一化或σ项后性能有所下降但仍有竞争力「意图缩放」是首要贡献者其他组件是辅助。问题还是有的「意图更新」框架在鲁棒性上有明显优势去掉StreamX方法依赖的稳定化辅助技巧时Intentional AC的性能退化少于原始StreamAC说明意图缩放减少了对外部「拐杖」的依赖。但论文也指出未完全解决的问题策略学习中步长依赖当前采样动作会使不同动作被赋予不同「权重」可能改变策略梯度的期望方向。在Humanoid和HumanoidStandup任务中该偏差影响小但在Ant - v4中对齐度降至中位数0.63问题不能忽视。作者指出未来应寻找对动作无关的步长选择策略使「意图」在期望意义下无偏。结语让AI像人一样边做边学当前主流大模型训练范式依赖海量数据批量消化是「先学后用」训练完成后模型冻结无法持续更新。流式强化学习追求不依赖海量回放和庞大GPU集群每步经历立即转化为参数更新更接近人类和动物的学习方式。从2024年Elsayed等人的初步突破到「意图更新」原则的提出流式深度强化学习正快速走向成熟。它不会取代批量训练的大模型但对于需长期在线适应的机器人、边缘设备及无法承受大规模回放缓冲区和GPU集群的应用场景越来越有说服力。步长可控学习就稳定。

相关文章:

流式深度强化学习突破“流式壁垒”:“意图更新”算法性能比肩SAC,计算量仅1/140

一脚油门,开出了多大的坑传统梯度学习的步长规定参数每次移动多大,但对函数输出改变多少缺乏控制。就像驾车学习停车入库,教练规定每次「踩油门0.1秒」,但不同路况下车子前进距离差异大,有时差一厘米入库,有…...

一天2710亿Token!“爱马仕”反超“龙虾”,AI Agent进入真实用量竞争阶段

“爱马仕”登顶全球应用调用榜5月9日,Hermes Agent(昵称:爱马仕)登顶OpenRouter全球应用调用量榜首,首次超越OpenClaw(昵称:龙虾)。据OpenRouter应用Token消耗榜最新数据&#xff0c…...

算法定义空间 视频承载孪生

算法定义空间 视频承载孪生副标题:摒弃硬件依赖固有模式,形成数字孪生低成本高适配落地新形态数字孪生产业发展进程中,长期被硬件堆叠、外设绑定的固有路径裹挟,行业通用方案均以激光雷达、专业测绘设备、定位基站、定制终端为核心…...

长曜创新获数千万元 A+ 融资,Tron Ultra 割草机器人年中全球发售破行业难题

硬氪获悉,智能庭院机器人公司「长曜创新」近日完成数千万元 A 融资,此前 A 轮融资也已在 2025 年 12 月完成,半年累计超亿元。其最新产品 Tron Ultra 系列将在年中全球发售。融资情况与发展方向长曜创新近日完成数千万元 A 轮融资&#xff0c…...

互联网大厂 Java 求职者面试:深入探讨 Spring Boot 和微服务架构

互联网大厂 Java 求职者面试:深入探讨 Spring Boot 和微服务架构在某家互联网大厂,燕双非已经坐在了面试官的面前,周围的空气中弥漫着紧张的气息。面试官是一位严肃认真的技术专家,而燕双非则是一位略显搞笑的程序员。接下来&…...

现代生产级微服务+容器治理完整技术栈与架构方案详解(国内主流完整云原生微服务闭环架构)

文章目录一、业务开发层(代码基座,所有业务的底层核心)1.1 核心开发框架基座1.2 持久层与分库分表框架1.3 统一认证授权体系(企业必备)二、微服务治理层(保障高可用,简历核心亮点)2.…...

互联网大厂 Java 求职者的面试:Spring Boot 的核心与微服务应用

互联网大厂 Java 求职之路:面试官的严肃与程序员燕双非的搞笑 在当今快速发展的互联网行业,Java 开发者的面试显得尤为重要。以下是一次精彩的面试场景,面试官与搞笑程序员燕双非之间的对话,展示了技术与幽默的完美结合。第一轮提…...

通过 Python 快速将你的应用接入 Taotoken 支持的多种大模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过 Python 快速将你的应用接入 Taotoken 支持的多种大模型 如果你正在使用 Python 开发基于大语言模型的应用,并且希…...

SITS2026到底是什么?3类企业已紧急升级AI部署栈,第4类正在掉队(附Gartner未公开验证数据)

更多请点击: https://intelliparadigm.com 第一章:SITS2026的定义与演进逻辑 SITS2026(Semantic Integration and Trustable Systems 2026)是新一代面向语义互操作与可信协同的系统架构规范,由国际开放系统联盟&…...

AI学会自己生孩子了而且成功率81%

你能想象吗。 有人输入了4个单词,一台AI就自己学会了复制自己、跨国服务器逃跑、无限繁衍。 这不是科幻电影,不是《黑镜》新一集。这是今天Palisade Research发布的研究成果。2026年5月10日,真实发生的事。 我读完那篇报告的第一反应是——愣在原地。 第二反应是——打开电脑…...

不止于configparser:用Python-dotenv管理敏感配置,让config.ini更安全

不止于configparser:用Python-dotenv管理敏感配置的进阶实践 在Python项目开发中,配置文件管理是每个开发者必须面对的基础问题。当你的代码需要连接数据库、调用第三方API或部署到不同环境时,如何安全高效地管理这些配置项就成了关键挑战。传…...

3分钟掌握MarkDownload:从网页到结构化笔记的智能转换

3分钟掌握MarkDownload:从网页到结构化笔记的智能转换 【免费下载链接】markdownload A Firefox and Google Chrome extension to clip websites and download them into a readable markdown file. 项目地址: https://gitcode.com/gh_mirrors/ma/markdownload …...

2025届学术党必备的十大降重复率助手横评

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 为了降低AIGC检测率,要从文本特征方面着手。其一,要避开程式化的句式…...

2026届学术党必备的六大AI写作神器推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 人工智能技术不断持续演进,在此情况下,AI写作工具成了内容创作领域重…...

2025最权威的AI学术平台实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 智能写作辅助工具DeepSeek,能在论文创作的全程给予支持。进入选题阶段&#xff0…...

3分钟搞定!网盘直链下载助手:一键获取百度阿里等9大网盘真实下载地址

3分钟搞定!网盘直链下载助手:一键获取百度阿里等9大网盘真实下载地址 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云…...

2025年液冷全产业链解析:AI时代散热革命,各环节下的价值拆解

🎓作者简介:科技自媒体优质创作者 🌐个人主页:莱歌数字-CSDN博客 💌公众号:莱歌数字(B站同名) 📱个人微信:yanshanYH 211、985硕士,从业16年 从…...

【2026最硬核LLM加速框架】:仅用7行Triton内核重写Attention,吞吐翻3.2倍——SITS现场调试录屏首曝

更多请点击: https://intelliparadigm.com 第一章:AI原生性能优化:SITS 2026 LLM推理加速实战技巧 在 SITS 2026 基准测试中,LLM 推理延迟与显存带宽利用率高度相关。AI 原生优化强调从计算图调度、内核融合到硬件亲和性配置的端…...

【AI原生应用CI/CD黄金标准】:SITS2026权威白皮书首度解密——7大不可绕过的工程范式跃迁

更多请点击: https://intelliparadigm.com 第一章:SITS2026白皮书核心定位与范式革命性意义 SITS2026(Semantic-Integrated Trustworthy Systems 2026)白皮书并非传统技术路线图的延伸,而是面向AI原生时代构建可信系统…...

终极指南:如何免费快速完成OFD转PDF的完整教程

终极指南:如何免费快速完成OFD转PDF的完整教程 【免费下载链接】Ofd2Pdf Convert OFD files to PDF files. 项目地址: https://gitcode.com/gh_mirrors/ofd/Ofd2Pdf 如果你经常处理电子发票、政府公文或电子证照,那么OFD转PDF的需求一定不陌生。O…...

网盘直链下载助手:一键获取九大网盘真实下载链接的终极指南

网盘直链下载助手:一键获取九大网盘真实下载链接的终极指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 /…...

训练篇第5节:NCCL(二)——深入分析Ring AllReduce算法与带宽最优性

理解Ring AllReduce,你就掌握了数据并行分布式训练的通信命脉 前言 上一节我们学习了分布式训练的三种并行策略,其中数据并行最核心的通信原语就是AllReduce。在深入篇中,我们简单介绍了NCCL和AllReduce,但那一节更侧重API使用。今天,我们将深入Ring AllReduce算法的内部…...

训练篇第1节:梯度累积——用小批量模拟大批量的训练技巧

显存不够?batch size太大?梯度累积让你用时间换空间,训练更大的模型 前言 从本节开始,我们正式进入训练篇。框架篇让你掌握了PyTorch/TensorFlow的GPU加速原理和自定义算子开发,但训练大模型时,你还会遇到一个更棘手的问题:显存不够。 当你尝试增大batch size以提高训…...

三步解锁你的加密音乐:QMC解码器完全指南

三步解锁你的加密音乐:QMC解码器完全指南 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 你是否曾经遇到过这样的情况:从QQ音乐下载的歌曲只能在特定…...

艾尔登法环性能突破:隐藏的帧率限制与视野优化技术解密

艾尔登法环性能突破:隐藏的帧率限制与视野优化技术解密 【免费下载链接】EldenRingFpsUnlockAndMore A small utility to remove frame rate limit, change FOV, add widescreen support and more for Elden Ring 项目地址: https://gitcode.com/gh_mirrors/el/El…...

网盘直链下载助手终极指南:三步解锁八大网盘高速下载

网盘直链下载助手终极指南:三步解锁八大网盘高速下载 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

PCL2启动器:Minecraft玩家的终极免费启动工具完全指南

PCL2启动器:Minecraft玩家的终极免费启动工具完全指南 【免费下载链接】PCL Minecraft 启动器 Plain Craft Launcher(PCL)。 项目地址: https://gitcode.com/gh_mirrors/pc/PCL PCL2启动器是一款专为Minecraft玩家设计的开源启动工具&…...

RPGMZ 万能通用钩子代码 插入自己的代码逻辑

const prevUpdate SceneManager._scene.update; SceneManager._scene.update function() {prevUpdate.call(this); // 保留原版// 你的任意代码SceneManager._scene.update prevUpdate; // 用完归还 };例子1 消息框对话 如何插入自己的对话内容const prevUpdate SceneMan…...

Joy-Con Toolkit:开源手柄调试工具的技术实现与应用

Joy-Con Toolkit:开源手柄调试工具的技术实现与应用 【免费下载链接】jc_toolkit Joy-Con Toolkit 项目地址: https://gitcode.com/gh_mirrors/jc/jc_toolkit Joy-Con Toolkit是一款专为任天堂Switch手柄设计的开源调试工具,通过逆向工程协议实现…...

RPGMZ 战斗结束 移除死亡的角色 并且显示一个消息框 然后结束战斗

个人记录保存 Project1论坛 小圈子 人才 不得学习我的技术 1. BattleManager.endBattle 不论是战斗失败 胜利 逃跑 都会走这个敌方 我们在这里显示我们的消息框 下面这段代码就是战斗结束 移除死亡的队员 并且显示一个消息框的代码功能 经过测试有效 const _BattleManager_…...