重磅!CoRL 2024顶刊会议 清华大学高阳研究组发布“基于大模型先验知识的强化学习”
正在德国举办的机器人研究领域的顶级学术会议CoRL 2024,清华大学交叉信息研究院高阳研究组发布重磅研究成果,提出“基于大模型先验知识的强化学习”框架(Reinforcement Learning with Foundation Priors) 来促进具身智能体在操作任务中的学习效率和自主探索能力。该框架通过利用策略、价值和成功奖励等基础模型为智能体提供指导和反馈,成功地使机器人能够在真实环境和仿真环境中更高效地完成复杂的操作任务。
▍现有强化学习方法当中两项棘手问题尚未解决
强化学习(Reinforcement Learning, RL)作为一种有效的机器学习方法,近年来在多个领域取得了显著成就,尤其是在游戏AI和模拟机器人任务中。然而,将强化学习算法直接应用于现实世界的机器人操作中依然面临很多短板,包括样本效率低和奖励函数设计复杂等。针对这些问题,清华大学高阳研究组提出“利用基础先验知识的强化学习框架”通过结合策略、价值和成功奖励等基础先验知识,提高强化学习的效率和自主性。
样本和函数复杂是制约强化学习在机器人交互当中的主要影响因素,在样本的获取方面,强化学习通常需要数百万次与环境的交互才能学会解决复杂任务,这在现实世界中是不切实际的。而奖励函数则需要开发者精心设计,从而引导智能体学习期望的行为,这需要耗费大量的时间和精力成本。
人类在策略、价值和成功奖励先验知识下如何解决问题
这些问题限制了强化学习在真实机器人操作中的应用。而人类则完全不同,人类可以通过利用先天能力和日常生活中的常识积累,在与环境的少量交互中快速学习新技能。那么机器人是否可以结合先验知识来提高强化学习的效率和自主性呢?
基于基础模型引导的Actor-Critic方法概述
RLFP框架的提出解决了这个问题,该框架通过利用策略、价值和成功奖励等基础先验知识,指导智能体在强化学习过程中的探索和学习。这些先验知识分别对应强化学习中的策略函数、价值函数和成功奖励函数,为智能体提供了关于“现在应该做什么”“我是否更接近目标”以及“我是否成功”的反馈。
RLFP框架包含以下几个关键部分:
策略先验知识:为智能体提供一个初始行为指导,帮助智能体从合理的起点开始探索。
价值先验知识:提供关于状态好坏的估计,指导智能体向更有利的状态转移。
成功奖励先验知识:给出任务是否成功的最终反馈,用于强化成功的尝试并避免不成功的行为。
通过结合这些先验知识,RLFP框架能够提升强化学习的样本效率,减少对人类设计的奖励函数的依赖,同时对先验知识的形式具有一定的鲁棒性。
▍基于RLFP框架的FAC算法引导智能体完成高效的自主学习
在RLFP框架的基础上,高阳研究组又提出了一个FAC(Foundation-guided Actor-Critic)算法,该算法将策略、价值和成功奖励先验知识有效融合,以指导智能体的学习过程。在算法实现上,FAC首先构建了两个核心网络:演员网络和评论家网络。演员网络负责根据当前状态生成动作,其参数通过梯度上升法进行优化,以最大化长期回报。而评论家网络则评估演员网络所采取动作的价值,为演员网络提供反馈,帮助其调整策略。
为了实现高效的自主学习,FAC算法引入了成功缓冲区,存储被成功奖励先验知识识别的“成功”轨迹。在每次更新演员网络时,算法不仅考虑当前的策略梯度,还会从成功缓冲区中采样,模仿这些成功的轨迹。这种模仿学习机制使得智能体能够快速吸收成功的经验,加速学习进程。
同时,FAC算法还利用价值先验知识对评论家网络进行塑形,以指导探索过程。通过潜在函数塑形奖励,算法能够在不改变最优解的前提下,引导智能体避开不理想的状态,提高学习效率。此外,策略正则化引导也作为算法的一部分,通过策略先验知识对演员网络进行约束,鼓励智能体在探索过程中保持合理的行为范围,避免偏离正确路径。
▍实验与结果分析
在真实机器人实验中,研究人员使用了一个具有7自由度手臂和1自由度平行夹爪的Franka Emika Panda机器人,并设计了五个灵巧操作任务:拾取放置、开门、浇水、拧瓶盖和高尔夫击球。
在真实机器人上进行的五项任务 展示了FAC在实际应用中的效率和准确性
先验策略试图在没有成功抓住的情况下打开门,而FAC则持续尝试在拉回手臂之前稳固地握住把手。
实验结果表明,经过一个小时的实时学习,FAC算法在五个任务上的平均成功率达到了86%,明显优于仅使用手动设计奖励的强化学习基线方法和基于GPT-4V生成代码策略的方法。
Meta-World中8项任务的成功率曲线
在模拟实验中,研究人员在Meta-World环境中测试了FAC算法在八个任务上的表现。实验结果显示,FAC算法在七个任务上实现了100%的成功率,且训练时间不超过100k帧(约一小时)。相比之下,基线方法即使在1M帧的训练后也无法在所有任务上达到100%的成功率。
消融实验结果
通过消融实验,研究人员进一步分析了策略、价值和成功奖励先验知识对FAC算法性能的影响。实验结果表明,成功奖励先验知识对性能的影响最大,而策略和价值先验知识则在不同程度上提高了样本效率和成功率。此外,FAC算法还对先验知识的质量具有一定的鲁棒性,即使在先验知识存在噪声的情况下仍能保持较好的性能。
▍基于RLFP框架和FAC算法的一些思考:
RLFP框架和FAC算法为强化学习在现实世界中的应用提供了新的思路和方法。通过结合策略、价值和成功奖励先验知识,RLFP框架显著提高了强化学习的样本效率和自主性,减少了对人类设计的奖励函数的依赖。同时FAC算法有望在更多复杂任务中发挥作用,特别是在那些奖励函数难以明确定义或环境动态变化的场景下。
不过研究人员也表示,当前RLFP框架仍依赖于人类工程来设计低层次技能和提示,并未真正完成自主生成的技能,此外,当前实验中使用的先验知识主要来自预训练的模型,并未打通网络端,在线获取或更新更加先进的知识。同时人类除了策略、价值和成功奖励先验知识外,还具有其他形式的先验知识,如预测未来状态的能力。这些都是未来RLFP框架需要持续迭代并解决的方向。
相关文章:
重磅!CoRL 2024顶刊会议 清华大学高阳研究组发布“基于大模型先验知识的强化学习”
正在德国举办的机器人研究领域的顶级学术会议CoRL 2024,清华大学交叉信息研究院高阳研究组发布重磅研究成果,提出“基于大模型先验知识的强化学习”框架(Reinforcement Learning with Foundation Priors) 来促进具身智能体在操作任务中的学习…...
泷羽sec学习打卡-Windows基础命令
声明 学习视频来自B站UP主 泷羽sec,如涉及侵权马上删除文章 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负 关于windows的那些事儿-Base 一、Windows-BaseWindows有哪些版本呢,有什么区别呢?…...
RTC精度及校准
RTC精度偏差: RTC的基准时间和精度与石英晶体的频率相关,晶体的谐振频率取决于温度,因此RTC性能与温度相关,晶体的频率偏差是晶体正常频率的温度反转函数。 一、硬件方面: 1.使用高精度振荡器的RTC模块; …...
jQuery案例
以下是几个常见的 jQuery 示例,展示了它在不同场景下的应用: 1. 隐藏和显示元素 通过按钮点击隐藏和显示一个 <div> 元素。 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><met…...
常见 HTTP 状态码分类和解释及服务端向前端返回响应时的最完整格式
目前开发的项目很大程度上是为明年的国产化做准备了,所以借这个机会把用了十年的自研系统全部重写,订立更严格的规范,本文记录一下返回格式及对应状态码。 常见 HTTP 状态码及解释 HTTP 状态码用于表示客户端请求的响应状态,它们…...
MySQL系列之如何在Linux只安装客户端
导览 前言Q:如何安装一个Linux环境下的MySQL客户端一、准备文件1. 确认Server版本2. 选择Client安装文件 二、下载并安装1. 下载1.1 寻找文件1.2 文件说明 2. 安装2.1 上传至Linux服务器2.2 执行安装 三、连接验证1. 确认远程授权2. 建立远程连接 结语精彩回放 前言…...
内核设备树,你真的了解吗?
在嵌入式系统和内核开发中,设备树(Device Tree, 简称 DT)扮演着至关重要的角色,帮助系统在启动时准确识别硬件配置并匹配合适的驱动程序。虽然设备树应用广泛,但其结构、工作机制及应用细节却不总是被深入理解。本文将…...
MySQL:客户端工具创建数据库
MySQL 是一个开源的关系型数据库管理系统(RDBMS),用于存储、管理和检索数据。MySQL是基于SQL语言的,它具有高效、可靠、易用的特点。 客户端工具 这个mysqld.exe就在计算机安装的数据可服务,启动之后,mys…...
Linux笔记之pandoc实现各种文档格式间的相互转换
Linux笔记之pandoc实现各种文档格式间的相互转换 code review! 文章目录 Linux笔记之pandoc实现各种文档格式间的相互转换1.安装 Pandoc2.Word转Markdown3.markdown转html4.Pandoc 支持的一些常见格式4.1.输入格式4.2.输出格式 1.安装 Pandoc sudo apt-get install pandoc # …...
【iOS】知乎日报第三周总结
【iOS】知乎日报第三周总结 文章目录 【iOS】知乎日报第三周总结前言评论区文字评论区的一个展开效果评论区数据的一个请求修改了主页获取数据的逻辑主页无限轮播图图片主色调的一个获取将一些拓展部分的内容写在分类里小结 前言 本周笔者因为金工实习整个项目进展比较慢&#…...
【p2p、分布式,区块链笔记 Torrent】WebTorrent的add和seed函数
在【p2p、分布式,区块链笔记 Torrent】WebTorrent的上传和下载界面的示例中,主要通过WebTorrent类的add和seed函数实现相关功能。这两个函数都返回一个Torrent类对象的实例。 seed函数 import createTorrent, { parseInput } from create-torrent // &…...
Redis穿透、击穿、雪崩
redis是一款常用的非关系型数据库,我们常用与作为数据缓存的组件。 接下来介绍一下面试中常被问到的三个概念以及简单的解决方法。 穿透 什么叫缓存穿透 缓冲穿透,是当有一个请求过来时,查询redis缓存不存在,又去查询数据库&…...
VBA高级应用30例应用3在Excel中的ListObject对象:插入行和列
《VBA高级应用30例》(版权10178985),是我推出的第十套教程,教程是专门针对高级学员在学习VBA过程中提高路途上的案例展开,这套教程案例与理论结合,紧贴“实战”,并做“战术总结”,以…...
2024系统架构师---上午综合题真题(重复考试知识难点)
1.感知层威胁 1)信息窃听:通过搭线或者电磁泄露造成数据隐私泄露;感知执行层主要由各种物理传感器组成,是整个物理信息系统中信息的来源。为了适应多变的环境,网络节点多布置在无人监管的环境中,因此容易被攻击者攻击,常见的针对感知执行层的攻击方式有; 2)感知破坏:…...
连接kafka消息队列报org.apache.kafka.clients.NetworkClient异常
启动kafka后,连接kafka消息队列报org.apache.kafka.clients.NetworkClient异常 could not be established. Broker may not be available. (org.apache.kafka.clients.NetworkClient) 检查kafka运行日志,报The broker is trying to join the wrong clu…...
淘宝商品评论API:代码界的“买家秀”大揭秘
在淘宝这个神奇的购物天堂里,商品评论就像是隐藏的宝藏,等待着我们去挖掘。想象一下,如果你的代码能够自动获取这些评论,那岂不是像拥有了一台时光机,可以穿梭在买家的购物体验之中?今天,我们就…...
RabbitMQ队列详细属性(重要)
RabbitMQ队列详细属性 1、队列的属性介绍1.1、Type:队列类型1.2、Name:队列名称1.3、Durability:声明队列是否持久化1.4、Auto delete: 是否自动删除1.5、Exclusive:1.6、Arguments:队列的其他属性…...
游戏服务器和普通服务器的区别
服务器,顾名思义,是提供服务的设备,在计算机领域,服务器是指具有网络功能的高性能计算机,用于存储、处理和传输数据,而游戏服务器则是专门为游戏提供服务的服务器,它需要具备更高的性能、更稳定…...
Java 中的 Supplier:让数据生成更灵活
文章目录 1. Supplier 基础:无参返回,懒加载的利器2. 与 Optional 配合,优雅地处理默认值3. 惰性初始化缓存:提升性能4. 用于随机数、时间戳等动态数据的生成5. 结合 Stream 实现动态数据流6. 与工厂模式结合,动态创建…...
轻松理解操作系统 - Linux的数据块是如何储存数据的?
python入门 C入门 Linux 由于其开源、比较稳定等特点统治了服务端领域。 也因此,学习Linux 系统相关知识在后端开发等岗位中变得越来越重要,甚至可以说是必不可少的。 因为它的广泛应用,所以在程序员的日常工作和面试中,它都是经…...
TPAMI 2026 | 跨十大数据集验证,PoundNet重新审视AI图像检测范式
随着 AI 生成图像技术快速演进,伪造内容在网络传播风险持续上升,高鲁棒性检测技术因此成为学界与产业界关注的关键问题。然而,现有不少方法过于追求单一数据集上的短期收益,往往仅围绕“真/假”二分类目标对大规模预训练模型进行专…...
RTK定位从入门到实践:如何利用千寻服务和Ntrip协议,让你的无人机定位精度达到厘米级?
RTK定位从入门到实践:如何利用千寻服务和Ntrip协议实现厘米级无人机定位 当无人机在农田上方悬停时,1米的定位误差可能导致农药喷洒完全错过目标作物;当测绘无人机进行地形扫描时,几厘米的高度误差可能使整个3D建模数据失效。这就…...
光伏板缺陷检测实战:从数据集构建到YOLO模型训练全流程解析
1. 光伏板缺陷检测的现实意义 光伏发电作为清洁能源的重要组成部分,其运维效率直接影响发电量收益。我在实地考察中发现,一块被鸟粪覆盖的光伏板,发电效率可能下降30%以上;而热斑效应更会导致组件永久性损伤。传统人工巡检每天最多…...
Argos Translate:5分钟掌握开源离线翻译API的全面集成方案
Argos Translate:5分钟掌握开源离线翻译API的全面集成方案 【免费下载链接】argos-translate Open-source offline translation library written in Python 项目地址: https://gitcode.com/GitHub_Trending/ar/argos-translate Argos Translate是一款基于Ope…...
内网渗透实战:利用SSH密钥实现Linux主机间横向移动
1. SSH密钥横向移动的核心原理 当你第一次接触内网渗透时,可能会被各种复杂的技术术语吓到。其实SSH密钥横向移动的原理非常简单:就像用钥匙开锁一样,只要拿到目标主机的SSH私钥,就能像合法用户一样登录系统。我在实际渗透测试中发…...
5分钟搞定AutoHotkey脚本转EXE:Ahk2Exe终极编译指南
5分钟搞定AutoHotkey脚本转EXE:Ahk2Exe终极编译指南 【免费下载链接】Ahk2Exe Official AutoHotkey script compiler - written itself in AutoHotkey 项目地址: https://gitcode.com/gh_mirrors/ah/Ahk2Exe 想要将AutoHotkey脚本快速转换为独立的可执行文件…...
TTL门电路在现代数字设计中的应用:从基础到OC门实战
TTL门电路在现代数字设计中的应用:从基础到OC门实战 在数字电路设计的工具箱里,TTL(晶体管-晶体管逻辑)门电路就像瑞士军刀一样经典而实用。尽管CMOS技术如今占据主流,但TTL在特定场景下依然展现出独特的优势。特别是在…...
Qwen3.5-9B惊艳案例:上传X光片→识别骨折位置→标注解剖结构→生成诊断报告草稿
Qwen3.5-9B惊艳案例:上传X光片→识别骨折位置→标注解剖结构→生成诊断报告草稿 1. 医疗影像分析的革命性突破 想象一下这样的场景:一位急诊医生面对堆积如山的X光片,需要在短时间内做出准确诊断。传统方法需要医生逐张查看、标注异常部位、…...
Windows 11 + CUDA 11.7 环境下,TensorRT 8.5.2.2 保姆级安装与配置避坑指南
Windows 11 CUDA 11.7 环境下 TensorRT 8.5.2.2 终极安装指南 刚接触深度学习推理优化的开发者,往往会在环境配置阶段耗费大量时间。TensorRT作为NVIDIA官方推出的高性能推理库,能够显著提升模型在NVIDIA GPU上的运行效率。本文将手把手带你完成Windows…...
从编译错误到成功运行:手把手教你用CMake在Ubuntu 20.04上部署GeographicLib地理计算库
从编译错误到成功运行:手把手教你用CMake在Ubuntu 20.04上部署GeographicLib地理计算库 在Linux环境下部署开源库时,许多开发者会直接复制粘贴教程中的命令,却对背后的构建原理一知半解。以GeographicLib为例,这个被广泛应用于地理…...
