论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一)
宇树机器人多姿态起立控制强化学习框架论文解析
论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一)
论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(二)
论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(三)
《Learning Humanoid Standing-up Control across Diverse Postures》
论文来源: 上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学
发布时间: 2025年2月(第一版),2025年4月(第二版)
实际部署: Unitree G1人形机器人
📋 目录
- 一、论文概况
- 二、技术方法详解
- 三、核心创新点
- 四、实验结果与评估
- 五、技术影响与展望
一、论文概况
1.1 研究背景与挑战
核心问题: 人形机器人从倒地姿态站起来的能力(起立控制)对实现跌倒恢复等功能至关重要。
现有方法的局限性:
方法类型 | 优势 | 局限性 |
---|---|---|
传统轨迹跟踪 | 动作合理,在仿真中有效 | 依赖手工设计,对扰动敏感,部署困难 |
强化学习方法 | 灵活性高,建模假设少 | 动作剧烈不稳定,真实部署困难 |
1.2 HoST框架概述
HoST(Humanoid Standing-up Control) 是一个从零开始训练的强化学习框架,具备以下核心特点:
🎯 主要特点:
- ✅ 多评论架构 + 课程式训练 → 提升适应性
- ✅ 动作平滑正则化 + 隐式速度限制 → 抑制抖动
- ✅ 零微调部署 → 直接在Unitree G1上运行
- ✅ 多场景验证 → 室内外环境均表现稳定
1.3 技术创新亮点
创新点 | 技术方案 | 效果 |
---|---|---|
多姿态适应 | 多地形训练 + 向上牵引力 | 支持多种初始姿态起立 |
训练稳定性 | 多评论强化学习架构 | 优化不同奖励维度 |
动作平滑性 | 正则化 + 速度约束 | 减少剧烈动作 |
sim-to-real | 领域随机化技术 | 提升迁移能力 |
二、技术方法详解
2.1 问题建模:马尔可夫决策过程(MDP)
2.1.1 MDP五元组定义
人形机器人起立任务被建模为有限时长的MDP:
M = ⟨S, A, T, R, γ⟩
元素 | 含义 | 具体内容 |
---|---|---|
S | 状态空间 | 机器人本体感知信息 |
A | 动作空间 | 关节目标位置变化量 |
T | 状态转移函数 | 物理仿真引擎 |
R | 奖励函数 | 多维度奖励设计 |
γ | 折扣因子 | 长期奖励权衡 |
2.1.2 训练目标
最优策略学习:
π* = argmax E_πθ[∑γᵗ·rₜ]
算法选择: PPO(Proximal Policy Optimization)
- ✅ 大规模并行训练稳定性好
- ✅ 基于宇树官方框架:
unitree_rl_gym/legged_gym
+RSL-RL/PPO
2.2 观察空间设计
2.2.1 本体感知信息
状态向量构成:
观察项 | 符号 | 来源 | 维度 |
---|---|---|---|
机体角速度 | ωₜ | IMU传感器 | 3D |
姿态角度 | rₜ, qₜ | IMU(roll, pitch) | 2D |
关节位置 | pₜ | 编码器 | 23D |
关节速度 | ṗₜ | 编码器 | 23D |
上步动作 | aₜ₋₁ | 历史记录 | 23D |
缩放系数 | β | 配置参数 | 1D |
2.2.2 时间上下文增强
历史状态融合:
- 📊 引入过去5个时间步的状态信息
- 🎯 增强接触感知能力(如判断是否触地)
- 💡 提供更强的时间上下文信息
技术实现:
class LeggedRobot(BaseTask).compute_observations()
2.3 动作空间与控制
2.3.1 PD控制器架构
设计理念: 强化学习专注于"决策去哪里",PD控制器负责"如何安全地到达"
2.3.2 控制流程
1. 目标位置计算:
pᵈₜ = pₜ + β·aₜ
2. PD控制律:
τₜ = Kp(pᵈₜ - pₜ) - Kd·ṗₜ
3. 参数说明:
- Kp, Kd: PD控制器增益参数
- β ∈ (0, 1]: 动作缩放因子(隐式速度限制)
- 维度: 23个自由度对应23维动作空间
2.3.3 PD控制器优势
优势 | 说明 |
---|---|
安全性 | 避免直接扭矩输出,减少硬件损坏风险 |
稳定性 | 物理直觉的控制行为,天然稳定特性 |
可调性 | 仅需调节Kp、Kd两个参数 |
迁移性 | 仿真与真实机器人行为一致性高 |
三、核心创新点
3.1 多评论强化学习架构
技术方案:
- 🎯 多个评论网络 分别优化不同奖励维度
- 📈 解耦优化 提升训练稳定性
- ⚖️ 平衡收敛 避免单一奖励主导
3.2 课程化训练策略
训练阶段设计:
阶段 | 训练内容 | 技术手段 |
---|---|---|
初期 | 基础起立动作 | 向上牵引力辅助 |
中期 | 多姿态适应 | 多地形随机化 |
后期 | 鲁棒性提升 | 干扰注入训练 |
3.3 动作平滑化技术
实现方法:
- 动作正则化 - 限制动作幅度
- 速度约束 - 通过β因子隐式控制
- 连续性保证 - 时间步间动作平滑过渡
3.4 领域随机化
随机化参数:
- 🌍 物理参数: 质量、摩擦、关节刚度
- 🎮 环境参数: 地形、重力、风力
- 🤖 机器人参数: 传感器噪声、执行器延迟
论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(二)
相关文章:
论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一)
宇树机器人多姿态起立控制强化学习框架论文解析 论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一) 论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化…...
【Web 进阶篇】优雅的接口设计:统一响应、全局异常处理与参数校验
系列回顾: 在上一篇中,我们成功地为应用集成了数据库,并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了!但是,如果你仔细审视那些 API,会发现它们还很“粗糙”:有…...

C# 类和继承(抽象类)
抽象类 抽象类是指设计为被继承的类。抽象类只能被用作其他类的基类。 不能创建抽象类的实例。抽象类使用abstract修饰符声明。 抽象类可以包含抽象成员或普通的非抽象成员。抽象类的成员可以是抽象成员和普通带 实现的成员的任意组合。抽象类自己可以派生自另一个抽象类。例…...
【git】把本地更改提交远程新分支feature_g
创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...

【配置 YOLOX 用于按目录分类的图片数据集】
现在的图标点选越来越多,如何一步解决,采用 YOLOX 目标检测模式则可以轻松解决 要在 YOLOX 中使用按目录分类的图片数据集(每个目录代表一个类别,目录下是该类别的所有图片),你需要进行以下配置步骤&#x…...

从零实现STL哈希容器:unordered_map/unordered_set封装详解
本篇文章是对C学习的STL哈希容器自主实现部分的学习分享 希望也能为你带来些帮助~ 那咱们废话不多说,直接开始吧! 一、源码结构分析 1. SGISTL30实现剖析 // hash_set核心结构 template <class Value, class HashFcn, ...> class hash_set {ty…...
Robots.txt 文件
什么是robots.txt? robots.txt 是一个位于网站根目录下的文本文件(如:https://example.com/robots.txt),它用于指导网络爬虫(如搜索引擎的蜘蛛程序)如何抓取该网站的内容。这个文件遵循 Robots…...
css的定位(position)详解:相对定位 绝对定位 固定定位
在 CSS 中,元素的定位通过 position 属性控制,共有 5 种定位模式:static(静态定位)、relative(相对定位)、absolute(绝对定位)、fixed(固定定位)和…...

令牌桶 滑动窗口->限流 分布式信号量->限并发的原理 lua脚本分析介绍
文章目录 前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结: 滑动窗口代码实现结果分析lua脚本原理解析 限并发分布式信号量代码实现结果分析lua脚本实现原理 双注解去实现限流 并发结果分析: 实际业务去理解体会统一注…...

2025盘古石杯决赛【手机取证】
前言 第三届盘古石杯国际电子数据取证大赛决赛 最后一题没有解出来,实在找不到,希望有大佬教一下我。 还有就会议时间,我感觉不是图片时间,因为在电脑看到是其他时间用老会议系统开的会。 手机取证 1、分析鸿蒙手机检材&#x…...
什么是EULA和DPA
文章目录 EULA(End User License Agreement)DPA(Data Protection Agreement)一、定义与背景二、核心内容三、法律效力与责任四、实际应用与意义 EULA(End User License Agreement) 定义: EULA即…...
【决胜公务员考试】求职OMG——见面课测验1
2025最新版!!!6.8截至答题,大家注意呀! 博主码字不易点个关注吧,祝期末顺利~~ 1.单选题(2分) 下列说法错误的是:( B ) A.选调生属于公务员系统 B.公务员属于事业编 C.选调生有基层锻炼的要求 D…...

DBAPI如何优雅的获取单条数据
API如何优雅的获取单条数据 案例一 对于查询类API,查询的是单条数据,比如根据主键ID查询用户信息,sql如下: select id, name, age from user where id #{id}API默认返回的数据格式是多条的,如下: {&qu…...

04-初识css
一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...

uniapp微信小程序视频实时流+pc端预览方案
方案类型技术实现是否免费优点缺点适用场景延迟范围开发复杂度WebSocket图片帧定时拍照Base64传输✅ 完全免费无需服务器 纯前端实现高延迟高流量 帧率极低个人demo测试 超低频监控500ms-2s⭐⭐RTMP推流TRTC/即构SDK推流❌ 付费方案 (部分有免费额度&#x…...
解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错
出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上,所以报错,到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本,cu、torch、cp 的版本一定要对…...

ElasticSearch搜索引擎之倒排索引及其底层算法
文章目录 一、搜索引擎1、什么是搜索引擎?2、搜索引擎的分类3、常用的搜索引擎4、搜索引擎的特点二、倒排索引1、简介2、为什么倒排索引不用B+树1.创建时间长,文件大。2.其次,树深,IO次数可怕。3.索引可能会失效。4.精准度差。三. 倒排索引四、算法1、Term Index的算法2、 …...

【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)
🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...

Linux-07 ubuntu 的 chrome 启动不了
文章目录 问题原因解决步骤一、卸载旧版chrome二、重新安装chorme三、启动不了,报错如下四、启动不了,解决如下 总结 问题原因 在应用中可以看到chrome,但是打不开(说明:原来的ubuntu系统出问题了,这个是备用的硬盘&a…...
C++中string流知识详解和示例
一、概览与类体系 C 提供三种基于内存字符串的流,定义在 <sstream> 中: std::istringstream:输入流,从已有字符串中读取并解析。std::ostringstream:输出流,向内部缓冲区写入内容,最终取…...
unix/linux,sudo,其发展历程详细时间线、由来、历史背景
sudo 的诞生和演化,本身就是一部 Unix/Linux 系统管理哲学变迁的微缩史。来,让我们拨开时间的迷雾,一同探寻 sudo 那波澜壮阔(也颇为实用主义)的发展历程。 历史背景:su的时代与困境 ( 20 世纪 70 年代 - 80 年代初) 在 sudo 出现之前,Unix 系统管理员和需要特权操作的…...
鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序
一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...

WordPress插件:AI多语言写作与智能配图、免费AI模型、SEO文章生成
厌倦手动写WordPress文章?AI自动生成,效率提升10倍! 支持多语言、自动配图、定时发布,让内容创作更轻松! AI内容生成 → 不想每天写文章?AI一键生成高质量内容!多语言支持 → 跨境电商必备&am…...
C++.OpenGL (10/64)基础光照(Basic Lighting)
基础光照(Basic Lighting) 冯氏光照模型(Phong Lighting Model) #mermaid-svg-GLdskXwWINxNGHso {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GLdskXwWINxNGHso .error-icon{fill:#552222;}#mermaid-svg-GLd…...

PL0语法,分析器实现!
简介 PL/0 是一种简单的编程语言,通常用于教学编译原理。它的语法结构清晰,功能包括常量定义、变量声明、过程(子程序)定义以及基本的控制结构(如条件语句和循环语句)。 PL/0 语法规范 PL/0 是一种教学用的小型编程语言,由 Niklaus Wirth 设计,用于展示编译原理的核…...
Spring Boot+Neo4j知识图谱实战:3步搭建智能关系网络!
一、引言 在数据驱动的背景下,知识图谱凭借其高效的信息组织能力,正逐步成为各行业应用的关键技术。本文聚焦 Spring Boot与Neo4j图数据库的技术结合,探讨知识图谱开发的实现细节,帮助读者掌握该技术栈在实际项目中的落地方法。 …...
土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测;从基础到高级,涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等
🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术,可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势,还能有效评价重大生态工程…...
【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张(Windows/Linux)
要让本地PC电脑作为服务器运行时出现卡顿和资源紧张的情况,可以通过以下几种方式模拟或触发: 1. 增加CPU负载 运行大量计算密集型任务,例如: 使用多线程循环执行复杂计算(如数学运算、加密解密等)。运行图…...
相机Camera日志分析之三十一:高通Camx HAL十种流程基础分析关键字汇总(后续持续更新中)
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:有对最普通的场景进行各个日志注释讲解,但相机场景太多,日志差异也巨大。后面将展示各种场景下的日志。 通过notepad++打开场景下的日志,通过下列分类关键字搜索,即可清晰的分析不同场景的相机运行流程差异…...
GitHub 趋势日报 (2025年06月08日)
📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图 今日获星趋势图 884 cognee 566 dify 414 HumanSystemOptimization 414 omni-tools 321 note-gen …...