当前位置: 首页 > news >正文

英伟达HOVER——用于人形机器人的多功能全身控制器:整合不同的控制模式且实现彼此之间的无缝切换

前言

前几天,一在长沙的朋友李总发我一个英伟达HOVER的视频(自从我今年年初以来持续不断的解读各大顶级实验室的最前沿paper、以及分享我司七月在具身领域的探索与落地后,影响力便越来越大了,不断加油 ),该视频说的有点玄乎,但我还是记住了这个工作

这两天仔细看了下HOVER的论文,原来这个工作是与之前本博客内介绍过的H2O、OmniH2O的工作是一脉相承的,包括这三篇论文的一作都是Tairan He(只是HOVER想做的是统一各个控制模式——H2O OmniH2O/ExBody/HumanPlus,且让各个模式之间可以自由切换)

顺带我们也回顾下本博客内已经介绍过的各种人形机器人

  • Open-television,也是HOVER的第1篇参考文献
    UC San Diego的三大机器人:AnyTeleop、Open-TeleVision、Bunny-VisionPro——从RGB相机到VR远程控制机器人
  • Okami,是HOVER第3篇参考文献
    从根据视频学习的SeeDo(VLM生成规划和代码),到UT Austin的两大人形机器人OKAMI、Harmon
  • Digit,HOVER的第4篇参考文献
    带RL的机器人:从类似预测下一个token的伯克利Digit到CMU 18万机器人
  • OmniH2O,第9篇参考文献,作者是Tairan He, Zhengyi Luo, Xialin He, Wenli Xiao, Chong Zhang, Weinan Zhang, Kris Kitani, Changliu Liu, Guanya Shi

    H2O,第10篇参考文献,作者是Tairan He, Zhengyi Luo, Wenli Xiao, Chong Zhang, Kris Kitani, Changliu Liu, Guanya Shi
    OmniH2O——通用灵巧且可全身远程操作并学习的人形机器人(其前身H2O是HumanPlus的重要参考)
  • ExBody,第12篇参考文献,作者是Xuxin Cheng, Yandong Ji, Junming Chen, Ruihan Yang, Ge Yang, Xiaolong Wang
    从MDM、RobotMDM到UC San Diego的Exbody——人体运动扩散模型:赋能机器人的训练
  • HumanPlus,第13篇参考文献
    HumanPlus——斯坦福ALOHA团队开源的人形机器人:融合影子学习技术、RL、模仿学习

第一部分 HOVER

1.1 HOVER提出的背景及相关工作

1.1.1 背景

人形机器人是一种多功能的形态,支持多种机器人任务和应用,包括双手操作[1–3,即open-television、Learning visuotactile skills with two multifingered hands、Okami]、双足行走[4–7]和灵活的全身控制[8–14]。尽管这些努力展示了令人印象深刻的成果,每个项目都根据其特定任务和场景使用了不同的全身控制公式

  1. 一些使用根速度跟踪[5-Reinforcement learning for versatile, dynamic, and robust bipedal locomotion control,6-Humanoid parkour learning]来支持行走
    一些选择关节角度跟踪[12-ExBody,13-HumanPlus]以实现富有表现力的动作
    还有一些使用选定身体关键点的运动学跟踪[9-OmniH2O,10-H2O]来支持远程操作
  2. 虽然这些方法在运动跟踪的最终目标上相似,但它们需要任务特定的控制器接口和奖励设计。这不仅使开发过程重复且耗时,还限制了最终全身控制器的多功能性

    例如,使用根速度跟踪[5,6]在不平坦地形上进行双足行走的机器人,将难以无缝切换到需要精确双手操作的任务,此时可能需要关节角度或末端执行器跟踪[2,12,13]。这些任务特定的依赖性限制了多功能性,因为每个控制器都被限制在单一的控制模式

    除了运动跟踪之外,许多预训练的操作策略[15-Open x-embodiment: Robotic learning datasets and rt-x models,16-Openvla: An open-source vision-language-action model]需要在不同的配置空间中运行,例如关节角度和末端执行器位置。这种变化性突显了需要一个统一的低级人形控制器,能够适应多种控制模式配置
    说白了,就是大家用的算法或控制策略,可能在某一套硬件上能比较好的work,但可能换到另一个硬件上,则不一定能很好的work,尽管它们都是机器人

1.1.2 HOVER及其优势

为此,来自NVIDIA、CMU、UC Berkeley、UT Austin(得克萨斯大学奥斯汀分校)、UC San Diego的研究者们

  • Tairan He*1,2(他是a second-year Ph.D. student at the Robotics Institute at Carnegie Mellon University, advised by Guanya Shi and Changliu Liu. I am also a member of NVIDIA GEAR group led by Jim Fan and Yuke Zhu)
  • Wenli Xiao*1,2、Toru Lin1,3、Zhengyi Luo1,2、Zhenjia Xu1、Zhenyu Jiang1,4、Jan Kautz1
  • Changliu Liu2Guanya Shi2
  • Xiaolong Wang1,5
  • Linxi "Jim" Fan†1、Yuke Zhu†1,4
    「以上标粗的同时也是OmniH2O的作者,且最后两个作者带的†表示是GEAR Team Leads」

提出了HOVER

其是一个用于人形全身控制的统一神经控制器——旨在学习一种统一的控制策略,可以直接用于使用不同控制模式控制真实的人形机器人「we aim to learn a unified control policy that can be directly used to control real humanoids using different control modes

如下图所示,4个机器人分别代表H2O模式、OmniH2O模式、ExBody模式、HumanPlus模式,但不同控制模式下背后对应的策略可以统一为HOVER策略

且其支持如下图图1所示的多种控制模式,包括用于真实世界应用的超过15种有用模式,且适用于19自由度的人形机器人

  • 这种多功能的命令空间涵盖了大多数先前工作中使用的模式[9,10,12,13]。为了确保在任务中具有良好泛化能力的稳健运动技能基础,作者训练了一个预言机运动模仿器,以模仿来自MoCap的大规模人类运动数据[17],涵盖多种类型运动和控制目标
  • 且还通过策略蒸馏过程,将这些运动技能从原始策略转移到一个能够处理多种控制模式的“通用策略”中。结果表明,生成的多模式策略不仅支持多样的控制模式,而且在下图图3中展示的结果显示「在相应模式下,之前工作的专家(蓝色)HOVER的通用策略(绿色)之间的比较。使用的指标是:上/下关节误差(弧度)、全局/局部身体位置误差(毫米)、根速度误差(米/秒)和根旋转误差(弧度)。这些指标评估每种策略在不同控制模式下对参考动作和关节配置的跟踪准确性」,其性能优于为每种模式单独训练的策略

    作者假设这是因为策略利用了跨模式共享的物理知识,例如维持平衡、类人运动和精确的肢体控制。这些共享技能增强了泛化能力,从而在所有模式下实现更好的性能
    他们宣称,相比之下,单模式策略通常对特定的奖励结构和训练环境过拟合,限制了其适应性。HOVER的多模式通用策略还实现了模式之间的无缝切换,使其既稳健又多才多艺

1.2 HOVER的方法

1.2.1 面向目标的RL用于人形控制

作者将问题表述为一个目标条件强化学习任务,其中策略\pi被训练用于跟踪实时的人体运动

  1. 状态\boldsymbol{s}_{t}包括代理的本体感受s_{t}^{\mathrm{p}}和目标状态s_{t}^{\mathrm{g}}
    其中,目标状态s_{t}^{\mathrm{g}}提供了目标运动目标的统一表示(在原论文中第II-B节详细描述)
  2. 利用代理的本体感受s_{t}^{\mathrm{p}}和目标状态s_{t}^{\mathrm{g}},定义奖励
    r_{t}=\mathcal{R}\left(s_{t}^{\mathrm{p}}, s_{t}^{\mathrm{g}}\right)
    用于策略优化
  3. 动作\boldsymbol{a}_{t} \in \mathbb{R}^{19}表示目标关节位置,这些位置被输入到PD控制器中以驱动机器人的自由度。且作者采用近端策略优化(PPO)算法 [18] 来最大化累计折扣奖励
    \mathbb{E}\left[\sum_{t=1}^{T} \gamma^{t-1} r_{t}\right]
    该设置被框定为一个命令跟踪任务,其中人形机器人学习在每个时间步跟随目标命令

上面HOVER这里的表述与H2O、OmniH2O的表述是一致的(关于H2O/OmniH2O的介绍,如本文开头所说,详见此文:OmniH2O——通用灵巧且可全身远程操作并学习的人形机器人(其前身H2O是HumanPlus的重要参考))

  • H2O中
    1 将学习任务表述为一个由状态集S、动作集A、转移动态T、奖励函数R和折扣因子γ组成的马尔可夫决策过程(MDP):
    \mathcal{M}=\langle\mathcal{S}, \mathcal{A}, \mathcal{T}, \mathcal{R}, \gamma\rangle
    其中,状态s_{t} \in \mathcal{S}、动作a_{t} \in \mathcal{A}\mathcal{T}代表轨迹、\mathcal{R}代表奖励函数
    且状态\boldsymbol{s}_{t}包含本体感知\boldsymbol{s}_{t}^{\mathrm{p}},和目标状态s_{t}^{g}——人类远程操作者全身运动的统一表示

    2 基于本体感觉s_p^t和目标状态s_g^t,可以定义用于策略训练的奖励
    r_{t}=\mathcal{R}\left(\boldsymbol{s}_{t}^{\mathrm{p}}, \boldsymbol{s}_{t}^{\mathrm{g}}\right)
    动作a_t \in \mathbb{R}^{19}指定了 PD 控制器将用于驱动自由度的关节目标位置
    然后,应用近端策略优化(PPO)[52] 来最大化累积折扣奖励
    E\left[\sum_{t=1}^{T} \gamma^{t-1} r_t\right]
  • OmniH2O则也一致
    基于本体感知s_{t}^{\mathrm{p}}、目标状态\boldsymbol{s}_{t}^{\mathrm{g}}和动作a_t,定义奖励
    r_{t}=\mathcal{R}\left(s_{t}^{\mathrm{p}}, \boldsymbol{s}_{t}^{\mathrm{g}}, \boldsymbol{a}_{t}\right)

1.2.2 仿人控制的命令空间设计

在腿式运动中,根速度[19]或位置跟踪[20]是常用的命令空间。然而,仅关注根跟踪会限制仿人机器人的全部能力,尤其是在全身运动操作任务中

作者观察到,尽管先前的工作[9,10,12,13]引入了具有不同优缺点的控制模式,但每种模式通常都针对特定任务子集进行定制,因此缺乏通用仿人控制所需的灵活性。相反,作者的目标是设计一个综合控制框架,以适应各种场景并对各种人形任务皆具有适应性

为实现这一目标,命令空间必须构建以满足以下关键标准:

  • 通用性:命令空间应涵盖大多数现有配置,允许通用控制器在不牺牲性能或多功能性的情况下替换任务专用控制器。该空间应具有足够的表达能力,以便与现实世界的控制设备接口,包括如图1所示的操纵杆、键盘、动作捕捉系统、外骨骼和虚拟现实(VR)头戴设备
  • 原子性:命令空间应由独立的维度组成,使得控制选项可以任意组合,以支持各种模式

基于这些标准,作者为人形机器人全身控制定义了一个统一的命令空间。这个空间由两个主要控制区域组成——上半身控制和下半身控制——并包含三种不同的控制模式:

  1. 运动学位置跟踪:机器人关键刚体点的目标3D位置
  2. 局部关节角度跟踪:每个机器人电机的目标关节角度
  3. 根部跟踪:目标根部速度、高度和方向,由滚动、俯仰和偏航角指定

在作者的框架中,如下图图1所示

引入了一个独热掩码向量来指定指令空间中哪些组件被激活用于跟踪。最近关于基于学习的人形全身控制的工作[9,10,12,13],如下表表I所示,可以视为他们统一指令空间的子集,每个子集代表特定的配置

1.2.3 动作重定向:从人到SMPL再到人形上

最近的研究表明,从大型动作数据集中学习鲁棒的全身控制对人形机器人具有优势[9,10,12,13]。从人类动作数据集[17]到人形动作数据集的重定向过程分为三个步骤:

  1. 步骤1:首先使用正向运动学计算人形机器人的关键点位置,将其关节配置映射到工作空间坐标
  2. 步骤2:接下来,通过优化SMPL参数以匹配正向运动学计算的关键点,使SMPL模型符合人形机器人的运动学
  3. 步骤3:最后,通过梯度下降匹配拟合的SMPL模型和人形机器人之间的对应关键点,重新定向AMASS数据集
    PS,关于什么是AMASS,详见此文:HumanPlus——斯坦福ALOHA团队开源的人形机器人:融合影子学习技术、RL、模仿学习的1.1.2节,即用于全身控制的low-level policy:通过AMASS离线数据RL训练HST(含重定位)

过程中,遵循与[10-H2O]相同的动作重定向和“模拟到数据”程序,将大规模人类动作数据集[17]转换为仅包含对人形机器人可行动作的数据集\hat{Q}

1.2.4 从大规模人类动作中训练Oracle策略:相当于教师/特权策略

在状态空间设计上,作者训练一个oracle运动模仿器(其有对应的本体感受和目标状态,而从本体感受到目标状态所用的行动策略\pi^{\text {oracle }},就相当于OmniH2O的特权或教师策略\pi_{\text {privileged }})

\pi^{\text {oracle }}\left(a_{t} \mid s_{t}^{\mathrm{p} \text {-oracle }}, s_{t}^{\mathrm{g} \text {-oracle }}\right)

  • 本体感觉被定义为
    s_{t}^{\text {p-oracle }} \triangleq\left[\boldsymbol{p}_{t}, \boldsymbol{\theta}_{t}, \dot{p}_{t}, \boldsymbol{\omega}_{t}, \boldsymbol{a}_{t-1}\right]
    其中包含人形刚体的位置\boldsymbol{p}_{t},方位\boldsymbol{\theta}_{t},线速度\dot{p}_{t},角速度\boldsymbol{\omega}_{t},以及前一个动作\boldsymbol{a}_{t-1}
  • 目标状态被定义为
    s_{t}^{\text {g-oracle }} \triangleq\left[\hat{\boldsymbol{\theta}}_{t+1} \ominus \boldsymbol{\theta}_{t}, \hat{\boldsymbol{p}}_{t+1}-\boldsymbol{p}_{t}, \hat{\boldsymbol{v}}_{t+1}-\right.\left.\boldsymbol{v}_{t}, \hat{\boldsymbol{\omega}}_{t+1}-\boldsymbol{\omega}_{t}, \hat{\boldsymbol{\theta}}_{\boldsymbol{t}}, \hat{\boldsymbol{p}}_{\boldsymbol{t}}\right]
    其中包含参考姿态\left(\hat{\boldsymbol{\theta}}_{t}, \hat{\boldsymbol{p}}_{t}\right)以及所有人形刚体的参考状态与当前状态之间的一帧差异
  • 作者使用与[9-OmniH2O]相同的策略网络结构,一个三层MLP,层维度为[512,256,128]

下图是HOVER论文原文

  • 其在H2O中,是如下定义的
    具体来说,对于特权策略——privileged policy \pi_{\text {privileged }}

    其本体感受定义为
    \boldsymbol{s}_{t}^{\mathrm{p} \text {-privileged }} \triangleq\left[\boldsymbol{p}_{t}, \boldsymbol{\theta}_{t}, \boldsymbol{v}_{t}, \boldsymbol{\omega}_{t}\right]
    其中包含了人形机器人的所有刚体的全局三维位置\boldsymbol{p}_{t}、方向\theta_{t}、线速度\boldsymbol{v}_{t}和角速度\boldsymbol{\omega}_{t}

    目标状态定义为
    \boldsymbol{s}_{t}^{\text {g-privileged }} \triangleq\left[\hat{\boldsymbol{\theta}}_{t+1} \ominus \left.\boldsymbol{\theta}_{t}, \hat{\boldsymbol{p}}_{t+1}-\boldsymbol{p}_{t}, \hat{\boldsymbol{v}}_{t+1}-\boldsymbol{v}_{t}, \hat{\boldsymbol{\omega}}_{t}-\boldsymbol{\omega}_{t}, \hat{\boldsymbol{\theta}}_{t+1}, \hat{\boldsymbol{p}}_{t+1}\right]\right.

    下图是H2O论文原文
  • 至于OmniH2O中,也会训练一个特权运动模仿器
    \pi_{\text {privileged }}\left(\boldsymbol{a}_{t} \mid \boldsymbol{s}_{t}^{\mathrm{p} \text {-privileged }}, \boldsymbol{s}_{t}^{\mathrm{g} \text {-privileged }}\right)
    本体感觉被定义为
    \boldsymbol{s}_{t}^{\mathrm{p} \text {-privileged }} \triangleq\left[\boldsymbol{p}_{t}, \boldsymbol{\theta}_{t}, \dot{\boldsymbol{q}}_{t}, \boldsymbol{\omega}_{t}, \boldsymbol{a}_{t-1}\right]
    其中包含类人刚体的位置p_t、方向\theta_t、线速度\dot{q}_t、角速度 \omega_t以及前一个动作a_{t-1}

    目标状态被定义为
    s_t^{g-\text{privileged}} \equiv [\hat{\theta}_{t+1} \ominus \theta_t, \hat{p}_{t+1} - p_t,\hat{v}_{t+1} - v_t, \hat{\omega}_{t} - \omega_t, \hat{\theta}_{t+1}, \hat{p}_{t+1}]
    其中包含参考姿态\hat{\theta}_t, \hat{p}_t以及类人所有刚体的参考状态与当前状态之间的单帧差异

    下图是OmniH2O论文原文

在奖励设计和领域随机化(Domain Randomization)上,作者将奖励r_{t}公式化为三个组成部分的总和:1)惩罚,2)正则化,3)任务奖励,详细信息见下表表 II 

作者遵循[9-OmniH2O]中的相同域随机化来随机化模拟环境和人形的物理参数,以实现成功的模拟到现实的转移

1.2.5 通过蒸馏的多模式多功能控制器

对于学生策略中的本体感受学生策略\pi^{\text {student }}相当于OmniH2O中的real

  1. 从先知教师\pi^{\text {oracle }}蒸馏而来的学生策略
    \pi^{\text {student }}\left(s_{t}^{\mathrm{p} \text {-student }}, s_{t}^{\text {g-student }}\right)
  2. 本体感受定义为
    s_{t}^{\mathrm{p} \text {-student }} \triangleq\left[q, \dot{q}, \omega^{\text {base }}, g\right]_{t-25: t} \cup\left[a_{t-25: t-1}\right]
    其中 q 是关节位置,\dot{q} 是关节速度,\omega^{\text {base }}是基座角速度,g 是重力向量,a是动作历史
    根据 [9],作者将这些项在最近的 25个步骤中堆叠起来,以表示学生的本体感受输入

而在OmniH2O中


OmniH2O设计的控制策略通过使用运动学参考动作作为中间表示,使其兼容多种输入来源。由于估计全身运动\tilde{\boldsymbol{q}}_{t}(包括旋转和平移)较为困难(特别是从VR头戴设备获取),故选择仅通过位置\tilde{\boldsymbol{p}}_{t}来控制人形机器人进行远程操作

具体而言

  • 对于真实的操控, 目标状态是
    \boldsymbol{s}_{t}^{\text {g-real }} \triangleq\left(\tilde{\boldsymbol{p}}_{t}^{\text {real }}-\boldsymbol{p}_{t}^{\text {real }}, \tilde{\boldsymbol{v}}_{t}^{\text {real }}-\boldsymbol{v}_{t}^{\text {real }}, \tilde{\boldsymbol{p}}_{t}^{\text {real }}\right)
    上标“真实”表示使用来自VR头显的3个可用点(头部和双手)。对于其他控制接口(例如RGB、语言),他们使用相同的3点输入以保持一致性,尽管可以轻松扩展到更多关键点以减少歧义
  • 对于本体感觉,学生策略
    \boldsymbol{s}_{t}^{\mathrm{p} \text {-real }} \triangleq\left(\boldsymbol{d}_{t-25: t}, \dot{\boldsymbol{d}}_{t-25: t}, \boldsymbol{\omega}_{t-25: t}^{\text {root }}, \boldsymbol{g}_{t-25: t}, \boldsymbol{a}_{t-25-1: t-1}\right)
    使用在现实世界中易于获取的值,包括
    关节(自由度)位置\boldsymbol{d}_{t-25: t}
    关节速度\dot{d}_{t-25: t}
    根部角速度\boldsymbol{\omega}_{t-25: t}^{\text {root }}
    根部重力\boldsymbol{g}_{t-25: t}
    先前动作\boldsymbol{a}_{t-25-1: t-1}

对于命令掩码

如下图图2所示,学生策略的任务命令输入是通过基于模式和基于稀疏性的掩码来定义的

具体而言,学生的任务命令输入s_{t}^{g \text { g-student }}表示为

s_{t}^{\text {g-student }} \triangleq M_{\text {sparsity }} \odot\left[M_{\text {mode }} \odot s_{t}^{\mathrm{g} \text {-upper }}, M_{\text {mode }} \odot s_{t}^{\text {g-lower }}\right.

模式掩码M_{\text {mode }}选择特定的任务命令模式独立地控制上半身和下半身。例如,上半身可以跟踪运动学位置,而下半身则专注于关节角度和根部跟踪,如图2所示

在模式特定的遮罩之后,应用稀疏遮罩Msparsity。例如,在某些场景中,上半身可能只跟踪手的运动学位置,而下半身则仅跟踪躯干的关节角度。模式和稀疏二进制遮罩的每一位都来自于伯努利分布B(0.5)。模式和稀疏遮罩在剧集开始时随机化,并在剧集结束前保持不变

在策略蒸馏上,作者使用DAgger框架[21]进行策略蒸馏

  1. 对于每个回合,作者在模拟中展开学生策略
    \pi^{\text {student }}\left(\mathbf{a}_{t} \mid s_{t}^{\mathrm{p} \text {-student }}, s_{t}^{\mathrm{g} \text {-student }}\right)
    以获得
    \left(s_{t}^{\mathrm{p} \text {-student }}, s_{t}^{\mathrm{g} \text {-student }}\right)
    的轨迹
  2. 在每个时间步,还计算相应的oracle状态
    \left(s_{t}^{\mathrm{p} \text {-oracle }}, s_{t}^{\mathrm{g} \text {-oracle }}\right)
    利用这些oracle状态,可以查询oracle教师策略
    \pi^{\text {oracle }}\left(\hat{\mathbf{a}}_{t} \mid s_{t}^{\mathrm{p} \text {-oracle }}, s_{t}^{\mathrm{g} \text {-oracle }}\right)
    以获得参考动作\hat{\mathbf{a}}_{t}
  3. 然后通过最小化损失函数
    \mathcal{L}=\left\|\hat{\mathbf{a}}_{t}-\mathbf{a}_{t}\right\|_{2}^{2}
    来更新学生策略\pi^{\text {student }}

    其中\hat{\mathbf{a}}_{t}是来自oracle的参考动作,而\mathbf{a}_{t}是学生策略采取的动作

而在OmniH2O中


其按照DAgger[51]框架训练可部署的远程操作策略\pi_{\mathrm{OmniH} 2 \mathrm{O}}

  1. 对于每个回合,在模拟中运行学生策略
    \pi_{\mathrm{OmniH} 2 \mathrm{O}}\left(\boldsymbol{a}_{t} \mid \boldsymbol{s}_{t}^{\text {p-real }}, \boldsymbol{s}_{t}^{\text {g-real }}\right)
    来获得
    \left(s_{1: T}^{\text {p-real }}, s_{1: T}^{\text {g-real }}\right)
    的轨迹

    通过使用参考姿态\hat{\boldsymbol{q}}_{1: T}和模拟的人形状态s_{1: T}^{\mathrm{p}},可以计算特权状态
    \boldsymbol{s}_{t}^{\mathrm{g} \text {-privileged }}, \boldsymbol{s}_{t}^{\mathrm{p} \text {-privileged }} \leftarrow\left(\boldsymbol{s}_{t}^{\mathrm{p}}, \hat{\boldsymbol{q}}_{t+1}\right)
  2. 然后,使用\left(s_{t}^{\mathrm{p} \text {-privileged }}, s_{t}^{\mathrm{g} \text {-privileged }}\right)对进行查询
    向教师
    \pi_{\text {privileged }}\left(\boldsymbol{a}_{t}{ }^{\text {privileged }} \mid \boldsymbol{s}_{t}^{\mathrm{p} \text {-privileged }}, \boldsymbol{s}_{t}^{\mathrm{g} \text {-privileged }}\right)
    请求计算参考动作\boldsymbol{a}_{t}{ }^{\text {privileged }}
  3. 为了更新\pi_{\mathrm{OmniH} 2 \mathrm{O}},损失函数为
    \mathcal{L}=\left\|\boldsymbol{a}_{t}{ }^{\text {privileged }}-\boldsymbol{a}_{t}\right\|_{2}^{2}

第二部分 实验与论证

作者在运动跟踪上对HOVER进行了评估,包括模拟环境(第III-A和第III-B节)和现实环境(第III-C节)。在模拟中,作者使用重定向的AMASS数据集\hat{Q}进行评估

在现实世界中,作者测试了20个静态运动序列,重点是定量跟踪和定性多模式控制的运动任务。他们的实际机器人采用了一个19自由度的UnitreeH1平台[23],总重约为51.5公斤,高度约为1.8米。基准

为了解决「Q1: HOVER作为一个通用策略能否超越为特定指令配置训练的策略?」和「Q3:HOVER 能否转移到现实世界的硬件上并执行多样化的多模态控制?」,作者将HOVER与几位(特定场景的机器人策略)专家进行比较

如下表表I所示

  • ExBody [12]专注于跟踪上半身关节角度和根速度
  • HumanPlus[13]跟踪全身关节和根速度
  • H2O [10]跟踪八个关键点(肩膀、肘部、手、脚踝)的运动学位置
  • 而OmniH2O [9]跟踪头部和双手的运动学位置

此外,作者还比较了其他有用的跟踪模式(例如,左手模式、右手模式、双手模式、仅头部模式)

  1. 对于每种控制模式,作者仅向控制器提供相关的观察输入,并使用RL训练专家基准。例如,在仅左手模式中,仅提供左手的参考运动
  2. 为了解决Q2,作者与另一种多模式RL策略进行比较,该策略在目标命令上遵循相同的掩蔽过程,但从头开始以RL目标训练基准。在多模式RL基准训练期间,模式和稀疏性在每个情节开始时随机化,并在情节结束前保持不变,这与蒸馏过程中随机化掩蔽过程相同

在具体指标的计算上,他们会报告生存率,其中如果人形机器人撞击地面而不是用脚着地,情节就会终止。作者根据运动姿态、关节角度和根部扭曲及旋转来计算跟踪误差

指标的平均值是在数据集\hat{Q}的所有运动序列中计算的

  1. 且通过比较全身位置的跟踪误差E_{g-\mathrm{mpjpe}}(毫米)
  2. 相对于根部的每关节平均误差(MPJPE)E_{\mathrm{mp} j p e}(毫米)
  3. 关节跟踪误差E_{j}(弧度)
  4. 根部速度E_{\text {root-vel }}(米/秒)
  5. 根部方向跟踪误差E_{\text {root-rpy }}(弧度)

等指标来评估策略模仿参考动作的能力

为了展示物理现实感,他们还会记录平均关节加速度E_{\mathrm{acc}}(毫米/帧²)和速度

2.1 与特定场景的机器人策略专家的比较

// 待更

相关文章:

英伟达HOVER——用于人形机器人的多功能全身控制器:整合不同的控制模式且实现彼此之间的无缝切换

前言 前几天,一在长沙的朋友李总发我一个英伟达HOVER的视频(自从我今年年初以来持续不断的解读各大顶级实验室的最前沿paper、以及分享我司七月在具身领域的探索与落地后,影响力便越来越大了,不断加油 ),该视频说的有点玄乎&…...

GEE代码学习 day17

13.2 地球上到处都有许多图像吗? 我们可以使用下面的代码将这个 reducer count 应用于我们过滤后的 ImageCollection。我们将返回相同的数据集并筛选 2020 年,但没有地理限制。这将收集来自世界各地的图像,然后计算每个像素中的图像数量。以…...

论文阅读笔记-Covariate Shift: A Review and Analysis on Classifiers

前言 标题:Covariate Shift: A Review and Analysis on Classifiers 原文链接:Link\ 我们都知道在机器学习模型中,训练数据和测试数据是不同的阶段,并且,通常是是假定训练数据和测试数据点遵循相同的分布。但是实际上&…...

基于SSM+VUE守护萌宠宠物网站JAVA|VUE|Springboot计算机毕业设计源代码+数据库+LW文档+开题报告+答辩稿+部署教+代码讲解

源代码数据库LW文档(1万字以上)开题报告答辩稿 部署教程代码讲解代码时间修改教程 一、开发工具、运行环境、开发技术 开发工具 1、操作系统:Window操作系统 2、开发工具:IntelliJ IDEA或者Eclipse 3、数据库存储&#xff1a…...

【在Linux世界中追寻伟大的One Piece】Socket编程TCP

目录 1 -> TCP socket API 2 -> V1 -Echo Server 2.1 -> 测试多个连接的情况 1 -> TCP socket API socket(): socket()打开一个网络通讯端口,如果成功的话,就像open()一样返回一个文件描述符。应用程序可以像读写文件一样用r…...

进入半导体行业需要具备哪些能力?

要进入半导体公司,尤其是从事工艺流程设计和制程优化的岗位,需要具备一定的跨学科背景。 以某公司招聘要求为例: **公司 招聘岗位:工艺工程师 该公司是一家从事半导体设备、工艺与材料研发、生产和销售的公司,面向…...

Nature重磅:AI化学家再升级!大幅提升实验效率,推动化学合成进入“智能化”新阶段

人工智能(AI)驱动的机器人,正在我们的生活中扮演着越来越重要的角色,而在化学合成实验室内,它们也在悄然改变着传统实验方式。 如今,科学家们在智能化学领域取得了新突破—— 来自英国利物浦大学的研究团…...

源代码泄漏怎么办?SDC沙盒成为破局利器

在数字化时代,源代码安全已成为企业关注的焦点。源代码的泄露不仅可能导致知识产权的损失,还可能被竞争对手利用,给企业带来巨大的经济损失和法律风险。因此,采取有效的源代码防泄漏措施至关重要。深信达的SDC沙盒防泄密软件&…...

【论文复现】基于图卷积网络的轻量化推荐模型

本文所涉及所有资源均在这里可获取。 📕作者简介:热爱跑步的恒川,致力于C/C、Java、Python等多编程语言,热爱跑步,喜爱音乐、摄影的一位博主。 📗本文收录于论文复现系列,大家有兴趣的可以看一看…...

使用ssh-key免密登录服务器或免密连接git代码仓库网站

ssh登录服务器场景 假设有两台机器,分别是: 源机器:主机A(hostA),ip:198.168.0.1 目标机器:主机B(hostB),ip:192.168.0.2 ssh-key免…...

自由学习记录(19)

unity核心也算是看完了吧,但觉得的确是少了点东西,之后再看mvc框架,和网络开发,,感觉有必要想想主次顺序了,毕竟在明年的3月之前尽量让自己更有贴合需求的能力 先了解一些相关概念,不用看懂&am…...

Elasticsearch中时间字段格式用法详解

Elasticsearch中时间字段格式用法详解 攻城狮Jozz关注IP属地: 北京 2024.03.18 16:27:51字数 758阅读 2,571 Elasticsearch(简称ES)是一个基于Lucene构建的开源、分布式、RESTful搜索引擎。它提供了全文搜索、结构化搜索以及分析等功能,广泛…...

蓝桥杯-网络安全比赛题目-遗漏的压缩包

小蓝同学给你发来了他自己开发的网站链接, 他说他故意留下了一个压缩包文件,里面有网站的源代码, 他想考验一下你的网络安全技能。 (点击“下发赛题”后,你将得到一个http链接。如果该链接自动跳转到https,…...

ES海量数据插入如何优化性能?

2024年10月NJSD技术盛典暨第十届NJSD软件开发者大会、第八届IAS互联网架构大会在南京召开。百度文心快码总经理臧志分享了《AI原生研发新范式的实践与思考》,探讨了大模型赋能下的研发变革及如何在公司和行业中落地,AI原生研发新范式的内涵和推动经验。 …...

遥控救生圈,水上应急救援的新革命_鼎跃安全

水上事故发生后,时间就是生命。每一秒钟的延误,都可能增加溺水者失去生命的风险。传统的救援方式往往依赖人工迅速反应,但在大规模的紧急事件中,人工救援速度难以满足需求。而遥控救生圈的出现改变了这一切,它的作用在…...

【flask开启进程,前端内容图片化并转pdf-会议签到补充】

flask开启进程,前端内容图片化并转pdf-会议签到补充 flask及flask-socketio开启threading页面内容转图片转pdf流程前端主js代码内容转图片-browser端browser端的同步编程flask的主要功能route,def 总结 用到了pdf,来回数据转发和合成,担心flask卡顿,响应差,于是刚好看到threadi…...

Docker在CentOS上的安装与配置

前言 随着云计算和微服务架构的兴起,Docker作为一种轻量级的容器技术,已经成为现代软件开发和运维中的重要工具。本文旨在为初学者提供一份详尽的指南,帮助他们在CentOS系统上安装和配置Docker及相关组件,如Docker Compose和私有…...

【笔记】开关电源变压器设计 - 工作磁通的选择原则

变压器设计中有一个重要的输入参数,是选定电路工作的磁路参数。涉及到磁场的上下震荡最高幅度。如上图所示。磁场的方向有正负,所以如果电流在越过零点震荡,只考虑半周来和Bs或者Bmax比对即可。Bs,Bmax与特定材料有关。材料给出的最大Bmax,或…...

【VScode】如何在VSCode中配置Python开发环境:从零开始的完整指南

文章目录 前言软件准备软件安装1. 安装Python2. 检查Python是否安装成功3. 安装第三方包4. 安装VSCode 配置VSCode1. 安装Python插件2. 创建项目,配置工作区域3. 编写Python文件4. 配置Python编译设置5. 使用代码格式化工具yapf 更多文章结尾 前言 在当今的编程世界…...

Copy From 勇哥的机器视觉实验项目

形成一种有规划的学习模式,节省时间提升效率。 (一) 单相机标定 (1)halcon的标定助手 这个助手是常用工具,要注意的主要问题是 "品质问题","标定的精度"。 使用的标定板有两种类型,多种材质。选择时要配合灯光来选择材质。 例如玻璃标定板只适合背…...

在IDEA中使用Git

一、准备工作 这里我们使用 Gitee 做例子,使用 SSH 协议。看这个文章前最好看一下《》这个文章,了解一下 SSH。 1、生成秘钥对 首先要到 ~/.ssh 目录下进行操作,因为生成的公钥和私钥一般放在这个目录下,Windows 就是在用户目…...

分布式锁(防止同时操作同一条数据)实现分析

1. deleteLocked 方法: public R deleteLocked(String id, String username) {String examReportUserKey "examReportId_" id "_" username;stringRedisTemplate.delete(examReportUserKey);return R.ok(); } 功能:删除指定用户…...

【已解决,含泪总结】Ubuntu18.04下非root用户Anaconda3卸载重装,conda install终于不再报错

为什么要卸载重装 因为我最初安装的Anaconda3的版本是5.2.0,适合python3.6.5,其下的conda版本是4.5.4 我一开始本着能用则用,毕竟不是很懂的原则,尽量不要卸掉重来 但。。。bug像滚雪球一样,越来越多 conda install指…...

大语言模型(LLM)量化基础知识(一)

请大家关注我的知乎博客:- 派神 - - 知乎 随着大型语言模型 (LLM) 的参数数量的增长,与其支持硬件(加速器内存)增长速度之间的差距越来越大,如下图所示: 上图显示,从 2017 年到 2022 年,语言模…...

hadoop面试题

一、单项选择题 1、目前,Hadoop的最高版本是哪个( A ) A、Hadoop3.x B、Hadoop2.x C、Hadoop4.x D、Hadoop1.x 2、大数据的4V特征是指? ( B ) A、数据量大(Volume)、类型繁多(Variety)、价值密度低(Va…...

mysql 安装 windows

新版安装 新版本安装 如果出现initializing database无法安装 则用我当前版本传送门 如MySQL 安装时没有developer default 选项 解决方法传送门 如果上述还不行 可以选择full 汉化下载 传送门...

24下软考中级网络工程师考前必背22页

数据中心选址原则 1、地理位置:备选址地点发生自然灾害的概率和频率、环境危害因素以及气候因素 2、电力能源供应:可用性、成本因素 3、通讯基础设施:光纤主干线路及其距数据中心选址的距离、光纤类型、服务运营商的类型及其支持的服务模式…...

Java类和对象(下篇)

今天接着学习类和对象(苦笑)(苦笑)(苦笑) 1. 封装 1.1 封装的概念 面向对象程序三大特性:封装、继承、多态。 而类和对象阶段,主要研究的就是封装特性。 何为封装呢?简单来说就是套壳屏蔽细节。 举例:对于计算机使用者而言&am…...

k8s图形化显示(KRM)

在master节点 kubectl get po -n kube-system 这个命令会列出 kube-system 命名空间中的所有 Pod 的状态和相关信息,比如名称、状态、重启次数等。 systemctl status kubelet #查看kubelet状态 yum install git #下载git命令 git clone https://gitee.com/duk…...

apache poi 实现下拉框联动校验

apache poi 提供了 DataValidation​ 接口 让我们可以轻松实现 Excel 下拉框数据局校验。但是下拉框联动校验是无法直接通过 DataValidation ​实现,所以我们可以通过其他方式间接实现。 ‍ 步骤如下: 创建一个隐藏 sheet private static void create…...