机器人避障不再“智障”:HEIGHT——拥挤复杂环境下机器人导航的新架构
导读:
由于环境中静态障碍物和动态障碍物的约束,机器人在密集且交互复杂的人群中导航,往往面临碰撞与延迟等安全与效率问题。举个简单的例子,商城和车站中的送餐机器人往往在人流量较大时就会停在原地无法运作,因为它不具备在拥挤人群中穿行的能力。
为应对上述挑战,研究者提出一套基于图结构的全新方案,将人、机器人及各类障碍物在时空维度上进行异质化建模,构建出名为“异质时空图”(st-graph)的统一表达框架。基于此结构,运用深度强化学习训练导航策略,并通过注意力机制与循环网络,动态捕捉场景变化,关注关键交互因素,从而显著提升对碰撞的规避能力。
多轮仿真与真实实验表明,该方法在复杂导航任务中不仅成功率和效率优于SOTA方法,而且在改变人群密度和障碍物数量时也能保持良好的零样本泛化能力。同时,本研究在大量实际环境中进行验证,结果证明其在安全性和整体表现方面均达到了新的水平。该方法的实时和部署使得服务机器人即便是在“上班早高峰”这样的拥挤场景中也能够顺利的执行任务。
©️【深蓝AI】编译
论⽂题目:HEIGHT: HEterogeneous Interaction GrapH Transformer for Robot Navigation in Crowded and Constrained Environments
论文作者:Shuijing Liu, Haochen Xia, Fatemeh Cheraghi Pouria, Kaiwen Hong, Neeloy Chakraborty, and Katherine Driggs-Campbell
论文地址:https://arxiv.org/abs/2411.12150
1.引入
随着机器人在以人为中心的环境中应用的日益普及,如最后一公里配送和家庭机器人等,机器人能够在人群中安全导航变得越来越重要。例如,图1展示了一个导航场景,其中包含了大量微妙的互动:障碍物对路径的影响是单向的(即对机器人和人类的路径有影响),而人类和机器人之间的互动则是相互作用的。在这些互动中,人类可能会以不同的方式反应于其他人类和机器人。为了完成导航任务,机器人直接参与到近距离的某些互动中,同时又受到其他互动的间接影响。这些互动是异质的、动态的,并且很难推测出来,这使得在这种环境中进行导航变得十分具有挑战性。
为了应对这些挑战,过去的研究探索了多种机器人群体导航方法。然而,这些方法通常存在以下两种局限:一是它们假设机器人在没有障碍物的开放空间中移动,而现实世界中障碍物是很常见的;二是它们没有区分不同类型的互动,导致机器人难以采取适应性策略,避免与人类和障碍物的碰撞。
本研究的目标是让机器人能够在导航时不与人类和障碍物发生碰撞。为了解决这个问题,本研究提出了一个框架,利用了在拥挤和受限环境中互动的异质性。首先,本研究将环境分为人类和障碍物的表示,并将它们分别处理后输入到基于强化学习(RL)的导航流程中。然后,本研究将场景分解为异质的时空图(st-graph),通过不同类型的边来表示机器人、人类和障碍物之间的不同互动,正如图1中不同颜色的箭头所示。最后,本研究将这个异质时空图转换为一个名为HEIGHT(HEterogeneous Interaction GrapH Transformer)的机器人策略网络,包含多个模块来参数化各种时空互动。具体来说,本研究使用两个独立的多头注意力网络来处理机器人与人类(RH)以及人类与人类(HH)之间的互动。通过注意力网络,机器人可以更多地关注重要的互动,从而在人数增多、图变得更加复杂的情况下,保持较低的碰撞率。此外,本研究还使用多层感知机(MLP)来建模单向的障碍物-代理互动,并采用递归网络来捕捉场景的时间演变。面对快速变化的场景(图1下方),HEIGHT能够通过时空捕捉不同组件之间的异质互动,从而使机器人避免碰撞并高效地接近目标。
这篇文章扩展了本研究之前关于注意力图网络的贡献。尽管本研究之前的工作集中在开放空间中的群体导航,但这篇文章引入了静态障碍物和约束,导致了场景表示和网络架构的重大修改。为配合这些方法的变化,本研究进行了新的仿真和硬件实验,并增加了新的基准比较。总的来说,这篇文章的主要贡献如下:
-
本研究提出了一种拥挤和受限环境的输入表示,区别对待人类和障碍物。这种分离的场景表示使得本研究能够在框架的其他部分注入更多结构。
-
本研究提出了一种结构化的图表示,称为异质时空图(st-graph),用于有效地建模所有代理和实体之间的配对互动。
-
从异质时空图中,本研究采用一种原则性的方法推导出HEIGHT,一个基于变换器的机器人导航策略网络,具有不同的模块来推理所有类型的时空互动。
-
仿真实验中,在密集人群和障碍物的情况下,本研究的方法在未见过的障碍物布局中超越了之前的最先进方法。此外,本研究的方法在不同的人类和障碍物密度的分布外环境中表现出了更好的泛化能力。
-
本研究成功地将机器人策略从低保真度仿真环境转移到具有挑战性的真实世界拥挤环境中,且无需进行微调。

▲图1|机器人避障情况分类©️【深蓝AI】编译

▲图2|机器人避障情况分类©️【深蓝AI】编译
2.具体方法与实现
图2所示为本文的核心pipeline,首先(a)在训练和测试的每个时间步,仿真器提供一个奖励和以下环境观察:障碍物点云、机器人状态、以及人类状态和掩码。这些观察作为输入传递给HEIGHT,HEIGHT输出一个机器人动作,以最大化未来期望回报。仿真器执行所有代理的动作,循环继续。随后(b)现实世界中的测试循环与仿真器类似,唯一不同的是用于获取观察的感知模块不同,并且没有奖励。可以看到本文的核心是一个Sim2Real的过程,在仿真器中进行训练,随后在真实环境中实现实施和部署。下面笔者将对本文的各个细分模块进行介绍。

▲图3|核心网络架构图©️【深蓝AI】编译
2.1 异质时空图
代理和实体之间微妙而高度动态的互动是使群体导航变得困难的重要因素。为了以结构化的方式建模这些互动,本研究将导航场景公式化为一个异质时空图。在图3a中,在每个时间,本研究的异质时空图由一组节点
和一组边
组成。节点包括检测到的人类
和机器人
。此外,障碍物节点
代表所有障碍物的点云。在每个时间,连接不同节点的空间边表示节点之间的空间互动。不同的空间互动对机器人决策的影响不同。具体来说,虽然本研究可以控制机器人,但无法控制人类,因此机器人与人类(RH)之间的互动有直接影响,而人类与人类(HH)之间的互动对机器人动作的影响是间接的。例如,作为间接影响,如果人类 A 强行让人类 B 转向机器人的前方,那么机器人必须根据 A 和 B 之间的互动做出反应。此外,由于代理是动态的,而障碍物是静态的,代理之间的互动是相互的,而静态障碍物对代理的影响是单向的。因此,本研究将空间边分为三种类型:人类与人类边(HH,图3中的蓝色)、障碍物-代理边(OA,橙色)和机器人-人类边(RH,红色)。这三种边允许本研究将空间互动分解为 HH、OA 和 RH 函数。每个函数由一个具有可学习参数的神经网络来参数化。

▲图4|环境人体与障碍物分离图示©️【深蓝AI】编译
与以往忽略某些边的工作相比,本研究的方法允许机器人推理所有在拥挤和受限环境中存在的空间互动。由于所有代理的运动会导致每个人类的可见性动态变化,节点集和边集
以及互动函数的参数可能相应地发生变化。为此,本研究使用图3(a)中紫色框所示的另一个函数,将不同时间步的图
融合起来。这个时间函数连接相邻时间步的图,从而克服了反应性策略的短视性,并使机器人能够进行长期决策。
为了减少参数的数量,图3(a)中相同类型的边共享相同的函数参数。这个参数共享对于图的可扩展性非常重要,因为当人类数量变化时,参数的数量保持不变。
2.2 HEIGHT架构
在图3b中,本研究从异质时空图中推导出了本研究的网络架构。本研究将 HH 和 RH 函数表示为具有注意力机制的前馈网络,分别称为和
。本研究将 OA 函数表示为一个带有连接的多层感知机(MLP),将时间函数表示为门控递归单元(GRU)。本研究使用 W 和 f 来表示可训练的权重和全连接层。代理之间的注意力:注意力模块为所有连接到机器人或人类节点的边分配权重,使得节点可以关注重要的边或互动。这两个注意力网络类似于带有填充掩码的缩放点积注意力,它使用查询 Q 和键 K 来计算注意力得分,并将归一化的得分应用于值 V,从而得到加权值 v。

其中 d 是查询和键的维度,作为缩放因子。掩码 M 用于处理每个时间步检测到的人类数量变化,正如本研究将在下文中扩展的那样。人类-人类注意力:为了学习每个 HH 边对机器人在时间 t 的决策的重要性,本研究首先使用一个 HH 注意力网络,按人类之间的自注意力对每个观察到的人类进行加权。在 HH 注意力中,当前的人类状态被拼接并通过具有权重
、
和
的线性层传递,以获得
、
和
其中是 HH 注意力的注意力大小。

其中
、
和
分别是第 i 个人类的查询嵌入、键嵌入和值嵌入。该过程用于指示每个人类的可见性,使得机器人可以对检测到的每个人进行“注意”,这个过程可以提升机器人对于环境中人群的感知能力,同时更契合本文对人和环境进行分离的主题。
2.3 训练过程
本研究在仿真器中使用近端策略优化(PPO)训练整个网络,如图2(a)所示。在每个时间步 t,仿真器提供所有构成 st 的状态信息,这些信息被输入到 HEIGHT 网络中。网络输出状态 V(st) 的估计值和机器人动作 π(at|st) 的对数概率,二者用于计算 PPO 损失并更新网络中的参数。在训练过程中,机器人从动作分布 π(at|st) 中采样动作。在测试过程中,机器人选择具有最高概率的动作 at。机器人动作 at 被输入到仿真器中,以计算下一个状态 st+1,然后循环继续进行。没有任何监督学习,本研究的方法不受专家演示性能的限制。然而,为了提高低训练数据效率这一强化学习固有问题,HEIGHT也可以通过模仿学习和强化学习的结合进行训练,本文主要的训练环境和真实环境如图5所示。通过以上的一种结构化和原则性的方法来设计机器人策略网络,用于在受限环境中的群体导航可以更好的提升机器人在拥挤环境中的导航避障性能。通过将复杂的场景分解为独立的组件,本研究将复杂问题拆解为更小的函数,这些函数用于学习相应的函数参数。通过结合上述所有组件,端到端可训练的 HEIGHT 使得机器人能够对所有配对互动进行时空推理,从而实现更好的导航性能。

▲图5|Sim2Real训练环境与实际环境展示©️【深蓝AI】编译
3.实验
本文作为一篇TRO的文章,在实验部分设计的非常精细,同时做了非常充分的对比实验以及仿真真实实验,体现了本文极大地工作量,首先图6所示为本文的数值实验,从结果不难看出本文方法的优异性,能够在多个环境中取得不错的效果,均领先于当前的SOTA。

▲图6|数值实验©️【深蓝AI】编译
接下来映入眼帘的是避障路径规划的模拟实验,可以看到作者进行了大量的case study并且于当前的方法进行了非常多的对比,值得关注的是机器人与人的碰撞(标记为Human collision)以及机器人运动的时间(在左上角体现)。可以看到本文方法在避障时间上用时最短,同时避免了所有的人体碰撞

▲图7|避障路径规划模拟实验©️【深蓝AI】编译
随后作者在真实机器人平台进行了算法部署,并且在办公室和大厅两个场景进了真实的机器人避障实验,办公室场景是比较典型的结构化场景,在这个场景中机器人的路径受到限制,一般只有狭窄的走廊能够用于避障,从图中可见机器人在这样的环境中,即便面对川流不息的人群,也能够实现非常准确的避障和导航。大厅则是比较开放的场景,这个场景中机器人往往有多条路径能够选择,但是多样的选择也导致了机器人的迂回问题,有时候机器人会绕一大圈,为了避开障碍物,但是从图中能够看到,本文算法非常好的解决了这个问题,机器人在开放的环境中也选择了一条非常高效的路径,最终导航到了目的地。


▲图8|真实环境机器人避障实验©️【深蓝AI】编译
总结
在本文中,作者提出了HEIGHT,一个用于动态和受限环境下自主机器人导航的新型结构化图网络架构。作者的方法利用了受限群体导航问题的图形化特性和可分解性,提出了以下两个关键创新。首先,作者将人类和障碍物的表示分别进行拆分和处理。这使得机器人能够有效地推理人类和障碍物的不同几何形状和动态特性,提升其在复杂环境中的导航能力。其次,作者提出了一种异质时空图(st-graph),用以捕捉机器人、人类和障碍物之间的多种互动类型。将场景分解为异质时空图有助于指导HEIGHT网络的设计,采用注意力机制。注意力机制使机器人能够推理每种配对互动的相对重要性,从而在导航过程中实现自适应和敏捷的决策。
作者的仿真实验表明,HEIGHT模型在碰撞避免和导航效率方面优于传统的基于模型的方法和其他基于学习的方法。HEIGHT模型在不同人类和障碍物密度的环境中也表现出了更好的泛化能力。在真实世界的环境中,HEIGHT能够无缝地从仿真转移到日常室内导航场景中,无需额外训练,展示了其鲁棒性和克服仿真与现实之间差距的能力。
作者的研究表明,推理微妙的时空互动是实现平稳人机交互的关键步骤。此外,作者的工作强调了揭示复杂问题内在结构的重要性,并将这些结构注入学习框架中,以一种有原则的方式解决问题。
相关文章:
机器人避障不再“智障”:HEIGHT——拥挤复杂环境下机器人导航的新架构
导读: 由于环境中静态障碍物和动态障碍物的约束,机器人在密集且交互复杂的人群中导航,往往面临碰撞与延迟等安全与效率问题。举个简单的例子,商城和车站中的送餐机器人往往在人流量较大时就会停在原地无法运作,因为它不…...
H2数据库在单元测试中的应用
H2数据库特征 用比较简洁的话来介绍h2数据库,就是一款轻量级的内存数据库,支持标准的SQL语法和JDBC API,工业领域中,一般会使用h2来进行单元测试。 这里贴一下h2数据库的主要特征 Very fast database engineOpen sourceWritten…...
部署HugeGraph
部署HugeGraph 这里以hugegraph1.2.0为例子,演示一下如何安装部署hugegraph 一、下载并安装JDK11 下载JDK11 https://www.oracle.com/java/technologies/downloads/#java11 使用scp命令将安装包上传到服务器 scp /path/to/local/file usernameserver_ip:/path/…...
2025年第三届“华数杯”国际赛A题解题思路与代码(Matlab版)
游泳竞技策略优化模型代码详解(MATLAB版) 第一题:速度优化模型 本部分使用MATLAB实现游泳运动员在不同距离比赛中的速度分配策略优化。 1. 模型概述 模型包含三个主要文件: speed_optimization.m: 核心优化类plot_speeds.m: …...
嵌入式基础 -- IMX8MP的 GPC 模块技术
General Power Controller (GPC) 模块技术文档 1. GPC 模块简介 1.1 模块功能 GPC(General Power Controller)模块是用于 i.MX8M Plus 应用处理器 的电源管理组件,支持以下功能: 管理 ARM Cortex-A53 和 Cortex-M7 平台的低功…...
选择器css
1.a标签选择 // 选中所具有herf 的元素 [herf] {color: skyblue; } // 选中所具有herfhttps://fanyi.youdao.com/ 的元素 [herf$"youdao.com"] {color:pink; } // 按此顺序书写 link visited hover active // 未访问状态 a:link {color:orange } // 访问状态 a…...
全方位解读消息队列:原理、优势、实例与实践要点
全方位解读消息队列:原理、优势、实例与实践要点 一、消息队列基础认知 在数字化转型浪潮下,分布式系统架构愈发复杂,消息队列成为其中关键一环。不妨把消息队列想象成一个超级“信息驿站”,在古代,各地的信件、物资运…...
JavaScript运算符与控制结构
JavaScript作为一门强大的前端语言,提供了丰富的运算符与控制结构,使程序逻辑更加灵活与高效。 1. JavaScript运算符 算术运算符 运算符描述示例结果加法5 38-减法7 - 43*乘法2 * 612/除法8 / 24%取模(余数)10 % 31**幂运算3 …...
2030年中国AI人才缺口或达400万,近屿智能助力AI人才储备增长
在当今数字化浪潮下,人工智能(AI)已成为推动各行业发展的关键力量。然而,吸引和留住 AI 人才正成为全球性难题,中国亦不例外。据麦肯锡 2022 年全球人工智能商业高管调查,75% 的中国受访者在招聘数据科学家…...
如何设计一个注册中心?以Zookeeper为例
这是小卷对分布式系统架构学习的第8篇文章,在写第2篇文章已经讲过服务发现了,现在就从组件工作原理入手,讲讲注册中心 以下是面试题: 某团面试官:你来说说怎么设计一个注册中心? 我:注册中心嘛&…...
ubuntu 20.04 安装docker--小白学习之路
更新包 sudo apt-get update # 安装需要的软件包以使apt能够通过HTTPS使用仓库 sudo apt-get install ca-certificates curl gnupg lsb-release 使用清华大学源 # 添加Docker官方的GPG密钥 curl -fsSL https://mirrors.tuna.tsinghua.edu.cn/docker-ce/linux/ubuntu/gpg | sudo…...
【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据...本篇介绍 密集行人检测的遮挡问题怎么解决?
【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据…本篇介绍 密集行人检测的遮挡问题怎么解决? 【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据…本篇介绍 密集行人检测的遮挡问题怎么解决? 文章目录 …...
Tableau数据可视化与仪表盘搭建-可视化原则及BI仪表盘搭建
目录 可视化原则 BI仪表盘搭建 仪表盘搭建原则 明确仪表盘主题 仪表盘主题拆解 开发设计工作表 经营情况总览:突出显示的文字 经营数据详情:表格 每日营收数据:多轴折线图 每日流量数据:双轴组合图 新老客占比…...
TensorFlow Quantum快速编程(基本篇)
一、TensorFlow Quantum 概述 1.1 简介 TensorFlow Quantum(TFQ)是由 Google 开发的一款具有开创性意义的开源库,它宛如一座桥梁,巧妙地将量子计算与 TensorFlow 强大的机器学习功能紧密融合。在当今科技飞速发展的时代,传统机器学习虽已取得诸多瞩目成就,然而面对日益…...
ELK日志分析实战宝典之ElasticSearch从入门到服务器部署与应用
目录 ELK工作原理展示图 一、ElasticSearch介绍(数据搜索和分析) 1.1、特点 1.2、数据组织方式 1.3、特点和优势 1.3.1、分布式架构 1.3.2、强大的搜索功能 1.3.3、数据处理与分析 1.3.4、多数据类型支持 1.3.5、易用性与生态系统 1.3.6、高性…...
git 转移文件夹
打开终端或命令行界面:首先,确保你的电脑上安装了 Git,并打开终端或命令行界面。 导航到你的仓库目录:使用 cd 命令来切换到包含你想要移动文件夹的仓库的目录。 cd /path/to/your/repository使用 git mv 命令移动文件夹&#x…...
C#,图论与图算法,输出无向图“欧拉路径”的弗勒里(Fleury Algorithm)算法和源程序
1 欧拉路径 欧拉路径是图中每一条边只访问一次的路径。欧拉回路是在同一顶点上开始和结束的欧拉路径。 这里展示一种输出欧拉路径或回路的算法。 以下是Fleury用于打印欧拉轨迹或循环的算法(源)。 1、确保图形有0个或2个奇数顶点。2、如果有0个奇数顶…...
计算机网络之---OSI七层模型
为什么会有七层模型 OSI七层模型的出现源于计算机网络技术的发展需求,主要解决以下几个问题: 标准化与互操作性 随着计算机网络的快速发展,不同厂商、不同技术之间的设备和系统需要能够无缝通信。而不同厂商在网络硬件、软件、协议等方面存在…...
mysql的mvcc理解
人阅读 一、说到mvcc就少不了事务隔离级别(大白话解释) 序列化(SERIALIZABLE):事务之间完全隔离,当成一个序列,一个一个执行。 1 可重复读(REPEATABLE READ)ÿ…...
leetcode 面试经典 150 题:两数之和
链接两数之和题序号1题型数组解题方法1. 哈希表,2. 暴力法难度简单熟练度✅✅✅✅✅ 题目 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输…...
浏览器访问 AWS ECS 上部署的 Docker 容器(监听 80 端口)
✅ 一、ECS 服务配置 Dockerfile 确保监听 80 端口 EXPOSE 80 CMD ["nginx", "-g", "daemon off;"]或 EXPOSE 80 CMD ["python3", "-m", "http.server", "80"]任务定义(Task Definition&…...
Mybatis逆向工程,动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件
今天呢,博主的学习进度也是步入了Java Mybatis 框架,目前正在逐步杨帆旗航。 那么接下来就给大家出一期有关 Mybatis 逆向工程的教学,希望能对大家有所帮助,也特别欢迎大家指点不足之处,小生很乐意接受正确的建议&…...
大数据零基础学习day1之环境准备和大数据初步理解
学习大数据会使用到多台Linux服务器。 一、环境准备 1、VMware 基于VMware构建Linux虚拟机 是大数据从业者或者IT从业者的必备技能之一也是成本低廉的方案 所以VMware虚拟机方案是必须要学习的。 (1)设置网关 打开VMware虚拟机,点击编辑…...
连锁超市冷库节能解决方案:如何实现超市降本增效
在连锁超市冷库运营中,高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术,实现年省电费15%-60%,且不改动原有装备、安装快捷、…...
页面渲染流程与性能优化
页面渲染流程与性能优化详解(完整版) 一、现代浏览器渲染流程(详细说明) 1. 构建DOM树 浏览器接收到HTML文档后,会逐步解析并构建DOM(Document Object Model)树。具体过程如下: (…...
在WSL2的Ubuntu镜像中安装Docker
Docker官网链接: https://docs.docker.com/engine/install/ubuntu/ 1、运行以下命令卸载所有冲突的软件包: for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done2、设置Docker…...
全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比
目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...
Device Mapper 机制
Device Mapper 机制详解 Device Mapper(简称 DM)是 Linux 内核中的一套通用块设备映射框架,为 LVM、加密磁盘、RAID 等提供底层支持。本文将详细介绍 Device Mapper 的原理、实现、内核配置、常用工具、操作测试流程,并配以详细的…...
CSS设置元素的宽度根据其内容自动调整
width: fit-content 是 CSS 中的一个属性值,用于设置元素的宽度根据其内容自动调整,确保宽度刚好容纳内容而不会超出。 效果对比 默认情况(width: auto): 块级元素(如 <div>)会占满父容器…...
佰力博科技与您探讨热释电测量的几种方法
热释电的测量主要涉及热释电系数的测定,这是表征热释电材料性能的重要参数。热释电系数的测量方法主要包括静态法、动态法和积分电荷法。其中,积分电荷法最为常用,其原理是通过测量在电容器上积累的热释电电荷,从而确定热释电系数…...
