机器人避障不再“智障”:HEIGHT——拥挤复杂环境下机器人导航的新架构
导读:
由于环境中静态障碍物和动态障碍物的约束,机器人在密集且交互复杂的人群中导航,往往面临碰撞与延迟等安全与效率问题。举个简单的例子,商城和车站中的送餐机器人往往在人流量较大时就会停在原地无法运作,因为它不具备在拥挤人群中穿行的能力。
为应对上述挑战,研究者提出一套基于图结构的全新方案,将人、机器人及各类障碍物在时空维度上进行异质化建模,构建出名为“异质时空图”(st-graph)的统一表达框架。基于此结构,运用深度强化学习训练导航策略,并通过注意力机制与循环网络,动态捕捉场景变化,关注关键交互因素,从而显著提升对碰撞的规避能力。
多轮仿真与真实实验表明,该方法在复杂导航任务中不仅成功率和效率优于SOTA方法,而且在改变人群密度和障碍物数量时也能保持良好的零样本泛化能力。同时,本研究在大量实际环境中进行验证,结果证明其在安全性和整体表现方面均达到了新的水平。该方法的实时和部署使得服务机器人即便是在“上班早高峰”这样的拥挤场景中也能够顺利的执行任务。
©️【深蓝AI】编译
论⽂题目:HEIGHT: HEterogeneous Interaction GrapH Transformer for Robot Navigation in Crowded and Constrained Environments
论文作者:Shuijing Liu, Haochen Xia, Fatemeh Cheraghi Pouria, Kaiwen Hong, Neeloy Chakraborty, and Katherine Driggs-Campbell
论文地址:https://arxiv.org/abs/2411.12150
1.引入
随着机器人在以人为中心的环境中应用的日益普及,如最后一公里配送和家庭机器人等,机器人能够在人群中安全导航变得越来越重要。例如,图1展示了一个导航场景,其中包含了大量微妙的互动:障碍物对路径的影响是单向的(即对机器人和人类的路径有影响),而人类和机器人之间的互动则是相互作用的。在这些互动中,人类可能会以不同的方式反应于其他人类和机器人。为了完成导航任务,机器人直接参与到近距离的某些互动中,同时又受到其他互动的间接影响。这些互动是异质的、动态的,并且很难推测出来,这使得在这种环境中进行导航变得十分具有挑战性。
为了应对这些挑战,过去的研究探索了多种机器人群体导航方法。然而,这些方法通常存在以下两种局限:一是它们假设机器人在没有障碍物的开放空间中移动,而现实世界中障碍物是很常见的;二是它们没有区分不同类型的互动,导致机器人难以采取适应性策略,避免与人类和障碍物的碰撞。
本研究的目标是让机器人能够在导航时不与人类和障碍物发生碰撞。为了解决这个问题,本研究提出了一个框架,利用了在拥挤和受限环境中互动的异质性。首先,本研究将环境分为人类和障碍物的表示,并将它们分别处理后输入到基于强化学习(RL)的导航流程中。然后,本研究将场景分解为异质的时空图(st-graph),通过不同类型的边来表示机器人、人类和障碍物之间的不同互动,正如图1中不同颜色的箭头所示。最后,本研究将这个异质时空图转换为一个名为HEIGHT(HEterogeneous Interaction GrapH Transformer)的机器人策略网络,包含多个模块来参数化各种时空互动。具体来说,本研究使用两个独立的多头注意力网络来处理机器人与人类(RH)以及人类与人类(HH)之间的互动。通过注意力网络,机器人可以更多地关注重要的互动,从而在人数增多、图变得更加复杂的情况下,保持较低的碰撞率。此外,本研究还使用多层感知机(MLP)来建模单向的障碍物-代理互动,并采用递归网络来捕捉场景的时间演变。面对快速变化的场景(图1下方),HEIGHT能够通过时空捕捉不同组件之间的异质互动,从而使机器人避免碰撞并高效地接近目标。
这篇文章扩展了本研究之前关于注意力图网络的贡献。尽管本研究之前的工作集中在开放空间中的群体导航,但这篇文章引入了静态障碍物和约束,导致了场景表示和网络架构的重大修改。为配合这些方法的变化,本研究进行了新的仿真和硬件实验,并增加了新的基准比较。总的来说,这篇文章的主要贡献如下:
-
本研究提出了一种拥挤和受限环境的输入表示,区别对待人类和障碍物。这种分离的场景表示使得本研究能够在框架的其他部分注入更多结构。
-
本研究提出了一种结构化的图表示,称为异质时空图(st-graph),用于有效地建模所有代理和实体之间的配对互动。
-
从异质时空图中,本研究采用一种原则性的方法推导出HEIGHT,一个基于变换器的机器人导航策略网络,具有不同的模块来推理所有类型的时空互动。
-
仿真实验中,在密集人群和障碍物的情况下,本研究的方法在未见过的障碍物布局中超越了之前的最先进方法。此外,本研究的方法在不同的人类和障碍物密度的分布外环境中表现出了更好的泛化能力。
-
本研究成功地将机器人策略从低保真度仿真环境转移到具有挑战性的真实世界拥挤环境中,且无需进行微调。

▲图1|机器人避障情况分类©️【深蓝AI】编译

▲图2|机器人避障情况分类©️【深蓝AI】编译
2.具体方法与实现
图2所示为本文的核心pipeline,首先(a)在训练和测试的每个时间步,仿真器提供一个奖励和以下环境观察:障碍物点云、机器人状态、以及人类状态和掩码。这些观察作为输入传递给HEIGHT,HEIGHT输出一个机器人动作,以最大化未来期望回报。仿真器执行所有代理的动作,循环继续。随后(b)现实世界中的测试循环与仿真器类似,唯一不同的是用于获取观察的感知模块不同,并且没有奖励。可以看到本文的核心是一个Sim2Real的过程,在仿真器中进行训练,随后在真实环境中实现实施和部署。下面笔者将对本文的各个细分模块进行介绍。

▲图3|核心网络架构图©️【深蓝AI】编译
2.1 异质时空图
代理和实体之间微妙而高度动态的互动是使群体导航变得困难的重要因素。为了以结构化的方式建模这些互动,本研究将导航场景公式化为一个异质时空图。在图3a中,在每个时间,本研究的异质时空图由一组节点
和一组边
组成。节点包括检测到的人类
和机器人
。此外,障碍物节点
代表所有障碍物的点云。在每个时间,连接不同节点的空间边表示节点之间的空间互动。不同的空间互动对机器人决策的影响不同。具体来说,虽然本研究可以控制机器人,但无法控制人类,因此机器人与人类(RH)之间的互动有直接影响,而人类与人类(HH)之间的互动对机器人动作的影响是间接的。例如,作为间接影响,如果人类 A 强行让人类 B 转向机器人的前方,那么机器人必须根据 A 和 B 之间的互动做出反应。此外,由于代理是动态的,而障碍物是静态的,代理之间的互动是相互的,而静态障碍物对代理的影响是单向的。因此,本研究将空间边分为三种类型:人类与人类边(HH,图3中的蓝色)、障碍物-代理边(OA,橙色)和机器人-人类边(RH,红色)。这三种边允许本研究将空间互动分解为 HH、OA 和 RH 函数。每个函数由一个具有可学习参数的神经网络来参数化。

▲图4|环境人体与障碍物分离图示©️【深蓝AI】编译
与以往忽略某些边的工作相比,本研究的方法允许机器人推理所有在拥挤和受限环境中存在的空间互动。由于所有代理的运动会导致每个人类的可见性动态变化,节点集和边集
以及互动函数的参数可能相应地发生变化。为此,本研究使用图3(a)中紫色框所示的另一个函数,将不同时间步的图
融合起来。这个时间函数连接相邻时间步的图,从而克服了反应性策略的短视性,并使机器人能够进行长期决策。
为了减少参数的数量,图3(a)中相同类型的边共享相同的函数参数。这个参数共享对于图的可扩展性非常重要,因为当人类数量变化时,参数的数量保持不变。
2.2 HEIGHT架构
在图3b中,本研究从异质时空图中推导出了本研究的网络架构。本研究将 HH 和 RH 函数表示为具有注意力机制的前馈网络,分别称为和
。本研究将 OA 函数表示为一个带有连接的多层感知机(MLP),将时间函数表示为门控递归单元(GRU)。本研究使用 W 和 f 来表示可训练的权重和全连接层。代理之间的注意力:注意力模块为所有连接到机器人或人类节点的边分配权重,使得节点可以关注重要的边或互动。这两个注意力网络类似于带有填充掩码的缩放点积注意力,它使用查询 Q 和键 K 来计算注意力得分,并将归一化的得分应用于值 V,从而得到加权值 v。

其中 d 是查询和键的维度,作为缩放因子。掩码 M 用于处理每个时间步检测到的人类数量变化,正如本研究将在下文中扩展的那样。人类-人类注意力:为了学习每个 HH 边对机器人在时间 t 的决策的重要性,本研究首先使用一个 HH 注意力网络,按人类之间的自注意力对每个观察到的人类进行加权。在 HH 注意力中,当前的人类状态被拼接并通过具有权重
、
和
的线性层传递,以获得
、
和
其中是 HH 注意力的注意力大小。

其中
、
和
分别是第 i 个人类的查询嵌入、键嵌入和值嵌入。该过程用于指示每个人类的可见性,使得机器人可以对检测到的每个人进行“注意”,这个过程可以提升机器人对于环境中人群的感知能力,同时更契合本文对人和环境进行分离的主题。
2.3 训练过程
本研究在仿真器中使用近端策略优化(PPO)训练整个网络,如图2(a)所示。在每个时间步 t,仿真器提供所有构成 st 的状态信息,这些信息被输入到 HEIGHT 网络中。网络输出状态 V(st) 的估计值和机器人动作 π(at|st) 的对数概率,二者用于计算 PPO 损失并更新网络中的参数。在训练过程中,机器人从动作分布 π(at|st) 中采样动作。在测试过程中,机器人选择具有最高概率的动作 at。机器人动作 at 被输入到仿真器中,以计算下一个状态 st+1,然后循环继续进行。没有任何监督学习,本研究的方法不受专家演示性能的限制。然而,为了提高低训练数据效率这一强化学习固有问题,HEIGHT也可以通过模仿学习和强化学习的结合进行训练,本文主要的训练环境和真实环境如图5所示。通过以上的一种结构化和原则性的方法来设计机器人策略网络,用于在受限环境中的群体导航可以更好的提升机器人在拥挤环境中的导航避障性能。通过将复杂的场景分解为独立的组件,本研究将复杂问题拆解为更小的函数,这些函数用于学习相应的函数参数。通过结合上述所有组件,端到端可训练的 HEIGHT 使得机器人能够对所有配对互动进行时空推理,从而实现更好的导航性能。

▲图5|Sim2Real训练环境与实际环境展示©️【深蓝AI】编译
3.实验
本文作为一篇TRO的文章,在实验部分设计的非常精细,同时做了非常充分的对比实验以及仿真真实实验,体现了本文极大地工作量,首先图6所示为本文的数值实验,从结果不难看出本文方法的优异性,能够在多个环境中取得不错的效果,均领先于当前的SOTA。

▲图6|数值实验©️【深蓝AI】编译
接下来映入眼帘的是避障路径规划的模拟实验,可以看到作者进行了大量的case study并且于当前的方法进行了非常多的对比,值得关注的是机器人与人的碰撞(标记为Human collision)以及机器人运动的时间(在左上角体现)。可以看到本文方法在避障时间上用时最短,同时避免了所有的人体碰撞

▲图7|避障路径规划模拟实验©️【深蓝AI】编译
随后作者在真实机器人平台进行了算法部署,并且在办公室和大厅两个场景进了真实的机器人避障实验,办公室场景是比较典型的结构化场景,在这个场景中机器人的路径受到限制,一般只有狭窄的走廊能够用于避障,从图中可见机器人在这样的环境中,即便面对川流不息的人群,也能够实现非常准确的避障和导航。大厅则是比较开放的场景,这个场景中机器人往往有多条路径能够选择,但是多样的选择也导致了机器人的迂回问题,有时候机器人会绕一大圈,为了避开障碍物,但是从图中能够看到,本文算法非常好的解决了这个问题,机器人在开放的环境中也选择了一条非常高效的路径,最终导航到了目的地。


▲图8|真实环境机器人避障实验©️【深蓝AI】编译
总结
在本文中,作者提出了HEIGHT,一个用于动态和受限环境下自主机器人导航的新型结构化图网络架构。作者的方法利用了受限群体导航问题的图形化特性和可分解性,提出了以下两个关键创新。首先,作者将人类和障碍物的表示分别进行拆分和处理。这使得机器人能够有效地推理人类和障碍物的不同几何形状和动态特性,提升其在复杂环境中的导航能力。其次,作者提出了一种异质时空图(st-graph),用以捕捉机器人、人类和障碍物之间的多种互动类型。将场景分解为异质时空图有助于指导HEIGHT网络的设计,采用注意力机制。注意力机制使机器人能够推理每种配对互动的相对重要性,从而在导航过程中实现自适应和敏捷的决策。
作者的仿真实验表明,HEIGHT模型在碰撞避免和导航效率方面优于传统的基于模型的方法和其他基于学习的方法。HEIGHT模型在不同人类和障碍物密度的环境中也表现出了更好的泛化能力。在真实世界的环境中,HEIGHT能够无缝地从仿真转移到日常室内导航场景中,无需额外训练,展示了其鲁棒性和克服仿真与现实之间差距的能力。
作者的研究表明,推理微妙的时空互动是实现平稳人机交互的关键步骤。此外,作者的工作强调了揭示复杂问题内在结构的重要性,并将这些结构注入学习框架中,以一种有原则的方式解决问题。
相关文章:
机器人避障不再“智障”:HEIGHT——拥挤复杂环境下机器人导航的新架构
导读: 由于环境中静态障碍物和动态障碍物的约束,机器人在密集且交互复杂的人群中导航,往往面临碰撞与延迟等安全与效率问题。举个简单的例子,商城和车站中的送餐机器人往往在人流量较大时就会停在原地无法运作,因为它不…...
H2数据库在单元测试中的应用
H2数据库特征 用比较简洁的话来介绍h2数据库,就是一款轻量级的内存数据库,支持标准的SQL语法和JDBC API,工业领域中,一般会使用h2来进行单元测试。 这里贴一下h2数据库的主要特征 Very fast database engineOpen sourceWritten…...
部署HugeGraph
部署HugeGraph 这里以hugegraph1.2.0为例子,演示一下如何安装部署hugegraph 一、下载并安装JDK11 下载JDK11 https://www.oracle.com/java/technologies/downloads/#java11 使用scp命令将安装包上传到服务器 scp /path/to/local/file usernameserver_ip:/path/…...
2025年第三届“华数杯”国际赛A题解题思路与代码(Matlab版)
游泳竞技策略优化模型代码详解(MATLAB版) 第一题:速度优化模型 本部分使用MATLAB实现游泳运动员在不同距离比赛中的速度分配策略优化。 1. 模型概述 模型包含三个主要文件: speed_optimization.m: 核心优化类plot_speeds.m: …...
嵌入式基础 -- IMX8MP的 GPC 模块技术
General Power Controller (GPC) 模块技术文档 1. GPC 模块简介 1.1 模块功能 GPC(General Power Controller)模块是用于 i.MX8M Plus 应用处理器 的电源管理组件,支持以下功能: 管理 ARM Cortex-A53 和 Cortex-M7 平台的低功…...
选择器css
1.a标签选择 // 选中所具有herf 的元素 [herf] {color: skyblue; } // 选中所具有herfhttps://fanyi.youdao.com/ 的元素 [herf$"youdao.com"] {color:pink; } // 按此顺序书写 link visited hover active // 未访问状态 a:link {color:orange } // 访问状态 a…...
全方位解读消息队列:原理、优势、实例与实践要点
全方位解读消息队列:原理、优势、实例与实践要点 一、消息队列基础认知 在数字化转型浪潮下,分布式系统架构愈发复杂,消息队列成为其中关键一环。不妨把消息队列想象成一个超级“信息驿站”,在古代,各地的信件、物资运…...
JavaScript运算符与控制结构
JavaScript作为一门强大的前端语言,提供了丰富的运算符与控制结构,使程序逻辑更加灵活与高效。 1. JavaScript运算符 算术运算符 运算符描述示例结果加法5 38-减法7 - 43*乘法2 * 612/除法8 / 24%取模(余数)10 % 31**幂运算3 …...
2030年中国AI人才缺口或达400万,近屿智能助力AI人才储备增长
在当今数字化浪潮下,人工智能(AI)已成为推动各行业发展的关键力量。然而,吸引和留住 AI 人才正成为全球性难题,中国亦不例外。据麦肯锡 2022 年全球人工智能商业高管调查,75% 的中国受访者在招聘数据科学家…...
如何设计一个注册中心?以Zookeeper为例
这是小卷对分布式系统架构学习的第8篇文章,在写第2篇文章已经讲过服务发现了,现在就从组件工作原理入手,讲讲注册中心 以下是面试题: 某团面试官:你来说说怎么设计一个注册中心? 我:注册中心嘛&…...
ubuntu 20.04 安装docker--小白学习之路
更新包 sudo apt-get update # 安装需要的软件包以使apt能够通过HTTPS使用仓库 sudo apt-get install ca-certificates curl gnupg lsb-release 使用清华大学源 # 添加Docker官方的GPG密钥 curl -fsSL https://mirrors.tuna.tsinghua.edu.cn/docker-ce/linux/ubuntu/gpg | sudo…...
【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据...本篇介绍 密集行人检测的遮挡问题怎么解决?
【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据…本篇介绍 密集行人检测的遮挡问题怎么解决? 【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据…本篇介绍 密集行人检测的遮挡问题怎么解决? 文章目录 …...
Tableau数据可视化与仪表盘搭建-可视化原则及BI仪表盘搭建
目录 可视化原则 BI仪表盘搭建 仪表盘搭建原则 明确仪表盘主题 仪表盘主题拆解 开发设计工作表 经营情况总览:突出显示的文字 经营数据详情:表格 每日营收数据:多轴折线图 每日流量数据:双轴组合图 新老客占比…...
TensorFlow Quantum快速编程(基本篇)
一、TensorFlow Quantum 概述 1.1 简介 TensorFlow Quantum(TFQ)是由 Google 开发的一款具有开创性意义的开源库,它宛如一座桥梁,巧妙地将量子计算与 TensorFlow 强大的机器学习功能紧密融合。在当今科技飞速发展的时代,传统机器学习虽已取得诸多瞩目成就,然而面对日益…...
ELK日志分析实战宝典之ElasticSearch从入门到服务器部署与应用
目录 ELK工作原理展示图 一、ElasticSearch介绍(数据搜索和分析) 1.1、特点 1.2、数据组织方式 1.3、特点和优势 1.3.1、分布式架构 1.3.2、强大的搜索功能 1.3.3、数据处理与分析 1.3.4、多数据类型支持 1.3.5、易用性与生态系统 1.3.6、高性…...
git 转移文件夹
打开终端或命令行界面:首先,确保你的电脑上安装了 Git,并打开终端或命令行界面。 导航到你的仓库目录:使用 cd 命令来切换到包含你想要移动文件夹的仓库的目录。 cd /path/to/your/repository使用 git mv 命令移动文件夹&#x…...
C#,图论与图算法,输出无向图“欧拉路径”的弗勒里(Fleury Algorithm)算法和源程序
1 欧拉路径 欧拉路径是图中每一条边只访问一次的路径。欧拉回路是在同一顶点上开始和结束的欧拉路径。 这里展示一种输出欧拉路径或回路的算法。 以下是Fleury用于打印欧拉轨迹或循环的算法(源)。 1、确保图形有0个或2个奇数顶点。2、如果有0个奇数顶…...
计算机网络之---OSI七层模型
为什么会有七层模型 OSI七层模型的出现源于计算机网络技术的发展需求,主要解决以下几个问题: 标准化与互操作性 随着计算机网络的快速发展,不同厂商、不同技术之间的设备和系统需要能够无缝通信。而不同厂商在网络硬件、软件、协议等方面存在…...
mysql的mvcc理解
人阅读 一、说到mvcc就少不了事务隔离级别(大白话解释) 序列化(SERIALIZABLE):事务之间完全隔离,当成一个序列,一个一个执行。 1 可重复读(REPEATABLE READ)ÿ…...
leetcode 面试经典 150 题:两数之和
链接两数之和题序号1题型数组解题方法1. 哈希表,2. 暴力法难度简单熟练度✅✅✅✅✅ 题目 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输…...
MPNet:旋转机械轻量化故障诊断模型详解python代码复现
目录 一、问题背景与挑战 二、MPNet核心架构 2.1 多分支特征融合模块(MBFM) 2.2 残差注意力金字塔模块(RAPM) 2.2.1 空间金字塔注意力(SPA) 2.2.2 金字塔残差块(PRBlock) 2.3 分类器设计 三、关键技术突破 3.1 多尺度特征融合 3.2 轻量化设计策略 3.3 抗噪声…...
conda相比python好处
Conda 作为 Python 的环境和包管理工具,相比原生 Python 生态(如 pip 虚拟环境)有许多独特优势,尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处: 一、一站式环境管理:…...
Java 语言特性(面试系列2)
一、SQL 基础 1. 复杂查询 (1)连接查询(JOIN) 内连接(INNER JOIN):返回两表匹配的记录。 SELECT e.name, d.dept_name FROM employees e INNER JOIN departments d ON e.dept_id d.dept_id; 左…...
springboot 百货中心供应链管理系统小程序
一、前言 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,百货中心供应链管理系统被用户普遍使用,为方…...
Lombok 的 @Data 注解失效,未生成 getter/setter 方法引发的HTTP 406 错误
HTTP 状态码 406 (Not Acceptable) 和 500 (Internal Server Error) 是两类完全不同的错误,它们的含义、原因和解决方法都有显著区别。以下是详细对比: 1. HTTP 406 (Not Acceptable) 含义: 客户端请求的内容类型与服务器支持的内容类型不匹…...
Leetcode 3576. Transform Array to All Equal Elements
Leetcode 3576. Transform Array to All Equal Elements 1. 解题思路2. 代码实现 题目链接:3576. Transform Array to All Equal Elements 1. 解题思路 这一题思路上就是分别考察一下是否能将其转化为全1或者全-1数组即可。 至于每一种情况是否可以达到…...
SCAU期末笔记 - 数据分析与数据挖掘题库解析
这门怎么题库答案不全啊日 来简单学一下子来 一、选择题(可多选) 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 A. 频繁模式挖掘:专注于发现数据中…...
聊聊 Pulsar:Producer 源码解析
一、前言 Apache Pulsar 是一个企业级的开源分布式消息传递平台,以其高性能、可扩展性和存储计算分离架构在消息队列和流处理领域独树一帜。在 Pulsar 的核心架构中,Producer(生产者) 是连接客户端应用与消息队列的第一步。生产者…...
Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility
Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...
【AI学习】三、AI算法中的向量
在人工智能(AI)算法中,向量(Vector)是一种将现实世界中的数据(如图像、文本、音频等)转化为计算机可处理的数值型特征表示的工具。它是连接人类认知(如语义、视觉特征)与…...
