当前位置: 首页 > article >正文

上交具身机器人的视觉运动导航!HTSCN:融合空间记忆与语义推理认知的导航策略

  • 作者:Qiming Liu 1 ^{1} 1, Guangzhan Wang 2 ^{2} 2, Zhe Liu 3 , 4 ^{3,4} 3,4 and Hesheng Wang 1 , 3 , 5 , 6 ^{1,3,5,6} 1,3,5,6
  • 单位: 1 ^{1} 1上海交通大学自动化系, 2 ^{2} 2上海交通大学软件学院, 3 ^{3} 3上海交通大学教育部人工智能重点实验室, 4 ^{4} 4人工智能研究院, 5 ^{5} 5教育部海洋智能装备与系统重点实验室, 6 ^{6} 6上海智能控制与管理工程技术研究中心
  • 论文标题:Visuomotor Navigation for Embodied Robots With Spatial Memory and Semantic Reasoning Cognition
  • 论文链接:https://ieeexplore.ieee.org/abstract/document/10682097
  • 出版信息:IEEE Transactions on Neural Networks and Learning Systems ( Volume: 36, Issue: 5, May 2025)

主要贡献

  • 统一的双层图结构:将记忆和推理能力分别表示为拓扑图和语义关系图,并在一个统一的双层图结构中进行处理。
  • 跨模态关系学习:引入基于神经的认知提取过程,捕捉层次化图之间的跨模态关系,增强了决策性能和整体智能水平。
  • 在线层次关系学习:通过图池化实现在线跨层关系学习,建立了两个不同认知模态之间的有机连接,充分利用综合认知对决策的增强效果。
  • 实验验证:在仿真和真实环境中验证了HTSCN的有效性,实验结果表明HTSCN在导航性能和路径效率方面显著优于现有的单模态认知导航方法。

研究背景

  • 在机器人自主导航领域,传统的基于几何环境建模和规划的方法虽然能够实现自主导航,但由于缺乏高层次的信息表示,难以支持主动思考和智能决策。
  • 近年来,基于神经网络的导航方法逐渐受到关注,这些方法通过模仿人类的认知过程,利用记忆和推理能力来提升导航性能。然而,现有研究大多只关注记忆或推理中的某一方面,而忽视了它们之间的有机联系。
  • 记忆和推理在功能和表示形式上存在显著差异,如何将它们有效地整合在一起,成为了一个亟待解决的问题。

相关工作

  • 基于学习的导航方法:传统导航技术基于几何环境建模和规划,虽然实现了自主导航,但缺乏高层次信息表示,难以支持主动思维和智能决策。近年来,基于神经网络的导航方法在探索、目标导向导航、图像目标导航和视觉-语言导航等任务中得到了广泛应用。
  • 空间记忆:记忆能力通过保存情景观察来创建场景表示。现有研究通过引入外部记忆结构(如RNN、LSTM、NTM等)来扩展机器人的时空视野。HTSCN框架采用拓扑图作为空间记忆结构,并在线构建拓扑图,利用图卷积网络(GCN)提取全局记忆特征。
  • 语义推理:推理能力基于长期先验经验进行任务目标的概率推断。现有研究通过构建语义关系图来提供先验知识,利用视觉关系检测和大规模图像数据集进行关系推理。HTSCN设计了一个双层图结构,将记忆和推理能力表示为拓扑图和语义关系图,并通过层次化学习实现两者的有机结合。
  • 记忆与推理能力的结合:现有研究大多单独考虑单一认知模态或将两者简单拼接,未能充分利用两者的协同效应。HTSCN通过层次化学习机制,在线融合记忆和推理能力,提升导航性能。

方法

  • 本文提出了一种名为分层拓扑-语义认知导航(HTSCN)的端到端视觉导航框架,旨在通过将空间记忆和语义推理能力无缝集成到一个统一的系统中,提升机器人在未知环境中的自主认知和决策能力。
  • HTSCN通过将记忆和推理能力分别表示为拓扑图和语义关系图,并在一个统一的双层图结构中进行处理,从而实现两者的有机结合。

基于拓扑图的空间记忆

基于检索网络的拓扑图构建
  • HTSCN采用拓扑图作为记忆结构,通过检索网络评估输入图像对的相似性,在线构建拓扑图并定位查询图像的节点。
  • 检索网络的架构处理两个RGB图像作为输入,生成一个从0到1的相似度评分,值越接近1表示感知相似度越高。机器人通过比较当前图像与每个节点观察的相似性来构建拓扑图。
拓扑记忆的节点特征

拓扑图由邻接矩阵 A [ M × M ] t A_{[M\times M]}^{t} A[M×M]t 和节点矩阵 X [ M × D ] t X_{[M\times D]}^{t} X[M×D]t 组成。邻接矩阵存储拓扑节点之间的连接关系,节点矩阵存储每个节点的向量,包含视觉信息、机器人定位向量和目标定位向量。具体编码如下:

  • 视觉观察:使用ResNet50提取并转换为256维视觉特征。
  • 机器人定位向量:通过比较当前观察与存储观察的相似性设置。
  • 目标定位向量:通过比较拓扑节点图像与目标图像的相似性设置。

记忆特征提取

利用三层GCN提取拓扑图中的空间记忆特征。第一层的输入为节点矩阵 X [ M × D ] t X_{[M\times D]}^{t} X[M×D]t,输出为:

H t ( 1 ) = σ ( F ( A [ M × M ] t , H t ( 0 ) , W t ( 0 ) ) ) H^{t(1)}=\sigma\left(F\left(A_{[M\times M]}^t, H^{t(0)}, W^{t(0)}\right)\right) Ht(1)=σ(F(A[M×M]t,Ht(0),Wt(0)))

其中, W t ( 0 ) W^{t(0)} Wt(0) 是可训练权重矩阵, σ ( ⋅ ) \sigma(\cdot) σ() 是激活函数, F ( ⋅ , ⋅ , ⋅ ) F(\cdot,\cdot,\cdot) F(,,) 表示图卷积操作。通过引入第二和第三层GCN进一步提取空间记忆特征,最终将节点特征转换为256维的记忆向量。

基于关系图的语义推理

语义关系图构建
  • 语义关系图是对象关系的结构化表示,节点表示对象类别,边表示它们之间的连接。
  • 通过获取模拟环境中的对象类别作为语义节点,并基于Visual Genome数据集建立节点之间的边。
  • 边的相关性通过对象在同一图像中的共现频率确定。
语义关系图的节点特征

语义关系图由邻接矩阵 A [ N × N ] s A_{[N\times N]}^{s} A[N×N]s 和特征矩阵 X [ N × d ] s X_{[N\times d]}^{s} X[N×d]s 组成。邻接矩阵存储对象之间的关系,特征矩阵包含视觉信息、目标对象信息和当前观察的检测结果编码。具体编码如下:

  • 对象图像:使用ResNet50提取并转换为256维视觉特征。

  • 目标对象信息:通过ResNet50提取目标对象的视觉特征。

  • 检测结果编码:从模拟器API获取当前观察中的语义标签,并转换为256维向量。

语义关系特征提取

利用三层GCN提取语义关系图中的语义关系特征。第一层的输入为节点特征矩阵 X [ N × d ] s X_{[N\times d]}^{s} X[N×d]s,输出为:

H s ( 1 ) = σ ( F ( A [ N × N ] s , H s ( 0 ) , W s ( 0 ) ) ) H^{s(1)}=\sigma\left(F\left(A_{[N\times N]}^s, H^{s(0)}, W^{s(0)}\right)\right) Hs(1)=σ(F(A[N×N]s,Hs(0),Ws(0)))

通过引入第二和第三层GCN进一步提取语义关系特征,最终将节点特征转换为256维的语义向量。

层次化关系学习

HTSCN通过在线融合语义关系图和拓扑图,实现记忆和推理能力的无缝集成。具体过程如下:

  • 生成分配矩阵S:通过粗图池化生成分配矩阵S,用于粗略聚类和合并语义关系图的N个节点。

  • 建立映射关系并生成关系矩阵C:基于分配矩阵S和拓扑图的邻接矩阵,生成两个图之间的关系矩阵C。

  • 提取层次化关系信息Z:通过GCN从双层关系图中提取层次化关系信息Z。

策略生成

  • 策略生成模块在每个时间步接收当前和目标观察,利用预训练的ResNet50提取视觉特征,并与认知特征Z结合,通过全连接层生成导航策略。
  • 在训练过程中,计算输出动作与专家指令之间的交叉熵损失,并结合两个辅助任务的损失优化整个网络。

实施

任务和超参数设置

  • 本文在iGibson仿真器中进行图像目标视觉导航任务,机器人需在最多500个时间步内到达目标位置。
  • 机器人配备单目RGB摄像头,分辨率为144×192,水平视场角为90°,动作空间包括左转15°、前进0.15米和右转15°。
  • 语义关系图节点数N设为26,拓扑图节点数M动态变化,其他参数如相似性比较阈值参考相关文献。

训练策略和测试设置

训练分为三个阶段:

  • 首先预训练检索网络,其次单独训练策略输出模块,最后联合训练整个HTSCN模型。
  • 第二和第三阶段通过模仿学习优化,收集72个训练场景中的3.12K个专家策略。
  • 测试在14个不同场景中进行,包含519个测试任务,难度分为简单、中等和困难三个等级。
  • 评估指标包括成功率(SR)、路径长度加权成功率(SPL)和成功距离(DTS)。

基线和消融模型

  • 比较了多种基线模型和消融模型的性能,包括Reactive、Nav A3C、HGCNN、VGM、TSGM、HTSCN及其消融模型(如仅使用空间记忆或语义推理的模型)。
  • HTSCN在所有难度等级的任务中均表现出显著的性能提升,特别是在困难任务中,成功率显著高于其他模型。

实验结果与分析

图像目标导航

  • 导航指标:
    • HTSCN在所有难度级别的任务中表现出显著的导航性能提升,成功率达到78.74%(简单)、56.58%(中等)和41.14%(困难),显著高于基线模型如Reactive和Nav A3C。
    • 与VGM和TSGM模型相比,HTSCN的成功率分别提高了28.18%和45.88%,在困难任务中,相对成功率提升进一步扩大到35.19%和89.49%。
  • 典型导航行为可视化:
    • HTSCN表现出更少的重复探索行为,并且在交叉路口更倾向于朝向目标移动,导航步数也更少,这与表格中的SPL得分一致。

可视化与解释结果

  • 拓扑记忆解释:
    • 通过辅助任务预测目标方向,验证了拓扑记忆模块能够有效提取和利用任务相关特征。
  • 语义推理解释:
    • 语义推理模块成功学习了利用语义关系图中的信息来优化导航策略,Grad-CAM分析显示网络注意力集中在与目标高度相关的对象上。
  • 层次关系学习解释:
    • 图融合操作有效学习了记忆和推理之间的跨模态关系,节点映射矩阵显示了语义节点和拓扑节点之间的连接概率。

实际场景部署

  • 真实世界测试:
    • 在Turtlebot机器人上部署HTSCN模型,使用Realsense D435i摄像头和Nvidia AGX Xavier平台,成功完成了导航任务,验证了系统的实际应用潜力。
  • 实时性能:
    • 在模拟环境中,HTSCN的推理速度为76.12ms,在真实环境中为160.61ms,满足实时性能要求。

实时性能

  • HTSCN在模拟和真实环境中的推理速度分别为76.12ms和160.61ms,尽管在真实环境中速度较慢,但仍能满足实时性能需求。

总体结论

  • 论文提出的HTSCN框架通过将空间记忆和语义推理能力无缝集成到一个端到端的系统中,显著提升了机器人在未知环境中的导航性能和路径效率。
  • 实验结果表明,HTSCN在仿真和真实环境中均表现出色,验证了其在实际应用中的潜力。
  • 未来的工作将致力于设计更统一的多模态认知表示方法,以进一步提高系统性能和效率。

相关文章:

上交具身机器人的视觉运动导航!HTSCN:融合空间记忆与语义推理认知的导航策略

作者:Qiming Liu 1 ^{1} 1, Guangzhan Wang 2 ^{2} 2, Zhe Liu 3 , 4 ^{3,4} 3,4 and Hesheng Wang 1 , 3 , 5 , 6 ^{1,3,5,6} 1,3,5,6单位: 1 ^{1} 1上海交通大学自动化系, 2 ^{2} 2上海交通大学软件学院, 3 ^{3} 3上海交通大学教…...

【C++并发编程01】初识C++并发编程

1、并发是什么 并发是指两个或更多独立的活动同时发生,现实生活中常见的并发场景如边吃饭边看手机。 1.1、计算机中的并发: 计算机领域的并发是指在单个系统里同时执行多个独立的任务,而非顺序的进行一些活动。 我们在电脑上能够边听音乐边和…...

Mysql库的操作和表的操作

Mysql库和表的操作 库的操作1.查看数据库列表2.创建数据库3.使用数据库4.查看当前在那个数据库中5.显示数据库的创建语句6.修改数据库7.删除数据库8.备份和恢复数据库9.查看数据的连接情况(简单来说就是查看有多少人使用你的数据库) 表的操作1.创建表2.查看表结构3.修改表本身(…...

LangChain-结合GLM+SQL+函数调用实现数据库查询(三)

针对 LangChain-结合GLM+SQL+函数调用实现数据库查询(二)-CSDN博客 进一步简化 通过 LangChain 和大语言模型(GLM-4)实现了一个 AI 代理,能够根据自然语言提问自动生成 SQL 查询语句,并连接 MySQL 数据库执行查询,最终返回结果。 整个流程如下: 用户提问 → AI 生成 SQ…...

word文档格式规范(论文格式规范、word格式、论文格式、文章格式、格式prompt)

文章目录 prompt prompt [格式要求] - 字体:中文宋体小四;英文Times New Roman 12pt;标题黑体 - 行距:1.5倍(段前段后0行) - 边距:A4默认(上下2.54cm,左右3.17cm&…...

Ubuntu 桌面版忘记账户密码的重置方法

如果你忘记了 Ubuntu 桌面版的用户密码,可以通过进入恢复模式(Recovery Mode)来重置密码。以下是详细步骤: 一、进入 GRUB 引导菜单 重启计算机:点击关机按钮,选择重启。在启动时按住 Shift 键&#xff1…...

抖音商城抓包 分析

声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 抓包展示 总结 1.出于安全考虑,本章未…...

[SC]sc_signal_rv的用法和sc_signal相比有什么优势?

sc_signal_rv的用法和sc_signal相比有什么优势? 在 SystemC 中,sc_signal<T> 是最常用的单驱动(single‐driver)信号通道;而 sc_signal_rv<W>(“rv” = resolved vector)则是一种多驱动、带总线(tri-state)分辨功能的信号。下面分几点来说明它们的…...

掌握 FreeRTOS:打造高效嵌入式系统的第一步

实例对比说明&#xff1a; 手机: 点击相机 -> 操作系统 -> 打开摄像头 无操作系统: 相机 -> 打开摄像头也能实现&#xff0c;但方式死板、不支持第三方应用 MCU 对比说明&#xff1a; 裸机开发: MCU -> 直接控制硬件 使用操作系统: MCU -> 操作系统 -> 硬…...

性能优化 - 案例篇:数据一致性

文章目录 Pre引言1. 分布式缓存概念2. Redis 与 Memcached 区别概览3. Spring Boot 中使用 Redis3.1 引入依赖与常用客户端3.2 RedisTemplate 的基本用法3.3 Spring Cache 注解式缓存 4. 秒杀业务简介及挑战5. Lua 脚本实现原子库存扣减5.1 准备阶段&#xff1a;数据预加载5.2 …...

Spring框架学习day6--事务管理

Spring事务管理 Spring事务管理是在AOP的基础上&#xff0c;当我们的方法完全执行成功后&#xff0c;再提交事务&#xff0c;如果方法中有异常&#xff0c;就不提交事务 Spring中的事务管理有两种方式&#xff1a; ​ 1.编程式事务 ​ 需要我们在业务代码中手动提交 ​ 2.声明式…...

免费酒店管理系统+餐饮系统+小程序点餐——仙盟创梦IDE

酒店系统主屏幕 房间管理 酒店管理系统的房间管理&#xff0c;可实现对酒店所有房间的实时掌控。它能清晰显示房间状态&#xff0c;如已预订、已入住、空闲等&#xff0c;便于高效安排入住与退房&#xff0c;合理分配资源&#xff0c;提升服务效率&#xff0c;保障酒店运营有条…...

Git企业级项目管理实战

目录 1. 准备工作 2. 添加成员 2.1 添加企业成员 2.2 添加项目成员 2.3 添加仓库开发人员 3. 开发场景 - 基于git flow模型的实践 3.1 新需求加入 3.2 修复测试环境 Bug 3.3 修改预发布环境Bug 3.4 修改正式环境 Bug 3.5 紧急修复正式环境 Bug 4. 拓展阅读 4.1 其…...

【实例】事业单位学习平台自动化操作

目录 一、创作背景: 二、实现逻辑: 三、代码分析【Deepseek分析】: 1) 主要功能 2)核心组件 2.1 GUI界面 (AutomationApp类) 2.2 浏览器自动化 2.3 平台特定处理 3) 关键技术 4)代码亮点 5)总结 四、运行截图: 五、程序代码: 特别声明:***本代码仅限编程学…...

4.8.3 利用SparkSQL统计每日新增用户

在本次实战中&#xff0c;我们的任务是利用Spark SQL统计每日新增用户数。首先&#xff0c;我们准备了用户访问历史数据&#xff0c;并将其上传至HDFS。然后&#xff0c;通过Spark的交互式编程环境&#xff0c;我们读取了用户文件并将其转换为结构化的DataFrame。接着&#xff…...

创建ipv6 only和ipv6+ip4的k8s集群的注意事项

关键字 : CNI calico vxlan flannel ipv6-only ipv6ipv4 在搭建ipv6-only或ipv6ipv4的k8s集群时&#xff0c;在worker节点加入集群后&#xff0c;发现worker节点上的CNI启动失败。 以下是calico的启动失败情况 : kubectl get pod -A输出如下 : NAMESPACE NAME …...

Qt概述:基础组件的使用

1. Qt框架简介 Qt是一个跨平台的C图形用户界面应用程序开发框架&#xff0c;它包含了丰富的GUI组件和强大的功能库。本次示例代码展示了Qt的几个核心概念&#xff1a; QMainWindow&#xff1a;主窗口类&#xff0c;提供标准的应用程序框架**信号与槽**机制&#xff1a;Qt的核…...

判断使用什么技术来爬取数据详细讲解

判断目标网站使用哪种数据加载形式是爬虫开发的第一步&#xff0c;也是最关键的一步。以下是系统化的诊断方法和步骤&#xff1a; 核心诊断流程 (使用浏览器开发者工具 - Chrome/Firefox为例) 初始观察 (肉眼判断) 页面加载后数据是否立刻可见&#xff1f; 是 → 可能是静态HTM…...

YOLOV7改进之融合深浅下采样模块(DSD Module)和轻量特征融合模块(LFI Module)

目录 一、研究背景​ 二. 核心创新点​ ​2.1 避免高MAC操作​ ​2.2 DSDM-LFIM主干网络​ 2.3 P2小目标检测分支​ ​3. 代码复现指南​ 环境配置 关键修改点 ​4. 实验结果对比​ 4.1 VisDrone数据集性能 4.2 边缘设备部署 4.3 检测效果可视化 ​5. 应用场景​ …...

【仿生机器人】仿生机器人认知-情感系统架构设计报告

来自 gemini 2.5 1. 执行摘要 本报告旨在为仿生机器人头部设计一个全面的认知-情感软件架构&#xff0c;以实现自然、情感智能的互动。拟议的架构将使机器人能够像人类一样&#xff0c;动态生成情绪、进行复杂的表情表达&#xff08;包括情绪掩饰&#xff09;、拥有强大的记忆…...

数学建模期末速成 多目标规划

内容整理自2-6-2 运筹优化类-多目标规划模型Python版讲解_哔哩哔哩_bilibili 求有效解的几种常用方法 线性加权法√ 根据目标的重要性确定一个权重&#xff0c;以目标函数的加权平均值为评价函数&#xff0c;使其达到最优。ɛ约束法 根据决策者的偏好&#xff0c;选择一个主要…...

常见ADB指令

目录 1. 设备连接与管理 2. 应用管理 3. 文件操作 4. 日志与调试 5. 屏幕与输入控制 6. 高级操作&#xff08;需Root权限&#xff09; 7. 无线调试&#xff08;无需USB线&#xff09; 常用组合示例 注意事项 以下是一些常用的 ADB&#xff08;Android Debug Bridge&a…...

IoTGateway项目生成Api并通过swagger和Postman调用

IoTGateway项目生成Api并通过swagger和Postman调用-CSDN博客...

sl4j+log4j日志框架

sl4jlog4j日志框架 slf4j (Simple Loging Facade For Java) 即它仅仅是一个为 Java 程序提供日志输出的统一接口&#xff0c;并不是一个具体的日志实现方案&#xff0c;所以单独的 slf4j 是不能工作的&#xff0c;必须搭配其他具体的日志实现方案&#xff08;例如&#xff1a;…...

小白的进阶之路系列之九----人工智能从初步到精通pytorch综合运用的讲解第二部分

张量是PyTorch中的核心数据抽象。这个交互式笔记本提供了一个深入的介绍torch. Tensor 类., 首先,让我们导入PyTorch模块。我们还将添加Python的数学模块来简化一些示例。 import torch import math创建张量 创建张量最简单的方法是调用torch.empty(): x = torch.empty(…...

深度学习与神经网络 前馈神经网络

1.神经网络特征 无需人去告知神经网络具体的特征是什么&#xff0c;神经网络可以自主学习 2.激活函数性质 &#xff08;1&#xff09;连续并可导&#xff08;允许少数点不可导&#xff09;的非线性函数 &#xff08;2&#xff09;单调递增 &#xff08;3&#xff09;函数本…...

NLP学习路线图(十四):词袋模型(Bag of Words)

在自然语言处理&#xff08;NLP&#xff09;的广阔天地中&#xff0c;词袋模型&#xff08;Bag of Words, BoW&#xff09; 宛如一块历经岁月沉淀的基石。它虽非当今最耀眼的明星&#xff0c;却为整个领域奠定了至关重要的基础&#xff0c;深刻影响了我们让计算机“理解”文本的…...

Oracle数据库事务学习

目录 一、什么是事务&#xff0c;事务的作用是什么 二、事务的四大特性(ACID) 1. 原子性(Atomicity) 2. 一致性(Consistency) 3. 隔离性(Isolation) 4. 持久性(Durability) 三、关于锁的概念——表锁、行锁、死锁、乐观/悲观锁、 1.行锁 2.表锁 3.死锁 4.乐观锁 5.…...

MySQL 全量 增量备份与恢复

目录 前言 一、MySQL 数据库备份概述 1. 数据备份的重要性 2. 数据库备份类型 2.1 从物理与逻辑的角度分类 2.2 从数据库的备份策略角度分类 3. 常见的备份方法 二、数据库完全备份操作 1. 物理冷备份与恢复 1.1 备份数据库 1.2 恢复数据库 2. mysqldump 备份与恢复…...

【仿生机器人系统设计】涉及到的伦理与安全问题

随着材料科学、人工智能与生物工程学的融合突破&#xff0c;仿生机器人正从科幻走向现实。它们被寄予厚望——在医疗康复、老年照护、极端环境作业甚至社交陪伴等领域释放巨大价值。然而&#xff0c;当机器无限趋近于“生命体”&#xff0c;其设计过程中潜伏的伦理与安全迷宫便…...