ManiWAV:通过野外的音频-视频数据学习机器人操作
24年6月来自斯坦福大学、哥伦比亚大学和 TRI 的论文“ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data”。
音频信号通过接触为机器人交互和物体属性提供丰富的信息。这些信息可以简化接触丰富的机器人操作技能学习,尤其是当视觉信息本身含糊不清或不完整时。然而,机器人操作中音频数据的使用,仅限于通过将麦克风连接到机器人或物体上来收集的遥控演示,这大大限制其在机器人学习流水线中的使用。这项工作引入 ManiWAV,一种“耳在手”数据收集设备,用于收集具有同步音频和视觉反馈的野外环境人类演示,以及相应的策略界面,可直接从演示中学习机器人操作策略。四个接触丰富的操作任务,可展示系统的功能,这些任务需要被动感知接触事件和模式,或主动感知物体表面材料和状态。此外,系统可以通过从各种野外人类演示中学习,推广到未见过的野外环境。
在机器人操作任务期间,音频反馈可以揭示有关交互和目标属性的几个关键信息,包括:
• 接触事件和模式:从擦拭表面到用刮刀翻转物体,音频反馈可捕获显着且独特的信号,可用于检测接触事件和表征接触模式(如图 a、b)。
• 表面材料:音频信号可用于通过与物体的接触来表征表面材料。相比之下,图像传感器或基于视觉的触觉传感器都需要高空间分辨率来捕捉细微的纹理差异,例如魔术贴的“钩”和“环”面(图 c)。
• 物体状态和属性:通过间接接触,音频信号可以提供超出视觉观察之外的物体状态和物理属性的补充信息(图 d)。

鉴于音频数据的丰富性和可扩展性,本文提出一种多功能机器人学习系统 ManiWAV,该系统利用音频反馈来完成接触式机器人操作任务:
在硬件方面,提出一种便携式手持设备,用于野外数据收集。如下图(a)所示,引入一种“耳在手”设计,使人类能够通过同步视觉和音频反馈轻松演示各种操作任务。手持式夹持器在数据收集过程中还会自然地提供触觉反馈(例如在白板上擦拭时),这是遥操作难以获得的。为了以更高信噪比捕获接触式音频信号,选择使用顶部附有纹理高抓地力(high-grip)表面的压电(piezoelectric)接触式麦克风。
在算法方面,一个关键挑战是弥合由于测试时噪声导致的野外数据和实际机器人部署之间的音频域差距,如下图(b)所示。为了实现这一目标,提出一种数据增强策略,鼓励学习与任务相关的音频表示。此外,提出一个端到端的感觉运动学习网络来编码和融合视觉和音频信息,并利用扩散头进行动作预测。这种网络设计有助于从多模态人类演示中学习更好的视觉-听觉表示。

本文提出一个数据收集和策略学习框架,用于从视觉和音频中学习接触丰富的操作任务。在数据收集方面,目标是轻松收集具有清晰和显着接触信号的野外演示。为了实现这一目标,提出一种“耳在手”数据收集设备,使用 GoPro 相机和接触式麦克风收集同步的视觉和音频数据。
在算法方面,一个关键挑战是弥合收集的演示与机器人部署期间反馈之间的音频域差距,如图 (b) 所示。另一个挑战是学习一个可以有效指导下游策略的强大且与任务相关的视听表示。为了应对这些挑战,提出一种数据增强策略来弥合音频的域差距,并提出一个基于 Transformer 的模型,该模型从具有视觉和音频反馈的人类演示中学习。最终学习的策略部署在机器人上,如上图(c)所示。
耳-在-手的硬件设计
数据收集设备建立在通用操作接口 (UMI) [34] 之上。UMI 是一种便携式低成本手持抓手,旨在收集野外丰富的人类演示。收集的数据可用于训练,可直接部署在机器人上的视觉运动策略。
重新设计设备上的 3D 打印平行钳口夹持器,在缠绕手指的高摩擦力握带下嵌入压电接触式麦克风。麦克风连接到 GoPro 相机媒体模块上的 3.5 毫米外部麦克风端口。上图 (a) 显示手持式夹持器设计。音频以 48000 Hz 录制,并与 60Hz 图像数据同步存储为 MP4 文件。在机器人部署期间,带有嵌入式麦克风的相同平行钳口夹持器安装在 UR5 机器人手臂上,如上图 © 所示。图像和音频通过 Elgato HD60 X 外部捕获卡实时传输到 Ubuntu 22.04.3 桌面。
策略设计
本文提出一种端到端闭环感觉运动学习模型,该模型接收 RGB 图像和音频,并输出 10-DoF 机器人动作(末端执行器位置、末端执行器方向以 6D [35] 表示,以及 1D 夹持器张开度)。
音频数据增强。一个关键挑战是,实时机器人部署期间接收的音频信号,与手持夹持器收集的数据非常不同,导致训练和测试场景之间存在很大的域差距,如上图 (b) 所示。这主要是因为 1) 部署期间的非线性机器人电机信号,2) 机器人交互产生的分布不均匀声音(例如意外与物体相撞)。
为了解决域差距,关键是用噪声来增强训练数据,并引导模型关注具有不变性的任务相关信号,并忽略不可预测的噪声。特别是,从 ESC-50 [36] 中随机采样音频作为背景噪声。声音被归一化为与训练数据集中收集的声音相同的比例。还在随机采样的轨迹下记录 10 个机器人马达噪音样本,接触式麦克风的位置与部署时间相同。背景噪音和机器人噪音叠加到原始音频信号上,每个概率为 0.5。在实验中,这种简单而有效的方法,通过在任务相关的音频信号上强制模型的归纳偏差来产生更好的策略性能。
视觉编码器。用一个 CLIP 预训练的 ViT-B/16 模型 [37] 对 RGB 图像进行编码。图像被调整为 224x224 分辨率,并进行随机裁剪和颜色抖动增强。图像以 20 Hz 采样,在过去 2 个时间步内拍摄图像。每个图像使用分类 token 特征单独编码。
音频编码器。用音频频谱图 Transformer (AST) [38] 对音频输入进行编码。AST 与 ViT 模型类似,利用注意机制从频谱图块中学习更好的音频表示。使用 Transformer 编码器而不是基于 CNN 编码器背后的直觉(如先前的研究 [26、28、25] 中所见),是 CNN 利用的“漂移不变性”不太适合音频频谱图,因为时间和频域中的移位都会显着改变信息。在实验中,从头开始训练 Transformer 编码器的表现,优于预训练和从头开始的 CNN 模型。
如图所示音频的注意可视化:

首先将音频信号(根据任务不同,从最后 2-3 秒开始)从 48kHz 重新采样为 16kHz,然后使用 FFT 大小和 400 的窗口长度、160 的跳跃长度和 64 个梅尔滤波器组将其转换为对数梅尔频谱图。对数梅尔频谱图,线性归一化到范围 [-1,1]。用从 AST 编码器的最后一个隐藏层提取的分类 token 特征。
感官融合。用与 Li [28] 类似的Transformer编码器融合视觉和音频特征,以利用注意机制在任务的不同阶段自适应地加权特征(例如,视觉对于移动到目标物体很重要,而音频在接触期间很重要)。连接输出特征并使用线性投影层将维度下采样到 768。最后,将过去 2 个时间步的末端执行器姿势 (20 Hz) 连接到视听特征。
策略学习。为了对人类演示固有的多模态性进行建模,选择使用 Chi [39] 提出的 UNet 编码器扩散模型。 作为策略头,以每个去噪步骤中上述的观察表示为条件。整个模型(如图所示),包括上述编码器,都是使用噪声预测 MSE 损失对 16 步的未来机器人轨迹进行端到端训练的。

音频延迟匹配。在数据收集过程中,视觉和音频数据通过 GoPro 进行录制时同步。在部署过程中,将音频延迟校准为 0.23;采用类似于 Chi [34] 的方法来补偿这种延迟。
研究四个接触丰富的操作任务,以展示音频反馈的不同功能,例如检测接触事件和模式(翻转和擦拭)、感知物体状态(倾倒)和表面材料(胶带)。在每个任务中,在不同的场景下测试策略,并与替代方法进行比较,以验证方法的稳健性和通用性。
如图所示:翻转评估例子

如图所示:擦拭的评估例子

如图所示:倾倒的评估例子

如图所示:胶带粘贴的评估例子

相关文章:
ManiWAV:通过野外的音频-视频数据学习机器人操作
24年6月来自斯坦福大学、哥伦比亚大学和 TRI 的论文“ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data”。 音频信号通过接触为机器人交互和物体属性提供丰富的信息。这些信息可以简化接触丰富的机器人操作技能学习,尤其是当视觉信息本身…...
可发1区的超级创新思路:基于注意力机制的DSD-CNN时间序列预测模型(功率预测、交通流量预测、故障检测)
首先声明,该模型为原创!原创!原创! 一、应用场景 该模型主要用于时间序列数据预测问题,包含功率预测、电池寿命预测、电机故障检测等等 二、模型整体介绍(本文以光伏功率预测为例) DSD-CNN(Depthwise-Spacewise Separable CNN)结合通道注意力机制,通过以下创新提升…...
IREE 调度机制深度解析:静态编译与动态执行的协同优化
IREE 调度机制深度解析:静态编译与动态执行的协同优化 一、引言 IREE (IR Execution Environment) 作为 TensorFlow 生态的重要成员,通过多层次调度策略实现了跨硬件平台的高效执行。其调度系统融合了编译期静态优化与运行时动态调整,在保证…...
istio 介绍-01-一个用于连接、管理和保护微服务的开放平台 概览
istio istio 一个用于连接、管理和保护微服务的开放平台。 介绍 Istio 是一个开放平台,用于提供统一的方式来集成微服务、管理跨微服务的流量、执行策略和聚合遥测数据。 Istio 的控制平面在底层集群管理平台(例如 Kubernetes)上提供了一…...
详细说明脚本评估和耗时较长的任务
在网页性能优化中,脚本评估和耗时较长的任务是两大关键性能瓶颈。它们直接影响页面的加载速度、交互响应以及用户体验。以下是对这两个概念的详细说明及优化策略: 一、脚本评估(Script Evaluation) 1. 定义 脚本评估指浏览器解析…...
Floyd 算法——97. 小明逛公园
卡码网:97. 小明逛公园https://kamacoder.com/problempage.php?pid=1155 题目描述 小明喜欢去公园散步,公园内布置了许多的景点,相互之间通过小路连接,小明希望在观看景点的同时,能够节省体力,走最短的路径。 给定一个公园景点图,图中有 N 个景点(编号为 1 到 N),…...
QT二 QT使用generate form 生成常用UI,各种UI控件
一 。没有使用general form 和 使用 general form 后,file层面和代码层面的不同比较 file层面的不同 代码层面的不同, 在 使用了general form之后,在主界面的构造方法中,使用ui->setupUi(this),就完成了所有UI的处理。 而之…...
蓝桥每日打卡--打家劫舍4
#蓝桥#JAVA#打家劫舍4 题目描述 沿街有一排连续的房屋。每间房屋内都藏有一定的现金。现在有一位小偷计划从这些房屋中窃取现金。 由于相邻的房屋装有相互连通的防盗系统,所以小偷 不会窃取相邻的房屋 。 小偷的 窃取能力 定义为他在窃取过程中能从单间房屋中窃…...
Intel Alder Lake N200桌面级处理器 详细介绍
1.Intel Alder Lake N200桌面级处理器 详细介绍 Intel Processor N200 是一款属于 Alder Lake-N 系列的入门级处理器,以下是其详细介绍: 基本规格 架构:Alder Lake-N,采用 Gracemont 架构的高效能核心。 核心与线程࿱…...
AudioTrack
AudioTrack是Android Audio系统提供给应用开发者(java/C)的API,用于操作音频播放的数据通路。MeidaPlayer在播放音乐时用到的是它,我们可以也可以直接使用AudioTrack进行音频播放。它是最基本的音频数据输出类。 AudioTrack.java…...
多条件排序(C# and Lua)
C# 升序排序 OrderBy 按升序对序列的元素进行排序 ThenBy 按升序对序列中的元素执行后续排序 降序排序 OrderByDescending 按降序对序列的元素排序 ThenByDescending 按降序对序列中的元素执行后续排序 public class Fruit {public int id;public string name;publi…...
人工智能之数学基础:线性方程组求解的得力助手——增广矩阵
本文重点 增广矩阵是一个极具实用价值的工具,尤其在处理线性方程组时,它展现了卓越的功效。通过整合系数和常数项,增广矩阵简化了计算过程并提供了判断方程组解集的有效方法。 增广矩阵的起源与定义 增广矩阵的概念源于线性方程组求解的需求。在解决线性方程组时,我们常…...
Vue3 + ECharts 数据可视化实战指南
一、为什么选择ECharts? 百度开源的成熟可视化库 支持30种图表类型 完善的文档和社区支持 与Vue3完美兼容 二、环境搭建 1. 创建Vue3项目 npm create vuelatest # 选择TypeScript、Pinia等按需配置 2. 安装核心依赖 npm install echarts vue-echarts vueus…...
关于Flask框架30道面试题及解析
文章目录 基础概念1. 什么是Flask?其核心特性是什么?2. Flask和Django的主要区别?3. 解释Flask中的“路由”概念。如何定义动态路由?核心组件4. Flask的请求上下文(Request Context)和应用上下文(Application Context)有什么区别?5. 如何访问请求参数?POST和GET方法的…...
服务安全认证概述与基础认证方式
文章目录 1. 引言1.1 认证与授权的区别1.2 认证方式的演进 2. 基础认证方式2.1 HTTP Basic Authentication2.2 API Key 认证2.3 HMAC-SHA256 签名认证2.4 JWT(JSON Web Token) 3. 认证方式对比与总结3.1 认证方式对比3.2 如何选择合适的认证方式…...
【Android Studio开发】生命周期、Activity和组件通信(上)
零、前期配置 1.【Android】模式 2.点击【运行】,弹出模拟器 右侧是模拟机,显示Hello World 3. 打开【activity_main.xml】文件,点击【Design】,然后点击【Component Tree】 在弹出的Component Tree中右键【main】,选择【Conver…...
【ES】Elasticsearch学习
文章目录 简单的安装 简单的安装 参考:https://blog.csdn.net/smilehappiness/article/details/118466378 官网:https://www.elastic.co/guide/en/elasticsearch/reference/current/targz.html 下载:https://www.elastic.co/cn/downloads/e…...
实验三 Python 数据可视化 Python 聚类-K-means(CQUPT)
一、实验目的 Python 数据可视化: 1、学习使用 jieba、wordcloud 等类库生成词云图。 2、学习使用 Matplotlib 库进行数据可视化。 Python 聚类-K-means: 1、理解聚类非监督学习方法的基本原理。 2、掌握 Python、numpy、pandas、sklearn 实现聚类…...
【STM32】SPI通信协议W25Q64Flash存储器芯片(学习笔记)
通信接口部分有介绍SPI:【STM32】USART串口协议&串口外设-学习笔记-CSDN博客 SPI通信协议 SPI通信 SPI(Serial Peripheral Interface)是由Motorola公司开发的一种通用数据总线四根通信线:SCK(Serial Clock&…...
JavaScript实现一个函数,将数组扁平化(flatten),即把多维数组转为一维数组。
大白话实现一个函数,将数组扁平化(flatten),即把多维数组转为一维数组。 思路 实现数组扁平化的基本思路是遍历数组中的每个元素,如果元素是数组,就递归地将其扁平化并添加到结果数组中;如果元…...
SpringBoot最佳实践之 - 使用AOP记录操作日志
1. 前言 本篇博客是个人在工作中遇到的需求。针对此需求,开发了具体的实现代码。并不是普适的记录操作日志的方式。以阅读本篇博客的朋友,可以参考此篇博客中记录日志的方式,可能会对你有些许帮助和启发。 2. 需求描述 有一个后台管理系统…...
第六届机电一体化技术与智能制造国际学术会议(ICMTIM 2025)
重要信息 4月11-13日 南京江北新区工业大学亚朵酒店 www.icmtim.org(点击了解参会投稿等) 简介 由南京工业大学主办,南京工业大学电气工程与控制科学学院、中国矿业大学、黑龙江大学、江苏省自动化学会承办的第六届机电一体化技术…...
numpy学习笔记4:np.arange(0, 10, 2) 的详细解释
numpy学习笔记4:np.arange(0, 10, 2) 的详细解释 以下是 np.arange(0, 10, 2) 的详细解释: 1. 函数作用 np.arange() 是 NumPy 中用于生成均匀间隔数值序列的函数,类似于 Python 内置的 range(),但返回的是 NumPy 数组而非列表&…...
期刊分区表2025年名单下载(经济学、管理学)
2025年期刊分区表包括SCIE、SSCI、A&HCI、ESCI和OAJ,共设置了包括自然科学、社会科学和人文科学在内的21个大类 本次分享的是期刊分区表2025年名单经济学类、管理学类,一共7631025条 一、数据介绍 数据名称:期刊分区表2025年名单 数据…...
八股学习-JUC java并发编程
本文仅供个人学习使用,参考资料:JMM(Java 内存模型)详解 | JavaGuide 线程基础概念 用户线程:由用户空间程序管理和调度的线程,运行在用户空间。 内核线程:由操作系统内核管理和调度的线程&…...
嵌入式笔记 | 正点原子STM32F103ZET6 4 | 中断补充
1. 外设引脚重映射 1.1 定义 在STM32中,每个外设的引脚都有默认的GPIO端口,但有些引脚可以通过重映射寄存器将功能映射到其他端口。这种机制称为引脚重映射,主要用于解决引脚复用冲突或优化PCB布线。 1.2 重映射的类型 部分重映射&#x…...
PostgreSQL_数据下载并保存(psycopg2)
目录 前置: 1 数据下载 1.1 多个股票多个交易日 1.2 一个交易日所有股票 2 数据保存,使用python中的psycopg2包 2.1 在PyCharm中创建新项目,并安装包 2.2 代码-多个股票多个交易日 2.3 代码-一个交易日所有股票 2.4 在 pgAdmin4 中…...
启明星辰春招面试题
《网安面试指南》https://mp.weixin.qq.com/s/RIVYDmxI9g_TgGrpbdDKtA?token1860256701&langzh_CN 5000篇网安资料库https://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247486065&idx2&snb30ade8200e842743339d428f414475e&chksmc0e4732df793fa3bf39…...
边缘计算革命:重构软件架构的范式与未来
摘要 边缘计算通过将算力下沉至网络边缘,正在颠覆传统中心化软件架构的设计逻辑。本文系统分析了边缘计算对软件架构的范式革新,包括分布式分层架构、实时资源调度、安全防护体系等技术变革,并结合工业物联网、智慧医疗等场景案例,…...
【读点论文】Chain Replication for Supporting High Throughput and Availability
在分布式系统中,强一致性往往和高可用、高吞吐是矛盾的。比如传统的关系型数据库,其保证了强一致性,但往往牺牲了可用性和吞吐量。而像 NoSQL 数据库,虽然其吞吐量、和扩展性很高,但往往只支持最终一致性,无…...
