当前位置：首页 > article >正文

论文速读《DexWild：野外机器人策略的灵巧人机交互》

article 2026/2/8 21:14:41

项目链接：https://dexwild.github.io/
论文链接：https://arxiv.org/pdf/2505.07813

0. 简介

2025年5月，卡内基梅隆大学（CMU）发布了一篇突破性论文《DexWild: Dexterous Human Interactions for In-the-Wild Robot Policies》，该研究为机器人灵巧操作在复杂现实环境中的应用开辟了新的道路。
在这里插入图片描述

图1：DexWild使得灵巧的策略能够推广到新的物体、场景和体现。这是通过利用在许多场景中收集的大规模、真实世界的人类体现数据，并与较小的机器人体现数据集共同训练以实现基础性目标。

当前机器人学习领域面临着一个核心难题：如何让机器人在多样化的现实环境中表现出类似人类的灵巧操作能力？虽然大规模、多样化的机器人数据集已被证明是实现策略泛化的有效途径，但获取此类数据集却面临着巨大挑战。传统的遥操作方法虽然能提供高保真度的数据，但其高昂的成本严重限制了可扩展性；纯视觉方法虽然部署简单，但在遮挡情况下性能显著下降；模拟数据虽然成本低廉，但存在明显的虚实差距。

DexWild的出现为这一难题提供了创新性解决方案。该系统突破性地提出了一种低成本、移动且易于使用的数据收集设备，使得多元化的数据收集人员能够像在日常生活中一样用自己的双手收集跨越众多环境和物体的交互数据。更重要的是，DexWild学习框架基于人类和机器人的演示进行协同训练，与单独训练每个数据集相比，其性能有显著提升，使得机器人策略能够以最少的额外机器人特定数据泛化到新的环境、任务和具身中。

1. 主要贡献

DexWild的主要贡献可以归纳为以下四个方面：

1. 创新性的数据收集系统设计
DexWild-System是一个突破性的数据收集平台，其核心优势在于真正实现了无需校准的便携式部署。系统仅包含三个核心组件：单目追踪摄像头、电池供电微型PC，以及集成动作捕捉手套和掌上摄像头的定制传感器组件。与传统需要复杂校准的动作捕捉系统不同，DexWild采用相对状态-动作表示，消除了对全局坐标系的需求，使得未经训练的操作员也能在几分钟内完成系统设置。

2. 跨具身的高保真数据采集能力
系统在数据保真度方面毫不妥协，采用动作捕捉手套确保手部姿态的高精度、低延迟追踪，并具备抗遮挡鲁棒性。腕部追踪采用ArUco标记点方案，避免了基于SLAM腕部追踪在特征稀疏环境中的脆弱性问题。特别地，系统将立体双目摄像头直接安装在手掌位置，能够捕捉到细致的局部交互视图，同时最大程度减少运动模糊。

3. 人机协同训练框架
DexWild提出了一种创新的学习框架，通过收集两个互补的数据集实现人机协同训练：大规模人类演示数据集DH和小规模遥控机器人数据集DR。人类数据提供广泛的任务多样性和易于收集的优势，机器人数据则为机器人的动作和观察空间提供关键的具身基础。通过在训练批次中采用固定比例的人类和机器人数据，系统在多样性和具身基础之间取得了理想平衡。

4. 显著的性能提升和泛化能力
实验结果显示，与传统基于遥操作的方法相比，DexWild系统的数据采集速度提高了4.6倍。更重要的是，经过协同训练的策略在新目标、环境和具身中展现出强大的泛化能力，证明了该方法在实际应用中的价值和潜力。

2. 相关工作

2.1 模仿学习的泛化研究现状

机器人操作策略的泛化学习近年来取得了快速发展，这主要归功于视觉表征学习和大规模数据集模仿学习的双重推动。在视觉表征方面，具身表征学习从以自我为中心的大规模数据集如Ego4D和EPIC-KITCHENS中获益匪浅，最新的研究方法充分利用这些数据集训练可扩展的视觉编码器。然而，这些方法仍然需要大量的下游机器人演示数据来训练控制策略，这在一定程度上限制了其应用范围。

与此同时，仅限机器人的演示数据集在规模和多样性方面也实现了显著增长，这推动了行为克隆研究的发展，并促成了通用策略架构的构建。尽管这些策略在众多任务中表现出色，但它们往往难以泛化到未知的目标类别、场景布局或环境条件，这种鲁棒性的缺乏仍然是当前系统的关键限制。

2.2 机器人操作数据生成方法

克服机器人数据瓶颈已成为机器人学习领域的核心挑战，研究者们提出了多种不同的解决方案：

基于互联网视频的方法：一些研究如VideoDex和HOP利用大规模人类视频通过重定向学习动作先验，并以此指导策略训练。其他研究如LAPA则使用未标记的视频生成可用于下游任务的潜动作表征。虽然这些基于视频的方案拥有丰富的视觉多样性，但它们通常无法捕捉现实世界操作所需的精确、低级运动指令。

模拟数据生成：模拟环境能够快速生成大规模动作数据，但为众多任务创建多样化、逼真的环境并解决模拟与现实之间的差距仍然充满挑战。近期在将操作策略从模拟迁移方面取得的成功主要局限于桌面环境，缺乏在不同环境中部署所需的泛化能力。

直接遥操作方法：在实体机器人上进行直接遥操作可以获得最高的保真度，但扩展性较差。最近的研究已在固定场景中展现出令人印象深刻的灵活性和高效学习能力，然而，收集足够多的演示样本以推广到不同场景的成本很快就会变得高昂。

2.3 人体动作追踪系统技术

为了获取高质量的人体运动数据，准确的手部和腕部追踪至关重要。现有的技术方案各有优劣：

手持式机器人夹持器方案：一些研究为用户配备手持式机器人夹持器来规避手势估计的复杂性。虽然这种方法简化了重定向操作，但它将用户限制在机器人夹持器的特定形态上，从而限制了捕获行为的多样性。此外，许多此类系统依赖于基于SLAM的腕部追踪，这在特征稀疏的环境中或出现遮挡时可能会失效。

纯视觉估计方法：其他方法旨在直接根据视觉输入估计手部和腕部姿势。这些方法易于部署且无需仪器，但在遮挡情况下，其性能会显著下降，而遮挡在操作过程中是不可避免的。

其他追踪技术：基于IMU的方法轻巧便携但容易漂移；由外向内的光学系统精准，但需要繁琐的校准和受控环境。许多近期系统将腕部和手指追踪分离以提高准确性，运动外骨骼手套可以提供高保真关节测量甚至触觉反馈，但体积庞大，长期佩戴不舒适。

DexWild在充分分析现有技术优劣的基础上，采用了无需校准的ArUco追踪技术来实现腕部追踪，显著提高了可靠性并最大限度缩短了设置时间。对于手部姿势估计，系统采用基于轻量级手套的解决方案，利用电磁场感应来估计指尖位置，实现了准确、实时的手部追踪，并且对遮挡具有鲁棒性。

在这里插入图片描述

图2：左侧：DexWild高效地使用个体自己的手在各种环境中捕捉高保真数据。右侧：机器人手臂配备了与人类摄像头对齐的摄像头。我们在两种不同的机器人手和机器人手臂上测试了DexWild。

3. 核心算法

3.1 系统架构设计理念

DexWild的核心算法围绕三个关键设计目标构建：便携性、高保真度和与具身无关性。这三个目标共同确保了系统能够在复杂多变的现实环境中高效采集高质量数据。

便携性实现机制：系统采用创新的相对状态-动作表示方法，这是实现真正无校准部署的关键技术突破。传统的动作捕捉系统通常需要建立全局坐标系，这要求复杂的校准程序和受控环境。DexWild通过将每个状态和动作表示为与前一时间步姿势的相对差异，完全消除了对全局坐标系的需求。这种设计允许追踪摄像头自由放置，无论是以自我为中心还是以外部为中心的配置都能正常工作。

高保真度追踪算法：为了确保数据质量，系统在追踪精度方面采用了多层次的技术方案。手部追踪采用动作捕捉手套，利用电磁场感应技术实现高精度、低延迟的指尖位置估计，并具备优秀的抗遮挡性能。腕部追踪则采用ArUco标记点方案，通过外部摄像头进行追踪，这种方法避免了基于SLAM腕部追踪在特征稀疏环境或严重遮挡情况下的失效问题。

跨具身适配算法：系统通过精心设计的观察空间和动作空间对齐机制实现跨具身的数据兼容性。在观察空间方面，掌上摄像头被战略性地定位，主要聚焦于环境而最小化手部本身的可见性，并且在人手和机器人手上的放置位置是镜像的，这确保了不同具身中视觉观察的一致性。在动作空间方面，系统优化机器人手的运动学以匹配人类演示中观察到的指尖位置，这种方法具有通用性，适用于任何机器人手的具身。

3.2 数据预处理与融合策略

DexWild的数据预处理算法设计精巧，能够有效整合人类演示数据和机器人演示数据，实现两种数据模态的协同训练。

数据模态融合框架：系统收集两个互补的数据集：大规模人类演示数据集DH和小规模遥控机器人数据集DR。人类数据提供广泛的任务多样性和在现实环境中的易收集性，但缺乏具身一致性；机器人数据虽然规模有限，但为机器人的动作和观察空间提供了关键的基础。系统通过在每个训练批次中使用固定比例的人类和机器人数据进行协同训练，在多样性和具身基础之间取得平衡。

状态-动作表示机制：每个时间步的转换包含观测值和动作两部分。观测值包括当前时间步捕获的两个同步手掌摄像头图像，以及在给定时间范围内采样的历史状态序列，每个历史状态都包含相对的末端执行器位置。动作则以动作块的形式表示，包含相对末端执行器动作和绝对手部关节角度。

数据兼容性处理：为了使人类和机器人数据集兼容以进行联合训练，系统实施了多项关键的预处理步骤。首先是动作归一化，对人类和机器人数据的动作分别进行归一化以解决固有的分布不匹配问题。其次是演示过滤，由于人类演示是由未经训练的操作员在不受控制的环境中收集的，系统应用基于启发式的过滤流程来自动检测并移除低质量或无效的轨迹，这一步骤无需人工标记即可显著提高数据集质量。
在这里插入图片描述

图3：DexWild对齐人类和机器人的视觉观察，以弥合体现差距。这促使模型学习以任务为中心而非以体现为中心的表示。

3.3 策略训练算法

DexWild的策略训练算法充分利用了大规模预训练视觉编码器和先进的策略架构，通过简单而有效的行为克隆目标实现了强大的学习性能。

视觉编码器选择与优化：系统采用预训练的Vision Transformer作为视觉编码器主干网络。这种选择基于ViT在野外操控任务中相比基于ResNet编码器表现出的优越性能。特别是在大型互联网规模数据集上训练的ViT，在提取丰富、可迁移特征方面尤为有效，非常适合DexWild面临的显著视觉多样性挑战。

策略架构设计：系统采用基于扩散的策略架构，这种选择特别适合灵巧操作任务。扩散模型相比高斯混合模型或Transformer等替代方案，能够更有效地捕捉多模态动作分布。这种能力在DexWild中变得越来越重要，因为系统从多个使用不同策略的人类身上收集演示，产生了固有的多模态行为。随着数据集规模的扩大，对这种可变性进行建模对于稳健的策略学习至关重要。

协同训练优化策略：训练过程中的一个重要发现是，调整人机数据权重会显著影响现实世界的性能表现。系统通过精心设计的协同训练权重平衡机制，确保策略能够充分利用人类数据的多样性优势和机器人数据的具身基础优势。训练算法采用标准的扩散模型训练流程，包括噪声添加、去噪预测和损失计算等步骤，通过迭代优化实现策略参数的更新。

相对状态历史机制：算法特别重视相对状态历史信息的利用，这显著提高了策略的鲁棒性并使运动更加流畅。特别是对于双手操作任务，包含双手间姿势信息能够显著提高任务成功率。系统通过Riemannian Motion Policy来确保策略的平滑度和安全性，RMP根据末端执行器目标动态生成关节空间目标，并具有实时防碰撞功能。
在这里插入图片描述

图4：使用DexWild-System，人类可以在各种环境中轻松收集准确的数据。该数据可直接用于训练任何机器人手，使其能够以类人方式在任何环境中执行灵巧操作。我们在五个代表性任务上验证了这种方法。请访问我们的网站 https://dexwild.github.io 查看这些任务的视频。

4. 实验设计与结果

4.1 实验环境与数据收集

DexWild的实验验证采用了大规模、多样化的数据收集策略，充分展现了系统在复杂现实环境中的适应能力和鲁棒性。

数据收集规模与多样性：实验部署了10位未经专门训练的用户，在各种真实环境中进行数据收集。这些环境包括室内和室外场景、白天和夜晚的不同光照条件、拥挤的自助餐厅和安静的学习区等多样化场景，涵盖了各种桌子、物品和灯光设置。收集者本身的手掌大小和演示风格也各不相同，这使得系统能够从极其广泛的环境和交互中学习，为策略的泛化能力奠定了坚实基础。

在这里插入图片描述

图5：我们使用多种类别的对象收集数据。喷雾瓶任务 - 25个训练样本，11个测试样本；玩具清理任务 - 64个训练样本，9个测试样本；倒水任务 - 35个训练样本，5个测试样本；花艺任务 - 6个训练样本，2个测试样本；折叠衣物任务 - 17个训练样本，6个测试样本。

数据集构成详情：通过大规模收集工作，研究团队构建了两个核心数据集。人工数据集DH包含五项任务的9290个演示：喷雾瓶任务和玩具清理任务分别包含来自30个不同环境的3000个演示；倾倒任务包含来自6个环境的621条轨迹；花店任务包含来自15个环境的1545个演示；折叠衣服任务包含来自12个环境的1124个演示。机器人数据集DR包含1395个演示，涵盖相同的五项任务，分别由xArm和LEAP机械手V2 Advanced收集。

任务复杂度与挑战性：选择的五项任务具有不同的复杂度和技能要求，从简单的喷雾瓶操作到复杂的折叠衣服任务，充分考验了系统的学习能力和泛化性能。每项任务都要求精细的手部协调和环境交互，这正是验证DexWild系统高保真度数据采集能力的理想测试场景。

4.2 系统性能评估

数据采集效率提升：与传统基于遥操作的方法相比，DexWild系统在数据采集效率方面实现了显著突破，数据采集速度提高了4.6倍。这一改进主要归功于系统的便携性设计和无需校准的特性，使得数据收集过程更加高效和用户友好。

策略学习性能：实验结果显示，通过人机协同训练的策略在各项任务中都表现出了优异的性能。相比单独使用人类数据或机器人数据训练的策略，协同训练的方法在成功率和稳定性方面都有显著提升，充分验证了数据融合策略的有效性。

泛化能力验证：系统在新目标、新环境和新具身中的泛化测试表现尤为出色。策略能够成功适应训练时未见过的物体类型、场景布局和环境条件，这证明了DexWild学习框架的强大泛化能力和实际应用价值。
在这里插入图片描述

图6：共同训练如何帮助提升在真实环境中的表现？我们在三个场景中评估我们的策略：(a) 域内场景，即收集了机器人训练数据但包含新物体的场景，(b) DexWild中存在但机器人数据中不存在的真实场景，以及© 两个数据集中均不存在的极端真实场景。显示的比例为机器人：人类。

4.3 关键技术验证

无校准部署验证：实验充分验证了系统的无校准部署能力，未经训练的操作员能够在几分钟内完成系统设置并开始数据收集。这种易用性是实现大规模数据收集的关键前提，也是DexWild相比传统系统的重要优势。

跨具身数据兼容性：通过在不同机器人平台上的部署测试，验证了系统的跨具身数据兼容性。人类演示数据能够成功迁移到不同的机器人手配置，证明了观察空间和动作空间对齐机制的有效性。

高保真度追踪性能：系统的追踪精度和鲁棒性在各种挑战性场景中都得到了验证，包括遮挡严重的抽屉开启任务和精细操作的物品整理任务。ArUco标记点腕部追踪和电磁场感应手部追踪的组合方案展现出了优秀的性能表现。

4.4 消融实验与分析

数据权重影响分析：实验发现，人机数据的协同训练权重对最终性能有显著影响。通过系统性的权重调节实验，研究团队找到了最佳的权重配比，这为未来的研究提供了重要的参考依据。

组件贡献度分析：通过移除系统的不同组件进行对比实验，验证了每个技术组件对整体性能的贡献。相对状态历史信息、双摄像头配置、以及扩散策略架构都被证明对系统性能有重要贡献。

环境适应性测试：在不同光照条件、背景复杂度和物体材质的环境中进行测试，验证了系统对环境变化的适应能力。结果显示，系统在各种环境条件下都能保持稳定的性能表现。

5. 结论与展望

DexWild代表了机器人灵巧操作学习领域的一个重要突破，其创新性体现在多个层面：从硬件系统设计到算法框架构建，从数据采集效率到策略泛化能力。