当前位置：首页 > article >正文

【论文阅读】ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

article 2026/5/22 23:10:00

快速了解部分基础信息英文1.题目: ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training2.时间: 2025.093.机构: University of Washington, UC San Diego, Nvidia, Allen Institute for AI4.3个关键词: Flow Matching, Consistency Training, Visuomotor Imitation1句话通俗总结本文干了什么事情本文提出了一种名为ManiFlow的机器人控制策略通过结合流匹配和一致性训练能根据图像、语言等输入快速生成精准的高维动作解决了灵巧操作中推理慢和泛化差的问题。研究痛点现有研究不足 / 要解决的具体问题现有的Diffusion和Flow Matching策略在复杂灵巧操作中推理步数多慢、难以捕捉多指交互的细微差别、且在面对新物体和环境时泛化能力不足。核心方法关键技术、模型或研究设计简要提出了ManiFlow核心是引入连续时间一致性训练目标Consistency Training来加速推理并提升动作质量并设计了DiT-X网络架构来更高效地处理视觉、语言等多模态输入。深入了解部分作者想要表达什么作者旨在证明通过改进生成模型的训练目标加入一致性和网络架构DiT-X可以让机器人策略在极少的推理步数下1-2步就能完成高精度的灵巧操作并且能很好地泛化到从未见过的物体和双臂/人形机器人任务中。相比前人创新在哪里训练目标创新不同于以往仅用Flow Matching引入了连续时间的一致性训练Consistency Training无需预训练教师模型即可实现少步数推理。架构创新提出了DiT-X改进了DiT和MDT架构通过AdaLN-Zero机制将缩放和平移参数应用到交叉注意力层的输入输出实现了更细粒度的多模态条件控制。性能突破在真实世界的双臂和人形机器人上实现了极高的成功率且推理速度极快。解决方法/算法的通俗解释ManiFlow就像是一个“预判力”极强的机器人教练。传统的Diffusion模型像是一步步“去噪”还原动作很慢ManiFlow利用“一致性”原理让模型学会无论从哪个噪声阶段开始都能直接“跳跃”到正确的动作路径上一步到位。同时它用一个更聪明的“大脑”DiT-X来综合分析眼睛图像、耳朵语言和身体感觉姿态从而做出精准的动作。解决方法的具体做法一致性训练在训练时不仅预测当前时刻的速度还强制要求模型预测的路径在时间上保持一致即从A点到B点的路径是直的这使得推理时只需1-2步就能得到准确动作。DiT-X架构使用Transformer架构。对于低维信号如时间步使用AdaLN-Zero进行调节。关键改进将AdaLN-Zero的调节参数应用到交叉注意力层的输入和输出特征上让模型能更有选择性地筛选视觉和语言信息。3D感知使用轻量级PointNet编码器保留点云的几何细节且不使用最大池化操作以防止信息丢失。基于前人的哪些方法Flow Matching基于标准的流匹配损失函数作为基础。DiT (Diffusion Transformer)DiT-X块的设计灵感来源于图像生成领域的DiT。MDT (Multimodal Diffusion Transformer)借鉴了其交叉注意力机制但进行了改进。Consistency Models借用了无需教师模型的一致性蒸馏思想但将其扩展到了连续时间域。实验设置、数据、评估方式、结论实验设置涵盖64个模拟任务和8个真实机器人任务。数据模拟RoboTwin, Adroit, DexArt, MetaWorld48个语言条件任务。真实世界Unitree H1人形机器人、双臂xArm 7、单臂Franka Panda。评估方式任务成功率Success Rate对比了Diffusion Policy、Flow Matching Policy等基线。结论在模拟中图像输入提升45.6%点云输入提升11.0%。在真实世界中相比SOTA的3D Diffusion PolicyDP3平均成功率翻倍37.6% - 71.0%。具有极强的泛化能力能处理未见过的物体和背景干扰。提到的同类工作Diffusion Policy主要的对比基线代表了主流的扩散策略方法。3D Diffusion Policy (DP3)在3D点云策略中表现最好的工作ManiFlow在真实世界实验中主要超越了它。MDT在多模态条件控制方面的工作ManiFlow的架构与其进行了对比和改进。和本文相关性最高的3个文献C. Chi et al. Diffusion policy: Visuomotor policy learning via action diffusion. IJRR, 2023. (Diffusion Policy原论文)Y. Ze et al. 3d diffusion policy. RSS, 2024. (DP33D扩散策略SOTA)E. Chisari et al. Learning robotic manipulation policies from point clouds with conditional flow matching. CoRL, 2im24. (3D Flow Matching Policy)我的期望让模型只需要去噪1-2步就能得到结果所以引入Consistency Training让模型预测的路径在时间上保持一致。DiT-X架构主要是一个AdaLN-Zero全称是Adaptive Layer-Norm Zero实际上就是对张量进行scale和shift与传统Layer Norm不同的点在于他不是一视同仁的而是有选择的。Zero指的是一开始Scale1, Shift0就是不对数据进行处理。

【论文阅读】ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

相关文章：

【论文阅读】ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

Claude中文完整上手指南：官网、API、Claude Code与国内使用一篇讲透

libigl 极小曲面（全局优化之二）

基于DeepSeek模型的IP文案自动化生成工作流设计与实现

AI驱动的模拟电路设计：MOBO优化与工程实践

VHDL代码智能解析：基于大模型的硬件设计辅助实践

ARM SVE向量化技术解析与性能优化实践

长期使用Taotoken Token Plan套餐的成本控制感受分享

ARM架构随机数生成机制与安全应用实践

LangChain-Chatchat 开发与应用(十) 企业级部署方案-Docker-Compose-K8s集群化实践

LangChain-Chatchat 开发与应用(九) 性能优化实战-从能用到好用的调优之路

观察Taotoken在多模型聚合调用下的稳定性与路由表现

HDLxGraph：图数据库与LLM在硬件设计中的应用

单神经元动态记忆机制及其神经形态计算应用

大模型推理优化：激活稀疏性技术解析与实践

2026年免费去水印工具哪个好用？免费好用的去水印工具对比推荐

Polar Sparsity技术：提升LLM推理效率的动态稀疏优化

UVA12822 Extraordinarily large LED 题解

【ChatGPT】锂电卷绕机深度拆解、信息图、爆炸图、C++代码框架

抖音无水印下载终极指南：douyin-downloader让你轻松保存喜欢的视频

5步搭建私人云游戏服务器：Sunshine游戏串流完全指南

DS4Windows终极指南：如何让PlayStation手柄在Windows上完美运行

Salesforce 扩展“无头”概念至企业数据管理，新架构与系统二季度末或年底推出

Jetson Orin AGX INT4 推理优化实践：super 分支从 9 tok/s 到 24 tok/s

Topit：Mac窗口置顶终极指南 - 三步打造高效多任务工作环境

7 年评测经验博主发布扫地机器人挑选指南，邀你探讨机器人革命！

ai内容创作团队如何通过taotoken统一管理多个模型的调用

逻辑回归实战：从原理、数值稳定到生产级代码实现

COOT模型详解：视频时序理解与跨模态对齐技术

视频理解新范式：COOT模型实现对象-场景联合建模的视频描述生成