当前位置: 首页 > article >正文

【论文阅读】ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

快速了解部分基础信息英文1.题目: ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training2.时间: 2025.093.机构: University of Washington, UC San Diego, Nvidia, Allen Institute for AI4.3个关键词: Flow Matching, Consistency Training, Visuomotor Imitation1句话通俗总结本文干了什么事情本文提出了一种名为ManiFlow的机器人控制策略通过结合流匹配和一致性训练能根据图像、语言等输入快速生成精准的高维动作解决了灵巧操作中推理慢和泛化差的问题。研究痛点现有研究不足 / 要解决的具体问题现有的Diffusion和Flow Matching策略在复杂灵巧操作中推理步数多慢、难以捕捉多指交互的细微差别、且在面对新物体和环境时泛化能力不足。核心方法关键技术、模型或研究设计简要提出了ManiFlow核心是引入连续时间一致性训练目标Consistency Training来加速推理并提升动作质量并设计了DiT-X网络架构来更高效地处理视觉、语言等多模态输入。深入了解部分作者想要表达什么作者旨在证明通过改进生成模型的训练目标加入一致性和网络架构DiT-X可以让机器人策略在极少的推理步数下1-2步就能完成高精度的灵巧操作并且能很好地泛化到从未见过的物体和双臂/人形机器人任务中。相比前人创新在哪里训练目标创新不同于以往仅用Flow Matching引入了连续时间的一致性训练Consistency Training无需预训练教师模型即可实现少步数推理。架构创新提出了DiT-X改进了DiT和MDT架构通过AdaLN-Zero机制将缩放和平移参数应用到交叉注意力层的输入输出实现了更细粒度的多模态条件控制。性能突破在真实世界的双臂和人形机器人上实现了极高的成功率且推理速度极快。解决方法/算法的通俗解释ManiFlow就像是一个“预判力”极强的机器人教练。传统的Diffusion模型像是一步步“去噪”还原动作很慢ManiFlow利用“一致性”原理让模型学会无论从哪个噪声阶段开始都能直接“跳跃”到正确的动作路径上一步到位。同时它用一个更聪明的“大脑”DiT-X来综合分析眼睛图像、耳朵语言和身体感觉姿态从而做出精准的动作。解决方法的具体做法一致性训练在训练时不仅预测当前时刻的速度还强制要求模型预测的路径在时间上保持一致即从A点到B点的路径是直的这使得推理时只需1-2步就能得到准确动作。DiT-X架构使用Transformer架构。对于低维信号如时间步使用AdaLN-Zero进行调节。关键改进将AdaLN-Zero的调节参数应用到交叉注意力层的输入和输出特征上让模型能更有选择性地筛选视觉和语言信息。3D感知使用轻量级PointNet编码器保留点云的几何细节且不使用最大池化操作以防止信息丢失。基于前人的哪些方法Flow Matching基于标准的流匹配损失函数作为基础。DiT (Diffusion Transformer)DiT-X块的设计灵感来源于图像生成领域的DiT。MDT (Multimodal Diffusion Transformer)借鉴了其交叉注意力机制但进行了改进。Consistency Models借用了无需教师模型的一致性蒸馏思想但将其扩展到了连续时间域。实验设置、数据、评估方式、结论实验设置涵盖64个模拟任务和8个真实机器人任务。数据模拟RoboTwin, Adroit, DexArt, MetaWorld48个语言条件任务。真实世界Unitree H1人形机器人、双臂xArm 7、单臂Franka Panda。评估方式任务成功率Success Rate对比了Diffusion Policy、Flow Matching Policy等基线。结论在模拟中图像输入提升45.6%点云输入提升11.0%。在真实世界中相比SOTA的3D Diffusion PolicyDP3平均成功率翻倍37.6% - 71.0%。具有极强的泛化能力能处理未见过的物体和背景干扰。提到的同类工作Diffusion Policy主要的对比基线代表了主流的扩散策略方法。3D Diffusion Policy (DP3)在3D点云策略中表现最好的工作ManiFlow在真实世界实验中主要超越了它。MDT在多模态条件控制方面的工作ManiFlow的架构与其进行了对比和改进。和本文相关性最高的3个文献C. Chi et al. Diffusion policy: Visuomotor policy learning via action diffusion. IJRR, 2023. (Diffusion Policy原论文)Y. Ze et al. 3d diffusion policy. RSS, 2024. (DP33D扩散策略SOTA)E. Chisari et al. Learning robotic manipulation policies from point clouds with conditional flow matching. CoRL, 2im24. (3D Flow Matching Policy)我的期望让模型只需要去噪1-2步就能得到结果所以引入Consistency Training让模型预测的路径在时间上保持一致。DiT-X架构主要是一个AdaLN-Zero全称是Adaptive Layer-Norm Zero实际上就是对张量进行scale和shift与传统Layer Norm不同的点在于他不是一视同仁的而是有选择的。Zero指的是一开始Scale1, Shift0就是不对数据进行处理。

相关文章:

【论文阅读】ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training

快速了解部分 基础信息(英文): 1.题目: ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training 2.时间: 2025.09 3.机构: University of Washington, UC San Diego, Nvidia, Allen Institute for AI 4.3个关键词: Fl…...

Claude中文完整上手指南:官网、API、Claude Code与国内使用一篇讲透

Claude中文完整上手指南:官网、API、Claude Code与国内使用一篇讲透 写在前面 现在再看 Claude,已经不能只把它当成一个聊天工具了。 对普通用户来说,它是一个很强的长文理解、写作整理和复杂问答助手;对开发者来说,…...

libigl 极小曲面(全局优化之二)

文章目录 一、简介 二、实现代码 三、实现效果 参考资料 一、简介 二、实现代码 #include <numeric>//igl #include <igl/readPLY.h>...

基于DeepSeek模型的IP文案自动化生成工作流设计与实现

基于DeepSeek模型的IP文案自动化生成工作流设计与实现 1. 项目背景与目标 在数字化营销和品牌建设过程中,IP(Intellectual Property,知识产权/品牌形象)文案扮演着至关重要的角色。高质量的IP文案能够有效传递品牌价值、塑造用户认知、提升转化率。传统的文案撰写依赖人工…...

AI驱动的模拟电路设计:MOBO优化与工程实践

1. AI如何重塑模拟电路设计范式模拟电路设计长期以来被视为电子工程领域最具挑战性的工作之一。传统设计流程中&#xff0c;工程师需要手动调整晶体管尺寸、偏置电压等数十个参数&#xff0c;通过反复仿真迭代来满足增益、带宽、噪声等相互制约的性能指标。这种"试错法&qu…...

VHDL代码智能解析:基于大模型的硬件设计辅助实践

1. 项目背景与核心挑战在当今高性能处理器设计领域&#xff0c;VHDL作为硬件描述语言(HDL)的重要成员&#xff0c;因其严格的类型检查和结构化语法特性&#xff0c;被广泛应用于航空航天、汽车电子等关键行业。然而&#xff0c;随着芯片设计复杂度呈指数级增长&#xff0c;设计…...

ARM SVE向量化技术解析与性能优化实践

1. ARM SVE向量化技术解析 1.1 SVE架构设计理念 ARM可扩展向量扩展(Scalable Vector Extension, SVE)是ARMv8-A和ARMv9-A架构引入的长向量指令集&#xff0c;其核心创新在于向量长度无关(Vector Length Agnostic, VLA)的设计哲学。与传统固定长度的SIMD指令&#xff08;如x86的…...

长期使用Taotoken Token Plan套餐的成本控制感受分享

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 长期使用Taotoken Token Plan套餐的成本控制感受分享 1. 从按量计费到套餐订阅的转变 在开始使用Taotoken平台时&#xff0c;我们…...

ARM架构随机数生成机制与安全应用实践

1. ARM架构随机数生成机制深度解析 在计算机安全领域&#xff0c;高质量的随机数生成是加密算法、密钥生成和安全协议的基础支撑。ARMv8/v9架构通过FEAT_RNG&#xff08;Random Number Generation&#xff09;特性提供了硬件级的随机数生成支持&#xff0c;其设计遵循严格的密码…...

LangChain-Chatchat 开发与应用(十) 企业级部署方案-Docker-Compose-K8s集群化实践

企业级部署方案&#xff1a;Docker Compose / K8s 集群化实践标签&#xff1a;Docker | Kubernetes | 高可用 | 生产部署 | DevOps一、从"单机玩具"到"生产系统" 前面九篇&#xff0c;咱们从 0 到 1 搭起了 Chatchat&#xff0c;做了二次开发&#xff0c;优…...

LangChain-Chatchat 开发与应用(九) 性能优化实战-从能用到好用的调优之路

性能优化实战&#xff1a;从"能用"到"好用"的调优之路 标签&#xff1a;性能优化 | 并发 | 显存 | 缓存 | 监控 | 调优 一、性能问题的"众生相" 你的 Chatchat 系统是不是遇到过这些情况&#xff1f; 一个人用挺快&#xff0c;三个人同时问就卡…...

观察Taotoken在多模型聚合调用下的稳定性与路由表现

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 观察Taotoken在多模型聚合调用下的稳定性与路由表现 1. 引言 在构建依赖大模型能力的应用时&#xff0c;服务的连续性与稳定性是开…...

HDLxGraph:图数据库与LLM在硬件设计中的应用

1. HDLxGraph&#xff1a;当硬件设计遇上图数据库与LLM 在芯片设计领域&#xff0c;硬件描述语言&#xff08;HDL&#xff09;如Verilog和VHDL是工程师们将电路构想转化为可执行代码的核心工具。然而&#xff0c;随着现代芯片设计复杂度的爆炸式增长&#xff0c;一个中等规模的…...

单神经元动态记忆机制及其神经形态计算应用

1. 动态记忆的神经实现范式革新在神经科学与类脑计算领域&#xff0c;动态记忆&#xff08;或称工作记忆&#xff09;一直被视为认知功能的基础模块。传统理论认为&#xff0c;这种能够短暂保持神经活动状态的功能必须依赖于神经元群体构成的递归网络——通过兴奋性神经元间的相…...

大模型推理优化:激活稀疏性技术解析与实践

1. 大模型推理优化的核心挑战与机遇在自然语言处理领域&#xff0c;大型语言模型&#xff08;LLM&#xff09;的推理效率已成为制约其广泛应用的关键瓶颈。以GPT-3 175B为例&#xff0c;单次推理需要约350GB显存和数千亿次浮点运算&#xff0c;这对硬件资源提出了极高要求。传统…...

2026年免费去水印工具哪个好用?免费好用的去水印工具对比推荐

在2026年&#xff0c;无论是自媒体运营者、内容创作者还是普通用户&#xff0c;去水印都是日常高频操作。但面对市场上琳琅满目的去水印工具&#xff0c;要找到一款免费好用的去水印工具着实不易。本文将从多个维度对免费去水印工具对比 2026的各类产品进行详细评测&#xff0c…...

Polar Sparsity技术:提升LLM推理效率的动态稀疏优化

1. 项目概述&#xff1a;Polar Sparsity技术背景与核心价值 在大型语言模型&#xff08;LLM&#xff09;推理任务中&#xff0c;计算效率始终是制约实际部署的关键瓶颈。传统稀疏化方法&#xff08;如权重剪枝或神经元激活稀疏化&#xff09;虽然在小批量场景下有效&#xff0c…...

UVA12822 Extraordinarily large LED 题解

UVA12822 Extraordinarily large LED 题目描述 Link: https://uva.onlinejudge.org/index.php?optioncom_onlinejudge&Itemid8&category861&pageshow_problem&problem4687 PDF 输入格式 输出格式 输入输出样例 #1 输入 #1 START 09:00:00 SCORE 09:01:05…...

【ChatGPT】锂电卷绕机深度拆解、信息图、爆炸图、C++代码框架

深度拆解信息图...

抖音无水印下载终极指南:douyin-downloader让你轻松保存喜欢的视频

抖音无水印下载终极指南&#xff1a;douyin-downloader让你轻松保存喜欢的视频 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fa…...

5步搭建私人云游戏服务器:Sunshine游戏串流完全指南

5步搭建私人云游戏服务器&#xff1a;Sunshine游戏串流完全指南 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 你是否曾经想过在客厅电视上玩电脑游戏&#xff0c;或者在平板上继…...

DS4Windows终极指南:如何让PlayStation手柄在Windows上完美运行

DS4Windows终极指南&#xff1a;如何让PlayStation手柄在Windows上完美运行 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows 想在Windows电脑上畅玩所有游戏&#xff0c;却只有PlayStation…...

Salesforce 扩展“无头”概念至企业数据管理,新架构与系统二季度末或年底推出

分析师提醒分析师表示&#xff0c;此次更新或许能让开发者省去构建 AI 驱动工作流时通常所需的大量集成和定制开发工作&#xff0c;但首席信息官&#xff08;CIO&#xff09;们应警惕成本和准确性方面的问题。“无头”概念扩展Salesforce 似乎正致力于“颠覆”企业软件领域。在…...

Jetson Orin AGX INT4 推理优化实践:super 分支从 9 tok/s 到 24 tok/s

Jetson Orin AGX INT4 推理优化实践&#xff1a;super 分支从 9 tok/s 到 24 tok/s 项目地址&#xff1a;https://github.com/luogantt/LLM-inference-engine 本文总结 jetson-orin-agx-super 分支上的一次端侧大模型推理优化实践。目标设备是 Jetson Orin AGX&#xff0c;目…...

Topit:Mac窗口置顶终极指南 - 三步打造高效多任务工作环境

Topit&#xff1a;Mac窗口置顶终极指南 - 三步打造高效多任务工作环境 【免费下载链接】Topit Pin any window to the top of your screen / 在Mac上将你的任何窗口强制置顶 项目地址: https://gitcode.com/gh_mirrors/to/Topit 还在为Mac上频繁切换窗口而烦恼吗&#x…...

7 年评测经验博主发布扫地机器人挑选指南,邀你探讨机器人革命!

评测多款扫地机器人&#xff0c;Matic 脱颖而出博主发布了关于挑选最佳扫地机器人的指南&#xff0c;近期评测了戴森的 Spot & Scrub、鲨客的 Power Detect 以及 Matic。在其 7 年的扫地机器人评测生涯中&#xff0c;Matic 是最有意思的新型扫地机器人。拨开营销迷雾&#…...

ai内容创作团队如何通过taotoken统一管理多个模型的调用

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 AI 内容创作团队如何通过 Taotoken 统一管理多个模型的调用 应用场景类&#xff0c;聚焦于 AI 内容生成团队&#xff0c;成员使用不…...

逻辑回归实战:从原理、数值稳定到生产级代码实现

1. 什么是逻辑回归&#xff1a;从医生诊断到快递分拣的真实场景逻辑回归不是教科书里那个干巴巴的“S型曲线”&#xff0c;它是我过去八年带团队做工业质检项目时&#xff0c;每天早上打开监控大屏第一眼就要确认的模型——当产线摄像头拍下第372个电路板&#xff0c;系统在0.8…...

COOT模型详解:视频时序理解与跨模态对齐技术

1. 项目概述&#xff1a;让视频自己“开口说话”的底层逻辑 你有没有遇到过这样的场景&#xff1a;手头有一段3分钟的产品演示视频&#xff0c;需要快速生成一段精准的图文摘要发给客户&#xff1b;或者正在做无障碍内容建设&#xff0c;得为一段教学视频配上符合语义节奏的字幕…...

视频理解新范式:COOT模型实现对象-场景联合建模的视频描述生成

1. 项目概述&#xff1a;让视频自己“开口说话”的底层逻辑你有没有遇到过这样的场景&#xff1a;手头有一段3分钟的产品演示视频&#xff0c;需要快速生成一段精准的图文摘要发给客户&#xff1b;或者在做无障碍内容开发时&#xff0c;得为一段教学视频配上逐帧语义描述&#…...