当前位置: 首页 > article >正文

SkillVLA:通过技能复用应对双-臂操纵中的组合多样性

26年3月来自新加坡国立、北京中关村学院、上海创新研究院、上海AI实验室、上海交大和复旦的论文“SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse”。视觉-语言-动作VLA模型近期取得的进展已充分展示了其在双臂操作任务中的巨大潜力不仅能够实现复杂的行为还能泛化至未曾见过的环境。然而当前主流的双臂 VLA 建模范式大多忽略了一个关键挑战即“组合多样性”问题。单臂行为的不同配对方式往往会产生本质上截然不同的任务行为但现有模型并未显式地对这种结构特性进行建模。高效的双臂 VLA 模型应当具备“技能复用”能力——即能够将此前习得的单臂技能通过全新的左右臂配对方式进行重新组合——从而避免针对每一种可能的组合都进行单独学习。目前的 VLA 设计往往将双臂技能耦合纠缠在一起从而阻碍了这种技能的重新组合并限制了模型的可扩展性。为了克服这一局限提出了 SkillVLA 框架该框架经过专门设计旨在赋能双臂操作任务中的技能复用能力。大量的实验结果表明SkillVLA 显著提升技能组合的有效性将整体任务成功率从 0% 大幅提升至 51%并在双臂协同任务及长时序任务中展现出了卓越的性能。如图1所示许多双臂任务可被视为单臂行为的组合左右臂技能的不同搭配将衍生出各异的双臂任务。随着底层技能集的扩充可能的搭配数量呈平方级增长从而产生了海量且对应于不同任务的组合。当前的视觉语言动作VLA范式在很大程度上忽视了这种组合多样性。若采用动作拼接的方式来预测双臂动作模型便需学习左右臂动作分布的联合分布。尽管这种设计简单且能捕捉紧密的双臂协调性但它将模型的输出局限于演示数据中已出现的动作搭配。其结果是该策略在组合泛化能力上表现乏力无法通过重新组合单臂技能来生成全新的双臂行为从而使其难以应对任务中的组合多样性挑战。若要实现技能复用模型必须满足两项条件(i) 针对任意给定场景 x选取合适的技能(ii) 针对所选技能或技能对生成正确的动作。后一条件促使在训练与执行阶段明确区分单臂技能与双臂技能而当前基于 VLA 的方法尚不支持这一功能。若要实现双臂技能所需的臂间协调必须建立一条能够促成左臂动作 a_L 与右臂动作 a_R 之间相互依赖的信息通路。在概念上将这一通路表示为一种“臂间信息”m由此产生的动作生成形式可表述为 π_L(a_L | x, Y_L, m_L) 和 π_R(a_R | x, Y_R, m_R).。在实际应用中臂间信息的实现方式多种多样既可以是显式的信息传递也可以像常见的整体式策略那样通过共享参数的方式隐式实现。在实践中许多双臂技能本质上接近于两个单臂技能的简单组合——具体而言在同一情境 x 下每只手臂大体上遵循各自独立的动作模式。其中的挑战在于双臂之间的协调由于双臂间的耦合作用其联合动作分布会偏离独立的乘积分布参见 I(a_L; a_R | x) 0。因此如果模型能够灵活地调用可复用的单臂技能那么在习得新的双臂技能时往往只需在现有单臂技能的基础上主要学习关于双臂耦合的补充信息通过极少量的微调即可完成而无需从头开始重新学习双臂的动作。由此可见有效的技能复用能够显著提升持续学习或大规模学习的效率。给定一个技能库动作生成可被视为首先针对给定的场景 x 选择要使用的技能或技能对随后从相应的技能分布中进行动作采样。“技能选择器”这个概念机制无需预设特定的模块或架构。理想而言该技能选择器不仅应当能为演示中曾出现的场景选取恰当的技能还应能针对从未见识过正确技能配置的新输入选出相应的技能。VLA 通常构建在预训练的 VLM 之上后者为视觉场景和自然语言指令提供了强大的泛化能力。通常VLA 包含一个额外的动作模块或称“动作专家”用于生成动作。在双臂操作任务中动作通常通过拼接左右臂的动作表示从而被统一为一个单一向量。VLM 是实现可泛化技能选择器的天然候选方案——即将场景 x 映射至恰当的技能索引 Y或等效的决策变量且该映射能力能够泛化至演示场景之外的未知场景。然而即使上游的技能决策模块能够充分区分需要不同技能的各类场景下游的动作生成机制是否也能按照所定义的内涵实现对技能的复用呢常见的 VLA 设计表现出两种形式的“技能纠缠”从而阻碍技能的有效复用动作纠缠Action Entanglement。许多双臂 VLA 策略在训练时被设定为预测一个单一的、拼接而成的关节动作向量 (a_L, a_R)。这种“一体化”的监督方式在输出层面上将双臂动作耦合在一起并促使模型去拟合由成对演示数据所诱导的经验性联合分布。其结果是习得的策略可能会将数据集中特有的“跨臂关联”内化吸收而非从中剥离出可复用的单臂动作结构。这对技能的复用与重组构成了障碍。即便上游的视觉-语言推理模块能够识别出需要不同技能的场景下游的动作生成器仍可能无法做到(i) 将单臂技能从双臂协调模式中解耦出来以及 (ii) 支持对单臂技能进行重组——特别是那些超越训练期间所见到的“左右臂配对”模式的重组。换言之这种“联合动作学习”的范式可能会使模型产生偏差使其倾向于单纯复现演示数据中的双臂动作模式从而限制其泛化至未曾见过的单臂行为组合的能力。基于动作专家的 VLA 中的潜纠缠Latent entanglement in action-expert VLAs。正如前文所述近期的 VLA 方法通常通过增设一个专用的动作生成模块来对预训练的视觉-语言模型VLM进行功能增强例如π0/π0.5 [7, 23]、RDT2 [40]、DexVLA [42]。从抽象层面来看VLM 负责将上下文信息 x编码为一种表征 z而动作模块则基于该表征 z 来预测双臂动作。尽管这种架构在实践中可能行之有效但它引入一条额外的技能纠缠途径。在双手模仿任务中从成对演示数据中学习到的共享隐变量 z可能会隐式地编码双臂之间的相互依赖关系。当策略在未曾见过的左右臂配对情境下进行评估时这种隐性的纠缠现象可能会导致技能重组效果下降其原因在于动作专家Action Expert在控制双臂动作时所依据的表征中已然混杂了来自双臂的信息。SkillVLA 是一种旨在实现高效技能复用的方法旨在应对组合多样性挑战并加速新技能的习得。A 方法流水线方法概览见图 2沿袭通用的 VLA视觉语言动作范式其核心包含一个顶层 视觉-语言模型且动作是通过迭代式的流匹配flow-matching过程 [28, 30] 生成的。在具体的实现中采用随 π0.5 [23] 版本一同发布的预训练 PaliGemma [6] 作为骨干网络以此初始化 VLM。方法主要由以下两个功能组件构成两级推理技能选择与动作生成。鉴于在实际应用中通常无法获取显式的技能库目标是让模型能够自主发现并实例化那些既支持学习又支持复用的技能表征。技能可以采取多种形式进行表征在 SkillVLA 中选用自然语言作为技能描述符这一选择与 VLM 骨干网络天然契合。通过构建一套“两级推理流水线”来实现这一设计。如图2所示高层模块显式生成针对各机械臂的子提示作为技能描述符。这种表征方式旨在捕捉任务意图并显式地解耦单臂技能的选择过程从而实现灵活的单臂重组通过在新的场景中将预先生成或习得的 u_L 和 u_R 进行配对即可构建出全新的技能组合。在低层技能学习阶段冻结高层 VLM的参数以在训练动作组件的同时保留其视觉-语言的泛化能力。在低层层面左右臂的动作分别由两条独立的流生成。每条流均使用其专属的低层 VLM经过独立微调例如利用 LoRA [20] 技术来处理视觉输入及对应的单臂提示词进而生成单臂的潜表征 z_i f_i(x, u_i)其中 i {L, R}。随后动作专家模块依据相应的潜表征及当前机械臂的状态预测出具体的动作指令。为了在必要时支持双臂的协同操作在动作专家模块之间引入一种自适应的交叉注意机制旨在捕捉双臂之间的相互依赖关系其中合作水平信号 α 对该信息进行门控以实现技能自适应的动作生成。协作估计器行为模式识别。尽管臂间通信有助于捕捉低层级的依赖关系但应有选择地启用对于单臂技能而言无论是在训练还是评估阶段双臂之间应在很大程度上保持解耦状态。为此引入一种“协作估计器”该估计器聚焦于高层级的 VLM 表征并预测一个标量 α ∈ [0,1]以此表征双臂间的协作程度α 值越大意味着耦合越强。该信号充当模式标识符用于指明当前行为究竟更适合被解释为 (i) 单臂技能的组合还是 (ii) 协作式的双臂技能。通过参数 α 对双臂间的消息传递进行门控从而使策略能够在“单臂独立生成”与“双臂耦合生成”这两种模式之间进行插值。为了训练 α_t采用一种源自行为克隆BC的简单“通信有效性CU”目标函数。B 额外的协作层级学习由于 α 直接调控着机械臂间的交互因此准确推断协作层级至关重要。引入额外的机制以促进对协作水平的可靠估计并在具体实现中默认启用这些机制。用于协作学习的先验与正则项。视觉-语言模型VLM经过大规模数据集的预训练因此能够编码广泛的任务语义及常识性规律例如在何种情境下通常需要两臂协同工作。这使得它们成为估算“依赖于具体任务的协作水平”的天然先验知识来源。为了将这些信息提炼并整合至一个轻量级的估计器中利用一个现成的 VLM针对当前场景与任务生成一个先验协作强度值 αvlm∈ [0, 1]若采用离散式门控机制则生成 αvlm∈ {0, 1}。协作层级离散化。在实践中连续型门控变量αt\alpha_tαt​可能会呈现出微小但持续的波动从而导致动作生成过程不稳定。为了提升稳定性我们作为可选方案通过将 α_t 限制在集合 {0, 1} 中对该门控变量进行离散化处理。具体而言模型会预测一个介于 (0, 1) 之间的数值 yˆ_t该数值代表开启跨臂通信的概率利用二元交叉熵损失函数对模型进行训练。将相同的先验和正则化项应用于 yˆ_t 作为一种软松弛处理从而对所得的离散门进行塑形。这种token化的表述简化门的预测过程且在初步实验中经验性地提升系统的稳定性。方法实现。目标是识别现有 VLA系统的结构性局限并在受控环境下评估提出的改进方案。为避免引入混杂因素未采用全新的骨干网络架构或大规模的预训练策略。相反仅对核心基线模型 π0.5 [23] 进行了极少量的结构性修改以确保整个流程既符合所提出的“解耦”设计理念又能保持各组件之间的可比性。利用随 π0.5 [23] 发布、已预训练的 PaliGemma 模型权重来初始化各组件并对低层级 VLM及动作专家模块进行复制以支持解耦式的执行流程。尽管可以直接使用现成的 VLM 模型但在正式进行策略学习之前会利用子任务生成数据对高层级 VLM 进行一次轻量级的视觉-语言微调以确保提示prompting的稳定性随后在整个主训练阶段中该模块将保持冻结状态仅通过独立的 LoRA 适配器 [20] 对低层级 VLM 进行微调。负责协调两个动作专家之间受控交互的“交叉注意”模块采用了独立且从零开始训练的查询/键/值QKV投影层。在动作采样环节沿用与原始 π0.5 实现完全一致的流匹配flow-matching时间表。最后用于估算“协作水平”的模块被实现为一个 Transformer 解码器它通过交叉注意机制对高层级 VLM 的 KV 缓存进行关注attend。协作先验。为了获取作为学习先验知识的“协作水平”标签利用一个参数已冻结的 Qwen3-VL-32B 模型 [3] 对训练数据集进行预处理。具体而言通过提示语引导该模型对任务所需的“双臂协作程度”进行标注随后将这些标注数值作为“真值监督”的一部分补充至数据集中以此来增强协作水平估算器的训练数据。

相关文章:

SkillVLA:通过技能复用应对双-臂操纵中的组合多样性

26年3月来自新加坡国立、北京中关村学院、上海创新研究院、上海AI实验室、上海交大和复旦的论文“SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse”。 视觉-语言-动作(VLA)模型近期取得的进展,已充分…...

2026 新视角:化妆品开发的底层逻辑,做好一款产品,从选对原料开始

在化妆品研发链条中,配方架构、生产工艺、包装设计固然重要,但决定一款产品上限的,永远是原料。一款稳定、安全、表现优异的护肤成品,离不开纯净、达标、批次一致的优质原料。对于品牌方、配方师、代工企业而言,原料不…...

Windows 10/11系统下,SecureCRT 8.7.2保姆级安装与激活图文指南(含Keygen使用避坑点)

Windows平台SecureCRT 8.7.2全流程部署与安全配置指南在当今远程运维与网络管理的日常工作中,一款可靠的终端仿真工具如同工程师的瑞士军刀。作为行业标杆的SecureCRT,其8.7.2版本在Windows 10/11环境下的部署却常让新手陷入各种技术陷阱——从安装路径选…...

Win10系统清理避坑指南:你的BAT脚本真的安全吗?盘点那些不能乱删的文件

Win10系统清理避坑指南:BAT脚本安全操作手册每次看到那些号称"一键清理系统垃圾"的BAT脚本在技术论坛被疯狂转发,我的工程师朋友老张就会忍不住摇头。上周他刚帮一位设计师修复了崩溃的Photoshop——原因正是某个清理脚本删除了Adobe的临时工作…...

别只拿PotPlayer看片了!挖掘它的采集录制功能,做Switch游戏存档大师

别把PotPlayer当普通播放器!解锁它的Switch游戏录制黑科技 你是否已经厌倦了在OBS、Bandicam等专业录制软件中反复调试参数的繁琐?是否想过那个每天用来看视频的PotPlayer,其实隐藏着令人惊喜的游戏录制能力?今天,我们…...

如何快速掌握开源UE资产编辑器:UAssetGUI完整配置与实战指南

如何快速掌握开源UE资产编辑器:UAssetGUI完整配置与实战指南 【免费下载链接】UAssetGUI A tool designed for low-level examination and modification of Unreal Engine game assets by hand. 项目地址: https://gitcode.com/gh_mirrors/ua/UAssetGUI UAss…...

2605.VGGT-Omega 论文解读: 3D重建的Scaling Law, Register Attention效率革命 | Oxford+Meta CVPR26 Oral

VGGT-Omega: Scaling Feed-Forward 3D Reconstruction Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schonberger, et al. Visual Geometry Group, Oxford Meta AI | CVPR 2026 Oral | arXiv 2605.15195 Paper | Project Page 一句话总结 VGGT-Om…...

echarts中heatmap鼠标滚动禁用缩放,向下滚动

配置如下效果如下...

内网环境下Win7系统批量离线补丁部署实战指南

1. 内网Win7补丁部署的挑战与解决方案老旧Win7系统在内网环境中的安全隐患就像漏雨的屋顶,看似不影响日常使用,但随时可能引发严重后果。我经手过几十家单位的系统加固项目,发现这些场景存在三个典型痛点:首先是补丁来源问题&…...

森优时铁锌维发根养黑用三个月真实效果实测:内服营养养黑的客观测评

"森优时铁锌维发根养黑用三个月真实效果实测显示,针对压力、熬夜引发的早白问题,通过内服补充毛囊所需营养的方式,多数使用者能感受到发根韧性提升、新生发色素沉淀改善,整体改善效果因人而异,合规的营养补充是目…...

SSH工具对比:新手用户和熟练运维,选型逻辑有什么不同

结论 新手用户和熟练运维在选择 SSH 工具时,关注点往往完全不同。 新手更在意的是:能不能顺利连接、界面是否直观、文件和配置是否容易找到、网站出问题时能不能快速定位。 而熟练运维更在意的是:连接效率、命令自由度、多服务器管理能力、原…...

13456

12356...

Python基础语法:常用内置函数

round():四舍五入 # 省略 ndigits print(round(3.14)) # 输出 3(int) print(round(3.66)) # 输出 4# 指定 ndigits print(round(3.14159, 2)) # 输出 3.14(float) print(round(3.666, 2)) # 输出 3.67# …...

Python基础语法:生成器 generator(yield)

一、简介根据指定的规则循环生成数据,当条件不成立时则生成数据结束。数据不是一次性全部生成出来,而是使用一个,再生成一个,好处是可以节约大量的内存。就像设计模式中的懒汉式。适合处理大数据或流数。生成器是一种特殊的迭代器…...

鸿蒙系统微博应用锁常见问题解答

为微博设置应用锁后,不少用户会有各种疑问:忘记密码怎么办?会不会影响消息推送?能不能只锁定某些功能?应用锁耗电吗?本文将针对这些高频问题逐一解答,帮助您更好地使用鸿蒙系统(Harm…...

雪球网md5__1038参数逆向解析与Node.js复现

1. 这不是“破解”,而是对前端加密逻辑的常规逆向还原你打开雪球网任意一只股票详情页,F12 打开开发者工具,切到 Network 面板,刷新页面——很快就能在 XHR 请求里捕获到类似这样的接口:https://xueqiu.com/stock/cube…...

2026年,揭秘那些真正安全的原生态食材厂家你不可不知的秘密

随着人们生活水平的提升以及对健康的日益重视,选择真正安全的原生态食材已经成为许多人购买食物的标准。但市场的繁杂使得甄别真正安全的食材厂家变得愈加困难。今天,我将通过几个关键角度,为大家揭秘那些真正安全的原生态食材厂家的秘密&…...

智慧无人机巡检-无人机可见光红外数据集 无人机多模态检测数据集 红外与可见光检测数据集

智慧无人机巡检-无人机可见光红外数据集,已完成标注,可导出各种常用数据集,yolo,voc,coco等格式。可见光33000张,红外16100张,目标一张一个 无人机可见光红外目标数据集项目详细信息数据集名称无…...

Unity主题系统设计:状态驱动的主题抽象与自动注入方案

1. 这不是换个颜色那么简单:为什么Unity项目里“换肤”总在发布前夜崩盘?你有没有经历过这样的场景:美术同学凌晨两点发来一套新主题资源包,UI设计师说“这次配色更符合品牌调性”,产品说“上线前必须支持深色模式”&a…...

第3篇:系统透视——信息部门如何构建“税务友好型”IT架构

本篇导读:如果你是信息总监或IT负责人,请通读全文,尤其是“系统合规设计的三必须”和“现场检查SOP”;如果你是财税人员,请重点阅读“研产供销全链条的系统对接要求”和“与IT部门的协作要点”;如果你是老板…...

三十岁想从零转行现实吗?带你分辨真正有前景的好工作

![](https://img-blog.csdnimg.cn/direct/b0bfa28b59f9478dae4e6feee6659cce.png)我是29岁那年,完成从转行裸辞副业的职业转型。 如果你把职业生涯看成是从现在开始30岁,到你退休那年,中间这么漫长的30年,那么30岁转行完全来得及…...

Onekey终极指南:如何5分钟快速获取Steam游戏清单的免费神器

Onekey终极指南:如何5分钟快速获取Steam游戏清单的免费神器 【免费下载链接】Onekey Onekey Steam Depot Manifest Downloader 项目地址: https://gitcode.com/gh_mirrors/one/Onekey 还在为复杂的Steam游戏清单下载而头疼吗?想要备份游戏资源却不…...

录音会议纪要整理不同使用场景,实用口碑选择建议

针对不同场景的录音整理需求(短录音、中长录音、长内容深度整理),本文基于实际使用体验,分享不同场景下的工具选择建议与使用心得。一、场景一:短录音(15-60分钟,发音清晰)典型场景&…...

3步深度解锁:网络设备权限管理工具的实战手册

3步深度解锁:网络设备权限管理工具的实战手册 【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 你是否曾面对功能受限的网络设备感到束手无策?当默认配置锁死了硬…...

Simulink中Repeating Sequence锯齿波显示恒为0解决方案

锯齿波设置如图1时,其示波器显示恒为0(如图2)。图1图2于是新建模型,只添加Repeating Sequence模块,采用原始设置发现可以正常输出锯齿波,于是调整时间参数,发现当时间设置为≥[0 0.06]时可以正常…...

Python合并Excel文档

有若干个Excel文档,每个文档格式一致,及第一行为文件标题,第二行为表格表头(表头不完全一致)。现需要将他们合并。合并规则为:去掉每个文档的第一行,以第二行为表头,将每个文档的第三…...

对比 Token Plan 与按量计费在 Taotoken 平台上的成本体感差异

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比 Token Plan 与按量计费在 Taotoken 平台上的成本体感差异 对于个人开发者或项目管理者而言,在接入大模型服务时&a…...

销售怎么通过各种方法获取电话号码

第一种就是那个用爬虫电话号码,然后再打电话给客户。第二种是在别人的挪车电话看车挪车电话,然后再打电话找客户。第三就是。扫楼一顿顿的扫,第四就是这个那种商店,一个个的去问陌拜地推一个个的问店子要不要贷款,去问…...

解决Claude Code访问不稳定与Token不足的痛点

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 解决Claude Code访问不稳定与Token不足的痛点 许多开发者将Claude Code作为日常编程的得力助手,用于代码生成、问题调试…...

量子软件测试的挑战与优化策略

1. 量子软件测试的挑战与机遇量子计算正在从实验室走向实际应用,随之而来的是对可靠量子软件的需求激增。与传统软件不同,量子程序面临三大独特挑战:首先,量子态的叠加性和纠缠性使得测试变得异常复杂。一个n量子比特系统可以同时…...