当前位置：首页 > article >正文

A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot

article 2026/3/20 4:47:56

《利用多样化数据协同训练构建大规模具身模型》由丰田研究所TRI进行的大规模实证研究系统性地探究了如何通过引入多样化的外部数据协同训练来提升视觉-语言-动作VLA大模型在机器人操作任务上的性能与泛化能力。其核心目标是为了解决机器人领域面临的根本性挑战专用机器人数据稀缺且昂贵而互联网规模的视觉-语言VL数据丰富如何有效利用后者来弥补前者的不足。主要研究内容可以分为以下几个关键部分1. 核心问题与研究方法问题现有的VLA模型仅在专用机器人数据上训练泛化能力有限难以应对环境变化分布外泛化、新任务和复杂语言指令。方法采用大规模、系统性的对照实验引入多种外部数据模态在不同训练阶段单阶段、两阶段进行协同训练并在仿真和真实世界中对模型进行多维度评估辅以严格的统计分析。2. 协同训练数据模态研究精心整理了一个包含约4000小时操作数据和5000万VL样本的庞大数据集并探索了以下六种主要的外部数据模态标准视觉-语言VL数据如RoboPoint、RefSpatial用于增强模型的语义、空间和规划理解。机器人轨迹的密集语言注释通过脚本生成低级动作原语和VLM如GPT-5生成丰富的上下文描述两种方式为机器人数据添加精细的语言标签。跨Embodiment机器人数据使用Open X-Embodiment数据集的子集OXE-Ramen引入不同形态机器人的操作数据。人类视频探索了两种利用方式潜在动作训练一个潜在动作模型LAM将视频编码为离散的“潜在动作”令牌。VLM生成的注释使用GPT-5为人类视频生成自然语言的动作描述。离散机器人动作令牌将连续动作转化为离散令牌包括FAST令牌和VQ-VAE离散动作令牌期望以此作为统一表征。3. 关键研究发现与结论通过大规模实验研究得出了一系列重要结论最有效的协同训练模态是“视觉-语言”数据在所有有效模态中标准VL数据、基于VLM的机器人数据语言注释、以及人类视频的语言注释带来的提升最为显著。这表明强化VLM主干网络的视觉-语言理解能力是提升机器人策略性能的关键。这印证了“良好调节器定理”强大的内部世界模型是有效控制的前提。离散动作令牌收效甚微与预期相反FAST令牌、VQ-VAE令牌以及从视频中学习的潜在动作在数据充足的情况下并未带来统计上显著的性能提升。潜在动作仅在目标机器人数据极少时才有帮助而FAST令牌甚至会损害泛化能力。这说明在数据规模足够时直接学习连续动作或利用语言表征可能比学习离散的、压缩的动作表征更有效。协同训练策略至关重要标准VL数据和人类视频注释在训练的两个阶段预训练和微调都持续有益能提供机器人数据中缺失的丰富世界知识。机器人轨迹语言注释和跨Embodiment数据在第一阶段预训练效果最佳主要用于引导语言-动作对齐和学习通用行为表征在第二阶段专精于目标机器人的价值有限。组合效应显著将上述有效的协同训练模态组合使用可以在所有评估维度域内性能、分布外泛化、新任务泛化、语言跟随上产生累积的性能增益最终模型性能远超基线。提升表征质量实现快速适应经过有效协同训练的模型其VLM主干网络在标准VL基准测试MME, GQA等上的得分更高视觉-语言理解能力得到保留甚至增强。这使得模型能够通过少量数据200次演示快速微调掌握未见过的、复杂的、长时程的灵巧操作任务。显式思维链CoT并非必要在本次研究的、目标明确的操作任务中让模型显式生成CoT轨迹来指导动作并未比隐式的协同训练方法表现更好有时甚至更差。这表明对于有即时视觉反馈的任务模型在协同训练中学到的隐式推理能力已经足够。论文通过严谨的大规模实验为如何有效利用多样化数据构建更强大、更通用的机器人模型提供了宝贵的指导。其核心结论是通往通用机器人策略的关键在于强化其内部世界模型即VLM主干的理解能力而最有效的途径是利用丰富、多样的视觉-语言数据进行多阶段协同训练。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示官方项目主页地址在这里如下所示摘要大型行为模型LBMs通过将模仿学习扩展到大规模多任务机器人数据训练已展现出强大的灵巧操作能力但其泛化能力仍受限于可用机器人数据的覆盖范围不足。为在不进行成本高昂的新数据收集的情况下扩展这一覆盖范围近期研究越来越依赖协同训练co-training从目标机器人数据和异构数据模态中联合学习。然而不同的协同训练数据模态和训练策略如何影响策略性能仍知之甚少。我们开展了一项大规模实证研究考察了五种协同训练数据模态——标准视觉-语言数据、机器人轨迹的密集语言标注、跨具身机器人数据、人类视频以及离散机器人动作token——在单阶段和多阶段训练策略下的表现。我们的研究利用4,000小时的机器人和人类操作数据以及5,000万视觉-语言样本来训练视觉-语言-动作VLA策略。我们在58,000次模拟推出和2,835次真实世界推出中评估了89个策略。结果表明与各种形式的视觉-语言和跨具身机器人数据进行协同训练显著提高了对分布偏移、未见任务和语言跟随的泛化能力而离散动作token变体未产生统计学上显著的收益。此外结合有效的模态可产生累积增益并通过微调实现对未见长时程灵巧任务的快速适应。我们发现仅在机器人数据上训练会降低视觉-语言模型骨干的视觉语言能力而与有效数据模态的协同训练则能恢复这些能力这一点通过标准视觉-语言、空间推理和多模态推理基准测试得到验证。最后在我们的模拟基准测试中显式地以从协同训练数据中学到的思维链轨迹为条件来生成动作并不能提高性能。总之这些结果为协同训练提供了系统性的理解并为构建可扩展的通用机器人策略提供了实用指导。I. 引言机器人学习正日益朝着能够在物理世界中感知、理解和行动的通用模型发展。近期工作侧重于训练大型行为模型LBMs[1]——在大规模多任务机器人数据集上训练的具身基础模型——以产生灵巧的操作策略。在这个家族中视觉-语言-动作模型VLAs[37,100,21,6,33,67,5]是LBMs的一个代表性子类它们整合视觉和语言输入来生成动作。尽管取得了进展LBMs在语义和空间理解以及开放世界泛化方面仍落后于非具身基础模型如视觉-语言模型VLMs[32,16,65,73]。这一限制可归因于数据规模的显著差异[25]机器人数据比用于训练VLMs的互联网规模文本和图像语料库小几个数量级。为弥合这一数据差距许多近期工作[33,44,5,39,13,61,84]采用协同训练——将目标机器人即部署具身数据与异构数据模态联合学习旨在增强模型对物理世界的理解及其泛化能力。这些协同训练数据模态包括标准视觉-语言VL数据[33,99,98,39]、机器人轨迹的密集语言标注[92,44,93,84,61,11]、跨具身机器人数据[1,50,48,69,37,38]、人类视频[10,13,88,52,90,36]以及离散机器人动作token[93,22,35,33]。尽管兴趣日益增长当前研究通常仅使用不一致的实验设置评估这些模态的子集使得协同训练的实证有效性在很大程度上仍未被充分理解。在本工作中我们通过大规模实验系统地研究不同数据模态和协同训练策略如何影响策略性能朝着通用LBM迈进。我们采用由预训练VLM骨干和动作头组成的VLA架构。我们的模型使用流匹配flow matching[46,49]进行训练以预测连续机器人动作并使用下一token目标来预测离散token。我们研究的概述如图1所示。我们评估了五种主要协同训练数据模态图21标准视觉-语言数据涵盖视觉问答、物体定位和空间推理任务提供关于物理世界的丰富常识知识。2机器人轨迹的密集语言标注通过启发式脚本和基于VLM的标注生成为动作、目标和物体关系提供显式语义标签。3跨具身机器人数据涵盖不同机器人形态和环境中的操作演示。4大规模第一人称人类视频使模型接触到超越机器人轨迹的多样化视觉背景、物体交互和运动模式。我们探索了两种利用人类视频的方法首先从帧序列中提取离散潜在动作token其次通过用视觉上下文和任务指令提示VLM来描述每帧的运动、目标和物体从而生成语言标注。5离散机器人动作token其中连续机器人动作通过基于频率的方法如FAST[58]或基于向量量化的方法如VQ-VAE[72]压缩到低维离散空间探究这种抽象是否改善泛化。我们还研究了在不同训练阶段即具有不同数据组成的训练轮次整合这些模态的策略。此外我们考察了结合有效的协同训练模态是否产生累积性能增益。我们通过在未见的长时程、灵巧任务上进行微调进一步探究协同训练是否改善表示质量。然后我们使用一套标准视觉-语言基准测试研究有效的协同训练模态如何塑造VLM骨干。最后我们研究了用于动作生成的显式思维链CoT[77]条件设定其中策略首先从协同训练数据中学习生成中间CoT轨迹然后使用它们来生成连续动作。我们的策略在模拟和真实世界环境中进行评估。总的来说我们使用约4,000小时的机器人和人类操作数据加上5,000万视觉-语言样本训练并比较了89个VLA策略。这些策略在58,000次模拟推出中进行了评估涵盖已见和未见任务、标称条件和分布偏移DS设置以及在2,835次真实世界推出中进行了评估涵盖语言跟随和长时程灵巧任务。我们的结果为协同训练LBMs提供了实用指导。总结如下1多样化的视觉-语言数据和跨具身机器人数据协同训练始终提高对分布偏移、未见任务和语言跟随的泛化能力而离散动作token变体没有收益。2结合有效的模态产生累积增益并通过微调实现对未见长时程灵巧任务更有效的适应。3仅在机器人数据上训练会侵蚀VLM骨干的视觉语言能力而有效的协同训练有助于保留这种理解这一点通过标准视觉-语言基准测试的改进性能得到反映。4在我们的模拟基准测试中显式地以从协同训练数据中学到的思维链轨迹为条件来生成动作并不能提高性能。总之这些发现构成了一个受控的、大规模的实证图谱显示了哪些协同训练信号和策略对构建可扩展的通用机器人策略最有用。II. 方法在本节中我们首先在第II-A节介绍我们的协同训练框架包括问题形式化、模型架构以及我们的协同训练和推理策略。然后在第II-B节描述如何为本研究整理目标机器人数据和多样化的协同训练数据集。A. 协同训练框架1) 问题形式化我们的目标是学习一个能够利用多样化协同训练数据模态的策略πθ。策略πθ以n张图像序列I^{1:n}和文本提示ℓ作为输入。对于连续机器人动作模型使用流匹配FM[46,49]作为学习目标进行训练。具体而言给定一个动作块A_t、一个FM时间步τ∈[0,1]以及采样的噪声ε~N(0,I)我们构造一个加噪动作块为A_t^τ τA_t (1-τ)ε。然后通过最小化以下损失来训练模型这里w是应用于CE损失的权重M_FM是指示模型是否应为给定样本预测连续动作的FM损失掩码M_CE是指定用于计算CE损失的token位置的掩码。2) 模型架构我们采用了一种视觉-语言-动作VLA架构图1该架构由一个预训练的视觉-语言模型VLM主干网络和一个流变换器动作头ActionFT组成。VLM基于PaliGemma2-PT (google/paligemma2-3b-pt-224 [65]) 进行初始化。它负责编码观察到的图像和描述任务的语言提示并且除了提供视觉-语言表征外还可以选择性地经过训练来生成文本或离散的动作令牌。为了获得用于动作生成的紧凑表征与[45]类似我们在主干网络的词表中引入了一个特殊的观察编码令牌并将其附加到文本提示的末尾。我们从VLM的最后四层中提取与该令牌对应的隐藏状态向量形成一个单一的全局条件嵌入并将其输入到ActionFT中。ActionFT遵循[1]中引入的扩散变换器设计由8个流变换器层组成每一层都通过自适应层归一化adaLNMLP [56] 以观察特征和流匹配时间步长为条件。ActionFT接收全局条件嵌入、一段添加了噪声的连续动作块以及流匹配时间变量其训练目标是预测流向量该向量引导动作朝着目标轨迹进行迭代去噪。与主流方法[6]不同我们的方法仅使用单个令牌作为视觉-语言表征而非来自所有VLM层的注意力键和值。我们的消融研究见附录1A表明这种紧凑的表征增强了模型对未见任务和分布变化的泛化能力。3) 协同训练与推理策略协同训练数据可以在模型训练的不同阶段使用。我们探索了三种策略表1(1)单阶段协同训练在单一阶段中同时在目标机器人数据和协同训练数据模态上进行训练(2)两阶段仅第一阶段协同训练第一阶段仅在协同训练模态上训练然后在第二阶段针对目标机器人连续动作进行训练(3)两阶段全协同训练第一阶段与策略(2)相同但在第二阶段同时在协同训练数据和目标机器人数据上进行训练。我们根据消融实验结果附录1B固定了训练损失权重和批次数据比例。完整的训练细节见附录2。除了研究何时引入协同训练数据外我们还考察了如何利用这些数据。虽然我们的主要方法仅将协同训练数据视为辅助监督信号但最近的研究[44, 92, 93, 67, 11, 13]表明明确地让动作预测以思维链CoT轨迹为条件可以提升策略性能。因此我们还针对选定的协同训练模态测试了这种替代范式即机器人轨迹的语言注释和视频的潜在动作。在推理时生成以思维链CoT轨迹为条件的动作时VLM主干网络首先生成一个CoT轨迹见图S4。然后将观察令牌附加到其末尾并提取由此产生的视觉-语言嵌入编码了图像、任务提示和CoT轨迹以此作为ActionFT的条件来进行连续动作预测。在训练期间我们引入了概率性的CoT条件机制以概率p策略被训练为以从协同训练数据中提取的CoT轨迹为条件来生成动作以概率1-p策略直接生成动作而不以CoT为条件。重要的是CoT条件策略与其他协同训练策略的不同之处仅在于预测出的CoT令牌直接被用来形成视觉-语言嵌入而不仅仅是提供辅助监督。我们在第三节F部分评估了这种显式的推理时CoT方法的影响。B. 数据整理我们整理了一个全面的数据集包含目标机器人专家演示数据和五种不同的协同训练模态。我们的数据集包含大约4000小时的操作数据涵盖了机器人片段和人类视频并辅以5000万个视觉-语言样本这些样本既包括标准的视觉-语言数据也包括针对机器人和人类数据的密集注释。图2展示了训练数据的概览。1) 目标机器人数据我们采用之前研究[1]中的高质量机器人数据作为主要的域内训练语料库。该数据集被称为TRI-Ramen包含523小时的操作数据涵盖403个任务和53,411次演示。它包括真实世界数据478小时362个任务46,063次演示即TRI-Ramen-Real和模拟数据45小时41个任务7,348次演示即TRI-Ramen-Sim。所有演示均通过遥操作在双Franka Panda机器人臂上收集如[1]所述。观察空间包括i) 4张RGB图像缺失的图像用零填充以及 ii) 一条自然语言指令。动作空间包括i) 相对于工作台基座的末端执行器姿态以及 ii) 夹爪宽度。如[15]所述动作被表示为相对轨迹。策略仅以当前观察为条件并预测一个视野范围为16的动作块。2) 标准视觉-语言数据为了增强模型的多模态理解能力例如语义、空间、规划我们引入了专门为机器人场景设计的视觉-语言数据集RoboPoint [91] 和 RefSpatial [96]。RoboPoint包含130万个数据样本带有820万个问答对而RefSpatial包含250万个样本带有2000万个问答对。这两个数据集都提供了针对空间指涉任务定制的注释涵盖定性视觉问答、关于物体和空间属性/关系的定量查询、点坐标预测以及多步空间推理。3) 机器人轨迹的密集语言注释为了用基于动作的文本描述来增强TRI-Ramen机器人轨迹我们采用了两种互补的注释策略(1)脚本化注释。遵循[92]的做法我们应用启发式规则通过比较未来和当前末端执行器在16步视野范围对应动作块的长度内的状态来生成每一步的低级动作原语。这些注释捕捉了机器人末端执行器的平移运动、旋转变化和夹爪状态转换。(2)基于VLM的注释。虽然脚本化注释提供了结构化的动作描述但其语言多样性有限并且缺乏关于物体和环境交互的上下文信息。为了解决这个问题我们提示一个VLMGPT-5 [53]生成丰富的、基于上下文的描述。具体来说对于每个机器人片段我们向VLM提供(i) 以2秒间隔下采样的帧接近1.6秒的动作块持续时间(ii) 片段级别的任务指令(iii) 由上述启发式规则生成的动作提示以及 (iv) 一张描绘世界坐标系以校准空间方向前/后、左/右、上/下的参考图像。然后提示VLM生成多样化的帧级动作描述捕捉与物体和环境的交互。为了实现更高的时间密度我们以两次处理的方式处理数据集两次之间有1秒的偏移从而得到每秒频率的注释。更多细节见附录3A。4) 跨 embodimen机器人数据我们采用了与[1]中相同的跨 embodimen数据集称为OXE-Ramen它是Open X-Embodiment数据集[55]的一个精选子集。该集合涵盖了多样的机器人形态和操作场景总计1,150小时涉及12种机器人设置、924个任务和466,415次演示。观察和动作空间与目标机器人数据中的相同。5) 人类视频为了从人类视频中提取关于运动和动作例如向前移动并抓取的丰富信息我们探索了两种不同的方法(1)潜在动作。我们利用公开可用的自我中心人类视频数据集例如Ego4D [28]、EgoDex [31]、Something-Something V2 [27]、Epic Kitchen [18]、HoloAssist [75]经过筛选后总计2,271小时详细数据组成见表S3。我们在人类视频、TRI-Ramen和OXE-Ramen上联合训练一个潜在动作模型LAM以学习统一的离散动作表征。给定连续帧 It, I t ∆t/2, I t∆t我们使用预训练的DINOv2 [54] 视觉编码器对其进行编码以获得视觉特征 ht, ht ∆t/2, ht∆t。遵循[13, 10]LAM使用三个模块学习一个量化码本的潜在动作码本大小C逆动力学模型IDM、视觉正向动力学模型FDM和动作正向动力学模型ActionFDM。IDM预测两个潜在动作片段 Zt:t ∆t/2, Zt ∆t/2:t∆t IDM(ht, ht ∆t/2, ht∆t) (4)而FDM重建未来的视觉特征 hˆt ∆t/2 FDM(ht, Zt:t ∆t/2) (5)hˆt∆t FDM(ht ∆t/2, Zt ∆t/2:t∆t)。 (6)为了鼓励潜在令牌在捕捉视觉变化的同时也捕捉物理动态我们额外在机器人数据TRI-Ramen, OXE-Ramen上通过重建真实动作块进行监督 Aˆt:t ∆t/2 ActionFDM(Zt:t ∆t/2) (7)Aˆt ∆t/2:t∆t ActionFDM(Zt ∆t/2:t∆t)。 (8)对于人类视频由于缺少真实动作我们省略了动作重建。训练完成后我们进行推理在每个时间步获得 Zt:t ∆t/2 和 Zt ∆t/2:t∆t将它们连接起来形成 Zt并将每个 Zt 量化为来自码本大小 C32 的 8 个离散令牌。对于机器人视频∆t 1.6秒匹配16步动作块而对于人类视频我们使用 ∆t 1.0秒以考虑更快的运动。实现细节见附录3B.1。(2)VLM生成的注释。作为潜在动作的替代方案语言也可以作为跨不同 embodimen的统一表征。它在与VLA天然兼容的同时捕捉了关于动作、目标和物体的丰富语义信息。具体来说我们向GPT-5提供(i) 以1秒间隔下采样的人类视频帧(ii) 片段级别的指令以及 (iii) 一张描绘世界坐标系三轴的参考图像。我们提示VLM生成双手的简洁运动描述包括与物体和环境交互的丰富信息。我们利用了Ego4D、EgoDex和Something-Something V2数据集产生了900万个带注释的数据样本。在训练期间我们将这些样本视为另一种形式的视觉-语言数据。更多细节见附录3B.2。6) 离散机器人动作令牌一些研究表明在连续和离散的机器人动作表征上共同训练模型可以提高样本效率和泛化能力。受此启发我们探索了两种形式的离散机器人动作令牌(1)FAST令牌。我们采用FAST [58] 将连续动作块转换为压缩的、近乎无损的离散令牌序列。我们使用现成的分词器无需微调因为我们在自己的数据上微调后观察到平均令牌长度或重建误差均无明显改善见附录3C。当应用于我们的TRI-Ramen数据集时FAST产生平均长度为42.1的序列词汇量为2,048个令牌。(2)VQ-VAE离散动作令牌。我们使用VQ-VAE [72] 在TRI-Ramen和OXE-Ramen上将动作块压缩为8个离散令牌码本大小为32。值得注意的是这些维度与从视频中学习到的潜在动作的维度相同。与FAST令牌相比这产生了一种更加紧凑、维度更低的表征。III. 实验为了系统研究协同训练数据模态和策略的有效性我们进行了大规模实验旨在解决以下研究问题不同的协同训练数据模态在不同的训练阶段引入如何影响策略在不同维度域内分布、对分布变化的泛化能力、未见任务以及语言跟随能力上的性能结合有效的协同训练模态是否能带来累积的性能提升协同训练能否提升学习到的表征质量从而通过微调实现对未见的长时程、灵巧操作任务的快速适应有效的协同训练模态如何塑造VLM主干网络明确地让动作生成以从协同训练数据中学到的思维链CoT为条件会如何影响策略性能A. 评估我们在多个重要维度上评估策略性能域内分布性能、对分布变化的鲁棒性、对未见任务的泛化能力以及语言跟随能力。我们还通过微调评估了对未见的长时程灵巧操作任务的适应能力。为此我们进行了大规模的仿真和真实世界实验图3。仿真基准我们采用[1]中提出的、基于Drake [70]构建的仿真基准。我们的基准包括13个已见任务和8个未见任务[1]中定义的3个未见任务加上5个新引入的任务以进一步探究泛化能力见附录6。每个策略在每个任务的名义条件和分布变化条件下各评估50次性能通过成功率来衡量。这13个已见任务属于训练分布之内而8个未见任务旨在探究超出训练分布的泛化能力。这些未见任务涵盖了几项挑战(i) 语义理解例如在PlaceRedFoodIntoContainer任务中识别“红色食物”或在PlaceFruitIntoContainer任务中区分水果和蔬菜(ii) 多步操作例如在PutAppleAndPearOnPlate任务中顺序放置苹果和梨以及 (iii) 组合泛化例如从“将物体A放在C上”和“将物体B放在D上”的训练演示泛化到“将物体A放在D上”。在这里“未见任务”指的是训练数据中未出现过的技能尽管其基础物体和环境是出现过的。为了评估模型对外观变化的鲁棒性我们使用仿真基准的分布变化条件该条件引入了相对于训练分布的光照、环境背景、相机参数、物体和桌面纹理以及颜色的变化。名义条件则在这些因素上与训练数据保持一致。真实世界评估我们在双臂Franka机器人平台上在以下三个设置中评估策略。策略部署的细节见附录4。语言跟随为了评估模型遵循自然语言指令的能力我们设计了一套语言引导的拾取与放置实验评估三种不同的场景(i)已见物体此设置中的物体出现在训练数据中。指令遵循简单模板“拿起[物体A]并将其放入/放在/靠近[物体B]”其中物体通过名称明确引用。(ii)指令泛化此设置通过改写指令来测试模型理解自然语言背后潜在含义的能力。具体来说策略必须 (1) 理解语义物体类别例如“书写工具”指的是笔(2) 通过物体的属性识别它们例如“带有柔软刷毛的把手”指的是刷子以及 (3) 展示对意译的鲁棒性例如改变句法和动词选择。(iii)未见物体此设置使用目标机器人训练数据中未出现的物体。指令遵循与已见物体设置相同的模板。在所有三个设置中我们评估了15种空间布局每种布局包含6-8个桌面物体。对于每种布局我们使用针对不同物体的三条不同的语言指令每个设置总共产生45次测试。对于指令泛化设置我们使用与已见物体设置相同的空间布局和目标操作结果但改变指令的措辞。完整的评估套件总共涵盖49个已见物体和52个未见物体。我们报告平均任务完成百分比作为评估指标评分细则、实验程序和评分质量保证见附录7。长时程灵巧操作为了探究协同训练是否有助于预训练模型快速适应预训练中未出现的新颖挑战性任务我们设计了三个长时程、灵巧的操作任务将物品装入网兜PackItemsIntoStringBag、将配料倒入汤锅PourIngredientsIntoSoup和收纳干净餐具StoreCleanDishes。平均而言每个任务包含13个步骤执行时间为93秒。这些任务需要超越简单拾取与放置操作的精细操作技能例如盖瓶盖、用锅铲将食物从碗里舀到锅里或者将红酒杯倒置放入碗架。对于每个任务我们收集200次演示用于微调。每个检查点在每个任务上评估30次我们报告平均任务完成百分比作为评估指标评分细则、实验程序和评分质量保证见附录7。统计分析框架我们执行了类似于近期研究[1]的严格统计分析包括成对假设检验[78, 64]和用于比较的压缩字母显示[59]。在5%的族系误差率下不共享任何CLD字母的协同训练策略在平均性能上存在显著差异。我们报告了单个策略的贝叶斯不确定性估计后验不确定性通过叠加在条形图上的小提琴图进行可视化。圆点和水平线分别表示经验均值和后验均值。任务完成结果的经验分布以及我们统计框架的更多细节见附录5。B. 不同的协同训练模态在不同的训练阶段引入如何影响策略性能我们使用第II-A3节中描述的三种策略评估每种协同训练数据模态单阶段协同训练、两阶段仅第一阶段协同训练和两阶段全协同训练。我们将从这些策略获得的策略与一个基线策略进行比较该基线策略仅使用TRI-Ramen的连续机器人动作进行训练即无协同训练基线采用流匹配目标MCE0。所有策略首先在仿真中评估结果总结在图4中。发现有效的模态随后在真实世界的语言跟随实验中进行评估图5。标准视觉-语言数据协同训练(1) 如图4A和5A所示与标准VL数据协同训练显著提高了对分布变化的鲁棒性、对未见任务的泛化能力以及语言跟随能力而在域内性能已见任务上无统计学显著变化。(2) 在我们整理的VL数据上微调预训练的VLM增强了其用于机器人操作任务的表征这由两阶段仅第一阶段协同训练相比基线的提升所证实图4A, 5A。(3) 在第二阶段继续与VL数据协同训练进一步提高了在未见任务和语言跟随特别是在未见物体上上的性能。我们假设这种持续暴露允许模型保留来自VL语料库的丰富、可泛化的知识而这些知识在机器人数据中是不存在的从而防止了灾难性遗忘。机器人数据的密集语言注释协同训练(1) 与机器人数据的脚本化图4B, 5B和基于VLM图4C, 5C的注释协同训练提高了模型对分布变化的鲁棒性、对未见任务的泛化能力以及语言跟随能力而在域内性能上无统计学显著变化。(2) 由于更大的语言多样性和对物体-环境交互的更丰富描述基于VLM的注释在未见任务和语言跟随上相比脚本化注释带来了更显著的提升图4B-C, 5B-C。(3) 在两阶段协同训练中在第二阶段加入这些注释并未带来额外益处表明它们仅在第一阶段使用时效果最佳图4B-C, 5B-C。我们认为由于这些注释描述了与机器人动作数据相同的物理轨迹它们的效用主要在于在第一阶段训练中引导语言-动作对齐而非在第二阶段引入新信息。跨Embodiment机器人数据协同训练(1) 如图4D和5D所示与跨embodiment机器人数据协同训练提高了对分布变化的鲁棒性、对未见任务的泛化能力以及语言跟随能力而在域内性能上无统计学显著变化。(2) 在两阶段协同训练中当仅限于第一阶段时跨embodiment机器人数据最为有效提供了最大的增益特别是在未见任务泛化和分布变化下的鲁棒性方面图4D。当在两阶段全协同训练的第二阶段包含它时对语言跟随能力的额外益处微乎其微。我们假设来自跨embodiment数据的多样化形态和操作策略对于在第一阶段训练中学习可泛化的视觉和行为表征最有价值。在第二阶段模型受益于专精于目标embodiment此时持续暴露于其他embodiment提供的价值有限。人类视频协同训练A) 潜在动作在单阶段协同训练中模型联合学习TRI-Ramen的连续动作和从所有视频数据TRI-Ramen, OXE-Ramen, 和人类视频中提取的离散潜在动作令牌。对于两阶段方法模型在第一阶段从所有视频数据中学习潜在动作。在两阶段全协同训练中它在第二阶段同时学习TRI-Ramen连续动作和来自所有视频数据的潜在动作。使用潜在动作的单阶段协同训练相比基线没有带来提升图4F而使用其他有效模态例如标准视觉-语言数据的单阶段协同训练则持续提升性能。另一方面对于两阶段协同训练(1) 潜在动作的第一阶段训练提高了在未见任务上的性能并且 (2) 在第二阶段加入潜在动作并未提供额外益处。这些结果表明两阶段中潜在动作第一阶段训练的好处可能源于计算量的增加而非真正的知识迁移。为了探究这一点我们设计了一个数据和计算丰富的设置比较两种策略(a)跨Embodiment协同训练基线第一阶段在所有机器人数据TRI-Ramen和OXE-Ramen上训练第二阶段在TRI-Ramen上训练此基线等同于使用跨embodiment数据的两阶段仅第一阶段协同训练没有进行潜在动作协同训练。(b)潜在动作三阶段协同训练(i) 在所有视频数据的潜在动作上训练(ii) 在所有机器人数据的连续动作上训练以及 (iii) 在TRI-Ramen上训练。值得注意的是这两种方法之间的唯一区别在于后者包含了一个额外的初始训练阶段在所有视频数据上。如图6所示在这种数据和计算丰富的设置中增加的初始潜在动作训练阶段并未带来益处。鉴于先前的研究[10, 5, 13]强调了潜在动作预训练在低目标机器人数据 regime下的效用我们进一步探索了它在不同规模机器人数据从单任务到完整机器人数据集下的有效性。图8显示潜在动作的第一阶段训练在低目标机器人数据 regime下提高了性能但随着微调机器人数据量的增加这些益处逐渐消失。B) VLM生成的注释(1) 如图4E和5E所示与人类视频的VLM生成注释协同训练提高了对分布变化的鲁棒性、对未见任务的泛化能力以及语言跟随能力而在域内性能上无统计学显著变化。(2) 在两阶段协同训练图5E中在第二阶段继续加入这些注释提高了语言跟随性能特别是在未见物体上。我们将此益处归因于人类视频中运动、物体和环境的丰富多样性这在TRI-Ramen中是不存在的。在第二阶段进行联合训练允许模型保持这种更广泛的世界知识而不是缩小到目标机器人数据的分布。离散机器人动作令牌协同训练A) FAST令牌我们的结果表明FAST令牌协同训练在所有维度上均未能提升性能并且降低了在未见任务上的泛化能力图4G。先前的研究[33, 22]表明当在机器人和标准VL数据的广泛混合上进行预训练时FAST令牌协同训练可以提高性能。为了验证这一说法我们比较了三种方法(a)VL TRI-OXE-Ramen FAST第一阶段使用FAST令牌在所有机器人数据上训练同时结合VL数据。(b)VL TRI-Ramen FAST第一阶段仅使用FAST令牌在TRI-Ramen上训练同时结合VL数据。(c)仅VL第一阶段仅使用VL数据训练。所有方法都采用相同的第二阶段通过流匹配在TRI-Ramen上学习连续动作并与标准VL数据协同训练。如图7所示FAST令牌协同训练未能提高整体性能并且降低了在未见任务上的泛化能力。然而在第一阶段包含OXE-Ramen显著优于仅在TRI-Ramen上训练这表明当扩展到更大的机器人数据集时FAST协同训练可能会证明是有益的尽管在我们当前的数据规模下它仍然无效。我们将此归因于FAST令牌作为近乎无损动作表征的本质与FAST令牌协同训练可能使VLM主干网络偏向于学习精确的动作映射而不是可泛化的特征。B) VQ-VAE离散动作令牌(1) VQ-VAE离散动作令牌协同训练在未见任务上产生了微小的改进但在分布变化条件下性能略有下降图4H。(2) 在两阶段协同训练的第二阶段加入VQ-VAE令牌并未提供额外益处。与潜在动作协同训练类似我们通过比较跨embodiment协同训练基线与VQ-VAE离散动作三阶段协同训练策略在数据和计算丰富的设置中检验其有效性。后者在第一阶段从所有机器人数据中学习VQ-VAE离散动作令牌。如图6所示VQ-VAE协同训练在此设置中未带来任何改进。总结(1) 与多样化的VL数据和跨embodiment机器人数据协同训练显著增强了模型对分布变化、未见任务的泛化能力以及语言跟随能力。值得注意的是由于其信息丰富性与标准VL数据和人类视频语言注释的协同训练对第一阶段和第二阶段协同训练都有益而机器人轨迹的语言注释和跨embodiment数据在两阶段协同训练中主要在第一阶段有效。(2) 在所有有效的协同训练数据模态中标准VL数据、基于VLM的机器人数据语言注释以及人类视频语言注释最为有益。这三种特定模态都表现为多样化的VL数据形式这表明加强VLM主干网络的VL理解能力可以转化为更好的机器人策略。(3) 在我们的实验中离散动作令牌包括从视频中提取的潜在动作、FAST令牌和从VQ-VAE学到的动作令牌协同训练未带来统计学上显著的性能提升。具体来说与FAST令牌协同训练降低了泛化能力而来自视频的潜在动作仅在低目标机器人数据 regime下提供益处且随着机器人数据比例的增加益处逐渐消失。(4) 在我们检查的所有协同训练模态中我们未观察到对域内性能有统计学显著的影响。图9比较了每种有用协同训练模态的最佳训练策略。具体来说对于标准VL和人类视频的VLM生成语言注释最佳模型对应两阶段全协同训练。对于脚本化和基于VLM的语言注释以及跨embodiment机器人数据最佳模型对应两阶段仅第一阶段协同训练。与标准VL数据、基于VLM的机器人数据注释以及人类视频注释协同训练最显著地提高了在未见任务和语言跟随上的性能。此外受益于机器人演示中不存在的丰富信息与标准VL数据和人类视频注释协同训练相比基于VLM的机器人数据注释能更有效地使模型识别未见物体。C. 结合有效的协同训练模态是否能带来累积的性能增益在确定了有效的协同训练数据模态及其最佳训练策略后我们进一步研究结合这些模态是否能带来累积效益。我们进行了一项消融研究逐步添加每个有效的数据源训练细节见表S1(1) 无协同训练的基线(2) 视觉-语言-数据仅标准VL数据协同训练(3) 机器人-注释-数据添加机器人数据的密集语言注释包括脚本化和基于VLM的(4) 人类-视频-注释-数据添加人类视频的VLM生成注释(5) 跨Embodiment-机器人-数据即最终模型添加跨embodiment机器人数据。如图10所示结合有效的协同训练模态在所有评估维度上都产生了一致的累积性能增益。我们的最终模型在所有设置中都取得了强劲的性能在仿真未见任务上达到了72.6%的经验成功率相比基线提高36.4%在真实世界语言跟随上达到了69.4%的经验平均任务完成率相比基线提高45.3%¹。D. 协同训练能否提升学习到的表征质量从而实现对未见的长时程、灵巧操作任务的快速适应先前的研究[1, 6, 33]已经证明高质量的预训练使得策略能够通过微调快速适应下游的未见任务。我们通过在我们的一系列未见的长时程、灵巧操作任务上进行微调来探究协同训练是否能提升学习到的表征质量。我们比较了三种方法(1)微调最终模型对第III-C节中的最终模型使用所有有效协同训练模态训练进行微调(2)微调基线对无协同训练基线模型仅使用TRI-Ramen训练进行微调(3)单任务没有预训练的单任务策略。如图11所示受益于我们整理的协同训练数据和协同训练策略我们的最终模型通过微调快速获得了新技能仅用200次演示就达到了90.2%的平均任务完成率——比微调基线提高了22.8%比单任务策略提高了42.9%。这表明有效的协同训练显著提升了表征质量从而使得在下游任务中能够进行更精细的动作学习。我们观察到微调基线和单任务策略的失败主要源于操作精度不足它们在PackItemsIntoStringBag任务中经常无法对准并将盖子盖在瓶子上在PourIngredientsIntoSoup任务中锅铲抓取时对不准以及在StoreCleanDishes任务中难以抓取透明杯子。相比之下微调后的最终模型始终能以高精度执行这些精细操作。E. 有效的协同训练模态如何塑造VLM主干网络为了探究VLM主干网络在协同训练过程中是如何被塑造的我们使用VLMEvalKit [23]对我们训练好的VLA策略中提取出的VLM在一套标准的视觉-语言基准上进行了基准测试。我们评估了使用单个有效协同训练模态训练的策略以及将所有有效模态相加组合训练的策略跨越三个互补的维度语义理解和推理MMBench, MME, SeedBench、空间推理RealWorldQA, GQA, SpatialEval以及规划和长期推理LEGO。我们还报告了PaliGemma2-PT用于初始化我们策略的预训练VLM和PaliGemma2-Mix主干网络的进一步微调版本用于指令跟随的结果。这些基线可以说明VLA训练和协同训练如何相对于其预训练和指令微调版本修改主干网络。图12显示了跨基准的归一化性能我们在表S4中展示了未归一化的分数。出现了几个趋势(1) 无协同训练基线在几乎所有基准上表现都很差。与PaliGemma2-PT和PaliGemma2-Mix相比它表现出显著的退化完全丧失了生成语言的能力表明仅在机器人数据上训练侵蚀了VLM主干网络从预训练中继承的视觉-语言理解能力。(2) 与标准视觉-语言数据协同训练在大多数基准上特别是在空间推理和真实世界问答方面带来了相对于PaliGemma2-PT基线的显著提升。相比之下其他单一模态在单独使用时并未带来增益。(3) 当有效协同训练模态被相加组合时VLM主干网络表现出持续的、全面的改进优于无协同训练基线和预训练的PaliGemma2-PT模型。组合模型在空间、推理和感知基准上取得了平衡的增益接近或匹配PaliGemma2-Mix的性能表明其具有更鲁棒和更全面的多模态表征。(4) 无协同训练基线表现出VLM基准性能下降和机器人任务泛化能力最弱而使用有效协同训练模态组合进行协同训练的策略提高了VLM基准分数并且在分布变化下和对未见任务也表现出更好的泛化能力。F. 明确地让动作生成以从协同训练数据中学到的思维链CoT为条件会如何影响策略性能我们研究了生成中间CoT轨迹以作为动作生成的条件是否比标准训练有任何优势。具体来说我们评估了三种自然产生类似CoT中间内容的协同训练数据类型(1) 机器人数据的脚本化注释(2) 机器人数据的基于VLM注释以及 (3) 来自视频的潜在动作。对于每种协同训练数据类型我们训练了三个额外的策略它们的CoT条件策略不同。所有三种方法都遵循第II-A3节中描述的相同的第一阶段训练程序在相应的协同训练数据上进行训练。在第二阶段所有方法都联合从连续机器人动作和协同训练数据中学习。具体来说(1)仅50%-CoT训练在第一阶段模型以50%的概率以CoT为条件生成动作。在推理时直接生成动作无需CoT。(2)50%-CoT带推理训练过程与(1)相同。在推理时模型首先生成CoT然后以其为条件进行后续动作生成。(3)100%-CoT在第二阶段模型总是以CoT为条件生成动作100%概率。在推理时模型生成CoT并以之为条件生成动作。我们将这些显式CoT策略与第II-A3节中讨论的隐式两阶段协同训练方法以及没有协同训练训练的基线策略进行了比较。如图13所示尽管显式CoT条件在某些设置中例如在未见任务上使用基于VLM的机器人数据注释进行协同训练显示出相对于基线的改进但在所有设置中它始终未能优于隐式两阶段协同训练方法并且在将基于VLM的注释和潜在动作作为CoT源时性能出现了明显的下降。这种缺乏改进的情况可归因于我们评估任务的性质。先前的研究[44, 93, 67]展示了显式CoT生成的好处它们通常评估需要多步规划或复杂语义推理的任务。相比之下我们的仿真基准侧重于目标明确且有即时视觉反馈的操作任务其中从观察到动作的映射相对直接。在这样的设置中协同训练期间学到的隐式推理似乎就足够了使得显式CoT生成变得多余。观察到的性能下降尤其是在基于VLM的注释和潜在动作方面可能源于两个因素。首先这些协同训练数据源可能包含固有的不准确性——VLM生成的注释可能误解视觉场景或动作而潜在动作模型可能捕获无关的视觉变化如背景变化而非真正的动作语义。其次与脚本化注释相比这两个源产生的CoT内容更丰富、更复杂。当明确地以此类CoT为条件生成动作时生成的CoT中的任何错误或不精确性都会直接传播到后续的动作预测中加剧了最初的误差并导致操作行为不够精确。IV. 相关工作A. 大型行为模型开发能够感知、理解和在物理世界中行动的通用策略是机器人技术的核心目标。早期的机器人学习系统依赖于在有限的机器人演示上训练的特定任务策略[42, 24, 83]这限制了它们在狭窄训练分布之外的泛化能力。相比之下LBM在模型容量和数据集规模上都扩展了模仿学习并在灵巧任务上展示了令人印象深刻的性能[1]。LBM中一个 prominent的类别是VLA [37, 100, 21, 6, 33, 22, 68, 67, 5, 80, 79]它们集成了预训练的VLM [4, 65, 47, 73] 主干网络。代表性的例子包括如[6, 33, 63]中所示将VLM与动作头配对以及完全自回归模型[39, 58, 26]。尽管在数据扩展方面做出了努力但与VLM等非具身基础模型相比VLA对新物体、环境和指令表现出有限的泛化能力[1, 94, 97]。这种泛化差距主要源于训练数据可用性的巨大差异[25, 55]机器人数据集比用于VLM的互联网规模文本和图像语料库小数个数量级。B. 用于机器人学习的协同训练为了弥合有限机器人数据与互联网规模多模态资源之间的差距许多研究采用了与多样化数据模态的协同训练。公共VL数据集[14, 71, 89, 19, 91, 96]富含常识知识并且与VLA架构自然兼容被广泛用于协同训练机器人策略[33, 99, 98, 39]。除了公共数据集最近的研究[44, 84, 61, 93]直接在机器人轨迹上构建具身推理VL数据集纳入了丰富的规划和空间信息。这些努力显示出证据表明与多样化的视觉-语言数据协同训练可以增强泛化能力[33, 44]并改进VLM为操作任务学习到的表征[11, 84]。几项工作探索了使用跨embodiment机器人数据进行协同训练。一些努力[2, 20, 85, 86, 7]直接在多个机器人embodiment数据上训练单个策略使统一模型能够与不同的形态一起操作。[6, 33, 22, 50, 48]在预训练期间加入跨embodiment数据以学习可泛化的、与embodiment无关的表征随后适应特定的目标机器人。[69, 1, 37, 38, 62]利用Open X-Embodiment数据集[55]这是一个来自许多机器人平台的大规模演示聚合旨在提高鲁棒性和泛化能力。与通常需要遥操作收集的机器人数据相比人类视频提供了更具可扩展性的数据源。许多工作[41, 52, 36, 40, 51]明确地从视频中提取动作标签例如手部姿态用于策略协同训练然而获得准确的标签通常需要额外的传感模态如VR设备[60, 90]或可穿戴外骨骼[81, 66]。另一条研究线[9, 88, 13, 8, 12, 5]探索了潜在动作表征通过使用诸如VQ-VAE [72]之类的方法从视频帧中提取离散动作令牌这可以作为跨不同embodiment的、编码运动信息的统一表征。然而这些方法仅在低目标机器人数据 regime下得到验证。将连续机器人动作离散化为令牌允许策略将动作生成视为序列建模问题。除了简单的按维度分箱方法[37, 100]之外先进的方法[58, 76]采用基于频率的技术例如FAST分词器或向量量化例如VQ-VAE来压缩动作空间。值得注意的是依赖离散令牌进行低级控制通常会导致精度有限[22]和推理速度慢[58, 39]。为了缓解这个问题最近的方法[33, 22, 35, 93]仅将这些令牌用于预训练或协同训练目标同时保留一个用于连续动作生成的动作头。这种策略已被证明可以提高样本效率和泛化能力。C. 用于机器人控制的思维链受CoT在处理复杂任务时为语言模型带来巨大益处的启发[29, 34, 77, 95]最近的研究[92, 33, 11, 43]探索了将CoT应用于机器人控制。具体来说这些方法首先生成中间内容然后以此作为动作生成的条件。这个中间内容可以是语言性的例如子任务分解或视觉基础信息例如物体位置[44, 93, 67, 30, 87]也可以是控制中心的例如末端执行器运动[39, 3]和潜在动作[10, 13]。虽然CoT已被证明对长时程任务或需要复杂推理的任务有益[44, 93, 67]但比较 (i) 明确地以预测的CoT轨迹为条件的策略与 (ii) 将相同的CoT内容仅用作辅助协同训练目标的策略这两者之间的实证证据还很有限。对于目标清晰明确的操作任务这种证据尤其不足。V. 讨论、局限性与未来工作我们提出了一项大规模实证研究系统地剖析了多样化协同训练数据和策略对LBM性能的影响。我们的研究结果表明与视觉-语言数据和跨embodiment机器人数据协同训练显著增强了对分布变化、未见任务的泛化能力以及语言跟随能力而离散动作令牌变体未带来统计学上显著的益处。此外我们表明结合有效的模态可以产生累积的性能增益并通过微调实现对灵巧、长时程任务的快速适应。值得注意的是在所有有用的协同训练模态中多样化的视觉-语言数据——包括标准数据集以及为机器人和人类视频提供的丰富注释——展示了最显著的改进。这一观察结果与良好调节器定理[17]相呼应该定理指出一个系统必须包含其运行世界的内部模型隐式或显式才能有效地调节它。在我们的设定中强大的基础模型如VLM恰恰提供了这样的内部模型它们对物理世界有着丰富的语义和空间理解。我们的结果表明朝着真正通用机器人策略的进展与这些基础模型的进步有着内在联系。具体来说VLM基准测试结果证实了这种解释与有效数据模态协同训练不仅提高了下游机器人性能而且还保留了VLM主干网络本身的视觉-语言推理、空间理解和感知能力。虽然这种模式在我们评估的模型中是一致的但还需要进一步的研究来更严格地表征主干网络视觉-语言理解与策略泛化之间的关系。有趣的是我们发现对于具有明确即时目标的操作任务明确地以从协同训练数据中学到的CoT为条件生成动作并没有带来益处这表明在协同训练期间学到的隐式推理对于此类设置就足够了。虽然我们的研究提供了有希望的见解但应承认几个局限性。首先虽然我们检查了各种来源的视觉-语言数据但我们没有按任务分类法例如视觉问答、图像描述、目标检测、空间推理系统地分析它们的影响。理解不同的视觉-语言任务类别如何影响特定的策略能力将能够实现更具针对性和样本效率的数据整理。其次我们仅通过潜在动作和语言注释探索了人类视频的粗粒度表征。随着手部姿态估计技术的进步和灵巧机器人手的不断发展从人类视频中明确提取精细的灵巧运动可能成为一种有价值的协同训练信号。第三我们对CoT的探索仅限于从我们的协同训练数据中自然产生的形式——主要是缺乏高级规划或复杂推理的低级动作抽象。未来的工作可以研究更丰富的CoT形式例如历史和反思轨迹或针对需要复杂决策任务的分层计划。最后我们的研究仅关注模仿学习在替代学习范式如世界建模或强化学习中探索协同训练仍然是开发可扩展通用策略的一个开放前沿。

A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot

相关文章：

A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot

从控制器视角解析DDR4 DIMM：UDIMM、RDIMM与LRDIMM的实战选型指南

DownKyi：自媒体创作者的视频资源效能倍增工具

湿度计算不再难：从绝对湿度到相对湿度的保姆级教程（含Python代码示例）

魔法粘贴快速入门 (2分钟)

Android tinyalsa深度解析之pcm_params_format_test调用流程与实战(一百六十八)

别再只用官方商店了！手把手教你给CasaOS添加这8个宝藏第三方应用源

避坑指南：LeRobot项目舵机配置中的5个常见错误及解决方法（飞特STS3215专用）

Android tinyalsa深度解析之pcm_params_get_mask调用流程与实战(一百六十七)

Anaconda3环境变量配置避坑指南：解决‘conda command not found‘问题

大模型初探：收藏这份指南，小白也能轻松入门！

WeKnora：面向深层文档理解与智能检索的 RAG 框架

3分钟掌握NCM解密：开源工具ncmdump实现网易云音乐跨平台播放自由

【亲测】笔记本token免费，window下本地养个龙虾（Openclaw+Ollama）看看?

颠覆传统：3倍效率提升的Markdown到PPT智能转换解决方案

洛谷：P5743 【深基7.习8】猴子吃桃

Android开发必知：fitsSystemWindows的正确使用姿势（附常见问题排查）

【Python】Flask与Django对比详解：教你如何选择最适合你的Web框架

RAPTOR与C语言实战：经典算法练习精解（附完整代码）

别再用-O2了！航天级C项目实测：-Og -fno-omit-frame-pointer -mthumb -mfloat-abi=hard 这组参数让故障率下降89.7%（附MISRA-C合规报告）

带标注的麻将识别数据集，六千多张图片，识别率96.7%，可识别麻将的点数和类型，如1条，8萬，2饼東南西北中發白板等，支持yolo，coco json，pascal voc xml格式

Scroll Reverser终极指南：如何让macOS触控板和鼠标滚动方向完美共存

Fish-Speech-1.5实战教程：从安装到生成，手把手教你制作多语言语音

Genshin FPS Unlocker：突破帧率枷锁的技术革新与实战指南

从零到一：OptimizePI Pre-layout PDN前仿真实战指南

小白程序员必看：掌握Skills轻松玩转大模型应用与工作流自动化（收藏版）

STEM实战指南：短时基因表达谱的聚类分析与GO富集解读

收藏！2026年AI产品经理必备：从需求洞察到模型调优全链路实战指南

从阻抗/参数灵敏度到系统诊断：新能源并网系统小干扰稳定性的主导因素挖掘与交互机理剖析

halcon 中gen_gauss_filter 的数学原理与高斯加权