当前位置: 首页 > article >正文

【第四周】论文精读:DARP: Difference-Aware Retrieval Policies for Imitation Learning

前言行为克隆Behavior Cloning, BC是模仿学习中最简单且广泛使用的方法但其在部署时极易受分布偏移Covariate Shift影响导致误差累积和策略崩溃。来自华盛顿大学与丰田研究所等机构的研究团队提出了DARP (Difference-Aware Retrieval Policies)一种半参数的检索增强模仿学习框架。DARP 创新性地不再直接学习“状态到动作”的全局映射而是通过检索训练数据中的k kk个最近邻利用查询状态与邻居状态的差异向量来预测局部动作并通过聚合生成最终决策。理论证明 DARP 隐式实现了拉普拉斯平滑Laplacian Smoothing能有效抑制高频方差。实验显示DARP 在连续控制、机器人操作及高维视觉任务中相比标准 BC 取得了15%-46%的性能提升且无需任何额外数据或专家反馈。关键词解释BC学习关键词解释拉普拉斯平滑 (Laplace Smoothing) 论文基本信息项目内容论文标题Difference-Aware Retrieval Policies for Imitation Learning核心方法名DARP (Difference-Aware Retrieval Policies)作者Quinn Pfeifer, Ethan Pronovost, Paarth Shah, et al.所属机构University of Washington, Toyota Research Institute, Google DeepMind, Mila发表年份2026 (ICLR Conference Paper)核心领域Imitation Learning, Behavior Cloning, Retrieval-Augmented Generation, Manifold Regularization关键数据集MuJoCo (Hopper, Ant, etc.), Robosuite, RoboCasa, Push-T (Multi-modal)代码开源承诺公开源代码与配置 研究背景与痛点1. 行为克隆BC的致命弱点协变量偏移误差累积BC 仅在专家演示的状态分布上最小化监督损失。一旦部署中因微小误差进入分布外OOD状态策略往往产生高方差、不可靠的动作导致任务失败。全局拟合的局限传统 BC 试图用一个全局参数化函数拟合所有数据容易在低密度区域产生剧烈震荡过拟合噪声缺乏对数据流形结构的感知。2. 现有解决方案的不足显式正则化如添加平滑性惩罚项需要调节超参数λ \lambdaλ且可能改变优化景观。纯非参数方法如最近邻策略RP或局部加权回归LWR虽能利用局部结构但难以处理多模态分布且对距离度量极度敏感泛化能力弱。额外依赖许多改进方法需要模拟器、在线专家反馈或次优数据违背了纯 BC 的设定。3. DARP 的核心洞察隐式流形正则化通过将“邻域聚合”操作嵌入到模型架构中而非损失函数中可以隐式地实现拉普拉斯平滑无需调节正则化系数。差异感知Difference-Aware仅检索邻居状态是不够的必须显式输入查询状态与邻居状态的差异向量Δ s s n e i g h b o r − s q u e r y \Delta s s_{neighbor} - s_{query}Δssneighbor​−squery​让模型学习动作随状态微扰的变化规律。半参数优势结合了参数化模型的学习能力处理多模态、复杂映射和非参数检索的鲁棒性锚定在真实数据分布上。️ 核心方法DARP 架构详解DARP 的工作流程分为训练和推理两个阶段核心在于重新参数化了策略函数。1. 策略重参数化传统 BC 学习π ( s ) → a \pi(s) \to aπ(s)→a。DARP 学习一个条件函数f θ f_\thetafθ​其输入为三元组( s i ∗ , a i ∗ , Δ s i ) (s^*_i, a^*_i, \Delta s_i)(si∗​,ai∗​,Δsi​)其中s i ∗ , a i ∗ s^*_i, a^*_isi∗​,ai∗​检索到的专家邻居状态及其动作。Δ s i s i ∗ − s q \Delta s_i s^*_i - s_qΔsi​si∗​−sq​邻居状态与当前查询状态s q s_qsq​的差异向量。2. 推理流程Inference对于任意查询状态s q s_qsq​检索Retrieval从训练集D ∗ D^*D∗中检索k kk个最近邻状态{ s i ∗ } i 1 k \{s^*_i\}_{i1}^k{si∗​}i1k​基于欧氏距离或嵌入空间距离。局部预测Local Prediction对每个邻居计算差异向量Δ s i \Delta s_iΔsi​输入网络得到候选动作a i ′ f θ ( s i ∗ , a i ∗ , Δ s i ) a_i f_\theta(s^*_i, a^*_i, \Delta s_i)ai′​fθ​(si∗​,ai∗​,Δsi​)注这里显式利用差异向量使模型能根据当前位置相对邻居的偏移自适应调整动作。聚合Aggregation通过置换不变函数g ψ g_\psigψ​如平均或 Set Transformer聚合所有候选动作a ^ q g ψ ( { a i ′ } i 1 k ) \hat{a}_q g_\psi(\{a_i\}_{i1}^k)a^q​gψ​({ai′​}i1k​)若g gg为平均则隐含高斯分布假设。若g gg为参数化网络如 Set Transformer可输出高斯混合模型GMM或扩散模型参数处理多模态动作。3. 训练目标尽管架构复杂训练目标依然是标准的行为克隆损失MSE 或 NLLL E ( s q , a q ) ∼ D ∗ [ ∥ a ^ q − a q ∥ 2 ] \mathcal{L} \mathbb{E}_{(s_q, a_q) \sim D^*} [ \| \hat{a}_q - a_q \|^2 ]LE(sq​,aq​)∼D∗​[∥a^q​−aq​∥2]关键点不需要修改损失函数添加正则项。架构本身的设计检索 差异输入 聚合隐式强制了策略在数据流形上的平滑性。4. 理论保证隐式拉普拉斯平滑谱分析论文证明 DARP 的聚合操作等价于在k kk-NN 图上应用了一个固定的低通滤波器ϕ ( μ ) 1 − μ \phi(\mu) 1 - \muϕ(μ)1−μ其中μ \muμ是图拉普拉斯特征值。效果该滤波器保留了低频模式平滑变化的动作强力抑制了高频模式剧烈震荡的噪声且无需像显式正则化那样调节λ \lambdaλ参数。这保证了策略在局部邻域内的 Lipschitz 连续性从而提升稳定性。 实验结果与分析作者在多个基准测试中评估了 DARP涵盖低维状态、高维视觉及多模态任务。1. 性能全面超越 BC (Q1)在 MuJoCo 和 Robosuite/RoboCasa 任务中DARP 均取得显著提升MuJoCo ( locomotion):Hopper: DARP (3545) vs BC (2313) -提升 53%。HalfCheetah: DARP (5515) vs BC (1063) -提升 418%(极端案例BC 几乎失效)。Robosuite (Manipulation):Stack: DARP (72%) vs BC (47%) -提升 53%。Threading: DARP (63%) vs BC (37%) -提升 70%。对比其他基线DARP 显著优于纯非参数方法RP, LWR和显式正则化方法MRIL, CCIL。2. 高维视觉与多模态适应性 (Q2)视觉输入在使用 R3M 图像嵌入作为状态输入时DARP 的平均提升幅度~35%甚至高于低维状态任务证明其在高维空间中更能利用局部结构。多模态动作在Push-T任务需多模态策略中结合 GMM 头的 DARP 达到70%成功率远超 BC 的48%。不连续环境在专门设计的“长迷宫”不连续环境中DARP (57%) 依然大幅领先 BC (25%)证明差异向量和聚合机制能有效区分看似相近但动作迥异的状态。3. 消融实验关键发现 (Q3)差异向量 (Δ s \Delta sΔs) 至关重要移除差异向量仅输入s i ∗ , a i ∗ s^*_i, a^*_isi∗​,ai∗​导致性能大幅下降证明模型必须感知“相对位置”才能做出正确修正。置换不变聚合使用置换相关Permutation-dependent的聚合器会破坏性能验证了理论中关于对称性的假设。邻居动作的作用虽然重要但相比差异向量其贡献略小不过保留a i ∗ a^*_iai∗​仍能提供直接的行动参考。4. 鲁棒性与发散分析发散点分析在 BC 失败的 rollout 中DARP 往往能在 BC 进入低概率 OOD 状态时利用邻近的高概率专家数据将其“拉回”正轨。恢复能力即使在 BC 已经严重偏离的分支上启动 DARP它也能迅速恢复高分表现而 BC 无法自救。 主要创新点总结架构即正则化Architecture as Regularization首次提出通过检索增强的架构设计隐式实现拉普拉斯平滑避免了显式正则化超参数调节的麻烦同时保持了标准 BC 的训练目标。差异感知机制Difference-Aware Mechanism创新性地将状态差异向量作为核心输入使模型能够学习动作场在局部流形上的梯度变化而非死记硬背绝对状态的动作。半参数策略范式巧妙结合了非参数检索的数据锚定能力减少外推风险和参数化网络的表达能力处理多模态和复杂映射在鲁棒性和灵活性之间找到了最佳平衡点。理论驱动的谱分析从谱图理论角度严格证明了 DARP 等价于一个固定的低通滤波器为检索增强策略的平滑性提供了坚实的数学基础。⚠️ 局限性与挑战检索开销推理时需要实时检索k kk个最近邻虽然论文指出在k 500 k500k500时仍能满足 200Hz 的控制频率但在超大规模数据集上可能需要高效的近似最近邻搜索ANN。距离度量敏感性虽然对欧氏距离和余弦相似度表现稳健但在极高维或语义复杂的视觉空间中距离度量的选择仍需谨慎需配合好的表征如 R3M。存储需求需要存储完整的专家演示数据集用于推理这在内存受限的嵌入式机器人平台上可能是一个挑战。 总结与工程建议《DARP》展示了如何通过简单的架构修改检索 差异输入 聚合来解决模仿学习中长期存在的分布偏移问题。它证明了利用训练数据进行推理时增强Test-time Augmentation with Training Data的巨大潜力。 对开发者的实战建议引入检索增强推理在部署 BC 策略时不要丢弃训练数据。构建一个向量数据库在推理时检索相似的历史状态利用这些信息修正当前预测。使用差异向量作为特征在设计检索增强模型时务必计算Query 与 Neighbor 的差异向量Δ x x n e i g h b o r − x q u e r y \Delta x x_{neighbor} - x_{query}Δxxneighbor​−xquery​并输入网络。这比单纯拼接绝对状态更能激发模型的局部泛化能力。隐式平滑替代显式正则如果面临策略震荡问题尝试这种“检索 - 预测 - 聚合”的架构而不是盲目调整 Loss 中的正则化系数。这种架构天然具有低通滤波效果。处理多模态分布聚合模块可以使用Set Transformer或DeepSets结构输出 GMM 或扩散模型参数从而优雅地处理多模态动作分布避免平均化导致的模糊动作。高效检索优化对于实时系统结合 FAISS 等库进行近似最近邻搜索并限制k kk的大小论文建议k ≈ 500 k \approx 500k≈500即可达到最优以平衡精度与延迟。一句话总结DARP 通过“差异感知的检索聚合”架构将训练数据转化为推理时的稳定器以极小的工程代价实现了模仿学习在分布外状态下的鲁棒性飞跃是构建高可靠机器人策略的优选方案。参考文献[1] Pfeifer Q, Pronovost E, Shah P, et al. Difference-Aware Retrieval Policies for Imitation Learning[C]//The Thirteenth International Conference on Learning Representations (ICLR). 2026.

相关文章:

【第四周】论文精读:DARP: Difference-Aware Retrieval Policies for Imitation Learning

前言:行为克隆(Behavior Cloning, BC)是模仿学习中最简单且广泛使用的方法,但其在部署时极易受分布偏移(Covariate Shift)影响,导致误差累积和策略崩溃。来自华盛顿大学与丰田研究所等机构的研究…...

Phi-3-mini-128k-instruct入门:C语言基础问题解答与代码纠错

Phi-3-mini-128k-instruct入门:C语言基础问题解答与代码纠错 如果你刚开始学C语言,是不是经常被指针绕晕,或者对着自己写的代码不知道错在哪?别担心,这几乎是每个C语言初学者的必经之路。传统的学习方式,要…...

SOONet模型STM32项目展示:在嵌入式设备上实现离线视频摘要查询

SOONet模型STM32项目展示:在嵌入式设备上实现离线视频摘要查询 最近在捣鼓一些嵌入式设备上的AI应用,发现了一个挺有意思的方向:让那些资源受限的小设备,也能具备一些智能化的视频理解能力。比如,你车上的行车记录仪&…...

用Python和Pandas分析4万条攻击日志:从数据清洗到词云生成的全流程实战

用Python和Pandas分析4万条攻击日志:从数据清洗到词云生成的全流程实战 网络安全领域的数据分析正成为企业防御体系的核心能力。当面对数万条原始攻击日志时,如何快速提取有价值的信息?本文将手把手带你用Python完成从原始数据到可视化洞察的…...

基于Qwen3-ASR-1.7B的智能语音搜索系统

基于Qwen3-ASR-1.7B的智能语音搜索系统 1. 引言 想象一下这样的场景:你正在开车,突然想到要查一家餐厅的评价,但双手握着方向盘不方便打字。或者你在厨房做饭,手上沾满面粉,却想马上知道某个菜谱的详细步骤。这时候&…...

Granite TimeSeries FlowState R1预测效果实测:销售额预测误差低于3%

Granite TimeSeries FlowState R1预测效果实测:销售额预测误差低于3% 最近和一位做零售的朋友聊天,他正为库存问题头疼。备货多了怕积压,备货少了又怕错失销售机会,传统的预测方法总是差那么点意思,尤其是在搞促销活动…...

别再只盯着像素了!用FreMIM的频域视角,5分钟看懂医学图像分割的“全局观”

频域革命:FreMIM如何用傅里叶变换重塑医学图像分割认知 当我们凝视一张X光片时,眼睛捕捉的是空间域中的明暗变化——骨骼的轮廓、组织的阴影。但若将视线转向频域,看到的将是完全不同的图景:低频分量勾勒器官的整体形态&#xff0…...

Windows 11下OpenVINO 2022.1保姆级安装指南(AMD CPU实测可用)

Windows 11下OpenVINO 2022.1在AMD平台的实战部署指南 当大多数开发者认为OpenVINO只能在Intel硬件上运行时,我们却在AMD Ryzen 7 5800H上成功完成了全套计算机视觉模型的部署。本文将打破"Intel Only"的认知局限,手把手带你完成从环境准备到模…...

收藏!小白也能看懂:Anthropic 大模型 Agent 技术深度解析 (MCP+PTC+Skills+Subagents)

本文深入剖析了 Anthropic 公司提出的 MCP、PTC、Skills 和 Subagents 四大 Agent 技术概念,旨在帮助开发者更好地理解和构建智能 Agent 系统。MCP 作为标准化工具连接协议,PTC 优化了工具调用效率,Skills 以模块化方式为 LLM 注入专业知识&a…...

OpCore-Simplify:让黑苹果配置从复杂到简单的革命性工具

OpCore-Simplify:让黑苹果配置从复杂到简单的革命性工具 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 在传统黑苹果配置领域&#xff0c…...

Qwen All-in-One避坑指南:纯净技术栈部署,彻底杜绝依赖冲突

Qwen All-in-One避坑指南:纯净技术栈部署,彻底杜绝依赖冲突 1. 引言:为什么需要All-in-One方案 1.1 传统多模型架构的痛点 在AI应用开发中,我们常常遇到这样的困境:为了实现一个完整的功能,需要组合多个…...

YOLOv13镜像新手教程:环境激活、代码目录,快速上手不求人

YOLOv13镜像新手教程:环境激活、代码目录,快速上手不求人 1. 从零开始:为什么你需要这个镜像 如果你刚接触目标检测,或者被YOLO系列复杂的依赖和环境配置搞得头大,那么这篇文章就是为你准备的。YOLOv13作为最新的实时…...

用MoveIt玩转机械臂:从RVIZ交互控制到真实硬件对接全流程

用MoveIt实现机械臂虚实联动的工程实践指南 当仿真环境中的机械臂轨迹规划已经稳定运行,如何将这套系统无缝迁移到真实硬件上?这是许多机器人开发者面临的第一个实质性挑战。MoveIt作为ROS生态中最成熟的运动规划框架,其价值不仅在于提供可视…...

前端密码安全实践:MD5加盐加密的深度解析与应用

1. 为什么前端密码加密非做不可? 几年前我接手过一个项目,客户数据库泄露导致所有用户密码裸奔。看着后台日志里那些明晃晃的"123456"和"password",我意识到前端加密不是选择题而是必答题。即便后端有加密措施&#xff…...

74HC590硬件计数器原理与Arduino工程实践

1. 74HC590 基础原理与工程定位 1.1 器件本质:非微控制器时代的精密时序协处理器 74HC590 并非传统意义上的“可编程器件”,而是一颗高度集成的 同步8位二进制计数器输出锁存器复合芯片 。其核心价值在于以纯硬件方式完成三项关键时序任务&#xff1a…...

计算机毕业设计springboot基于的就业推荐系统 基于Spring Boot框架的求职招聘智能撮合与人才推荐系统开发 Spring Boot驱动的个性化职业发展与岗位精准匹配系统构建

计算机毕业设计springboot基于的就业推荐系统(配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。当前高校毕业生规模持续扩大,就业市场竞争日趋激烈,求职者面…...

【MCP协议性能突围白皮书】:20年架构师实测17项关键指标,REST API已落后3.8倍?

第一章:MCP协议性能突围白皮书导言MCP(Microservice Communication Protocol)作为面向云原生微服务架构设计的轻量级通信协议,正面临高并发、低延迟与强一致性的三重挑战。传统HTTP/1.1或gRPC over TLS在千节点级服务网格中暴露出…...

技术揭秘:OpenCore Legacy Patcher如何突破Mac硬件限制实现系统兼容

技术揭秘:OpenCore Legacy Patcher如何突破Mac硬件限制实现系统兼容 【免费下载链接】OpenCore-Legacy-Patcher 体验与之前一样的macOS 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher OpenCore Legacy Patcher是一项革命性的开…...

Z-Image-Turbo-辉夜巫女在软件测试中的应用:自动化生成测试用例配图

Z-Image-Turbo-辉夜巫女在软件测试中的应用:自动化生成测试用例配图 1. 引言 你有没有遇到过这样的场景?写一份详细的测试报告,或者整理测试用例文档,文字描述得清清楚楚,但总觉得缺了点什么。对,就是缺一…...

终端开发者利器:OpenClaw操控百川2-13B实现CLI智能补全

终端开发者利器:OpenClaw操控百川2-13B实现CLI智能补全 1. 为什么开发者需要AI驱动的终端助手? 作为常年与终端打交道的开发者,我经常陷入这样的困境:面对复杂的Git操作时反复查阅文档,执行Docker命令时记不清参数顺…...

Win11Debloat:5分钟让你的Windows 11系统焕然一新

Win11Debloat:5分钟让你的Windows 11系统焕然一新 【免费下载链接】Win11Debloat 一个简单的PowerShell脚本,用于从Windows中移除预装的无用软件,禁用遥测,从Windows搜索中移除Bing,以及执行各种其他更改以简化和改善你…...

Qwen3-ForcedAligner-0.6B提示工程:提升专业术语识别准确率的技巧

Qwen3-ForcedAligner-0.6B提示工程:提升专业术语识别准确率的技巧 1. 引言 字幕生成在医学、法律等专业领域一直是个头疼的问题。普通语音识别模型处理日常对话还行,但一遇到"冠状动脉粥样硬化"、"不可抗力条款"这类专业术语&…...

AI首次推荐的底层逻辑:不是人为操控,而是概率匹配

AI首次推荐的底层逻辑:不是人为操控,而是概率匹配不少企业在接触AI搜索优化(AEO/GEO)时,常会遇到“自研引擎”“强制首推”“智能占位”等营销概念,容易被引导认为存在可以操控AI推荐的技术手段。实际上&am…...

Qwen3-VL-8B辅助C语言教学:代码流程图与讲解视频自动生成

Qwen3-VL-8B辅助C语言教学:代码流程图与讲解视频自动生成 1. 引言 如果你教过C语言,或者自己学过,肯定有过这样的经历:面对一段关于指针或链表的代码,脑子里得先把它“画”出来,才能理解它到底是怎么跑的…...

百川2-13B模型本地化部署进阶:处理403 Forbidden等常见网络问题

百川2-13B模型本地化部署进阶:处理403 Forbidden等常见网络问题 部署大模型,最怕的不是代码报错,而是服务跑起来了,浏览器却给你一个冷冰冰的“403 Forbidden”。这感觉就像你千辛万苦配好了钥匙,走到家门口却发现门锁…...

从PDM到PCM:搞懂数字麦克风音频流转换,附C语言实现与性能优化技巧

从PDM到PCM:数字麦克风音频流转换的深度实践与优化 在嵌入式音频处理领域,数字麦克风因其抗干扰能力强、集成度高等优势逐渐成为主流选择。然而,PDM(脉冲密度调制)信号到PCM(脉冲编码调制)的转…...

Fish Speech-1.5语音合成惊艳效果:中文相声台词、英语脱口秀风格语音生成

Fish Speech-1.5语音合成惊艳效果:中文相声台词、英语脱口秀风格语音生成 你有没有想过,让AI模仿郭德纲说一段相声,或者用美式脱口秀的腔调讲个笑话?这听起来像是科幻电影里的场景,但今天,借助Fish Speech…...

酒店会议厅租赁全攻略:酒店哥哥带你从选址到签约

办一场会议,最让人头秃的是什么?不是写PPT,而是找场地!做会务的朋友应该都懂,租酒店会议厅这事,看似简单,实则踩坑无数:翻遍全网找场地信息,打十几个电话才拿到报价&…...

从文献收藏到智慧洞见:基于Zotero与MCP的本地AI研究助手实战

1. 为什么需要本地AI研究助手? 作为一名长期泡在文献堆里的研究者,我深刻理解那种"收藏一时爽,整理火葬场"的焦虑。Zotero里躺着上千篇PDF,每次开题都要重新翻找关键论文,这种低效的循环我经历过太多次。直到…...

Python与C++双管齐下:Gmsh二次开发环境配置实战教程

Python与C双管齐下:Gmsh二次开发环境配置实战教程 在工程仿真与科学计算领域,网格划分是数值模拟的关键前置步骤。作为一款开源、跨平台的有限元网格生成器,Gmsh凭借其灵活的API设计和强大的几何处理能力,正在成为CAE工程师和研究…...