论文阅读笔记——RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATION
RDT-1B 论文
模型表达与泛化能力:由于双臂操作中动作空间维度是单臂空间的两倍,传统方法难以建模其多模态分布。
数据:双臂数据少且不同机器人的物理结构和动作空间差异(如关节数、运动范围)导致数据分布不一致,直接合并训练可能引发负迁移(negative transfer)。
负迁移是迁移学习(Transfer Learning)中的一种现象,指在将一个领域(或任务)的知识迁移到另一个领域(或任务)时,由于源域(source domain)和目标域(target domain)之间的差异过大或不匹配,导致迁移后的模型性能反而比不迁移时更差。
研究的是基于语言指令的双臂视觉操作。
给定一条语言指令 l \mathcal{l} l ,策略接受在时间 t ∈ N + t\in\mathbb{N}^+ t∈N+ 的观测 o t o_t ot,输出动作 a t a_t at。观测 o t : = X t − T i m g + 1 : t + 1 , z t , c o_t:={X_{t-T_{img}+1:t+1},z_t,c} ot:=Xt−Timg+1:t+1,zt,c 其中 X t − T i m g + 1 : t + 1 : = { X t − T i m g + 1 , … … , X t } X_{t-T_{img}+1:t+1}:=\{X_{t-T_{img}+1},……,X_t\} Xt−Timg+1:t+1:={Xt−Timg+1,……,Xt} 为 长度为 T i m g T_{img} Timg 的 RGB 视觉观测历史序列。 z t z_t zt 表示机器人在当前时刻的低维本体感知(如关节角度,末端位姿等),c 表示控制频率。(频率是为了让模型考虑数据集中不同控制频率带来的挑战)
在大规模多机器人数据集 D p r e \mathcal{D}_{pre} Dpre (主要为单臂数据)上预训练模型,然后在目标机器人数据集 D f t \mathcal{D}_{ft} Dft 上微调: D = { ( l ( i ) , o t ( i ) , a t ( i ) ) ∣ 0 ≤ t < T ( i ) , 1 ≤ i < N } \mathcal{D}=\{(\mathcal{l}^{(i)},o_t^{(i)},a_t^{(i)})|0≤t<T^{(i)},1≤i<N\} D={(l(i),ot(i),at(i))∣0≤t<T(i),1≤i<N} 其中 T ( i ) T^{(i)} T(i) 是第 i 条轨迹长度,N 是轨迹数量。
- 如果将策略建模为确定性映射 ( l , o t ) − > a t (\mathcal{l},o_t)->a_t (l,ot)−>at 并回归训练数据中的 ( l ( i ) , o t ( i ) , a t ( i ) ) (\mathcal{l}^{(i)},o_t^{(i)},a_t^{(i)}) (l(i),ot(i),at(i))。策略将学习动作的“平均值”,且由于机器人的物理量(动作和本体感受)是非线性动态且不稳定。故而选择建模条件分布。
通过如下公式,得到扩散建模:
a t k − 1 = α ˉ k − 1 β k 1 − α ˉ k a t 0 + α k ( 1 − α ˉ k − 1 ) 1 − α ˉ k a t k + σ k z , k = K , … , 1 β k = 1 − α k α ˉ k − 1 : = ∏ i = 1 k − 1 α i \begin{aligned}a_t^{k-1}=\frac{\sqrt{\bar{\alpha}^{k-1}}\beta^k}{1-\bar{\alpha}^k}a_t^0+\frac{\sqrt{\alpha^k}(1-\bar{\alpha}^{k-1})}{1-\bar{\alpha}^k}a_t^k+\sigma^k\boldsymbol{z},\quad k=K,\ldots,1 \\\beta^k=1-\alpha^k\qquad \bar{\alpha}^{k-1}:=\prod^{k-1}_{i=1}\alpha^i\end{aligned} atk−1=1−αˉkαˉk−1βkat0+1−αˉkαk(1−αˉk−1)atk+σkz,k=K,…,1βk=1−αkαˉk−1:=i=1∏k−1αi

异构性数据输入,且兼容多模态:
- 低维输入是表示机器人物理量的低维向量,采用带傅里叶特征的 MLP,捕捉高频变化。对于每个机器人,用单一的空间容纳 z t z_t zt 和 a t a_t at( a t a_t at 通常是 z t + 1 z_{t+1} zt+1 的一个子集)。设计一个统一的空间——根据其物理意义将原始动作向量的每个元素填充到统一动作空间向量的相应位置,将机器人的动作空间嵌入到这个统一空间中,剩余的位置则进行填充。

- 图像输入是高维的(1152)采用 SigLIP 编码,有三个视图——静态外部视图、右手腕视图和左手腕视图,选择两帧作为一个输入 X t − 1 : t + 1 : = ( { X t − 1 1 , X t − 1 2 , X t − 1 3 } , { X t 1 , X t 2 , X t 3 } ) X_{t-1:t+1}:=(\{X_{t-1}^1,X_{t-1}^2,X_{t-1}^3\},\{X_{t}^1,X_{t}^2,X_{t}^3\}) Xt−1:t+1:=({Xt−11,Xt−12,Xt−13},{Xt1,Xt2,Xt3})。
- 语言输入采取 T5-XXL 编码
修改网络 DiT(解决不稳定性和非线性特征):
- 采取 QKNorm 解决计算注意力时的不稳定性问题,同时该任务可被视为时间序列预测任务,原始 DiT 的 LayerNorm 的中心化操作可能导致 token 偏移和注意力偏移,从而破坏时间序列的对称性,采取没有中心操作的 RMSNorm。(传感器失灵等导致机器人数据出现极端值,可能导致梯度不稳定和数值溢出等)。
- 为提高机器人对非线性动作的逼近能力,用非线性 MLP 替换最终的线性解码器。
- 在连续层的交叉注意力策略性交替注入文本和图像(图像的维度远高于文本维度,同时将两种模态注入主干网络,往往图像会淹没文本)。
实验结果

相关文章:
论文阅读笔记——RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATION
RDT-1B 论文 模型表达与泛化能力:由于双臂操作中动作空间维度是单臂空间的两倍,传统方法难以建模其多模态分布。 数据:双臂数据少且不同机器人的物理结构和动作空间差异(如关节数、运动范围)导致数据分布不一致&#x…...
Vue中将pdf文件转为图片
平时开发中,我们经常遇到的场景应该是调用后端接口返回给前端pdf格式的文件流,然后我们可以通过URL.createObjectURL的方式转为object url临时路径然后可以通过window.open的方式来打开一个新的浏览器页签来进行预览,效果如下图: 但有时候这样满足不了的需求,它不想这样预…...
day39——输入操作:多值输入
数组输入: int main() {//***** 1、多值输入(C)/*输入:3 --> 3个值5 4 9*/int n;cin >> n; //输入个数const int MAX_SIZE 0xFFFF;//限定最大个数int a[MAX_SIZE];for (int i 0; i < n; i) {//用 n 作控制输入…...
微软的 Copilot 现在可以浏览网页并为您执行操作
在庆祝其 50 岁生日之际,微软正在向其人工智能驱动的 Copilot 聊天机器人传授一些新技巧。 从 BASIC 到 AI,改变世界的公司:微软 微软表示,Copilot 现在可以在“大多数网站”上采取行动,使其能够预订门票、预订餐厅等…...
elasticsearch 7.17 索引模板
文章目录 概要 概要 模板 import cn.hutool.core.util.ObjectUtil; import cn.hutool.core.util.StrUtil; import cn.introns.framework.es.builder.OperationsBuilder; import java.util.HashMap; import java.util.Map;abstract class AbstractBuilder<T extends Abstrac…...
深入理解Python元组:从基础到高级应用
1. 元组基础认知 1.1 什么是元组 不可变序列:元组(tuple)是Python内置的不可变序列类型异构容器:可以存储不同类型的数据(与列表类似)语法特征:使用圆括号()定义,元素间用逗号分隔 # 基本示例 t1 (1, 2…...
【零基础入门unity游戏开发——动画篇】unity旧动画系统Animation组件的使用
考虑到每个人基础可能不一样,且并不是所有人都有同时做2D、3D开发的需求,所以我把 【零基础入门unity游戏开发】 分为成了C#篇、unity通用篇、unity3D篇、unity2D篇。 【C#篇】:主要讲解C#的基础语法,包括变量、数据类型、运算符、…...
Python+AI提示词用贝叶斯样条回归拟合BSF方法分析樱花花期数据模型构建迹图、森林图可视化
原文链接:https://tecdat.cn/?p41308 在数据科学的领域中,我们常常会遇到需要处理复杂关系的数据。在众多的数据分析方法中,样条拟合是一种非常有效的处理数据非线性关系的手段。本专题合集围绕如何使用PyMC软件,对樱花花期数据进…...
记一个.NET AOT交叉编译时的坑
记一个.NET AOT交叉编译时的坑 背景: 使用.NET9开发的Avalonia项目需要部署到Linux-arm64 踩坑: 根据官方AOT交叉编译文档配置后执行打包 dotnet publish -r linux-arm64提示error : The PrivateSdkAssemblies ItemGroup is required for _ComputeA…...
消息中间件对比与选型指南:Kafka、ActiveMQ、RabbitMQ与RocketMQ
目录 引言 消息中间件的定义与作用 消息中间件在分布式系统中的重要性 对比分析的四种主流消息中间件概述 消息中间件核心特性对比 消息传递模型 Kafka:专注于发布-订阅模型 ActiveMQ:支持点对点和发布-订阅两种模型 RabbitMQ:支持点…...
实战打靶集锦-38-inclusiveness
文章目录 1. 主机发现2. 端口扫描&服务枚举3. 服务探查4.系统提权 靶机地址:https://download.vulnhub.com/inclusiveness/Inclusiveness.ova 1. 主机发现 目前只知道目标靶机在192.168.56.xx网段,通过如下的命令,看看这个网段上在线的主…...
JVM 学习计划表(2025 版)
JVM 学习计划表(2025 版) 📚 基础阶段(2 周) 1. JVM 核心概念 JVM 作用与体系结构 理解 JVM 在 Java 跨平台运行中的核心作用,掌握类加载子系统、运行时数据区、执行引擎的交互流程内存结构与数据存…...
Unhandled exception: org.apache.poi.openxml4j.exceptions.InvalidFormatException
代码在main方法里面没有报错,在Controller里面就报错了。 原来Controller类里面少了行代码 import org.apache.poi.openxml4j.exceptions.InvalidFormatException; 加上去就解决了。...
Java的Selenium元素定位-xpath
xpath其实就是一个path(路径),一个描述页面元素位置信息的路径,相当于元素的坐标xpath基于XML文档树状结构,是XML路径语言,用来查询xml文档中的节点。 绝对定位 从根开始找--/(根目录)/html/body/div[2]/div/form/div[5]/button缺…...
【QT】Qt5 QtWebEngine使用教程
目录 1、QtWebEngine相比于QtWebKit的优势2、项目配置2.1 确认 Qt 版本2.2 在.pro 文件中添加依赖3、显示网页4、实现Qt和网页JavaScript之间的交互4.1 Qt执行网页的JavaScript代码4.2 JavaScript调用Qt对象的函数QtWebEngine 是 Qt 框架中用于在应用程序中嵌入 Web 内容的模块…...
python基础-13-处理excel电子表格
文章目录 【README】【13】处理Excel电子表格【13.1】Excel文档【13.2】安装openpyxl模块【13.3】读取Excel文档【13.3.1】使用openpyxl模块打开excel文档【13.3.2】从工作簿取得工作表【13.3.3】从工作表sheet获取单元格cell【13.3.5】从表中获取行和列【13.3.6】工作簿、工作…...
03.unity开发资源 获取
03.unity开发资源 获取 提示:帮帮志会陆续更新非常多的IT技术知识,希望分享的内容对您有用。本章分享的是Python基础语法。前后每一小节的内容是存在的有:学习and理解的关联性,希望对您有用~ unity简介-unity基础 第三节 …...
设计模式简述(四)模板方法模式
模板方法模式 描述基本定义使用 描述 当一系列业务的基本流程是相同的,对于不同的业务可以在各自子类实现 所谓模板方法指的就是父类中固定的那部分代码 其实这里的思想和前面设计原则中开闭原则的描述是一致的,父类中的模板代码就是稳定的部分&#x…...
OpenCV界面编程
《OpenCV计算机视觉开发实践:基于Python(人工智能技术丛书)》(朱文伟,李建英)【摘要 书评 试读】- 京东图书 OpenCV的Python开发环境搭建(Windows)-CSDN博客 OpenCV也支持有限的界面编程,主要是针对窗口、控件和鼠标…...
【leetcode】记录与查找:哈希表的题型分析
前言 🌟🌟本期讲解关于力扣的几篇题解的详细介绍~~~ 🌈感兴趣的小伙伴看一看小编主页:GGBondlctrl-CSDN博客 🔥 你的点赞就是小编不断更新的最大动力 🎆那么废话不…...
AntDesign下,Select内嵌Menu标签,做一个多选下拉框,既可以搜索,还可以选择下拉项
话不多说,直接上效果和代码 效果图一: 效果图二: renderAddStyleOption (item: any) > {const { value } this.props;const { currentSelectedOptionIds, currentStyleId } this.state;const styleSettings value?.styleSettings;c…...
css炫酷的3D水波纹文字效果实现详解
炫酷的3D水波纹文字效果实现详解 这里写目录标题 炫酷的3D水波纹文字效果实现详解项目概述技术栈核心实现1. 基础布局2. 渐变背景3. 文字效果实现3.1 基础样式3.2 文字漂浮动画 4. 水波纹效果4.1 模糊效果4.2 水波动画 5. 交互效果 技术要点项目难点与解决方案总结 项目概述 在…...
P1036 [NOIP 2002 普及组] 选数(DFS)
题目描述 已知 n 个整数 x1,x2,⋯,xn,以及 1 个整数 k(k<n)。从 n 个整数中任选 k 个整数相加,可分别得到一系列的和。例如当 n4,k3,4 个整数分别为 3,7,12,19 时,可得全部的组合与它…...
PyTorch中.pth文件的解析及应用
文章目录 一、.pth文件简介二、如何保存.pth文件三、如何加载.pth文件跨硬件加载加载后操作 四、.pth文件的结构与内容解析.pth文件示例 五、.pth文件的优缺点优点缺点 六、常见应用场景七、模型文件体积优化技巧问题背景解决方案效果对比 八、总结九、参考 一、.pth文件简介 …...
【doris】在线事务处理
目录 1. 说明2. 特点3. 应用场景4. 技术实现5. OLTP 与 OLAP 的对比6. 挑战7. 发展趋势 1. 说明 1.OLTP(Online Transaction Processing,在线事务处理) 是一种用于处理大量日常事务操作的数据库系统类型。2.它主要面向实时性要求高、数据操作…...
后端思维之高并发处理方案
前言 在互联网时代,高并发已经成为后端开发者绕不开的话题。无论是电商平台的秒杀活动、抢购系统,还是社交应用的高频互动,高并发场景的出现往往伴随着巨大的技术挑战。 如何在流量激增的同时,确保系统稳定运行、快速响应…...
OpenCV 图形API(10)用于执行标量除以矩阵的逐元素操作函数divRC()
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 描述 标量除以矩阵。 函数 divRC 将给定的标量除以矩阵 src 的每个元素,并将结果保存在与 src 具有相同大小和类型的新的矩阵中: …...
14.2linux中platform无设备树情况下驱动LED灯(详细编写程序)_csdn
我尽量讲的更详细,为了关注我的粉丝!!! 因为这跟之前的不一样,提出来驱动的分离和分层。 提到驱动分离和分层,必然可以联系上一章咱们知道的驱动-总线-设备。 在无设备树的状态下,必然要写寄存…...
K8s的BackUP备份
文章目录 1、kubeadm 安装的单 master 节点数据备份和恢复方式2、Velero 工具3、Velero 服务部署4、备份还原数据 ETCD备份/还原有多种类型,取决于你 k8s 集群的搭建方式 1、kubeadm 安装的单 master 节点数据备份和恢复方式 拷贝 etcdctl 至 master 节点…...
Ruoyi-vue plus 5.2.2 flowble设计流程点击开始流程图错误
网关设置条件或者是事件删除后出现,点击网关节点无法找到下面的事件节点。 配置页面事件错误,点背景配置进去了事件,发现再次加载,或者删除的时候VUE页面无法加载。 解决方式:查看XML文件,这个节点是否存在…...

