ICRA 2024:基于视觉触觉传感器的物体表⾯分类的Sim2Real双层适应⽅法
⼈们通常通过视觉来感知物体表⾯的性质,但有时需要通过触觉信息来补充或替代视觉信息。在机器⼈感知物体属性⽅⾯,基于视觉的触觉传感器是⽬前的最新技术,因为它们可以产⽣与表⾯接触的⾼分辨率 RGB 触觉图像。然⽽,这些图像需要⼤量的数据进⾏训练,⽽在现实世界中收集这些数据可能很困难。虽然已经提出了模拟器来解决这个问题,但它们很难以⾼保真度重现机械特性和光分布效果。因此,本⽂旨在通过使⽤从DIGIT传感器收集的少量真实未标记图像训练扩散模型(Diffusion Model)来填补模拟和真实图像之间的差距。
论⽂地址: https://arxiv.org/abs/2311.01380
作者提出了⼀个可以区分平⾯、曲线、边缘和⻆落四种类别的表⾯分类器,并使⽤从 YCB 模型集中的对象表⾯均匀采样的模拟图像进⾏训练。为了标记这些图像,作者在对象⽹格上采样点云,并使⽤⾃动过程评估每个点的局部曲率来提取标签。作者在⼗个 3D 打印的 YCB 对象上测试了分类器,并与仅使⽤模拟图像训练的分类器进⾏了⽐较。实验结果表明,作者的⽅法在分类任务中取得了更好的准确性。
1.相关⼯作
作者对⽐了其他基于视觉触觉传感器的物体表⾯分类的相关⼯作。
在 Sim2Real ⽅⾯,⼀些⼯作通过模拟真实传感器的⾏为来减⼩ Sim2Real 差距。还有⼀些⽅法试图减⼩模拟和真实图像之间的领域差异。与之不同,作者的⼯作是利⽤来⾃ TACTO 的模拟图像,通过在真实图像上训练的 DM 进⾏转换,以模拟凝㬵的真实变形和传感器的光传输。
Learning to Read
Braille: Bridging the Tactile Reality
Gap with Diffusion Models
https://arxiv.org/abs/2304.01182
这份⼯作中也采取了类似的⽅法,但是其使⽤的 DM 是使⽤附加深度的图⽚中训练出来的,⽽这些图⽚来⾃于
MidasTouch: Monte-Carlo
inference over distributions across sliding touch
https://arxiv.org/abs/2210.14210
训练的⽹络。在作者的例⼦中,并不需要这个⽹络,只依赖于 RGB 的图像。
在基于视觉触觉传感器的物体感知⽅⾯,没有直接使⽤基于视觉触觉传感器对物体表⾯进⾏分类的⼯作。作者参考了其它推断物体的类似属性的⼯作,如形状估计或识别表⾯上可能的接触点等。
2.⽅法
本⽂的⽅法主要包括两个层次的适应,以减⼩模拟和真实数据之间的差距,并提⾼分类性能。⾸先,本⽂采⽤概率 DM(Diffusion Model)来翻译模拟图像,以减⼩模拟和真实图像之间的领域差异。其次,本⽂使⽤领域对抗训练(Domain-Adversarial Training of Neural Networks,DANN)⽅法来进⼀步调整模型特征,以提⾼分类性能。
2.1模拟数据的获取和标记
⾸先,使⽤ Poisson disk sampling ⽅法从物体⽹格中提取均匀分布的点云,并考虑传感器在法线⽅向上的旋转和穿透深度,模拟 DIGIT 传感器产⽣的图像。然后,使⽤⼀个简单⽽有效的算法对点云中的每个点进⾏分类,将其标记为平⾯、曲线、边缘或⻆点。通过这种⽅式,⾃动化地获取和标记了模拟数据。整个过程确保了数据的多样性和标记的准确性。
2.2图像级适应
由于 DIGIT 传感器获得的模拟图像和真实图像表现出的显著差异,作者提出了⼀种⽆监督的转换⽅法来解决这两个域之间的域转移问题。具体来说,作者通过训练⼀个 DM 模型来根据模拟图像⽣成对应真实世界域的图像,在训练之后,可以在模拟图像中引⼊随机噪声,再通过 DM 反向降噪,最终⽣成对应真实⻛格的图像。
2.3特征级适应
虽然经过 DM 处理,图像的域移已经显著减少,但还存在⼀些残余的差异,为了解决这个问题,作者利⽤⼀种称为神经⽹络的对抗性域⾃适应训练(DANN)的经典对抗性⽅法来学习域不变表⽰。作者使⽤ Dinov2 的⽅法,使⽤预训练 ViT 作为特征提取器,并训练瓶颈层和分类器将特征映射到域不变空间和⽬标类别,并且使⽤判别器来区分真实和模拟图像,⽽瓶颈层则被优化为使两个域的特征⽆法区分。
2.4训练和测试数据集
作者⼀共使⽤三个数据集,第⼀个数据集Trainreal包含 5000 个从⽇常物品获取的真实图像。第⼆个数据集Trainsim包括从 10 个YCB 物体⽣成的 50000 个模拟图像。第三个数据集Testreal包含 792 个从3D 打印的YCB物体获取的真实图像,⽤于评估⽬的。这些数据集⽤于训练扩散⽅法(DM)和使⽤领域对抗训练神经⽹络(DANN)的分类器,并在Testreal上进⾏测试。
3.实验结果
作者通过评估分类器在每个对象上的准确性和每个类别的 F1 分数,来评估分类器的性能。并进⾏了⼏项消融研究,以调查 DM 和 DANN 程序的作⽤。除了分类任务外,作者还将此⽅法应⽤于估计 6D 物体姿态的流⽔线(Pipeline)中,以展⽰其在实际任务中的有效性。
3.1表⾯分类实验
作者通过对⽐
None:未经过翻译的模拟图像
Tactile Diffusion: 上⽂提到的扩散模型图像翻译
Ours:论⽂中提出的⽅法并且对于每个对⽐项内,分别对⽐是否使⽤ DANN,结论如下
Accuracy
F1-Score根据实验结果,作者的⽅法在表⾯类型分类任务中表现出⾊,特别是在⻆部类别(corner)上取得不错的性能表现。实验结果表明,作者提出的分类器和⾃动标注程序的结合对于提供传感器在物体表⾯接触位置的假设是有⽤的。
3.2 6D 物体姿态估计实验
作者通过使⽤
Collision-aware In-hand
6D Object Pose Estimation using Multiple Vision-based Tactile Sensors
https://arxiv.org/abs/2301.13667
提到的算法来估计与 N 个触觉传感器接触的物体的 6D 姿态。通过输⼊触觉图像和机器⼈本体感知的传感器姿态来估计物体的 6D 姿态,并且替换了⽂中的假设提取部分,⽤本⽂提出的表⾯分类器来⽣成假设,之后在每个对象上使⽤了 3 个传感器进⾏实验,并结合了从分类实验中收集的多种传感器姿态。
实验通过⽐较输出姿态和基准姿态,评估位置误差和 ADI-AUC 指标,具体结果如下
本⽂⽅法相对于⼏何基准⽅法,在位置误差上减少了⼀半,旋转指标提⾼了超过⼗个百分点。实验结果表明了使⽤触觉反馈(表⾯分类器)显著降低了位置误差,并提⾼了旋转精度。由此验证了本⽂⽅法在实际应⽤中的有效性。
4.局限性与结论
虽然本⽂的⽅法在减少 Sim2Real 的域差异和提⾼物体表⾯分类与 6D 物体姿态估计的准确性⽅⾯表现出了显著优势,作者认为仍然存在 2 个⽅⾯的不⾜DIGIT传感器的弹性体需要适度的⼒才能突出表⾯差异。如果接触⼒不⾜,可能会影响⽅法的效果。扩散模型的训练和图像翻译时间较⻓,尽管模型在不同设备上⽆需重新训练,但时间消耗仍不可忽视。未来将探索本⽂⽅法在其他机器⼈任务中的应⽤,并研究新的适应机制以进⼀步提⾼分类精度,同时处理多表⾯同时接触的情况。
相关文章:

ICRA 2024:基于视觉触觉传感器的物体表⾯分类的Sim2Real双层适应⽅法
⼈们通常通过视觉来感知物体表⾯的性质,但有时需要通过触觉信息来补充或替代视觉信息。在机器⼈感知物体属性⽅⾯,基于视觉的触觉传感器是⽬前的最新技术,因为它们可以产⽣与表⾯接触的⾼分辨率 RGB 触觉图像。然⽽,这些图像需要⼤…...

代理模式(设计模式)
文章目录 静态代理动态代理代理模式的应用场景动态代理和静态代理的区别 代理模式就是给一个对象提供一个代理,并由代理对象控制对原对象的引用。它使得客户不能直接与真正的目标对象通信。代理对象是目标对象的代表,其他需要与这个目标对象打交道的操作…...

C++函数参数传递
C 函数传参 在C中,函数传递参数的方式主要有三种: 按值传递(pass by value)按引用传递(pass by reference)按指针传递(pass by pointer)。 比较与总结 按值传递:适用…...

软考初级网络管理员_09_网络单选题
1.下列Internet应用中对实时性要求最高的是()。 电子邮件 Web浏览 FTP文件传输 IP电话 2.在Internet中的大多数服务(如WWW、FTP等)都采用()模型。 星型 主机/终端 客户机/服务器 网状 3.子网掩码的作用是()。 可以用来寻找网关 可以区分IP和MAC 可以识别子网 可以…...

曲线拟合 | 二次B样条拟合曲线
B 样条曲线拟合实例:能平滑化曲线 1. 实例1 为MASS包中mcycle数据集。它测试了一系列模拟的交通车事故中,头部的加速度,以此来评估头盔的性能。times为撞击时间(ms),accel为加速度(g)。首先导入数据&#…...

delphi FDMemTable1.SourceView遍历各行数据,取任意行数据无需Next移动指针了。TFDDatSView
for m : 0 to FDMemTable1.SourceView.Rows.Count - 1 do begin if FDMemTable_SP.SourceView.Rows.ItemsI[m].GetData(0) varNull then Continue; end; 9行7列的值。 FDMemTable1.Data.DataView.Rows.ItemsI[9].ValueI[7]; FDMemTable1.Table.Ro…...

为什么选择 ABBYY FineReader PDF ?
帮助用户们对PDF文件进行快速的编辑处理,同时也可以快速识别PDF文件里的文字内容,并且可以让用户们进行文本编辑,所以可以有效提升办公效率。 ABBYY-ABBYY Finereader 15 Win-安装包:https://souurl.cn/OY2L3m 高级转换功能 ABBY…...

php遇到的问题
1、 underfined at line 3 in xxx.php , 错误提示,注释这行代码 // error_reporting(DEBUG ? E_ALL : 0); 目录:config/config.php...

零基础入门学用Arduino 第二部分(二)
重要的内容写在前面: 该系列是以up主太极创客的零基础入门学用Arduino教程为基础制作的学习笔记。个人把这个教程学完之后,整体感觉是很好的,如果有条件的可以先学习一些相关课程,学起来会更加轻松,相关课程有数字电路…...

旅游行业电商平台:数字化转型的引擎与未来发展趋势
引言 旅游行业数字化转型的背景和重要性 随着信息技术的飞速发展,数字化转型成为各行业发展的必然趋势。旅游行业,作为一个高度依赖信息和服务的领域,数字化转型尤为重要。通过数字化手段,旅游行业能够实现资源的高效配置、服务的…...

Ubuntu 22.04安装 docker
安装过程和指令 # 1.升级 apt sudo apt update # 2.安装docker sudo apt install docker.io docker-compose # 3.将当前用户加入 docker组 sudo usermod -aG docker ${USER} # 4. 重启 # 5. 查看镜像 docker ps -a 或者 docker images # 6. 下载镜像 docker pull hello-world …...

【Gitlab】访问默认PostgreSQL数据库
本地访问PostgreSQL gitlab有可以直接访问内部PostgreSQL的命令 sudo gitlab-rails dbconsole # 或者 sudo gitlab-psql -d gitlabhq_production效果截图 常用SQL # 查看用户状态 select id,name,email,state,last_sign_in_at,updated_at,last_credential_check_at,last_act…...

乐鑫ESP32-C3芯片应用,启明云端WT32C3-S5模组:简化产品硬件设计
在数字化浪潮的推动下,物联网(IoT)正迅速成为连接现实世界与数字世界的桥梁。芯片作为智能设备的心脏,其重要性不言而喻。 乐鑫推出的ESP32-C3芯片以其卓越的性能和丰富的功能,为智能物联网领域带来了新的活力,我将带您深入了解这…...

算法刷题【二分法】
题目: 注意题目中说明了数据时非递减的,那么这样就存在二分性,能够实现logn的复杂度。二分法每次只能取寻找特定的某一个值,所以我们要分别求左端点和有端点。 分析第一组用例得到结果如下: 成功找到左端点8 由此可知࿰…...

.NET MAUI Sqlite程序应用-数据库配置(一)
项目名称:Ownership(权籍信息采集) 一、安装 NuGet 包 安装 sqlite-net-pcl 安装 SQLitePCLRawEx.bundle_green 二、创建多个表及相关字段 Models\OwnershipItem.cs using SQLite;namespace Ownership.Models {public class fa_rural_base//基础数据…...

基于WPF技术的换热站智能监控系统09--封装水泵对象
1、添加用户控件 2、编写水泵UI 控件中用到了Viewbox控件,Viewbox控件是WPF中一个简单的缩放工具,它可以帮助你放大或缩小单个元素,同时保持其宽高比。通过样式和属性设置,你可以创建出既美观又功能丰富的用户界面。在实际开发中…...

GLM+vLLM 部署调用
GLMvLLM 部署调用 vLLM 简介 vLLM 框架是一个高效的大型语言模型(LLM)推理和部署服务系统,具备以下特性: 高效的内存管理:通过 PagedAttention 算法,vLLM 实现了对 KV 缓存的高效管理,减少了…...

leetcode 122 买卖股票的最佳时机||(动态规划解法)
题目分析 题目描述的已经十分清楚了,不做过多阐述 算法原理 状态表示 我们假设第i天的最大利润是dp[i] 我们来画一下状态机 有两个状态,买入后和卖出后,我们就可以使用两个dp表来解决问题 f[i]表示当天买入后的最大利润 g[i]表示当天卖出…...

C++设计模式---组合模式
1、介绍 组合模式(Composite)是一种结构型设计模式,也被称为部分-整体模式。它将复杂对象视为由多个简单对象(称为“组件”)组成的树形结构,这些组件能够共享相同的行为。每个组件都可能包含一个或多个子组…...

工厂方法模式(大话设计模式)C/C++版本
工厂方法模式 C 参考:https://www.cnblogs.com/Galesaur-wcy/p/15926711.html #include <iostream> #include <memory> using namespace std;// 运算类 class Operation { private:double _NumA;double _NumB;public:void SetNumA(){cout << &…...

[NCTF 2018]flask真香
打开题目后没有提示框,尝试扫描后也没有什么结果,猜想是ssti。所以尝试寻找ssti的注入点并判断模版。 模版判断方式: 在url地址中输入{7*7} 后发现不能识别执行。 尝试{{7*7}} ,执行成功,继续往下走注入{{7*7}},如果执…...

性能测试3【搬代码】
1.Linux服务器性能分析命令及详解 2.GarafanainfluxDB监控jmeter数据 3.GarafanaPrometheus监控服务器和数据库性能 4.性能瓶颈分析以及性能调优方案详解 一、无界面压测时, top load average:平均负载 htop 二、Garafana监控平台 传统项目:centosphpm…...

<tesseract><opencv><Python>基于python和opencv,使用ocr识别图片中的文本并进行替换
前言 本文是在python中,利用opencv处理图片,利用tesseractOCR来识别图片中的文本并进行替换的一种实现方法。 环境配置 系统:windows 平台:visual studio code 语言:python 库:pyqt5、opencv、tesseractOCR 代码介绍 本文程序功能实现,主要依赖于tesseractOCR这个库,…...

海南云亿商务咨询有限公司解锁抖音电商新纪元
在当今数字化浪潮中,抖音电商以其独特的魅力和强大的用户基础,迅速成为企业营销的新宠。海南云亿商务咨询有限公司,作为专注于抖音电商服务的领先企业,凭借专业的团队和丰富的经验,为众多企业提供了高效、精准的电商服…...

arm64架构 统信UOS搭建PXE无盘启动Linux系统(麒麟桌面为例)
arm64架构 统信UOS搭建PXE无盘启动Linux系统(麒麟桌面为例) 搞了好久搞得头疼哎 1、准备服务器UOS服务器 准备服务IP 这里是192.168.1.100 1.1、安装程序 yum install -y dhcp tftp tftp-server xinetd nfs-utils rpcbind 2、修改配置 2.1、修改dhcpd.c…...

SpringBoot 实现 阿里云语音通知(SingleCallByTts)
目录 一、准备工作1.开通 阿里云语音服务2.申请企业资质3.创建语音通知模板,审核通过4.调用API接口---SingleCallByTts5.调试API接口---SingleCallByTts 二、代码实现1.导入依赖 com.aliyun:aliyun-java-sdk-dyvmsapi:3.0.22.创建工具类,用于发送语音通知…...

IDEA 连接GitHub仓库并上传项目(同时解决SSH问题)
目录 1 确认自己电脑上已经安装好Git 2 添加GitHub账号 2.1 Setting -> 搜索GitHub-> ‘’ -> Log In with Token 2.2 点击Generate 去GitHub生成Token 2.3 勾选SSH后其他不变直接生成token 2.4 然后复制token添加登录账号即可 3 点击导航栏中VCS -> Create…...

vue/react/js 常用的原生获取当前页面的url网址的相关方法
目录 第一章 场景 第二章 总结 第一章 场景 最近实现需求时遇到这么一种情况: 本地url —— 线上url —— 需求:需要将token清除掉 注意事项:token不是#/后面的参数,说明并不是我们前端返回的,vue路由的方法使用不…...

java-final 关键字
## Java中的final关键字 ### 1. final关键字的基本概念 final是Java中一个非常重要的关键字,用于声明常量、阻止继承和重写,确保类、方法和变量的不可变性。具体来说,final关键字可以用来修饰类、方法和变量(包括成员变量和局部…...

ARM32开发--IIC软实现
知不足而奋进 望远山而前行 目录 文章目录 前言 开发流程 GD32F4软件I2C初始化 GD32F4软件I2C引脚功能 写操作 读操作 总结 前言 在嵌入式系统开发中,软件实现的I2C通信协议扮演着至关重要的角色。本文将深入探讨如何在GD32F4系列微控制器上实现软件I2C功能…...