ICRA 2024:基于视觉触觉传感器的物体表⾯分类的Sim2Real双层适应⽅法
⼈们通常通过视觉来感知物体表⾯的性质,但有时需要通过触觉信息来补充或替代视觉信息。在机器⼈感知物体属性⽅⾯,基于视觉的触觉传感器是⽬前的最新技术,因为它们可以产⽣与表⾯接触的⾼分辨率 RGB 触觉图像。然⽽,这些图像需要⼤量的数据进⾏训练,⽽在现实世界中收集这些数据可能很困难。虽然已经提出了模拟器来解决这个问题,但它们很难以⾼保真度重现机械特性和光分布效果。因此,本⽂旨在通过使⽤从DIGIT传感器收集的少量真实未标记图像训练扩散模型(Diffusion Model)来填补模拟和真实图像之间的差距。
论⽂地址: https://arxiv.org/abs/2311.01380
作者提出了⼀个可以区分平⾯、曲线、边缘和⻆落四种类别的表⾯分类器,并使⽤从 YCB 模型集中的对象表⾯均匀采样的模拟图像进⾏训练。为了标记这些图像,作者在对象⽹格上采样点云,并使⽤⾃动过程评估每个点的局部曲率来提取标签。作者在⼗个 3D 打印的 YCB 对象上测试了分类器,并与仅使⽤模拟图像训练的分类器进⾏了⽐较。实验结果表明,作者的⽅法在分类任务中取得了更好的准确性。
1.相关⼯作
作者对⽐了其他基于视觉触觉传感器的物体表⾯分类的相关⼯作。
在 Sim2Real ⽅⾯,⼀些⼯作通过模拟真实传感器的⾏为来减⼩ Sim2Real 差距。还有⼀些⽅法试图减⼩模拟和真实图像之间的领域差异。与之不同,作者的⼯作是利⽤来⾃ TACTO 的模拟图像,通过在真实图像上训练的 DM 进⾏转换,以模拟凝㬵的真实变形和传感器的光传输。
Learning to Read
Braille: Bridging the Tactile Reality
Gap with Diffusion Models
https://arxiv.org/abs/2304.01182
这份⼯作中也采取了类似的⽅法,但是其使⽤的 DM 是使⽤附加深度的图⽚中训练出来的,⽽这些图⽚来⾃于
MidasTouch: Monte-Carlo
inference over distributions across sliding touch
https://arxiv.org/abs/2210.14210
训练的⽹络。在作者的例⼦中,并不需要这个⽹络,只依赖于 RGB 的图像。
在基于视觉触觉传感器的物体感知⽅⾯,没有直接使⽤基于视觉触觉传感器对物体表⾯进⾏分类的⼯作。作者参考了其它推断物体的类似属性的⼯作,如形状估计或识别表⾯上可能的接触点等。
2.⽅法
本⽂的⽅法主要包括两个层次的适应,以减⼩模拟和真实数据之间的差距,并提⾼分类性能。⾸先,本⽂采⽤概率 DM(Diffusion Model)来翻译模拟图像,以减⼩模拟和真实图像之间的领域差异。其次,本⽂使⽤领域对抗训练(Domain-Adversarial Training of Neural Networks,DANN)⽅法来进⼀步调整模型特征,以提⾼分类性能。
2.1模拟数据的获取和标记
⾸先,使⽤ Poisson disk sampling ⽅法从物体⽹格中提取均匀分布的点云,并考虑传感器在法线⽅向上的旋转和穿透深度,模拟 DIGIT 传感器产⽣的图像。然后,使⽤⼀个简单⽽有效的算法对点云中的每个点进⾏分类,将其标记为平⾯、曲线、边缘或⻆点。通过这种⽅式,⾃动化地获取和标记了模拟数据。整个过程确保了数据的多样性和标记的准确性。
2.2图像级适应
由于 DIGIT 传感器获得的模拟图像和真实图像表现出的显著差异,作者提出了⼀种⽆监督的转换⽅法来解决这两个域之间的域转移问题。具体来说,作者通过训练⼀个 DM 模型来根据模拟图像⽣成对应真实世界域的图像,在训练之后,可以在模拟图像中引⼊随机噪声,再通过 DM 反向降噪,最终⽣成对应真实⻛格的图像。
2.3特征级适应
虽然经过 DM 处理,图像的域移已经显著减少,但还存在⼀些残余的差异,为了解决这个问题,作者利⽤⼀种称为神经⽹络的对抗性域⾃适应训练(DANN)的经典对抗性⽅法来学习域不变表⽰。作者使⽤ Dinov2 的⽅法,使⽤预训练 ViT 作为特征提取器,并训练瓶颈层和分类器将特征映射到域不变空间和⽬标类别,并且使⽤判别器来区分真实和模拟图像,⽽瓶颈层则被优化为使两个域的特征⽆法区分。
2.4训练和测试数据集
作者⼀共使⽤三个数据集,第⼀个数据集Trainreal包含 5000 个从⽇常物品获取的真实图像。第⼆个数据集Trainsim包括从 10 个YCB 物体⽣成的 50000 个模拟图像。第三个数据集Testreal包含 792 个从3D 打印的YCB物体获取的真实图像,⽤于评估⽬的。这些数据集⽤于训练扩散⽅法(DM)和使⽤领域对抗训练神经⽹络(DANN)的分类器,并在Testreal上进⾏测试。
3.实验结果
作者通过评估分类器在每个对象上的准确性和每个类别的 F1 分数,来评估分类器的性能。并进⾏了⼏项消融研究,以调查 DM 和 DANN 程序的作⽤。除了分类任务外,作者还将此⽅法应⽤于估计 6D 物体姿态的流⽔线(Pipeline)中,以展⽰其在实际任务中的有效性。
3.1表⾯分类实验
作者通过对⽐
None:未经过翻译的模拟图像
Tactile Diffusion: 上⽂提到的扩散模型图像翻译
Ours:论⽂中提出的⽅法并且对于每个对⽐项内,分别对⽐是否使⽤ DANN,结论如下
Accuracy
F1-Score根据实验结果,作者的⽅法在表⾯类型分类任务中表现出⾊,特别是在⻆部类别(corner)上取得不错的性能表现。实验结果表明,作者提出的分类器和⾃动标注程序的结合对于提供传感器在物体表⾯接触位置的假设是有⽤的。
3.2 6D 物体姿态估计实验
作者通过使⽤
Collision-aware In-hand
6D Object Pose Estimation using Multiple Vision-based Tactile Sensors
https://arxiv.org/abs/2301.13667
提到的算法来估计与 N 个触觉传感器接触的物体的 6D 姿态。通过输⼊触觉图像和机器⼈本体感知的传感器姿态来估计物体的 6D 姿态,并且替换了⽂中的假设提取部分,⽤本⽂提出的表⾯分类器来⽣成假设,之后在每个对象上使⽤了 3 个传感器进⾏实验,并结合了从分类实验中收集的多种传感器姿态。
实验通过⽐较输出姿态和基准姿态,评估位置误差和 ADI-AUC 指标,具体结果如下
本⽂⽅法相对于⼏何基准⽅法,在位置误差上减少了⼀半,旋转指标提⾼了超过⼗个百分点。实验结果表明了使⽤触觉反馈(表⾯分类器)显著降低了位置误差,并提⾼了旋转精度。由此验证了本⽂⽅法在实际应⽤中的有效性。
4.局限性与结论
虽然本⽂的⽅法在减少 Sim2Real 的域差异和提⾼物体表⾯分类与 6D 物体姿态估计的准确性⽅⾯表现出了显著优势,作者认为仍然存在 2 个⽅⾯的不⾜DIGIT传感器的弹性体需要适度的⼒才能突出表⾯差异。如果接触⼒不⾜,可能会影响⽅法的效果。扩散模型的训练和图像翻译时间较⻓,尽管模型在不同设备上⽆需重新训练,但时间消耗仍不可忽视。未来将探索本⽂⽅法在其他机器⼈任务中的应⽤,并研究新的适应机制以进⼀步提⾼分类精度,同时处理多表⾯同时接触的情况。
相关文章:

ICRA 2024:基于视觉触觉传感器的物体表⾯分类的Sim2Real双层适应⽅法
⼈们通常通过视觉来感知物体表⾯的性质,但有时需要通过触觉信息来补充或替代视觉信息。在机器⼈感知物体属性⽅⾯,基于视觉的触觉传感器是⽬前的最新技术,因为它们可以产⽣与表⾯接触的⾼分辨率 RGB 触觉图像。然⽽,这些图像需要⼤…...
代理模式(设计模式)
文章目录 静态代理动态代理代理模式的应用场景动态代理和静态代理的区别 代理模式就是给一个对象提供一个代理,并由代理对象控制对原对象的引用。它使得客户不能直接与真正的目标对象通信。代理对象是目标对象的代表,其他需要与这个目标对象打交道的操作…...
C++函数参数传递
C 函数传参 在C中,函数传递参数的方式主要有三种: 按值传递(pass by value)按引用传递(pass by reference)按指针传递(pass by pointer)。 比较与总结 按值传递:适用…...
软考初级网络管理员_09_网络单选题
1.下列Internet应用中对实时性要求最高的是()。 电子邮件 Web浏览 FTP文件传输 IP电话 2.在Internet中的大多数服务(如WWW、FTP等)都采用()模型。 星型 主机/终端 客户机/服务器 网状 3.子网掩码的作用是()。 可以用来寻找网关 可以区分IP和MAC 可以识别子网 可以…...

曲线拟合 | 二次B样条拟合曲线
B 样条曲线拟合实例:能平滑化曲线 1. 实例1 为MASS包中mcycle数据集。它测试了一系列模拟的交通车事故中,头部的加速度,以此来评估头盔的性能。times为撞击时间(ms),accel为加速度(g)。首先导入数据&#…...
delphi FDMemTable1.SourceView遍历各行数据,取任意行数据无需Next移动指针了。TFDDatSView
for m : 0 to FDMemTable1.SourceView.Rows.Count - 1 do begin if FDMemTable_SP.SourceView.Rows.ItemsI[m].GetData(0) varNull then Continue; end; 9行7列的值。 FDMemTable1.Data.DataView.Rows.ItemsI[9].ValueI[7]; FDMemTable1.Table.Ro…...

为什么选择 ABBYY FineReader PDF ?
帮助用户们对PDF文件进行快速的编辑处理,同时也可以快速识别PDF文件里的文字内容,并且可以让用户们进行文本编辑,所以可以有效提升办公效率。 ABBYY-ABBYY Finereader 15 Win-安装包:https://souurl.cn/OY2L3m 高级转换功能 ABBY…...

php遇到的问题
1、 underfined at line 3 in xxx.php , 错误提示,注释这行代码 // error_reporting(DEBUG ? E_ALL : 0); 目录:config/config.php...

零基础入门学用Arduino 第二部分(二)
重要的内容写在前面: 该系列是以up主太极创客的零基础入门学用Arduino教程为基础制作的学习笔记。个人把这个教程学完之后,整体感觉是很好的,如果有条件的可以先学习一些相关课程,学起来会更加轻松,相关课程有数字电路…...

旅游行业电商平台:数字化转型的引擎与未来发展趋势
引言 旅游行业数字化转型的背景和重要性 随着信息技术的飞速发展,数字化转型成为各行业发展的必然趋势。旅游行业,作为一个高度依赖信息和服务的领域,数字化转型尤为重要。通过数字化手段,旅游行业能够实现资源的高效配置、服务的…...

Ubuntu 22.04安装 docker
安装过程和指令 # 1.升级 apt sudo apt update # 2.安装docker sudo apt install docker.io docker-compose # 3.将当前用户加入 docker组 sudo usermod -aG docker ${USER} # 4. 重启 # 5. 查看镜像 docker ps -a 或者 docker images # 6. 下载镜像 docker pull hello-world …...

【Gitlab】访问默认PostgreSQL数据库
本地访问PostgreSQL gitlab有可以直接访问内部PostgreSQL的命令 sudo gitlab-rails dbconsole # 或者 sudo gitlab-psql -d gitlabhq_production效果截图 常用SQL # 查看用户状态 select id,name,email,state,last_sign_in_at,updated_at,last_credential_check_at,last_act…...

乐鑫ESP32-C3芯片应用,启明云端WT32C3-S5模组:简化产品硬件设计
在数字化浪潮的推动下,物联网(IoT)正迅速成为连接现实世界与数字世界的桥梁。芯片作为智能设备的心脏,其重要性不言而喻。 乐鑫推出的ESP32-C3芯片以其卓越的性能和丰富的功能,为智能物联网领域带来了新的活力,我将带您深入了解这…...

算法刷题【二分法】
题目: 注意题目中说明了数据时非递减的,那么这样就存在二分性,能够实现logn的复杂度。二分法每次只能取寻找特定的某一个值,所以我们要分别求左端点和有端点。 分析第一组用例得到结果如下: 成功找到左端点8 由此可知࿰…...

.NET MAUI Sqlite程序应用-数据库配置(一)
项目名称:Ownership(权籍信息采集) 一、安装 NuGet 包 安装 sqlite-net-pcl 安装 SQLitePCLRawEx.bundle_green 二、创建多个表及相关字段 Models\OwnershipItem.cs using SQLite;namespace Ownership.Models {public class fa_rural_base//基础数据…...

基于WPF技术的换热站智能监控系统09--封装水泵对象
1、添加用户控件 2、编写水泵UI 控件中用到了Viewbox控件,Viewbox控件是WPF中一个简单的缩放工具,它可以帮助你放大或缩小单个元素,同时保持其宽高比。通过样式和属性设置,你可以创建出既美观又功能丰富的用户界面。在实际开发中…...
GLM+vLLM 部署调用
GLMvLLM 部署调用 vLLM 简介 vLLM 框架是一个高效的大型语言模型(LLM)推理和部署服务系统,具备以下特性: 高效的内存管理:通过 PagedAttention 算法,vLLM 实现了对 KV 缓存的高效管理,减少了…...

leetcode 122 买卖股票的最佳时机||(动态规划解法)
题目分析 题目描述的已经十分清楚了,不做过多阐述 算法原理 状态表示 我们假设第i天的最大利润是dp[i] 我们来画一下状态机 有两个状态,买入后和卖出后,我们就可以使用两个dp表来解决问题 f[i]表示当天买入后的最大利润 g[i]表示当天卖出…...
C++设计模式---组合模式
1、介绍 组合模式(Composite)是一种结构型设计模式,也被称为部分-整体模式。它将复杂对象视为由多个简单对象(称为“组件”)组成的树形结构,这些组件能够共享相同的行为。每个组件都可能包含一个或多个子组…...
工厂方法模式(大话设计模式)C/C++版本
工厂方法模式 C 参考:https://www.cnblogs.com/Galesaur-wcy/p/15926711.html #include <iostream> #include <memory> using namespace std;// 运算类 class Operation { private:double _NumA;double _NumB;public:void SetNumA(){cout << &…...
Vue记事本应用实现教程
文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展:显示创建时间8. 功能扩展:记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...

【网络安全产品大调研系列】2. 体验漏洞扫描
前言 2023 年漏洞扫描服务市场规模预计为 3.06(十亿美元)。漏洞扫描服务市场行业预计将从 2024 年的 3.48(十亿美元)增长到 2032 年的 9.54(十亿美元)。预测期内漏洞扫描服务市场 CAGR(增长率&…...

ServerTrust 并非唯一
NSURLAuthenticationMethodServerTrust 只是 authenticationMethod 的冰山一角 要理解 NSURLAuthenticationMethodServerTrust, 首先要明白它只是 authenticationMethod 的选项之一, 并非唯一 1 先厘清概念 点说明authenticationMethodURLAuthenticationChallenge.protectionS…...
在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用
1. 项目配置与权限设置 1.1 配置module.json5 {"module": {"requestPermissions": [{"name": "ohos.permission.MICROPHONE","reason": "录音需要麦克风权限"},{"name": "ohos.permission.WRITE…...

CVE-2020-17519源码分析与漏洞复现(Flink 任意文件读取)
漏洞概览 漏洞名称:Apache Flink REST API 任意文件读取漏洞CVE编号:CVE-2020-17519CVSS评分:7.5影响版本:Apache Flink 1.11.0、1.11.1、1.11.2修复版本:≥ 1.11.3 或 ≥ 1.12.0漏洞类型:路径遍历&#x…...

面向无人机海岸带生态系统监测的语义分割基准数据集
描述:海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而,目前该领域仍面临一个挑战,即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...

STM32HAL库USART源代码解析及应用
STM32HAL库USART源代码解析 前言STM32CubeIDE配置串口USART和UART的选择使用模式参数设置GPIO配置DMA配置中断配置硬件流控制使能生成代码解析和使用方法串口初始化__UART_HandleTypeDef结构体浅析HAL库代码实际使用方法使用轮询方式发送使用轮询方式接收使用中断方式发送使用中…...

FFmpeg:Windows系统小白安装及其使用
一、安装 1.访问官网 Download FFmpeg 2.点击版本目录 3.选择版本点击安装 注意这里选择的是【release buids】,注意左上角标题 例如我安装在目录 F:\FFmpeg 4.解压 5.添加环境变量 把你解压后的bin目录(即exe所在文件夹)加入系统变量…...

uniapp 小程序 学习(一)
利用Hbuilder 创建项目 运行到内置浏览器看效果 下载微信小程序 安装到Hbuilder 下载地址 :开发者工具默认安装 设置服务端口号 在Hbuilder中设置微信小程序 配置 找到运行设置,将微信开发者工具放入到Hbuilder中, 打开后出现 如下 bug 解…...

Elastic 获得 AWS 教育 ISV 合作伙伴资质,进一步增强教育解决方案产品组合
作者:来自 Elastic Udayasimha Theepireddy (Uday), Brian Bergholm, Marianna Jonsdottir 通过搜索 AI 和云创新推动教育领域的数字化转型。 我们非常高兴地宣布,Elastic 已获得 AWS 教育 ISV 合作伙伴资质。这一重要认证表明,Elastic 作为 …...