当前位置: 首页 > news >正文

抓取检测(Grasp Dection)

抓取检测

抓取检测被定义为能够识别任何给定图像中物体的抓取点或抓取姿势。抓取策略应确保对新物体的稳定性、任务兼容性和适应性,抓取质量可通过物体上接触点的位置和手的配置来测量。为了掌握一个新的对象,完成以下任务,有分析方法和经验方法。分析方法根据抓取稳定性或任务要求的运动学和动力学公式,选择手指位置和手部构型,经验方法根据具体任务和目标物体的几何结构,使用学习算法选择抓取。

根据是否需要进行目标定位,需要确定目标的姿态,进一步将其分为三类:具有已知定位和姿势的方法、具有已知定位和无姿态的方法、无定位和无姿态的方法。

1.1 具有已知定位和姿势

针对已知目标的经验方法,利用姿态将已知目标的抓取点转换为局部数据。主要算法有:

Multi-view self-supervised deep learning for 6d pose estimation in the amazon picking challenge.

Multi-view Self-supervised Deep Learning for 6D Pose Estimation in the Amazon Picking Challenge | Papers With Code
近年来,机器人仓库自动化引起了人们的极大兴趣 年,也许最明显的是亚马逊拣选挑战赛 (APC)。一个完全 自主仓库拾取和放置系统需要可靠的视觉 在杂乱的环境、自遮挡、 传感器噪声和各种各样的物体。在本文中,我们提出了一个 利用多视图 RGB-D 数据和自监督、数据驱动的方法 学会克服这些困难。该方法是 麻省理工学院-普林斯顿团队系统在装载和 拣选任务,分别在 APC 2016 上。在所提出的方法中,我们将 并使用全卷积神经网络标记场景的多个视图, 然后将预先扫描的 3D 对象模型拟合到生成的分割中,以获得 6D 对象姿势。训练深度神经网络进行分割,通常 需要大量的训练数据。我们提出了一种自监督方法 生成大型标记数据集,而无需繁琐的手动分割。我们 证明我们的系统可以可靠地估计物体的 6D 位姿 多种场景。所有代码、数据和基准测试均可在 http://apc.cs.princeton.edu/


Silhonet: An RGB method for 3d object pose estimation and grasp planning.

SilhoNet: An RGB Method for 6D Object Pose Estimation | Papers With Code

自主机器人操作涉及将要操纵的物体的平移和方向估计为 6 自由度 (6D) 姿势。使用RGB-D数据的方法在解决这个问题方面取得了巨大的成功。但是,在某些情况下,成本限制或工作环境可能会限制RGB-D传感器的使用。当仅限于单目相机数据时,物体姿态估计问题非常具有挑战性。在这项工作中,我们引入了一种名为SilhoNet的新方法,该方法可以从单目图像中预测6D物体姿态。我们使用卷积神经网络 (CNN) 管道,该管道接受感兴趣区域 (ROI) 建议,以同时预测具有相关遮挡蒙版和 3D 平移矢量的对象的中间轮廓表示。然后,将 3D 方向从预测的轮廓回归。我们表明,与两个最先进的网络相比,我们的方法在YCB-Video数据集上实现了更好的整体性能,用于从单目图像输入进行6D位姿估计。

1.2 具有已知定位和无姿态的方法

主要方法:

Automatic grasp planning using shape primitives.
Part-based grasp planning for familiar objects.
Transferring grasp configurations using active learning and local replanning.
Dex-net 2.0: Deep learning to plan robust grasps with synthetic point clouds and analytic grasp metrics.

1.3 无定位无姿态的方法

主要基于深度学习方法,包括:

Deep learning for detecting robotic grasps.

Deep Learning for Detecting Robotic Grasps | Papers With Code

我们考虑了在RGB-D视图中检测机器人抓取的问题。 包含对象的场景。在这项工作中,我们将深度学习方法应用于 解决了这个问题,从而避免了耗时的功能手工设计。这 提出了两个主要挑战。首先,我们需要评估大量的 候选人掌握。为了使检测快速且可靠,我们 呈现具有两个深度网络的两步级联结构,其中顶部 第一个检测结果由第二个检测结果重新评估。第一个网络有 功能更少,运行速度更快,并且可以有效地修剪出不太可能的 候选人掌握。第二个具有更多功能,速度较慢,但只需运行 在前几个检测中。其次,我们需要处理好多模态输入, 为此,我们提出了一种对权重应用结构化正则化的方法 基于多模态群正则化。我们证明了我们的方法 在机器人抓取检测方面优于以前最先进的方法, 并可用于在两个不同的机器人上成功执行抓取平台。


Real-time grasp detection using convolutional neural networks.

Real-Time Grasp Detection Using Convolutional Neural Networks | Papers With Code

我们提出了一种基于卷积神经网络的准确、实时的机器人抓取检测方法。我们的网络在不使用标准滑动窗口或区域建议技术的情况下对可抓取的边界框执行单阶段回归。该模型的性能比最先进的方法高出 14 个百分点,并在 GPU 上以每秒 13 帧的速度运行。我们的网络可以同时执行分类,以便在一个步骤中识别对象并找到一个好的抓取矩形。对此模型的修改通过使用局部约束的预测机制来预测每个对象的多个抓取。局部约束模型的性能明显更好,尤其是在可以通过多种方式抓取的对象上。


Object discovery and grasp detection with a shared convolutional neural network.

在机器人技术中,从一堆物体中实时抓取一个物体仍然是一个挑战。这就要求机器人具备快速发现物体和抓取检测的能力:首先从堆垛中挑出一个目标物体,然后应用适当的抓取配置来抓取物体。在本文中,我们提出了一种共享卷积神经网络(CNN),可以同时实时实现这两个任务。该模型在GPU上的处理速度约为每秒100帧,这在很大程度上满足了这一要求。同时,我们还建立了一个标记的RGBD数据集,其中包含用于机器人抓取的堆叠物体的场景。最后,我们演示了共享CNN模型在真实机器人平台上的实现,并展示了机器人可以从堆栈中准确地发现目标对象并成功抓取它。


Supersizing self-supervision: Learning to grasp from 50k tries and 700 robot hours.

Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours | Papers With Code目前基于学习的机器人抓取方法利用了人类标记 用于训练模型的数据集。但是,这样的存在两个问题 方法:(a)由于每个对象可以通过多种方式手动抓取 标记抓取位置并非易事;(b) 人类标记的偏差 语义学。虽然有人尝试使用试错法来训练机器人 实验,此类实验中使用的数据量仍然很大 低,因此使学习者容易过度拟合。在本文中,我们采取 将可用训练数据增加到比以前多 40 倍的飞跃 工作,导致在 700 小时内收集的 50K 数据点的数据集大小 机器人抓取尝试。这使我们能够训练卷积神经网络 (CNN)用于预测抓取位置的任务,而不会出现严重的过拟合。在 我们的公式中,我们将回归问题重铸为 18 向二进制 对图像斑块进行分类。我们还介绍了一个多阶段的学习 方法,其中使用在一个阶段训练的 CNN 来收集硬底片 后续阶段。我们的实验清楚地表明了使用 用于抓取任务的大规模数据集(和多阶段训练)。我们 还可以与几个基线进行比较,并在 泛化到看不见的物体进行抓取。


 


Real-time, highly accurate robotic grasp detection using fully convolutional neural networks with high-resolution images.

Real-Time, Highly Accurate Robotic Grasp Detection using Fully Convolutional Neural Networks with High-Resolution Images | Papers With Code
机器人抓取检测新物体是一项具有挑战性的任务,但在过去几年中,基于深度学习的方法在使用 RGB-D 数据时实现了显着的性能改进,准确率高达 96.1%。在本文中,我们提出了基于全卷积神经网络(FCNN)的机器人抓取检测方法。我们的方法还实现了最先进的检测精度(高达96.6%),以及康奈尔数据集上高分辨率图像(每张360x360图像6-20ms)的最先进的实时计算时间。由于FCNN,我们提出的方法可以应用于任何尺寸的图像,以检测多目标上的多抓取。使用带有小型平行夹持器和RGB-D相机的4轴机械臂评估了所提出的方法,以抓取具有挑战性的小型新物体。通过我们提出的基于学习的全自动方法进行精确的视觉-机器人坐标校准,我们提出的方法产生了 90% 的成功率。
 


Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching.

Robotic Pick-and-Place of Novel Objects in Clutter with Multi-Affordance Grasping and Cross-Domain Image Matching | Papers With Code
本文提出了一种机器人拾取和放置系统,该系统能够在杂乱的环境中抓取和识别已知和新颖的物体。该系统的主要新功能是它可以处理广泛的对象类别,而无需对新对象进行任何特定于任务的训练数据。为了实现这一点,它首先使用与类别无关的可得性预测算法在四种不同的抓取基元行为中进行选择和执行。然后,它使用跨域图像分类框架识别选取的对象,该框架将观察到的图像与产品图像相匹配。由于产品图像可用于各种对象(例如,来自网络),因此该系统可以开箱即用地处理新对象,而无需任何额外的训练数据。详尽的实验结果表明,我们的多可用性抓取对杂乱中的各种物体都实现了很高的成功率,并且我们的识别算法对已知和新抓取的目标都实现了较高的准确率。这种方法是麻省理工学院-普林斯顿团队系统的一部分,该系统在 2017 年亚马逊机器人挑战赛的装载任务中获得了第一名。所有代码、数据集和预训练模型均可在 http://arc.cs.princeton.edu 在线获取


 

相关文章:

抓取检测(Grasp Dection)

抓取检测 抓取检测被定义为能够识别任何给定图像中物体的抓取点或抓取姿势。抓取策略应确保对新物体的稳定性、任务兼容性和适应性,抓取质量可通过物体上接触点的位置和手的配置来测量。为了掌握一个新的对象,完成以下任务,有分析方法和经验…...

人工智能学习4(特征选择)

编译工具:PyCharm 有些编译工具在绘图的时候不需要写plt.show()或者是print就可以显示绘图结果或者是显示打印结果,pycharm需要(matplotlib.pyplot) 文章目录 编译工具:PyCharm 特征选择嵌入法特征选择练习&#xff…...

vue中keep-alive的使用

什么是keep-alive? keep-alive是一个内置组件,用于缓存和管理组件的状态。 当 keep-alive包裹一个组件时,这个组件的状态将会被缓存起来,而不是每次重新渲染。这在多个视图之间切换时特别有用,可以避免重复的创建和销…...

2023年第十二届数学建模国际赛小美赛B题工业表面缺陷检测求解分析

2023年第十二届数学建模国际赛小美赛 B题 工业表面缺陷检测 原题再现: 金属或塑料制品的表面缺陷不仅影响产品的外观,还可能对产品的性能或耐久性造成严重损害。自动表面异常检测已经成为一个有趣而有前景的研究领域,对视觉检测的应用领域有…...

2023全球数字贸易大赛-web3,区块链,诺威信,浪潮云,微众区块链,福建中科星泰,瓴羊区块链,联想-元宇宙,硅基智能-

目录 诺威信B隐私计算平台 浪潮云=星火连-澳优码 HyperChain 产品介绍...

计算机网络一:TCP/IP基础概念和常见面试题

TCP/IP是一种网络通信协议族,它由两个主要的协议构成:TCP(传输控制协议)和IP(网络互联协议)。TCP负责数据的可靠传输,而IP则负责数据的路由和转发。 TCP/IP有哪些层次结构?每个层次的…...

图论|684.冗余连接 685. 冗余连接 II

684.冗余连接 题目:树可以看成是一个连通且 无环 的 无向 图。 给定往一棵 n 个节点 (节点值 1~n) 的树中添加一条边后的图。添加的边的两个顶点包含在 1 到 n 中间,且这条附加的边不属于树中已存在的边。图的信息记录于长度为 n 的二维数组 …...

依据小兔鲜项目,总结Javascript数组常用方法

find 在向购物车添加某种规格的商品时,查找购物车列表中是否已经存在该规格的商品 find()方法传入一个回调函数,代表对数组每一项item的校验要求 返回数组中第一个符合条件的元素的值,如果没有则返回undefined const item cartList.value…...

制作飞腾(arm)芯片架构的nexus镜像

nexus官方没有arm架构的镜像,下面介绍一种自己制作镜像的方式 1、事先准备 在一个arm架构机器上安装docker下载nexus的linux版(https://www.sonatype.com/download-oss-sonatype)下载centos的arm架构镜像(docker pull centos-centos8.4.2105)下载arm版本的java8(ht…...

Git 标签管理

前言 标签 tag,就相当于对 某一次的 commit 做一个标识,起了一个别名,例如:在某个项目发布版本的时候,可针对最后一次 commit 起一个别名 v1.0 来标识这一次的commit。tag 的作用:commit id 相对于 tag 是很…...

多级缓存自用

1.什么是多级缓存 传统的缓存策略一般是请求到达Tomcat后,先查询Redis,如果未命中则查询数据库,如图: 存在下面的问题: •请求要经过Tomcat处理,Tomcat的性能成为整个系统的瓶颈 •Redis缓存失效时,会对数据库产生冲击 多级缓存就是充分利用请求处理的每个环节,添加缓…...

1.1卷积的作用

上图解释了1∗1卷积如何适用于尺寸为H∗W∗D的输入层,滤波器大小为1∗1∗D,输出通道的尺寸为H∗W∗1。如果应用n个这样的滤波器,然后组合在一起,得到的输出层大小为H∗W∗n。 1.1∗1卷积的作用 调节通道数 由于 11 卷积并不会改…...

Unity 简单打包脚本

打包脚本 这个打包脚本适用于做demo,脚本放在Editor目录下 using System; using System.Collections; using System.Collections.Generic; using System.IO; using UnityEditor; using UnityEngine;public class BuildAB {[MenuItem("Tools/递归遍历文件夹下…...

基于社区电商的Redis缓存架构-缓存数据库双写、高并发场景下优化

基于社区电商的Redis缓存架构 首先来讲一下 Feed 流的含义: Feed 流指的是当我们进入 APP 之后,APP 要做一个 Feed 行为,即主动的在 APP 内提供各种各样的内容给我们 在电商 APP 首页,不停在首页向下拉,那么每次拉的…...

Python提取PDF表格(基于AUTOSAR_SWS_CANDriver.pdf)

个人学习笔记,仅供参考。 需求:提取AUTOSAR SWS中所有的API接口信息,用于生成C代码。 此处以AUTOSAR_SWS_CANDriver.pdf为例,若需要提取多个SWS文件,遍历各个文件即可。 1.Python包 pdfplumber是一款完全用python开…...

UVa1583生成元(Digit Generator)

题目 如果x加上x的各个数字之和得到y&#xff0c;也就是说x是y的生成元。给出n(1<n<100000)&#xff0c;求最小生成元。无解则输出0。 输入输出样例 输入 3 216 121 2005输出 198 0 1979思路 要想解决这个题目&#xff0c;只需要对每一个输入的值从1开始遍历找到小于…...

【Springboot+vue】如何运行springboot+vue项目

从github 或者 gitee 下载源码后&#xff0c;解压&#xff0c;再从idea打开项目 后端代码处理 这是我在gitee下载下来的源码 打开之后&#xff0c;先处理后端代码 该配置的配置&#xff0c;该部署的部署 比如将sql文件导入数据库 然后去配置文件更改配置 然后启动项目 确保…...

拥抱变化,良心AI工具推荐

文章目录 &#x1f4a5; 简介&#x1f344; 工具介绍&#x1f353; 功能特点&#x1f957; 使用场景&#x1f389; 用户体验&#x1f9e9; 下载地址&#x1f36d; 总结 &#x1f4a5; 简介 我是一名资深程序员&#xff0c;但薪资缺对不起资深两个字&#xff0c;为了生存&#x…...

Tensorflow的日志log记录

if OUTPUT_GRAPH:tf.summary.FileWriter("logs/", sess.graph)自动创建文件夹log...

C-语言每日刷题

目录 [蓝桥杯 2015 省 A] 饮料换购 题目描述 输入格式 输出格式 输入输出样例 # [蓝桥杯 2023 省 A] 平方差 题目描述 输入格式 输出格式 输入输出样例 说明/提示 【样例说明】 [NOIP2001 普及组] 数的计算 题目描述 输入格式 输出格式 输入输出样例 说明/提示 样例 1 解释 数据…...

十五届海峡两岸电视主持新秀大会竞赛流程

海峡两岸电视主持新秀会是两岸电视媒体共同举办的一项活动&#xff0c;旨在为两岸年轻的电视主持人提供一个展示才华的舞台&#xff0c;促进两岸文化交流和青年交流。本届新秀会是第十二届海峡两岸电视艺术节的重要活动之一。本次竞赛赛制流程如下&#xff1a; &#xff08;1&…...

安全行业招聘信息汇总

1. 阿里巴巴-淘天集团-安全部 社招岗位&#xff1a;Java开发 招聘层级&#xff1a;P5-P6 工作年限&#xff1a;本科毕业1-3年&#xff0c;硕士毕业1-2年 base地点&#xff1a;杭州 职位描述 负责淘天安全部风控基础标签平台0到1能力建设及产品规划和落地。负责标签应用的产品…...

【如何学习python自动化测试】—— 浏览器驱动的安装 以及 如何更新driver

之前讲到基于python的自动化测试环境&#xff0c;需要安装Python,再安装Selenium。具体可看【如何学习Python自动化测试】—— 自动化测试环境搭建 但是&#xff0c;想要使用Selenium发送指令模拟人类行为操作浏览器&#xff0c;就需要安装浏览器驱动。不同的浏览器需要安…...

Spring Data Redis切换底层Jedis 和 Lettuce实现

1 简介 Spring Data Redis是 Spring Data 系列的一部分&#xff0c;它提供了Spring应用程序对Redis的轻松配置和使用。它不仅提供了对Redis操作的高级抽象&#xff0c;还支持Jedis和Lettuce两种连接方式。 可通过简单的配置就能连接Redis&#xff0c;并且可以切换Jedis和Lett…...

wireshark自定义协议插件开发

目录 脚本代码 报文显示 脚本代码 local NAME "test" test_proto Proto("test", "test Protocol") task_id ProtoField.uint16("test.task_id", "test id", base.DEC) cn ProtoField.uint8("test.cn", &qu…...

一文读懂MongoDB的全部知识点(1),惊呆面试官。

文章目录 01、mongodb是什么&#xff1f;02、mongodb有哪些特点&#xff1f;03、你说的NoSQL数据库是什么意思&#xff1f;NoSQL与RDBMS直接有什么区别&#xff1f;为什么要使用和不使用NoSQL数据库&#xff1f;说一说NoSQL数据库的几个优点?04、NoSQL数据库有哪些类型?05、M…...

仅仅通过提示词,GPT-4可以被引导成为多个领域的特定专家

The Power of Prompting&#xff1a;提示的力量&#xff0c;仅通过提示&#xff0c;GPT-4可以被引导成为多个领域的特定专家。微软研究院发布了一项研究&#xff0c;展示了在仅使用提策略的情况下让GPT 4在医学基准测试中表现得像一个专家。研究显示&#xff0c;GPT-4在相同的基…...

23.Oracle11g的UNDO表空间

Oracle的UNDO表空间 一、UNDO表空间概述1、什么是UNDO表空间2、UNDO表空间的作用2.1 提供一致性读2.2 回滚事务2.3 实例恢复 3、UNDO表空间的工作机制 二、UNDO表空间的相关操作1、UNDO表空间的创建2、UNDO表空间的管理 三、Oracle 11g中UNDO表空间的新特性1、UNDO表空间自动管…...

Mybatis 操作续集2(结合上文)

Mybatis 是一个持久层框架,用于简化数据库的操作,和Spring 没有任何关系,我们现在能使用它是因为 Spring Boot 把Mybatis 的依赖给引入进来了,在 pom.xml 里面 Mybatis 如何进行重命名? 看最后两行代码,这样就能重命名了 package com.example.mybatisdemo.mapper;import com…...

LangChain 19 Agents Reason+Action自定义agent处理OpenAI的计算缺陷

LangChain系列文章 LangChain 实现给动物取名字&#xff0c;LangChain 2模块化prompt template并用streamlit生成网站 实现给动物取名字LangChain 3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain 4用向量数据库Faiss存储&#xff0c;读取YouTube的视频文本搜索I…...