An improved YOLACT algorithm for instance segmentation of stacking parts
【一种用于堆叠零件实例分割的改进 YOLACT 算法】
摘要
实例分割在众多应用场景中均是一项至关重要的任务。对于计算机视觉而言,堆叠物体的实例分割是一项挑战。为应对这一挑战,我们提出了一种改进的 YOLACT(You Only Look At CoefficienTs)算法。为提高密集堆叠场景下特征提取、检测和分割的精度,将多级特征融合与通道注意力机制模块(MLCA)与 YOLACT 的主干网络相结合。此外,为在不降低图像质量的前提下扩大感受野,我们用注意力引导上下文特征金字塔模块(AC-FPN)替代了传统的特征金字塔网络(FPN)。通过在定制的堆叠机械零件数据集上进行大量实验,验证了改进的 YOLACT 算法的有效性。实验结果表明,改进的 YOLACT 算法在计算时间没有显著增加的情况下,在检测和分割性能上显著优于其他算法。
1 介绍
实例分割技术在制造系统中得到了广泛应用,例如零件组装和零件拣选,这有助于提高制造的自动化和智能化水平[1]。因此,它能够提升生产的灵活性和效率。在实现这些目标的过程中,将实例分割技术应用于非结构化的工业场景中是一个关键步骤[2]。然而,在实际的制造系统中,零件堆叠的场景非常普遍。在这样的堆叠场景中进行零件分割面临诸多挑战,尤其是在零件形状各异、大小不一且相互遮挡的情况下。
YOLACT(You Only Look At CoefficienTs)是一种专为实时物体检测和实例分割设计的神经网络[3]。与传统的两阶段实例分割网络相比,YOLACT在速度和准确性之间找到了平衡,这使得它特别适合工业环境中的实时检测应用。与SOLO和Mask R-CNN相比,YOLACT在推理速度上更为高效,这对于需要快速处理的制造系统至关重要。尽管Mask R-CNN具有高精度,但其两阶段流程(先提出区域,再进行掩码预测)导致了较慢的推理速度。同样,虽然SOLO采用了一阶段的方法,但在处理大量对象时,其处理速度仍存在局限性。
YOLACT能够在较短的计算时间内生成高质量的掩模,非常适合用于实时工业任务。在这个实际的制造系统中,我们不仅需要快速识别零件,还需要一定的识别精度。YOLACT完美地满足了这一需求。然而,在堆叠场景中精确检测和进一步分割零件尤其具有挑战性,尤其是在复杂的场景中。为了提高堆叠场景中零件实例分割的准确性,我们提出了一种改进的YOLACT零件识别方法。为了解决堆叠场景中实例分割准确性的挑战,本研究开发了一种改进的YOLACT实例分割算法,专门用于零件识别和实例分割。该算法结合了MLCA,并集成了AC-FPN。这些改进旨在通过捕捉零件的更详细特征来增强网络的效能。
本研究的贡献可概述如下:
1.我们开发了一种改进的YOLACT网络模型,专门用于识别堆叠场景中的部件。该模型由核心骨干网络、特征金字塔网络、预测头和掩码模板模块(Protonet)组成。此外,为了提高实例分割的准确性,还引入了一个并行子网络。
2.为了捕捉精细的物体特征,我们在主干网络中集成了多级特征融合和通道注意力机制,这有助于提取更详细的特征,并增强了网络在复杂堆叠场景中识别部件的能力。
3.为了在保持图像质量的同时捕捉广泛的特征,我们引入了AC-FPN。该模块改变了传统的FPN金字塔结构,通过增强网络的情境理解,从而实现更准确的预测。
4.为了验证我们提出的方法的有效性,我们在一个定制的数据集上进行了严格的测试和比较分析。结果表明,我们的方法在准确性和鲁棒性方面显著优于以往的方法。
2、相关工作
近年来,随着工业自动化和智能制造的快速发展,机械部件的视觉抓取技术逐渐成为研究热点。然而,可靠的抓取依赖于对堆叠部件的精确实例分割[4,5]。实例分割的目标是为图像中的每个对象获取实例级别的像素标签,这一点在处理堆叠物体[6]时尤为重要。现有的实例分割技术主要分为传统方法和基于深度学习的方法[7]。传统方法主要包括分水岭[8]和阈值[9]分割算法,这些算法适用于简单的场景。然而,随着堆叠部件数量的增加和对更高检测精度的需求,传统神经网络算法的能力已不足以应对复杂的任务[10,11]。
压缩感知领域的研究显著提升了计算机视觉中深度图的完成和实例分割技术。它为堆叠场景中的物体检测提供了新的方法。Chodosh等人[12]提出了一种用于LiDAR深度图完成的深度卷积压缩感知方法,能够将稀疏的深度测量图转换为高分辨率的深度图。Chodosh和Lucey [13]在计算机视觉的重建任务中采用了卷积稀疏编码(CSC)方法,不仅减少了JPEG伪影,还实现了非刚性轨迹的重建。Bazzi等人[14]提出了一种牛顿型前向-后向贪婪方法,用于到达角估计。该方法同样适用于多快照压缩感知中的稀疏恢复,用于图像重建。Liu等人[15]提出了一种多尺度卷积字典,用于图像重建,尤其适用于CT和MRI重建等逆问题。这些研究展示了压缩感知技术的潜力,尤其是在与深度学习结合时,能够显著提升深度图完成和实例分割
相关文章:
An improved YOLACT algorithm for instance segmentation of stacking parts
【一种用于堆叠零件实例分割的改进 YOLACT 算法】 摘要 实例分割在众多应用场景中均是一项至关重要的任务。对于计算机视觉而言,堆叠物体的实例分割是一项挑战。为应对这一挑战,我们提出了一种改进的 YOLACT(You Only Look At CoefficienTs)算法。为提高密集堆叠场景下特…...
使用API网关Kong配置反向代理和负载均衡
简介 Kong 是一个微服务API网关。 Kong是一个云原生,快速,可扩展和分布式微服务抽象层(也称为API网关,API中间件或在某些情况下为Service Mesh)。 作为2015年的开源项目,其核心价值在于高性能和可扩展性。…...

BugKu Web渗透之eval
启动场景,打开网页,显示的是一段代码。 步骤一: 分析代码。 代码大概意思是: <?php//包含"flag.php"的文件include "flag.php"; //获取网页请求的hello数据$a $_REQUEST[hello]; //显示变量a的详…...

DAY45 可视化
DAY 45 Tensorborad 之前的内容中,我们在神经网络训练中,为了帮助自己理解,借用了很多的组件,比如训练进度条、可视化的loss下降曲线、权重分布图,运行结束后还可以查看单张图的推理效果。 如果现在有一个交互工具可…...

11.RV1126-ROCKX项目 API和人脸检测画框
一.ROCKX的API 1.ROCKX的作用 ROCKX的AI组件可以快速搭建 AI的应用,这些应用可以是车牌识别、人脸识别、目标识别,人体骨骼识别等等。主要用于各种检测识别。例如下图: 2.ROCKX人脸识别的API rockx_ret_t rockx_create(rockx_handle_t *han…...

超构光学与 AR 的深度融合 | 攻克 VAC 与眼动范围难题
原文信息 原文标题:“Three-dimensional varifocal meta-device for augmented reality display” 第一作者:宋昱舟,袁家琪,陳欽杪,刘小源 ,周寅,程家洛,肖淑敏*,陈沐…...

[ Qt ] | 与系统相关的操作(三):QFile介绍和使用
目录 之前的操作文件的方式 Qt中的文件操作简介 QFile 打开 读 写 关闭 一个例子来说明 QFileInfo 之前的操作文件的方式 C语言中,fopen 打开文件,fread fwrite 读写文件,fclose 关闭文件。 C中,fstream 打开文件&…...
RetroMAE 预训练任务
RetroMAE 预训练任务的具体步骤,围绕 编码(Encoding)、解码(Decoding)、增强解码(Enhanced decoding) 三个核心阶段展开,以下结合图中流程拆解: 一、阶段 A:…...

软件工程:如何做好软件产品
1、什么是产品 从项目到产品 产品:满足行业共性需求的标准产品。即要能够做到配置化的开发,用同一款产品最大限度地满足不同客户的需求,同时让产品具有可以快速响应客户需求变化的能力。 好的产品一定吸收了多个项目的共性,一定是…...

蓝桥杯 省赛 2025python(B组)题目(分析)
目录 第一题 为什么答案是103而不是104? 第二题 为什么必须按长度排序? 第三题 易错点总结 第四题 逻辑问题: 可能超过时间复杂度的代码示例 1. 暴力枚举所有可能的子串 2. 递归回溯 第五题 1. 暴力枚举法 2. 优化枚举 3.数…...

React - 组件通信
组件通信 概念:组件通信就是组件之间数据传递,根据组件嵌套关系不同,有不同的通信方法 父传子 —— 基础实现 实现步骤 父组件传递数据 - 在子组件标签上绑定属性子组件接收数据 - 子组件通过props参数接收数据 声明子组件并使用 //声明子…...
《前端面试题:CSS的display属性》
CSS display属性完全指南:深入理解布局核心属性 掌握display属性是CSS布局的基石,也是前端面试必考知识点 一、display属性概述:布局的核心控制 display属性是CSS中最重要、最基础的属性之一,它决定了元素在页面上的渲染方式和布…...

飞牛使用Docker部署Tailscale 内网穿透教程
之前发过使用docker部署Tailscale的教程,不过是一年前的事情了,今天再重新发表一遍,这次使用compose部署更加方便,教程也会更加详细一点,希望对有需要的朋友有所帮助! 对于大部分用户来说,白嫖 …...

《数据挖掘》- 房价数据分析
这里写目录标题 采用的技术1. Python编程语言2. 网络爬虫库技术点对比与区别项目技术栈的协同工作流程 代码解析1. 导入头文件2. 读取原始数据3. 清洗数据4. 数据分割4.1 统计房屋信息的分段数量4.2 将房屋信息拆分为独立列4.3 处理面积字段4.4 删除原始房屋信息列 5. 可视化分…...
centos中的ulimit命令
centos中的ulimit命令 ulimit的作用CENTOS系统文件配置配置文件地址配置格式 配置方法 ulimit的作用 ulimit用于限制shell启动进程所占用的资源,支持以下各种类型的限制:所创建的内核文件的大小、进程数据块的大小、Shell进程创建文件的大小、内存锁住的…...
git提交代码和解决冲突修复bug
提交到分支的步骤如下: 确保你当前在开发分支上,可以使用命令 git branch 来查看当前所在分支,并使用 git checkout 命令切换到开发分支。使用 git add 命令将修改的文件添加到暂存区。使用 git commit 命令提交代码到本地仓库。 解决合并冲…...
华为仓颉语言初识:并发编程之同步机制(上)
前言 线程同步机制是多线程下解决线程对共享资源竞争的主要方式,华为仓颉语言提供了三种常见的同步机制用来保证线程同步安全,分别是原子操作,互斥锁和条件变量。本篇文章详细介绍主要仓颉语言解决同步机制的方法,建议点赞收藏&a…...
php中实现邮件发送功能
要在php项目中实现邮件发送功能,推荐使用phpmailer库通过smtp协议配置。首先安装phpmailer扩展,可通过composer命令composer require phpmailer/phpmailer安装;若未使用composer则手动引入源码。接着配置smtp信息,包括服务器地址&…...

C++之动态数组vector
Vector 一、什么是 std::vector?二、std::vector 的基本特性(一)动态扩展(二)随机访问(三)内存管理 三、std::vector 的基本操作(一)定义和初始化(二…...
arc3.2语言sort的时候报错:(sort < `(2 9 3 7 5 1)) 需要写成这种:(sort > (pair (list 3 2)))
arc语言sort的时候报错:(sort < (2 9 3 7 5 1)) arc> (sort < (2 9 3 7 5 1)) Error: "set-car!: expected argument of type <pair>; given: 9609216" arc> (sort < (2 9 3 )) Error: "Function call on inappropriate object…...
Android动态广播注册收发原理
一、动态广播的注册流程 1. 注册方式 动态广播通过代码调用 Context.registerReceiver() 方法实现,需显式指定 IntentFilter 和接收器实例: // 示例:在 Activity 中注册监听网络变化的广播 IntentFilter filter new IntentFilter…...
Ubuntu 系统通过防火墙管控 Docker 容器
Ubuntu 系统通过防火墙管控 Docker 容器指南 一、基础防火墙配置 # 启用防火墙 sudo ufw enable# 允许 SSH 连接(防止配置过程中断联) sudo ufw allow 22/tcp二、Docker 配置调整 # 编辑 Docker 配置文件 sudo vim /etc/docker/daemon.json配置文件内…...
AI 模型分类全解:特性与选择指南
人工智能(AI)技术正以前所未有的速度改变着我们的生活和工作方式。AI 模型作为实现人工智能的核心组件,种类繁多,功能各异。从简单的线性回归模型到复杂的深度学习网络,从文本生成到图像识别,AI 模型的应用…...

【Zephyr 系列 11】使用 NVS 实现 BLE 参数持久化:掉电不丢配置,开机自动加载
🧠关键词:Zephyr、NVS、非易失存储、掉电保持、Flash、AT命令保存、配置管理 📌目标读者:希望在 BLE 模块中实现掉电不丢配置、支持产测参数注入与自动加载功能的开发者 📊文章长度:约 5200 字 🔍 为什么要使用 NVS? 在实际产品中,我们经常面临以下场景: 用户或…...

【Android】Android Studio项目代码异常错乱问题处理(2020.3版本)
问题 项目打开之后,发现项目文件直接乱码, 这样子的 这本来是个Java文件,结果一打开变成了这种情况,跟见鬼一样,而且还不是这一个文件这样,基本上一个项目里面一大半都是这样的问题。 处理方法 此时遇到…...
n皇后问题的 C++ 回溯算法教学攻略
一、问题描述 n皇后问题是经典的回溯算法问题。给定一个 nn 的棋盘,要求在棋盘上放置 n 个皇后,使得任何两个皇后之间不能互相攻击。皇后可以攻击同一行、同一列以及同一对角线上的棋子。我们需要找出所有的合法放置方案并输出方案数。 二、输入输出形…...

一些免费的大A数据接口库
文章目录 一、Python开源库(适合开发者)1. AkShare2. Tushare3. Baostock 二、公开API接口(适合快速调用)1. 新浪财经API2. 腾讯证券接口3. 雅虎财经API 三、第三方数据平台(含免费额度)1. 必盈数据2. 聚合…...
DeepSeek本地部署及WebUI可视化教程
前言 DeepSeek是近年来备受关注的大模型之一,支持多种推理和微调场景。很多开发者希望在本地部署DeepSeek模型,并通过WebUI进行可视化交互。本文将详细介绍如何在本地环境下部署DeepSeek,并实现WebUI可视化,包括Ollama和CherryStudio的使用方法。 一、环境准备 1. 硬件要…...
机器学习算法时间复杂度解析:为什么它如此重要?
时间复杂度的重要性 虽然scikit-learn等库让机器学习算法的实现变得异常简单(通常只需2-3行代码),但这种便利性往往导致使用者忽视两个关键方面: 算法核心原理的理解缺失 忽视算法的数据适用条件 典型算法的时间复杂度陷阱 SV…...

SSIM、PSNR、LPIPS、MUSIQ、NRQM、NIQE 六个图像质量评估指标
评价指标 1. SSIM(Structural Similarity Index) 📌 定义 结构相似性指数(Structural Similarality Index)是一种衡量两幅图像相似性的指标,考虑了亮度、对比度和结构信息的相似性,比传统的 P…...