当前位置：首页 > news >正文

【python】OpenCV—Mask RCNN for Object Detection and Instance Segmentation

news 2025/7/15 4:52:45

在这里插入图片描述

文章目录

1、任务描述
2、MASR RCNN 网络结构
3、方法实现
4、结果展示
5、涉及到的库
- getPerfProfile
6、参考

1、任务描述

在这里插入图片描述

利用 mask rcnn 网络，进行图片和视频的目标检测和实例分割

2、MASR RCNN 网络结构

在这里插入图片描述

3、方法实现

# Copyright (C) 2018-2019, BigVision LLC (LearnOpenCV.com), All Rights Reserved.
# Author : Sunita Nayak
# Article : https://www.learnopencv.com/deep-learning-based-object-detection-and-instance-segmentation-using-mask-r-cnn-in-opencv-python-c/
# License: BSD-3-Clause-Attribution (Please read the license file.)
# This work is based on OpenCV samples code (https://opencv.org/license.html)import cv2 as cv
import argparse
import numpy as np
import os.path
import sys
import random# Initialize the parameters
confThreshold = 0.5  # Confidence threshold
maskThreshold = 0.3  # Mask thresholdparser = argparse.ArgumentParser(description='Use this script to run Mask-RCNN object detection and segmentation')
parser.add_argument('--image', help='Path to image file.')
parser.add_argument('--video', help='Path to video file.', default="cars.mp4")
parser.add_argument("--device", default="gpu", help="Device to inference on")
args = parser.parse_args()"""
python mask_rcnn.py --image ./images/person.jpg --device cpu
python mask_rcnn.py --video ./cars.mp4 --device cpu
"""# Draw the predicted bounding box, colorize and show the mask on the image
def drawBox(frame, classId, conf, left, top, right, bottom, classMask):# Draw a bounding box.cv.rectangle(frame, (left, top), (right, bottom), (255, 178, 50), 3)# Print a label of class.label = '%.2f' % confif classes:assert (classId < len(classes))label = '%s:%s' % (classes[classId], label)  # 'person:1.00'# Display the label at the top of the bounding boxlabelSize, baseLine = cv.getTextSize(label, cv.FONT_HERSHEY_SIMPLEX, 0.5, 1)top = max(top, labelSize[1])cv.rectangle(frame, (left, top - round(1.5 * labelSize[1])), (left + round(1.5 * labelSize[0]), top + baseLine),(255, 255, 255), cv.FILLED)cv.putText(frame, label, (left, top), cv.FONT_HERSHEY_SIMPLEX, 0.75, (0, 0, 0), 1)# Resize the mask, threshold, color and apply it on the imageclassMask = cv.resize(classMask, (right - left + 1, bottom - top + 1))mask = (classMask > maskThreshold)roi = frame[top:bottom + 1, left:right + 1][mask]# color = colors[classId%len(colors)]# Comment the above line and uncomment the two lines below to generate different instance colorscolorIndex = random.randint(0, len(colors) - 1)color = colors[colorIndex]frame[top:bottom + 1, left:right + 1][mask] = ([0.3 * color[0], 0.3 * color[1], 0.3 * color[2]] + 0.7 * roi).astype(np.uint8)# Draw the contours on the imagemask = mask.astype(np.uint8)contours, hierarchy = cv.findContours(mask, cv.RETR_TREE, cv.CHAIN_APPROX_SIMPLE)cv.drawContours(frame[top:bottom + 1, left:right + 1], contours, -1, color, 3, cv.LINE_8, hierarchy, 100)# For each frame, extract the bounding box and mask for each detected object
def postprocess(boxes, masks):# Output size of masks is NxCxHxW where# N - number of detected boxes# C - number of classes (excluding background)# HxW - segmentation shapenumClasses = masks.shape[1]  # 90numDetections = boxes.shape[2]  # 100frameH = frame.shape[0]  # 531frameW = frame.shape[1]  # 800for i in range(numDetections):  # traverse top 100 ROIbox = boxes[0, 0, i]  # (1, 1, 100, 7) -> (7,)# array([0.        , 0.        , 0.99842095, 0.7533724 , 0.152397  , 0.92448074, 0.9131955 ], dtype=float32)mask = masks[i]  # (100, 90, 15, 15) -> (90, 15, 15)score = box[2]  # 0.99842095if score > confThreshold:classId = int(box[1])# Extract the bounding boxleft = int(frameW * box[3])top = int(frameH * box[4])right = int(frameW * box[5])bottom = int(frameH * box[6])left = max(0, min(left, frameW - 1))top = max(0, min(top, frameH - 1))right = max(0, min(right, frameW - 1))bottom = max(0, min(bottom, frameH - 1))# Extract the mask for the objectclassMask = mask[classId]# Draw bounding box, colorize and show the mask on the imagedrawBox(frame, classId, score, left, top, right, bottom, classMask)# Load names of classes
classesFile = "mscoco_labels.names"
classes = None"""
person
bicycle
car
motorcycle
airplane
bus
train
truck
boat
traffic light
fire hydrantstop sign
parking meter
bench
bird
cat
dog
horse
sheep
cow
elephant
bear
zebra
giraffebackpack
umbrellahandbag
tie
suitcase
frisbee
skis
snowboard
sports ball
kite
baseball bat
baseball glove
skateboard
surfboard
tennis racket
bottlewine glass
cup
fork
knife
spoon
bowl
banana
apple
sandwich
orange
broccoli
carrot
hot dog
pizza
donut
cake
chair
couch
potted plant
beddining tabletoilettv
laptop
mouse
remote
keyboard
cell phone
microwave
oven
toaster
sink
refrigeratorbook
clock
vase
scissors
teddy bear
hair drier
toothbrush
"""with open(classesFile, 'rt') as f:classes = f.read().rstrip('\n').split('\n')# Give the textGraph and weight files for the model
textGraph = "./mask_rcnn_inception_v2_coco_2018_01_28.pbtxt"
modelWeights = "./mask_rcnn_inception_v2_coco_2018_01_28/frozen_inference_graph.pb"# Load the network
net = cv.dnn.readNetFromTensorflow(modelWeights, textGraph)if args.device == "cpu":net.setPreferableBackend(cv.dnn.DNN_TARGET_CPU)print("Using CPU device")
elif args.device == "gpu":net.setPreferableBackend(cv.dnn.DNN_BACKEND_CUDA)net.setPreferableTarget(cv.dnn.DNN_TARGET_CUDA)print("Using GPU device")# Load the classes
colorsFile = "colors.txt"
with open(colorsFile, 'rt') as f:colorsStr = f.read().rstrip('\n').split('\n')# ['0 255 0', '0 0 255', '255 0 0', '0 255 255', '255 255 0', '255 0 255', '80 70 180',# '250 80 190', '245 145 50', '70 150 250', '50 190 190']colors = []  # [0,0,0]
for i in range(len(colorsStr)):rgb = colorsStr[i].split(' ')color = np.array([float(rgb[0]), float(rgb[1]), float(rgb[2])])colors.append(color)"""
[array([  0., 255.,   0.]), array([  0.,   0., 255.]), array([255.,   0.,   0.]), array([  0., 255., 255.]), 
array([255., 255.,   0.]), array([255.,   0., 255.]), array([ 80.,  70., 180.]), array([250.,  80., 190.]), 
array([245., 145.,  50.]), array([ 70., 150., 250.]), array([ 50., 190., 190.])]
"""winName = 'Mask-RCNN Object detection and Segmentation in OpenCV'
cv.namedWindow(winName, cv.WINDOW_NORMAL)outputFile = "mask_rcnn_out_py.avi"
if (args.image):# Open the image fileif not os.path.isfile(args.image):print("Input image file ", args.image, " doesn't exist")sys.exit(1)cap = cv.VideoCapture(args.image)outputFile = args.image[:-4] + '_mask_rcnn_out_py.jpg'
elif (args.video):# Open the video fileif not os.path.isfile(args.video):print("Input video file ", args.video, " doesn't exist")sys.exit(1)cap = cv.VideoCapture(args.video)outputFile = args.video[:-4] + '_mask_rcnn_out_py.avi'
else:# Webcam inputcap = cv.VideoCapture(0)# Get the video writer initialized to save the output video
if (not args.image):vid_writer = cv.VideoWriter(outputFile, cv.VideoWriter_fourcc('M', 'J', 'P', 'G'), 28,(round(cap.get(cv.CAP_PROP_FRAME_WIDTH)), round(cap.get(cv.CAP_PROP_FRAME_HEIGHT))))while cv.waitKey(1) < 0:# Get frame from the videohasFrame, frame = cap.read()# Stop the program if reached end of videoif not hasFrame:print("Done processing !!!")print("Output file is stored as ", outputFile)cv.waitKey(3000)break# Create a 4D blob from a frame.blob = cv.dnn.blobFromImage(frame, swapRB=True, crop=False)  # (1, 3, 531, 800)# Set the input to the networknet.setInput(blob)# Run the forward pass to get output from the output layersboxes, masks = net.forward(['detection_out_final', 'detection_masks'])"""(1, 1, 100, 7)  top 100 RoI, (0, classid, score, x0, y0, x1, y1)(100, 90, 15, 15) 100 RoI, 90 classes, 15*15 feature maps size"""# Extract the bounding box and mask for each of the detected objectspostprocess(boxes, masks)# Put efficiency information.t, _ = net.getPerfProfile()label = 'Mask-RCNN Inference time for a frame : %0.0f ms' % abs(t * 1000.0 / cv.getTickFrequency())cv.putText(frame, label, (0, 15), cv.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 0))# Write the frame with the detection boxesif (args.image):cv.imwrite(outputFile, frame.astype(np.uint8));else:vid_writer.write(frame.astype(np.uint8))cv.imshow(winName, frame)

根据 bbox 的类别，取 mask 输出特征图对应类别的通道特征 classMask = mask[classId]

画 mask 的时候，先 resize 到 bbox 的大小，再借助了 cv2.findContours 和 drawContours 绘制出轮廓

4、结果展示

输入图片

在这里插入图片描述

输出结果

在这里插入图片描述

输入图片

在这里插入图片描述

输出结果

在这里插入图片描述

输入图片

在这里插入图片描述

输出结果

在这里插入图片描述

输入图片

在这里插入图片描述

输出结果

在这里插入图片描述

输入图片

在这里插入图片描述

输出结果

在这里插入图片描述

输入图片

在这里插入图片描述

输出结果

在这里插入图片描述

输入图片

在这里插入图片描述

输出结果

在这里插入图片描述

看看视频的结果

cars_mask_rcnn_out

5、涉及到的库

getPerfProfile

getPerfProfile 是 OpenCV 库中用于获取深度学习模型推理性能概况的一个函数。该函数主要用于分析模型中各层的执行时间，帮助开发者了解模型性能瓶颈和优化方向。

一、功能

getPerfProfile 函数返回一个包含模型各层执行时间的向量（或类似结构），单位通常为毫秒或秒，具体取决于函数实现和调用方式。

通过这个函数，开发者可以获取到模型推理过程中每一层所消耗的时间，进而分析哪些层是性能瓶颈，需要进一步优化。
使用场景

在使用 OpenCV 进行深度学习模型推理时，尤其是在对实时性要求较高的应用场景中，如视频处理、实时监控系统等，使用 getPerfProfile 函数可以帮助开发者评估和优化模型性能。

二、示例代码

import cv2  # 加载预训练模型  
net = cv2.dnn.readNet("model.xml", "model.bin")  # 假设有一个输入图像 blob  
blob = cv2.dnn.blobFromImage(...)  # 设置输入并进行推理  
net.setInput(blob)  
outputs = net.forward()  # 获取性能概况  
t, _ = net.getPerfProfile()  # 假设 t 是以秒为单位的时间，转换为毫秒并打印  
print("Inference time: %.2f ms" % (t * 1000.0))  # 如果需要更详细的每层时间，可以遍历 t  
# 注意：这里的 t 可能是一个向量，包含了多层的执行时间  
for layer_idx, layer_time in enumerate(t):  print(f"Layer {layer_idx}: {layer_time * 1000.0} ms")

三、注意事项

getPerfProfile 函数的返回值和单位可能因 OpenCV 的不同版本或不同的深度学习后端（如 DNN 模块支持的 TensorFlow、Caffe、PyTorch 等）而有所不同。

在使用该函数时，请确保您的 OpenCV 版本支持该功能，并仔细阅读相关文档以了解其具体用法和注意事项。

由于深度学习模型的复杂性和多样性，getPerfProfile 函数提供的性能数据仅供参考，实际的优化工作还需要结合模型的具体结构和应用场景进行。

6、参考

论文解读
【Mask RCNN】《Mask R-CNN》
tensorflow 代码解读
Mask RCNN without Mask
OpenCV进阶（7）在 OpenCV中使用 Mask RCNN实现对象检测和实例分割

【python】OpenCV—Mask RCNN for Object Detection and Instance Segmentation

编程日记 2024/9/11 23:03:04

通过 Python 使用 Pexels图片库 API 打造个性化壁纸应用

在数字时代，照片不仅仅是回忆的载体，它们还是我们生活的美丽装饰品。想象一下，如果你能轻松地将世界上最美的免费图片应用到你的应用程序中，岂不是让你的程序立刻闪亮起来？好消息是，这不仅仅是一个梦想。今…...

编程日记 2024/9/11 22:54:23

多线程篇（其它容器- CopyOnWriteArrayList）（持续更新迭代）

一、CopyOnWriteArrayList（一） 1. 简介并发包中的并发List只有CopyOnWriteArrayList。 CopyOnWriteArrayList是一个线程安全的ArrayList，对其进行的修改操作都是在底层的一个复制的数组（快照）上进行的&#xff0…...

编程日记 2024/9/11 22:53:22

OPENAIGC开发者大赛高校组金奖 | 知洞—基于大模型的智慧题库

在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您…...

编程日记 2024/9/11 22:52:09

java服务CPU使用率高排查

第一步使用top命令进行查看如果是死锁，cpu使用率不会很高，但不会响应，这时这样排查。第二步使用jps查看到进程id,再使用jstack pid查看线程堆栈信息 jstack pid会出现如图所示的信息，表示发生死锁，然后去排查这…...

编程日记 2024/9/11 22:50:06

聚焦：clicOH 借助 NVIDIA cuOpt 实现最后一英里交付速度 20 倍提升

受消费者行为转变和疫情影响，电子商务继续呈爆炸式增长和转型。因此，物流和运输公司发现自己处于包裹配送革命的前沿。这新的现实情况在最后一英里配送中尤为明显，而后者现在已经成为供应链物流中成本最高的要素，占从零售到制造等…...

编程日记 2024/9/11 22:44:36

从头开始嵌入式第三十八天（数据结构双向链表）

目录双向链表一、结构特点二、操作优势三、应用场景 1.创建链表 2.头插数据 3.打印数据 4.查找数据 5.删除数据 6.更改数据 7.清空数据 8.尾插数据 9.按位插入 10.获取长度 11.是否为空双向链表双向链表是一种链表结构。一、结构特点 1. 每个节点包含两个…...

编程日记 2024/9/11 22:43:35

chapter14-集合——（List-HashSet）——day18

目录 519-HashSet全面说明 520-数组链表模拟 521-HashSet扩容机制重要 522-HashSet源码解读1 526-HashSet最佳实践 527-hashSet思考题 519-HashSet全面说明题一、两个tom都可以添加成功是因为这是两个对象看源码做分析：不是直接指向常量池的吗？…...

编程日记 2024/9/11 22:42:34

企业会议室预约管理系统

基于springbootvuemysql实现的企业会议室预约管理系统（源码数据库部署视频） ### 主要技术 SpringBoot、Vue、MySQL ### 系统角色员工、管理员 ### 系统功能 1）管理员：数据统计（会议室使用统计-柱状图、设备状态统计…...

编程日记 2024/9/11 22:41:32

安全API

提到安全，大部分在学习和调试编程语言时并不太在意，真正爆发问题是在用户端。真正的安全漏洞是很可怕的，获取系统最高权限，获得敏感资讯，伤心不已，泪流满面。字符串 C语言简洁自由的风格，产生…...

编程日记 2024/9/11 22:39:21

【论文阅读】视觉分割新SOTA: Segment Anything（SAM）

导言随着基于对比文本—图像对的预训练（CLIP）方法或者模型、聊天生成预训练转换器（ChatGPT）、生成预训练转换器-4（GPT-4）等基础大模型的出现，通用人工智能（ AGI）的研究…...

编程日记 2024/9/11 22:37:16

redis之list核心命令演示与细节探索 BLMOVE source destination LEFT|RIGHT LEFT|RIGHT timeout summary: Pop an element from a list, push it to another list and return it; or block until one is available since: 6.2.0 BLPOP key [key …] timeout summary: Remove …...

编程日记 2024/9/11 22:31:32

[数据集][目标检测]智慧农业草莓叶子病虫害检测数据集VOC+YOLO格式4040张9类别

数据集格式：Pascal VOC格式YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)：4040 标注数量(xml文件个数)：4040 标注数量(txt文件个数)：4040 标注…...

编程日记 2024/9/11 22:27:07

Lua 与 C#交互

Lua 与C#交互前提 Lua是一种嵌入式脚本语言，Lua的解释器是用C编写的，因此可以方便的与C/C进行相互调用。轻量级 Lua语言的官方版本只包括一个精简的核心和最基本的库，这使得Lua体积小、启动速度快，也适合嵌入在别的程序里。交…...

编程日记 2024/9/11 22:26:02

【办公类】大组工会学习（文心一言+Python批量）

背景需求： 每学期要写一份工会的大组政治学习读后感（9月-1月，共5次） 学习内容 9月、10月、11月、12月、1月的学习内容文字稿在班级里，我擅长电脑工作，所以这种写的工作都包了。中2班三位老师一共写3篇&…...

编程日记 2024/9/11 22:24:57

项目管理工作流是什么?项目管理工作流管理实战技巧!

项目管理工作流是指在协作过程中通过限制任务状态的流转进行流程控制的一种方式。项目从启动到完成所经历的一系列有序、可控的步骤和流程，它详细描述了项目执行过程中各项任务和活动的顺序、依赖关系、责任人以及完成标准等，是项目成功执行的重要保障。…...

编程日记 2024/9/11 22:23:43

leveldb源码剖析（二）——LSM Tree

LSM Tree LSM Tree：Log-Structured Merge Tree，日志结构合并树。是一种频繁写性能很高的数据结构。 LSM Tree将写入操作与合并操作分离，数据首先写入磁盘中的日志文件（WAL），随后写入内存缓存，…...

编程日记 2024/9/11 22:22:42

三十六、Gin注册功能-检查账号是否存在

一、初始化 1、在cms.go中添加数据库连接方法 func connDB(app *CmsApp) {mysqlDB, err : gorm.Open(mysql.Open("root:rootroottcp(localhost:3306)/?charsetutf8mb4&parseTimeTrue&locLocal"))if err ! nil {panic(err)}db, err : mysqlDB.DB()if err !…...

编程日记 2024/9/11 22:19:39

什么是期权对冲？

今天期权懂带你了解什么是期权对冲？期权对冲的选择取决于投资者的市场预期和风险承受能力，通过合理使用期权对冲策略，可以有效减少风险并优化投资组合的表现。期权对冲是什么？ 期权是一种支持双向交易的投资产品，期…...

编程日记 2024/9/11 22:18:29

什么是数据库课程设计？

文章目录前言一、课程设计目的二、课程设计流程三、设计要点四、示例项目总结前言数据库课程设计是一个综合性的实践过程，旨在通过实际项目的设计与实现，加深学生对数据库理论知识的理解和应用能力。以下是一个关于数据库课程设计的基本框架和要点&…...

编程日记 2024/9/11 22:17:28

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

美国西海岸的夏天，再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至，这不仅是开发者的盛宴，更是全球数亿苹果用户翘首以盼的科技春晚。今年，苹果依旧为我们带来了全家桶式的系统更新，包括 iOS 26、iPadOS 26…...

编程新知 2025/7/14 15:59:35

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中，可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行，可以在脚本开头添加 set e 命令来取消该设置。举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令，并忽略错误 rm somefile…...

编程新知 2025/6/21 16:23:04

springboot 百货中心供应链管理系统小程序

一、前言随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，百货中心供应链管理系统被用户普遍使用，为方…...

编程新知 2025/7/13 8:25:32

工业安全零事故的智能守护者：一体化AI智能安防平台

前言： 通过AI视觉技术，为船厂提供全面的安全监控解决方案，涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面，能够实现对应负责人反馈机制，并最终实现数据的统计报表。提升船厂…...

编程新知 2025/7/13 12:04:56

23-Oracle 23 ai 区块链表（Blockchain Table）

小伙伴有没有在金融强合规的领域中遇见，必须要保持数据不可变，管理员都无法修改和留痕的要求。比如医疗的电子病历中，影像检查检验结果不可篡改行的，药品追溯过程中数据只可插入无法删除的特性需求；登录日志、修改日志…...

编程新知 2025/7/11 20:07:50

8k长序列建模，蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

蛋白质结合剂（如抗体、抑制肽）在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上，高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术，但这类方法普遍面临资源消耗巨大、研发周期冗长…...

编程新知 2025/7/13 17:36:56

Python爬虫（二）：爬虫完整流程

爬虫完整流程详解（7大核心步骤实战技巧） 一、爬虫完整工作流程以下是爬虫开发的完整流程，我将结合具体技术点和实战经验展开说明： 1. 目标分析与前期准备网站技术分析： 使用浏览器开发者工具（F12&…...

编程新知 2025/7/12 9:05:51

Python如何给视频添加音频和字幕

在Python中，给视频添加音频和字幕可以使用电影文件处理库MoviePy和字幕处理库Subtitles。下面将详细介绍如何使用这些库来实现视频的音频和字幕添加，包括必要的代码示例和详细解释。环境准备在开始之前，需要安装以下Python库：…...

编程新知 2025/6/20 22:43:59

MySQL账号权限管理指南：安全创建账户与精细授权技巧

在MySQL数据库管理中，合理创建用户账号并分配精确权限是保障数据安全的核心环节。直接使用root账号进行所有操作不仅危险且难以审计操作行为。今天我们来全面解析MySQL账号创建与权限分配的专业方法。一、为何需要创建独立账号？ 最小权限原则&#xf…...

编程新知 2025/6/21 13:00:47

Spring是如何解决Bean的循环依赖：三级缓存机制

1、什么是 Bean 的循环依赖在 Spring框架中，Bean 的循环依赖是指多个 Bean 之间‌互相持有对方引用‌，形成闭环依赖关系的现象。多个 Bean 的依赖关系构成环形链路，例如：双向依赖：Bean A 依赖 Bean B，同时 Bean B 也依赖 Bean A（A↔B）。链条循环： Bean A → Bean…...

编程新知 2025/7/9 9:20:33

文章目录

1、任务描述

2、MASR RCNN 网络结构

3、方法实现

4、结果展示

5、涉及到的库

getPerfProfile

6、参考

相关文章：