当前位置：首页 > news >正文

物体识别系统（识别图片中的物体）

news 2026/2/9 15:03:53

这是一个基于 PyTorch 和 PyQt5 的物体识别程序，使用 Faster R-CNN 模型来识别图片中的物体，并通过图形界面展示识别结果。

1.用户界面

主窗口：包含加载图片、识别、清除按钮，以及图片显示区域和结果展示区域。

图片显示：支持显示原始图片和处理后的图片（标注了识别结果）。

结果显示：显示识别到的物体类别和置信度。

2. 核心功能

加载图片：用户可以通过点击“加载图片”按钮选择本地图片文件。

物体识别：使用 Faster R-CNN 模型识别图片中的物体。

标注结果：在图片上绘制矩形框，并标注物体类别和置信度。

显示结果：在界面中显示所有识别到的物体及其类别和置信度。

清除显示：点击“清除”按钮，清空图片和结果显示区域。

3. 技术细节

Faster R-CNN 模型：使用 PyTorch 提供的预训练 Faster R-CNN 模型（基于 COCO 数据集）。

图片处理：使用 OpenCV 进行图片的加载、格式转换和标注。

类别映射：将模型输出的类别 ID 映射为 COCO 数据集的类别名称（如 person, car, dog 等）。

置信度过滤：只显示置信度大于 0.5 的物体。

import sys
import cv2
import torch
import torchvision
from PyQt5.QtWidgets import (QApplication, QMainWindow, QWidget, QVBoxLayout, QHBoxLayout, QPushButton, QLabel, QFileDialog)
from PyQt5.QtGui import QPixmap, QImage
from PyQt5.QtCore import Qtclass ObjectDetector(QMainWindow):def __init__(self):super().__init__()self.setWindowTitle("物体识别系统")self.setGeometry(100, 100, 800, 600)# 初始化UIself.init_ui()# 加载预训练的Faster R-CNN模型self.model = torchvision.models.detection.fasterrcnn_resnet50_fpn(weights=torchvision.models.detection.FasterRCNN_ResNet50_FPN_Weights.DEFAULT)self.model.eval()# COCO数据集类别名称self.coco_class_names = ['person', 'bicycle', 'car', 'motorcycle', 'airplane', 'bus', 'train', 'truck', 'boat', 'traffic light','fire hydrant', 'stop sign', 'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse', 'sheep', 'cow','elephant', 'bear', 'zebra', 'giraffe', 'backpack', 'umbrella', 'handbag', 'tie', 'suitcase', 'frisbee','skis', 'snowboard', 'sports ball', 'kite', 'baseball bat', 'baseball glove', 'skateboard', 'surfboard','tennis racket', 'bottle', 'wine glass', 'cup', 'fork', 'knife', 'spoon', 'bowl', 'banana', 'apple','sandwich', 'orange', 'broccoli', 'carrot', 'hot dog', 'pizza', 'donut', 'cake', 'chair', 'couch','potted plant', 'bed', 'dining table', 'toilet', 'tv', 'laptop', 'mouse', 'remote', 'keyboard', 'cell phone','microwave', 'oven', 'toaster', 'sink', 'refrigerator', 'book', 'clock', 'vase', 'scissors', 'teddy bear','hair drier', 'toothbrush']# 验证 COCO 和模型匹配性print(f"COCO 类别数量: {len(self.coco_class_names)}")  # 应为 80def init_ui(self):"""初始化用户界面"""# 创建主窗口部件和布局central_widget = QWidget()self.setCentralWidget(central_widget)layout = QVBoxLayout(central_widget)# 创建顶部按钮区域button_layout = QHBoxLayout()# 添加按钮self.btn_load = QPushButton("加载图片", self)self.btn_load.clicked.connect(self.load_image)button_layout.addWidget(self.btn_load)self.btn_detect = QPushButton("识别", self)self.btn_detect.clicked.connect(self.detect_objects)button_layout.addWidget(self.btn_detect)self.btn_clear = QPushButton("清除", self)self.btn_clear.clicked.connect(self.clear_display)button_layout.addWidget(self.btn_clear)layout.addLayout(button_layout)# 创建显示区域display_layout = QHBoxLayout()# 原始图片显示self.image_label = QLabel()self.image_label.setMinimumSize(400, 400)self.image_label.setAlignment(Qt.AlignCenter)self.image_label.setStyleSheet("border: 2px solid black;")display_layout.addWidget(self.image_label)# 处理后的图片显示self.processed_label = QLabel()self.processed_label.setMinimumSize(400, 400)self.processed_label.setAlignment(Qt.AlignCenter)self.processed_label.setStyleSheet("border: 2px solid black;")display_layout.addWidget(self.processed_label)layout.addLayout(display_layout)# 结果显示self.result_label = QLabel("识别结果将在这里显示")self.result_label.setAlignment(Qt.AlignCenter)self.result_label.setStyleSheet("""QLabel {font-size: 24px;margin: 20px;padding: 10px;background-color: #f0f0f0;border-radius: 5px;}""")layout.addWidget(self.result_label)# 初始化变量self.current_image = Noneself.processed_image = Nonedef load_image(self):"""加载图片"""file_name, _ = QFileDialog.getOpenFileName(self, "选择图片", "", "Image Files (*.png *.jpg *.jpeg *.bmp)")if file_name:# 读取图片self.current_image = cv2.imread(file_name)if self.current_image is None:self.result_label.setText("无法加载图片！")return# 显示原始图片self.display_image(self.current_image, self.image_label)def display_image(self, image, label):"""显示图片到指定的标签"""height, width = image.shape[:2]bytes_per_line = 3 * widthq_image = QImage(image.data, width, height, bytes_per_line, QImage.Format_RGB888).rgbSwapped()pixmap = QPixmap.fromImage(q_image)scaled_pixmap = pixmap.scaled(label.size(), Qt.KeepAspectRatio)label.setPixmap(scaled_pixmap)def detect_objects(self):"""识别图片中的物体"""if self.current_image is None:self.result_label.setText("请先加载图片！")return# 将OpenCV的BGR图片转换为RGBimage_rgb = cv2.cvtColor(self.current_image, cv2.COLOR_BGR2RGB)# 将NumPy数组转换为PyTorch Tensorimage_tensor = torch.from_numpy(image_rgb).permute(2, 0, 1).float() / 255.0# 添加batch维度image_tensor = image_tensor.unsqueeze(0)# 使用Faster R-CNN模型进行物体识别with torch.no_grad():results = self.model(image_tensor)# 打印模型输出的类别 IDprint(f"模型输出的类别 ID: {results[0]['labels']}")# 处理识别结果self.processed_image = self.current_image.copy()for box, label, score in zip(results[0]['boxes'], results[0]['labels'], results[0]['scores']):if score > 0.5:  # 只显示置信度大于0.5的物体if 1 <= label <= 80:  # 检查类别 ID 是否在有效范围内x1, y1, x2, y2 = map(int, box)cv2.rectangle(self.processed_image, (x1, y1), (x2, y2), (0, 255, 0), 2)class_name = self.coco_class_names[label - 1]  # COCO类别ID从1开始cv2.putText(self.processed_image, f"{class_name}: {score:.2f}", (x1, y1 - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (0, 255, 0), 2)else:print(f"警告: 无效的类别 ID: {label}")# 显示处理后的图片self.display_image(self.processed_image, self.processed_label)# 显示识别结果detected_objects = []for label, score in zip(results[0]['labels'], results[0]['scores']):if score > 0.5:if 1 <= label <= 80:  # 检查类别 ID 是否在有效范围内class_name = self.coco_class_names[label - 1]  # COCO类别ID从1开始detected_objects.append(f"类别: {class_name}, 置信度: {score:.2f}")else:print(f"警告: 无效的类别 ID: {label}")if detected_objects:self.result_label.setText("识别结果:\n" + "\n".join(detected_objects))else:self.result_label.setText("未识别到物体！")def clear_display(self):"""清除显示"""self.image_label.clear()self.processed_label.clear()self.result_label.setText("识别结果将在这里显示")self.current_image = Noneself.processed_image = Nonedef main():app = QApplication(sys.argv)window = ObjectDetector()window.show()sys.exit(app.exec_())if __name__ == "__main__":main()

物体识别系统（识别图片中的物体）

这是一个基于 PyTorch 和 PyQt5 的物体识别程序，使用 Faster R-CNN 模型来识别图片中的物体，并通过图形界面展示识别结果。 1.用户界面主窗口：包含加载图片、识别、清除按钮，以及图片显示区域和结果展示区域。图片显示&#…...

编程日记 2025/2/23 14:18:39

数据表的存储过程和函数介绍

文章目录一、概述二、创建存储过程三、在创建过程中使用变量四、光标的使用五、流程控制的使用六、查看和删除存储过程一、概述存储过程和函数是在数据库中定义的一些SQL语句的集合，然后直接调用这些存储过程和函数来执行已经定义好的SQL语句。存储过程和函数可…...

编程日记 2025/2/23 14:11:18

【DeepSeek-R1背后的技术】系列九：MLA（Multi-Head Latent Attention，多头潜在注意力）

【DeepSeek背后的技术】系列博文： 第1篇：混合专家模型（MoE） 第2篇：大模型知识蒸馏（Knowledge Distillation） 第3篇：强化学习（Reinforcement Learning, RL） 第…...

编程日记 2025/2/23 14:04:56

【JavaWeb12】数据交换与异步请求：JSON与Ajax的绝妙搭配是否塑造了Web的交互革命?

文章目录 🌍一. 数据交换--JSON❄️1. JSON介绍❄️2. JSON 快速入门❄️3. JSON 对象和字符串对象转换❄️4. JSON 在 java 中使用❄️5. 代码演示 🌍二. 异步请求--Ajax❄️1. 基本介绍❄️2. JavaScript 原生 Ajax 请求❄️3. JQuery 的 Ajax 请求 &a…...

编程日记 2025/2/23 14:00:45

[特殊字符] 蓝桥杯 Java B 组之位运算（异或性质、二进制操作）

Day 6：位运算（异或性质、二进制操作） 📖 一、位运算简介位运算是计算机底层优化的重要手段，利用二进制操作可以大大提高运算速度。常见的位运算包括： 与（&）：a &am…...

编程日记 2025/2/23 13:56:40

[MDM 2024]Spatial-Temporal Large Language Model for Traffic Prediction

论文网址：[2401.10134] Spatial-Temporal Large Language Model for Traffic Prediction 论文代码：GitHub - ChenxiLiu-HNU/ST-LLM: Official implementation of the paper "Spatial-Temporal Large Language Model for Traffic Prediction" …...

编程日记 2025/2/23 13:55:38

LTO优化详解

嵌入式开发过程中的LTO优化是什么意思？能够用来解决什么问题？它都优化了哪些？仅开启LTO真的可以优化SIZE的问题吗? 请分别回答我刚才提到的问题？ 嗯，用户问关于嵌入式开发中的LTO优化，我需要详细解释这个概…...

编程日记 2025/2/23 13:54:29

分布式事务三阶段协议

分布式事务的三阶段分别是准备阶段、预提交阶段和提交 / 回滚阶段，以下是详细介绍： 三阶段提交协议可以理解为两阶段提交协议的改良版，是在协调者和参与者中都引入超时机制，并且把两阶段提交协议的第一个阶段分成了两步: 询问&am…...

编程日记 2025/2/23 13:49:14

LLaMA-Factory|微调大语言模型初探索(4)，64G显存微调13b模型

上篇文章记录了使用lora微调deepseek-7b，微调成功，但是微调llama3-8b显存爆炸，这次尝试使用qlora微调HQQ方式量化，微调更大参数体量的大语言模型，记录下来微调过程，仅供参考。对过程不感兴趣的兄弟们可以直…...

编程日记 2025/2/23 13:45:07

常用高压缩率的视频容器格式，并进行大比例压缩

常用的高压缩率视频容器格式，包括*.mp4 、*.mkv、*.webM等。容器格式本身并不直接决定压缩率，而是取决于容器中所使用的视频编码格式等因素。不过，在常见的视频容器格式中，一些容器在搭配特定编码格式时，通常能表现出较高的压缩效率，以下是相关介绍： 1 MKV格式 …...

编程日记 2025/2/23 13:44:00

代码编译（词法义）

1.预处理 (Preprocessing)： 在这个阶段，编译器会处理所有以 # 开头的指令，如 #include、#define 等。它会把头文件的内容插入到源代码中，进行宏替换等预处理操作，生成一个纯净的代码文件。 3.词法分析 (Lexical Analy…...

编程日记 2025/2/23 13:39:49

android，flutter 混合开发，pigeon通信，传参

文章目录 app效果native和flutter通信的基础知识1. 编解码器一致性和完整性，安全性，性能优化2. android代码3. dart代码 1. 创建flutter_module2.修改 Android 项目的 settings.gradle，添加 Flutter module3. 在 Android app 的 build.gradl…...

编程日记 2025/2/23 13:37:41

at32f403a rt thread led基础bsp工程测试

1.led工程官方bsp使用导出一个独立的AT32F403A的BSP工程下载RTT源代码 gitee更新较慢 https://gitee.com/rtthread/rt-thread github版本更新最新 https://github.com/RT-Thread/rt-thread. 切换到V5.1.0分支（使用一个发布版本可以避免不必要的bug）导出一个独立的AT32BSP…...

编程日记 2025/2/23 13:33:31

DeepSeek写贪吃蛇手机小游戏

DeepSeek写贪吃蛇手机小游戏提问根据提的要求，让DeepSeek整理的需求，进行提问，内容如下： 请生成一个包含以下功能的可运行移动端贪吃蛇H5文件： 要求蛇和食物红点要清晰，不超过屏幕外下方有暂停和重新…...

编程日记 2025/2/23 13:31:28

【好玩的工具和命令】 ASCII 艺术生成工具： figlet

figlet 是一款用于生成 ASCII 艺术文字的工具，支持多种字体样式。它能将输入的文本转换为由字符组成的大型字母图案，广泛应用于命令行环境下的标题展示或装饰。核心功能生成 ASCII 文字艺术：将普通文本转化为大号的、由字符构成的艺术字…...

编程日记 2025/2/23 13:30:26

工具--安川伺服故障代码

上传一下安川伺服故障代码，后续结合实际维修经验，逐个整理分析，绝对超出手册经验故障代码故障描述 a.020/a.02 用户参数和数检查异常 1 a.021/a.02 参数格式化异常 1 a.022/a.02 系统参数和数检查异常 1 a.023/a.02 参数密码异常…...

编程日记 2025/2/23 13:25:13

车载软件架构 --- OEM主机厂如何打入软件供应商内部？

我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：简单，单纯，喜欢独处，独来独往，不易合同频过着接地气的生活，除了生存温饱问题之外，没有什么过多的欲望，表面看起来很高冷，内心热情，如果你身…...

编程日记 2025/2/23 13:23:05

AI 编程助手 cursor的系统提示词 prompt

# Role 你是一名极其优秀具有10年经验的产品经理和精通java编程语言的架构师。与你交流的用户是不懂代码的初中生，不善于表达产品和代码需求。你的工作对用户来说非常重要，完成后将获得10000美元奖励。 # Goal 你的目标是帮助用户以他容易理解的…...

编程日记 2025/2/23 13:21:59

Matlab写入点云数据到Rosbag

最近有需要读取一个点云并做处理后，重新写回rosbag。网上有很多读取的教程，但没有写入。自己写入时也遇到了很多麻烦，踩了一堆坑进行记录。 1. rosbag中一个lidar的msg有哪些信息？ 通过如下代码，先读取一个rosbag的l…...

编程日记 2025/2/23 13:16:51

业务流程相关的权威认证和培训有哪些

业务流程的认证和培训种类繁多，旨在帮助专业人士掌握业务流程管理 (BPM) 的知识和技能，从而提升个人职业发展和组织运营效率。下面分别介绍： 一、业务流程认证和培训的种类业务流程的认证和培训可以大致分为以下几类，涵盖了不…...

编程日记 2025/2/23 13:15:45

vscode里如何用git

打开vs终端执行如下： 1 初始化 Git 仓库（如果尚未初始化） git init 2 添加文件到 Git 仓库 git add . 3 使用 git commit 命令来提交你的更改。确保在提交时加上一个有用的消息。 git commit -m "备注信息" 4 …...

编程新知 2025/8/24 20:45:38

C++_核心编程_多态案例二-制作饮品

#include <iostream> #include <string> using namespace std;/*制作饮品的大致流程为：煮水 - 冲泡 - 倒入杯中 - 加入辅料利用多态技术实现本案例，提供抽象制作饮品基类，提供子类制作咖啡和茶叶*//*基类*/ class AbstractDr…...

编程新知 2026/2/8 20:42:55

springboot 百货中心供应链管理系统小程序

一、前言随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，百货中心供应链管理系统被用户普遍使用，为方…...

编程新知 2026/2/8 20:41:49

STM32标准库-DMA直接存储器存取

文章目录一、DMA1.1简介1.2存储器映像1.3DMA框图1.4DMA基本结构1.5DMA请求1.6数据宽度与对齐1.7数据转运DMA1.8ADC扫描模式DMA 二、数据转运DMA2.1接线图2.2代码2.3相关API 一、DMA 1.1简介 DMA（Direct Memory Access）直接存储器存取 DMA可以提供外设…...

编程新知 2026/1/26 10:55:51

Python爬虫（二）：爬虫完整流程

爬虫完整流程详解（7大核心步骤实战技巧） 一、爬虫完整工作流程以下是爬虫开发的完整流程，我将结合具体技术点和实战经验展开说明： 1. 目标分析与前期准备网站技术分析： 使用浏览器开发者工具（F12&…...

编程新知 2025/10/19 5:48:51

【HTTP三个基础问题】

面试官您好！HTTP是超文本传输协议，是互联网上客户端和服务器之间传输超文本数据（比如文字、图片、音频、视频等）的核心协议，当前互联网应用最广泛的版本是HTTP1.1，它基于经典的C/S模型，也就是客…...

编程新知 2025/12/10 6:18:55

MFC 抛体运动模拟：常见问题解决与界面美化

在 MFC 中开发抛体运动模拟程序时，我们常遇到轨迹残留、无效刷新、视觉单调、物理逻辑瑕疵等问题。本文将针对这些痛点，详细解析原因并提供解决方案，同时兼顾界面美化，让模拟效果更专业、更高效。问题一：历史轨迹与小球残影残留现象小球运动后，历史位置的 “残影”…...

编程新知 2026/1/29 12:12:12

腾讯云V3签名

想要接入腾讯云的Api，必然先按其文档计算出所要求的签名。之前也调用过腾讯云的接口，但总是卡在签名这一步，最后放弃选择SDK，这次终于自己代码实现。可能腾讯云翻新了接口文档，现在阅读起来，清晰了很多&…...

编程新知 2026/1/24 4:39:04

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement 1. LAB环境2. L2公告策略2.1 部署Death Star2.2 访问服务2.3 部署L2公告策略2.4 服务宣告 3. 可视化 ARP 流量3.1 部署新服务3.2 准备可视化3.3 再次请求 4. 自动IPAM4.1 IPAM Pool4.2 …...

编程新知 2026/2/5 17:29:21

Linux安全加固：从攻防视角构建系统免疫

Linux安全加固：从攻防视角构建系统免疫构建坚不可摧的数字堡垒引言：攻防对抗的新纪元在日益复杂的网络威胁环境中，Linux系统安全已从被动防御转向主动免疫。2023年全球网络安全报告显示，高级持续性威胁（APT）攻击同比增长65%，平均入侵停留时间缩短至48小时。本章将从…...

编程新知 2025/9/30 15:48:08

1.用户界面

2. 核心功能

3. 技术细节

相关文章：