当前位置：首页 > news >正文

深度学习守护夜行安全：夜视行人检测系统详解

news 2025/7/7 10:06:58

基于深度学习的夜视行人检测系统（UI界面+YOLOv8/v7/v6/v5代码+训练数据集）

引言

夜视行人检测在自动驾驶和智能监控中至关重要。然而，由于光线不足，夜间行人检测面临巨大挑战。深度学习技术，特别是YOLO（You Only Look Once）模型，为解决这一问题提供了有效的方法。本文将详细介绍如何构建一个基于深度学习的夜视行人检测系统，涵盖环境搭建、数据集准备、模型训练、系统实现及用户界面设计。

系统概述

本系统的主要步骤如下：

环境搭建
数据收集与处理
模型训练
系统实现
用户界面设计

环境搭建

首先，我们需要搭建一个合适的开发环境。本文使用Python 3.8或以上版本，并依赖于多个深度学习和图像处理库。

安装必要的库

我们需要安装以下库：

numpy: 用于数值计算
pandas: 用于数据处理
matplotlib: 用于数据可视化
opencv-python: 用于图像处理
torch 和 torchvision: PyTorch深度学习框架
ultralytics: YOLO实现

pip install numpy pandas matplotlib opencv-python torch torchvision ultralytics pyqt5

数据收集与处理

数据收集

对于夜视行人检测，我们需要收集包含夜间行人图像的数据集。可以从公开的夜间行人数据集下载，或使用红外摄像头自行采集。

数据处理

将图像数据整理到指定的文件夹结构，并标注行人位置。以下是一个示例的文件夹结构：

datasets/├── images/│   ├── train/│   │   ├── image1.jpg│   │   ├── image2.jpg│   ├── val/│   │   ├── image1.jpg│   │   ├── image2.jpg├── labels/├── train/│   ├── image1.txt│   ├── image2.txt├── val/├── image1.txt├── image2.txt

每个标签文件的内容如下：

class x_center y_center width height

其中，class表示类别编号，x_center、y_center为归一化后的中心坐标，width和height为归一化后的宽度和高度。

模型训练

使用YOLO模型进行训练。

配置文件

创建一个配置文件config.yaml：

path: datasets
train: images/train
val: images/val
test: images/testnc: 1  # 类别数
names: ['person']

训练代码

使用以下代码训练模型：

from ultralytics import YOLO# 加载模型
model = YOLO('yolov8n.pt')# 训练模型
model.train(data='config.yaml', epochs=50, imgsz=640, batch=16, lr0=0.01)

系统实现

训练好的模型可以用于实时行人检测。我们使用OpenCV读取视频流，并调用YOLO模型进行检测。

检测代码

import cv2
from ultralytics import YOLO# 加载训练好的模型
model = YOLO('best.pt')# 打开视频流
cap = cv2.VideoCapture('video.mp4')while cap.isOpened():ret, frame = cap.read()if not ret:break# 检测行人results = model(frame)for result in results:bbox = result['bbox']label = result['label']confidence = result['confidence']# 画框和标签cv2.rectangle(frame, (bbox[0], bbox[1]), (bbox[2], bbox[3]), (0, 255, 0), 2)cv2.putText(frame, f'{label} {confidence:.2f}', (bbox[0], bbox[1] - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (0, 255, 0), 2)# 显示结果cv2.imshow('Night Vision Pedestrian Detection', frame)if cv2.waitKey(1) & 0xFF == ord('q'):breakcap.release()
cv2.destroyAllWindows()

用户界面设计

为了提高系统的易用性，我们需要设计一个用户友好的界面。本文使用PyQt5实现用户界面，提供图片或视频播放和行人检测结果显示。

界面代码

以下是一个简单的PyQt5界面代码示例：

import sys
from PyQt5.QtWidgets import QApplication, QWidget, QVBoxLayout, QLabel, QPushButton, QFileDialog
from PyQt5.QtGui import QPixmap, QImage
import cv2
from ultralytics import YOLOclass PedestrianDetectionUI(QWidget):def __init__(self):super().__init__()self.initUI()self.model = YOLO('best.pt')def initUI(self):self.setWindowTitle('Night Vision Pedestrian Detection System')self.layout = QVBoxLayout()self.label = QLabel(self)self.layout.addWidget(self.label)self.button = QPushButton('Open Image or Video', self)self.button.clicked.connect(self.open_file)self.layout.addWidget(self.button)self.setLayout(self.layout)def open_file(self):options = QFileDialog.Options()file_path, _ = QFileDialog.getOpenFileName(self, "Open File", "", "All Files (*);;MP4 Files (*.mp4);;JPEG Files (*.jpg);;PNG Files (*.png)", options=options)if file_path:if file_path.endswith('.mp4'):self.detect_pedestrian_video(file_path)else:self.detect_pedestrian_image(file_path)def detect_pedestrian_image(self, file_path):frame = cv2.imread(file_path)results = self.model(frame)for result in results:bbox = result['bbox']label = result['label']confidence = result['confidence']cv2.rectangle(frame, (bbox[0], bbox[1]), (bbox[2], bbox[3]), (0, 255, 0), 2)cv2.putText(frame, f'{label} {confidence:.2f}', (bbox[0], bbox[1] - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (0, 255, 0), 2)height, width, channel = frame.shapebytesPerLine = 3 * widthqImg = QImage(frame.data, width, height, bytesPerLine, QImage.Format_RGB888).rgbSwapped()self.label.setPixmap(QPixmap.fromImage(qImg))def detect_pedestrian_video(self, file_path):cap = cv2.VideoCapture(file_path)while cap.isOpened():ret, frame = cap.read()if not ret:break# 检测行人results = self.model(frame)for result in results:bbox = result['bbox']label = result['label']confidence = result['confidence']# 画框和标签cv2.rectangle(frame, (bbox[0], bbox[1]), (bbox[2], bbox[3]), (0, 255, 0), 2)cv2.putText(frame, f'{label} {confidence:.2f}', (bbox[0], bbox[1] - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (0, 255, 0), 2)height, width, channel = frame.shapebytesPerLine = 3 * widthqImg = QImage(frame.data, width, height, bytesPerLine, QImage.Format_RGB888).rgbSwapped()self.label.setPixmap(QPixmap.fromImage(qImg))cv2.waitKey(1)cap.release()if __name__ == '__main__':app = QApplication(sys.argv)ex = PedestrianDetectionUI()ex.show()sys.exit(app.exec_())

上述代码实现了一个简单的PyQt5界面，用户可以通过界面打开图片或视频文件，并实时查看夜视行人检测结果。

进一步优化

为了进一步提升系统性能，我们可以在以下几个方面进行优化：

数据增强

通过数据增强技术，可以增加训练数据的多样性，从而提高模型的泛化能力。例如，我们可以对图像进行随机裁剪、旋转、翻转等操作。

from torchvision import transformsdata_transforms = {'train': transforms.Compose([transforms.RandomResizedCrop(224),transforms.RandomHorizontalFlip(),transforms.ToTensor(),transforms.Normalize([0.485, 0.456, 0.406],[0.229, 0.224, 0.225])]),'val': transforms.Compose([transforms.Resize(256),transforms.CenterCrop(224),transforms.ToTensor(),transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])]),
}

模型调优

可以尝试不同的YOLO模型（如YOLOv5、YOLOv6、YOLOv7、YOLOv8），并调整模型的超参数，如学习率、批量大小、训练轮数等，以获得最佳性能。

部署优化

在实际部署中，可以使用TensorRT等工具对模型进行优化，以提高推理速度和效率。

总结与声明

本文详细介绍了如何构建一个基于深度学习的夜视行人检测系统。从环境搭建、数据收集与处理、模型训练、系统实现到用户界面设计。
声明：本文只是简单的项目思路，如有部署的想法，想要（UI界面+YOLOv8/v7/v6/v5代码+训练数据集）的可以联系作者。