当前位置: 首页 > article >正文

OpenCV实战:用HOG+SVM从零训练一个行人检测器(附完整代码与数据集)

OpenCV实战从零构建HOGSVM行人检测器的工程指南在智能监控和自动驾驶领域行人检测一直是计算机视觉的核心任务之一。不同于传统算法原理的抽象讲解本文将带您深入HOG特征与SVM分类器的工程实践层面从数据集准备到模型部署手把手构建一个可落地的检测系统。1. 环境准备与数据集处理1.1 开发环境配置推荐使用Python 3.8和OpenCV 4.5环境通过conda快速搭建conda create -n hog_svm python3.8 conda activate hog_svm pip install opencv-python opencv-contrib-python scikit-learn matplotlib验证安装是否成功import cv2 print(cv2.__version__) # 应输出4.5以上版本1.2 INRIA数据集处理INRIA Person数据集包含2416张正样本和1218张负样本图像需按以下步骤预处理正样本裁剪所有行人图像统一调整为64×128像素负样本采集从场景图中随机截取非行人区域数据增强通过镜像翻转增加样本多样性import os import cv2 import numpy as np def process_pos_samples(input_dir, output_dir, target_size(64,128)): if not os.path.exists(output_dir): os.makedirs(output_dir) for filename in os.listdir(input_dir): img cv2.imread(os.path.join(input_dir, filename)) resized cv2.resize(img, target_size) cv2.imwrite(os.path.join(output_dir, filename), resized) # 数据增强水平翻转 flipped cv2.flip(resized, 1) cv2.imwrite(os.path.join(output_dir, fflip_{filename}), flipped)2. HOG特征工程实战2.1 关键参数解析HOG特征提取的核心参数直接影响模型性能参数名典型值工程意义winSize(64,128)检测窗口大小需匹配训练样本尺寸blockSize(16,16)归一化块大小影响特征鲁棒性blockStride(8,8)块移动步长决定特征重叠程度cellSize(8,8)直方图计算单元影响梯度统计精度nbins9梯度方向分箱数通常取9个方向2.2 特征提取实现使用OpenCV的HOGDescriptor进行高效计算def extract_hog_features(images, visualizeFalse): hog cv2.HOGDescriptor( _winSize(64,128), _blockSize(16,16), _blockStride(8,8), _cellSize(8,8), _nbins9 ) features [] for img in images: if img.shape[:2] ! (128,64): img cv2.resize(img, (64,128)) # 转换为灰度图 gray cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 计算HOG特征 feat hog.compute(gray) features.append(feat.flatten()) if visualize: # 可视化HOG特征 hog_vis, _ hog.compute(gray, visTrue) cv2.imshow(HOG Visualization, hog_vis) cv2.waitKey(10) return np.array(features)提示在实际工程中建议将提取的特征保存为.npy文件避免重复计算3. SVM模型训练与调优3.1 线性SVM实现OpenCV提供了高效的SVM实现def train_svm(features, labels): svm cv2.ml.SVM_create() svm.setType(cv2.ml.SVM_C_SVC) svm.setKernel(cv2.ml.SVM_LINEAR) svm.setC(0.01) # 正则化参数 # 转换为OpenCV需要的格式 train_data cv2.ml.TrainData_create( features.astype(np.float32), cv2.ml.ROW_SAMPLE, labels.astype(np.int32) ) # 训练模型 svm.train(train_data) return svm3.2 模型评估技巧使用准确率-召回率曲线评估性能from sklearn.metrics import precision_recall_curve import matplotlib.pyplot as plt def evaluate_model(svm, test_features, test_labels): _, predictions svm.predict(test_features) # 计算精确率-召回率 precisions, recalls, _ precision_recall_curve(test_labels, predictions) plt.figure() plt.plot(recalls, precisions, linewidth2) plt.xlabel(Recall) plt.ylabel(Precision) plt.title(Precision-Recall Curve) plt.grid(True) plt.show()4. 模型部署与性能优化4.1 多尺度检测实现实际应用中需处理不同尺度的行人def detect_multiscale(image, hog, svm, scale_factor1.05): detections [] current_scale 1.0 while True: # 缩放图像 scaled_width int(image.shape[1] / current_scale) scaled_height int(image.shape[0] / current_scale) if scaled_width 64 or scaled_height 128: break scaled_img cv2.resize(image, (scaled_width, scaled_height)) # 滑动窗口检测 for y in range(0, scaled_img.shape[0]-128, 16): for x in range(0, scaled_img.shape[1]-64, 8): window scaled_img[y:y128, x:x64] features hog.compute(window) _, result svm.predict(features.reshape(1,-1)) if result[0] 1: # 正样本 orig_x int(x * current_scale) orig_y int(y * current_scale) orig_w int(64 * current_scale) orig_h int(128 * current_scale) detections.append((orig_x, orig_y, orig_w, orig_h)) current_scale * scale_factor return detections4.2 非极大值抑制(NMS)解决重叠检测框问题def non_max_suppression(boxes, overlap_thresh0.3): if len(boxes) 0: return [] # 转换坐标为(x1,y1,x2,y2)格式 boxes np.array([[x,y,xw,yh] for (x,y,w,h) in boxes]) pick [] x1 boxes[:,0] y1 boxes[:,1] x2 boxes[:,2] y2 boxes[:,3] area (x2 - x1 1) * (y2 - y1 1) idxs np.argsort(y2) while len(idxs) 0: last len(idxs) - 1 i idxs[last] pick.append(i) xx1 np.maximum(x1[i], x1[idxs[:last]]) yy1 np.maximum(y1[i], y1[idxs[:last]]) xx2 np.minimum(x2[i], x2[idxs[:last]]) yy2 np.minimum(y2[i], y2[idxs[:last]]) w np.maximum(0, xx2 - xx1 1) h np.maximum(0, yy2 - yy1 1) overlap (w * h) / area[idxs[:last]] idxs np.delete(idxs, np.concatenate(([last], np.where(overlap overlap_thresh)[0]))) return boxes[pick].astype(int)在真实项目中将HOGSVM部署到嵌入式设备时我们发现通过调整blockStride参数可以在精度和速度之间取得平衡——当从(8,8)改为(4,4)时检测率提升约7%但处理速度下降40%。最终方案需要根据具体硬件性能和应用场景进行权衡。

相关文章:

OpenCV实战:用HOG+SVM从零训练一个行人检测器(附完整代码与数据集)

OpenCV实战:从零构建HOGSVM行人检测器的工程指南 在智能监控和自动驾驶领域,行人检测一直是计算机视觉的核心任务之一。不同于传统算法原理的抽象讲解,本文将带您深入HOG特征与SVM分类器的工程实践层面,从数据集准备到模型部署&am…...

Yank Note:本地优先、高度可扩展的Markdown编辑器深度解析

1. 项目概述:Yank Note,一个为效率而生的Markdown编辑器 如果你和我一样,每天的工作和生活都离不开Markdown——写技术文档、做项目规划、整理知识笔记,甚至用它来写博客草稿,那你一定对市面上那些“差一点意思”的编…...

Explorer.exe进程占用CPU 100%导致黑屏?深度排查与根治方案(Win10/11通用)

Explorer.exe进程占用CPU 100%导致黑屏?深度排查与根治方案(Win10/11通用) 当Windows桌面突然黑屏,而任务管理器显示Explorer.exe进程CPU占用率飙升至100%,这往往意味着系统核心组件出现了深层问题。不同于简单的界面卡…...

电商订单系统崩了?3步定位PHP分布式事务断点(Seata+RocketMQ+本地消息表实战复盘)

更多请点击: https://intelliparadigm.com 第一章:电商订单系统分布式事务的典型故障场景 在高并发电商场景中,订单创建常横跨库存服务、支付服务、用户积分服务与物流调度服务等多个独立部署的微服务。当缺乏强一致性保障机制时&#xff0…...

MarkLLM:让大语言模型具备视觉文档理解能力的开源框架

1. 项目概述:当大语言模型学会“看”文档 最近在折腾文档智能处理的项目,发现了一个挺有意思的开源工具——THU-BPM实验室开局的MarkLLM。简单来说,它让大语言模型(LLM)具备了“视觉阅读”和理解复杂文档版式的能力。我…...

终极Silk音频转换解决方案:3分钟搞定微信QQ语音文件转MP3

终极Silk音频转换解决方案:3分钟搞定微信QQ语音文件转MP3 【免费下载链接】silk-v3-decoder [Skype Silk Codec SDK]Decode silk v3 audio files (like wechat amr, aud files, qq slk files) and convert to other format (like mp3). Batch conversion support. …...

终极免费换肤方案:R3nzSkin国服零风险解锁英雄联盟全皮肤指南

终极免费换肤方案:R3nzSkin国服零风险解锁英雄联盟全皮肤指南 【免费下载链接】R3nzSkin-For-China-Server Skin changer for League of Legends (LOL) 项目地址: https://gitcode.com/gh_mirrors/r3/R3nzSkin-For-China-Server 你是否曾梦想在英雄联盟中体验…...

基于GPT与向量检索构建智能技术面试模拟系统:架构、部署与实战

1. 项目概述与核心价值最近在技术社区里,看到不少朋友在讨论一个叫moonkorea00/tech-interview-GPT的项目。光看名字,你大概就能猜到它的核心:一个利用 GPT 模型来辅助技术面试准备的工具。作为一个经历过无数次面试,也面试过不少…...

避坑指南:在COMSOL或Abaqus中设置大变形时,如何正确理解并验证‘变形梯度’结果?

工程仿真中的变形梯度实战指南:从理论验证到COMSOL/Abaqus避坑技巧 当你在COMSOL或Abaqus中处理橡胶密封圈压缩、生物软组织拉伸等大变形问题时,是否遇到过仿真结果出现材料穿透、应力奇异等违反物理常识的现象?这些问题的根源往往在于对变形…...

实测NRF52840低功耗电流从100uA降到1.6uA,我的SDK17外设关闭避坑清单

NRF52840深度低功耗优化实战:从100uA到1.6uA的完整调优指南 当我在智能穿戴设备项目中首次实测NRF52840的低功耗表现时,发现实际电流始终徘徊在100uA左右,远高于数据手册宣称的1.6uA理想值。经过两周的系统性排查与优化,最终实现了…...

Universal Framework OS:开箱即用的开发环境操作系统设计与实践

1. 项目概述:一个“野心勃勃”的通用框架操作系统如果你和我一样,在软件开发这条路上摸爬滚打了十几年,那你一定经历过无数次这样的场景:为了一个项目,需要搭建一套完整的开发环境,从操作系统、运行时、依赖…...

从一颗烧掉的钽电容说起:手把手教你读懂Datasheet,避开低阻抗电路设计的那些‘坑’

钽电容失效案例分析:从数据手册到低阻抗电路设计的避坑指南 那天下午,实验室里飘来一阵刺鼻的焦糊味,顺着气味找过去,发现一块DC-DC电源模块上的钽电容已经烧成了焦黑色。这个看似简单的元件失效,直接导致了整个电源系…...

为AI编程助手构建持久记忆系统:Obsidian Mind架构与实战

1. 项目概述:为AI编程助手打造一个持久记忆系统如果你和我一样,每天都在和Claude Code、Cursor这类AI编程助手打交道,那你一定也遇到过这个痛点:每次开启新会话,它都像一张白纸。你得重新解释项目背景、团队分工、上周…...

从ls -l的第一行权限开始:手把手教你读懂Linux文件系统的‘身份证’

从ls -l的第一行权限开始:手把手教你读懂Linux文件系统的‘身份证’ 当你第一次在Linux终端输入ls -l命令时,屏幕上跳出的那串神秘字符可能会让你感到困惑。drwxr-xr-x、-rw-r--r--这些看似随机的字母组合,实际上是Linux文件系统的"身份…...

Prompt Engineering——从随意提问到工程化调用

前言 在上一篇文章中,我们理解了大模型为什么会产生幻觉。其中一个关键的缓解手段,就是Prompt Engineering。 你可能会觉得:“Prompt Engineering 不就是写好提示词吗?这有什么可学的?” 但真正做过大模型应用开发的人…...

保姆级教程:在Ubuntu 22.04上安装CUDA 12.2(含驱动分离安装与RTX 3090验证)

保姆级教程:在Ubuntu 22.04上安装CUDA 12.2(含驱动分离安装与RTX 3090验证) 如果你正在搭建深度学习开发环境,CUDA的安装往往是第一个需要跨越的技术门槛。不同于简单的软件包安装,CUDA配置涉及驱动版本匹配、环境变量…...

为什么你的C++ DoIP客户端总在0x7F响应后静默崩溃?深度剖析UDS Negative Response解析逻辑缺陷与RAII资源泄漏链(附ASAM MCD-2D兼容补丁)

更多请点击: https://intelliparadigm.com 第一章:为什么你的C DoIP客户端总在0x7F响应后静默崩溃?深度剖析UDS Negative Response解析逻辑缺陷与RAII资源泄漏链(附ASAM MCD-2D兼容补丁) 当DoIP客户端收到UDS服务的0x…...

状态图在面向对象建模中的核心价值与实践

1. 状态图在面向对象建模中的核心价值状态图(Statecharts)作为行为建模的利器,在面向对象系统开发中展现出独特优势。与传统的有限状态机相比,状态图通过层次化状态和正交组件等创新机制,解决了复杂系统建模中的状态爆…...

告别FTP!用QT5和QSsh-Botan-1库给你的C++应用加上SFTP文件传输功能(附完整源码)

告别FTP!用QT5和QSsh-Botan-1库为C应用实现企业级SFTP文件传输 在桌面应用开发领域,文件传输功能的需求从未减少,但传统FTP协议的安全隐患却日益凸显。当我们需要在医疗影像系统、金融交易终端或工业控制软件中传输敏感数据时,一个…...

告别SubScene束缚:手把手教你用Addressables为Unity Entities 1.0.16实现动态资源加载

突破SubScene限制:ECS与Addressables动态资源加载的工程实践 在Unity的DOTS技术栈中,Entities 1.0.16版本虽然带来了显著的性能提升,但资源管理系统的缺失让许多开发者陷入两难——既想利用ECS的高效数据处理能力,又无法放弃Addre…...

AI 一键生成 HTML/CSS/JS 静态网站【压缩包返回可直接提交】

网页设计课救星:AI 一键生成 HTML/CSS/JS 静态网站——还支持「免费分享换卡密」写给正在修《网页设计与制作》《Web 前端基础》《多媒体网页设计》的同学:期末大作业要交多页面静态站、响应式布局、还要写得像「成品」?不用通宵抠 DIV。本项…...

别再被果冻效应搞懵了!一文搞懂CMOS卷帘快门(Rolling Shutter)的原理与应对

别再被果冻效应搞懵了!一文搞懂CMOS卷帘快门(Rolling Shutter)的原理与应对 你是否遇到过这样的场景:用手机拍摄旋转的直升机螺旋桨时,叶片竟然扭曲成了"S"形;无人机航拍快速移动的建筑物时&…...

保姆级教程:从TensorFlow模型到K230部署,手把手搞定kmodel转换全流程

从TensorFlow到K230:工业级kmodel转换实战全解析 在边缘计算领域,CanMV K230开发板凭借其出色的性价比和MicroPython开发友好性,正成为AIoT开发者的新宠。但将训练好的TensorFlow模型高效部署到K230上,需要跨越格式转换、量化优化…...

快速构建imtoken风格web3钱包原型:快马平台ai一键生成基础框架

最近在研究Web3钱包开发,想快速验证一个类似imToken风格的产品原型。传统开发流程从零搭建环境、配置依赖到实现基础功能,至少需要几天时间。这次尝试用InsCode(快马)平台的AI生成功能,不到半小时就搭出了可交互的雏形,分享下具体…...

告别环境配置,快马平台jdk21云环境助力开发效率倍增

作为一名长期在Java生态中摸爬滚打的开发者,最近在InsCode(快马)平台上体验了JDK21的虚拟线程特性后,彻底被这种"开箱即用"的开发模式惊艳到了。今天想和大家分享一个真实场景下的效率提升案例——用虚拟线程改造传统订单处理流程。 为什么需…...

DLSS Swapper实战指南:三步掌握游戏性能优化,智能管理DLSS/FSR/XeSS动态链接库

DLSS Swapper实战指南:三步掌握游戏性能优化,智能管理DLSS/FSR/XeSS动态链接库 【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper DLSS Swapper是一款革命性的游戏性能优化工具,通过智能…...

Java基础实战演练,在快马上构建简易银行系统掌握核心语法

最近在复习Java基础语法,想找个实战项目练练手。刚好发现InsCode(快马)平台可以快速生成项目代码,就尝试用它构建了一个简易银行账户管理系统。这个项目虽然不大,但涵盖了类与对象、集合操作、流程控制等核心知识点,特别适合用来巩…...

ai辅助开发新体验:让快马智能解析并生成定制化虚拟机配置方案

今天想和大家分享一个用AI辅助开发的小项目——虚拟机配置助手。这个工具特别适合需要频繁创建虚拟机的开发者,它能通过自然语言理解你的需求,自动生成最优化的虚拟机配置方案。 项目背景 作为开发者,我经常需要在VMware等虚拟化平台上配置各…...

AI短视频自动化生成实战:从零构建高效内容生产线

AI短视频自动化生成实战:从零构建高效内容生产线 【免费下载链接】MoneyPrinterPlus AI一键批量生成各类短视频,自动批量混剪短视频,自动把视频发布到抖音,快手,小红书,视频号上,赚钱从来没有这么容易过! 支持本地语音模型chatTTS,fasterwhisper,GPTSoVITS,支持云语…...

新手福音:在快马平台上用OpenClaw迈出机器人编程第一步

新手福音:在快马平台上用OpenClaw迈出机器人编程第一步 作为一个机器人编程的纯新手,第一次接触OpenClaw这样的机械爪控制库时,我完全被各种专业术语和复杂接口搞懵了。直到发现了InsCode(快马)平台,才真正找到了入门的好方法。今…...