当前位置: 首页 > article >正文

OpenCv高阶(十七)——dlib库安装、dlib人脸检测

文章目录

  • 前言
  • 一、dlib库简介
  • 二、dlib库安装
    • 1、本地安装(离线)
    • 2、线上安装
  • 三、dlib人脸检测原理
    • 1、HOG 特征提取
    • 2、 SVM 分类器训练
    • 3、 滑动窗口搜索
    • 4、非极大值抑制(NMS)
  • 四、dlib人脸检测代码
    • 1、导入OpenCV计算机视觉库和dlib机器学习库
    • 2、初始化dlib的预训练人脸检测器(基于HOG特征+线性分类器)
    • 3、使用OpenCV读取图像文件
    • 4、遍历每个检测到的人脸区域
    • 5、创建窗口并显示处理后的图像
  • 总结


前言

人脸检测是计算机视觉领域的核心基础任务之一,广泛应用于安防监控、人机交互、智能摄影等领域。本文基于经典的 dlib 库和 OpenCV 工具,实现了一个简单但高效的人脸检测系统。

一、dlib库简介

Dlib 是一个由 C++ 编写的高性能开源机器学习库,同时支持 Python 接口。它广泛应用于图像处理、人脸检测、人脸识别、目标跟踪、特征提取等任务,尤其以 人脸关键点检测(如 68 点特征)和 高效的机器学习算法 著称。

主要功能:

	图像处理:人脸检测(HOG、CNN 方法)、关键点检测、图像分割等。机器学习:支持分类、回归、聚类、支持向量机(SVM)、深度学习等。工具类:矩阵运算、数据预处理、多线程加速等。

特点:

	高效性:高度优化的 C++ 代码,适合实时应用。跨平台:支持 Windows、Linux、macOS。文档丰富:提供详细的 API 文档和示例代码。开源协议:基于 BSD 协议,允许商业用途。

二、dlib库安装

1、本地安装(离线)

dlib库的wheel文件,直接安装的话会缺少一些依赖库,所以下载到本地安装,安装时要注意cmd环境变量对应的版本要和下载的dlib库的版本一致否则不能成功安装
选择正确的 Wheel 版本:
下载链接: https://github.com/z-mahmud22/Dlib_Windows_Python3.x
资源来源于GitHub所以下载时如果加载不出来,可以考虑是用加速器,访问 PyPI Dlib 页面,找到与你的 Python 版本和系统架构匹配的 .whl 文件。

例如:Python 3.10 64位系统 → dlib-19.24.1-cp310-cp310-win_amd64.whlPython 3.9 64位系统 → dlib-19.24.1-cp39-cp39-win_amd64.whl

下载 Wheel 文件:

直接点击文件名下载,或使用 pip download dlib 命令。
步骤3:安装 Wheel 文件

#打开命令提示符(CMD)或 PowerShell,进入 Wheel 文件所在目录
pip install dlib-19.24.1-cp39-cp39-win_amd64.whl

在这里插入图片描述

2、线上安装

使用 pip 编译安装

# 打开命令提示符(CMD)或 PowerShell
pip install dlib

该命令会自动下载源码并编译,但耗时较长(约 10-30 分钟)。

常见问题解决:
1、安装超时或网络问题,可以通过添加国内的镜像源来实现更快的安装。
2、Wheel 版本不匹配
3、报错:CMake 未找到或者缺少 C++ 编译器。

三、dlib人脸检测原理

1、HOG 特征提取

HOG 是一种用于描述图像局部纹理特征的方法,通过计算图像中不同区域的梯度方向直方图来表征目标(如人脸)的形状和边缘信息。具体步骤包括:

分块与归一化:将图像划分为多个小单元(cell),每个单元内统计梯度方向直方图。块内梯度统计:对每个单元内的像素梯度方向进行直方图统计(通常分为 9 个方向区间),并归一化以增强光照不变性65。特征向量生成:将多个单元的直方图串联成高维特征向量,用于分类器训练。

2、 SVM 分类器训练

使用大量标记的人脸和非人脸样本训练 SVM 分类器,学习区分人脸和非人脸区域的决策边界。

SVM 通过寻找最大间隔超平面,确保分类结果鲁棒性高。

3、 滑动窗口搜索

在输入图像上以不同尺度和位置滑动固定大小的窗口,对每个窗口提取 HOG 特征,并通过 SVM 分类器判断是否包含人脸。

多尺度搜索确保不同大小的人脸均能被检测到。

4、非极大值抑制(NMS)

滑动窗口会产生大量重叠的候选框,NMS 通过合并重叠区域并保留置信度最高的框,消除冗余检测结果。

算法流程:输入图像预处理:转为灰度图像以减少计算量。多尺度滑动窗口:遍历图像生成候选区域。HOG 特征提取:对每个候选窗口提取特征。SVM 分类:判断候选窗口是否为人脸。后处理:应用非极大值抑制输出最终检测结果。

dlib 的默认人脸检测算法基于 HOG 特征和 SVM 分类器,通过滑动窗口和非极大值抑制实现高效检测。对于需要更高精度的场景,可切换至基于 CNN 的模型。其设计兼顾速度与准确性,广泛应用于计算机视觉任务中。

四、dlib人脸检测代码

1、导入OpenCV计算机视觉库和dlib机器学习库

import cv2
import dlib

2、初始化dlib的预训练人脸检测器(基于HOG特征+线性分类器)

# 该检测器适用于正面人脸的检测
detector = dlib.get_frontal_face_detector()

3、使用OpenCV读取图像文件

# 注意:路径"../data/pd.png"表示上级目录的data文件夹中的pd.png文件
img = cv2.imread("../data/pd.png")# 执行人脸检测,第二个参数4表示对图像进行4次上采样
# 上采样可以帮助检测更小的人脸,但会增加计算量
# 返回值faces是一个包含所有检测到的人脸矩形区域的列表
faces = detector(img, 4)

4、遍历每个检测到的人脸区域

for face in faces:# 从矩形区域对象中提取边界坐标x1 = face.left()  # 人脸框左侧x坐标y1 = face.top()   # 人脸框顶部y坐标x2 = face.right() # 人脸框右侧x坐标y2 = face.bottom() # 人脸框底部y坐标# 在原始图像上绘制绿色矩形框# 参数说明:(图像,左上角坐标,右下角坐标,颜色(BGR格式),线宽)cv2.rectangle(img, (x1, y1), (x2, y2), (0, 255, 0), 2)

5、创建窗口并显示处理后的图像

cv2.imshow('img', img)
# 等待键盘输入,0表示无限等待
cv2.waitKey(0)
# 关闭所有OpenCV创建的窗口
cv2.destroyAllWindows()

效果
在这里插入图片描述


总结

本文通过 dlib 库与 OpenCV 的协同使用,完整实现了一个基于 HOG 特征与线性分类器的人脸检测系统。代码核心通过以下步骤完成:

利用 dlib.get_frontal_face_detector() 加载预训练模型,快速定位图像中的正面人脸;通过图像上采样增强对小尺度人脸的检测能力;使用矩形框标注检测结果,直观展示算法性能。

该实现体现了传统机器学习方法在轻量化场景下的优势:模型计算效率高、资源占用少,适用于实时性要求较高的场景。然而,其局限性在于对非正面人脸或复杂背景的鲁棒性不足,未来可通过以下方向改进:结合深度学习模型(如 MTCNN、YOLO)提升检测精度;引入多尺度滑动窗口机制增强对小目标的捕捉能力;添加人脸关键点检测等扩展功能。

相关文章:

OpenCv高阶(十七)——dlib库安装、dlib人脸检测

文章目录 前言一、dlib库简介二、dlib库安装1、本地安装(离线)2、线上安装 三、dlib人脸检测原理1、HOG 特征提取2、 SVM 分类器训练3、 滑动窗口搜索4、非极大值抑制(NMS) 四、dlib人脸检测代码1、导入OpenCV计算机视觉库和dlib机…...

前端内容黑白处理、轮播图、奇妙的头像特效

1、内容黑白处理 (1)filter:滤镜 可以把包裹的区域中每一个像素点,经过固定的算法转换成另一种颜色来呈现 (2)grayscale:灰阶滤镜 取值范围:0~1取0:原图去1&#xff…...

蓝桥杯 10. 安全序列

当然可以,以下是整理后的 Markdown 格式题目描述: 题目描述 小蓝是工厂里的安全工程师,他负责安放工厂里的危险品。 工厂是一条直线,直线上有 n 个空位,小蓝需要将若干个油桶放置在这 n 个空位上。每 2 个油桶中间至…...

(10)-java+ selenium->元素之By class name

1.简介 继续介绍WebDriver关于元素定位大法,这篇介绍By ClassName。看到ID,NAME这些方法的讲解,应该知道,要做好Web自动化测试,最好是需要了解一些前端的基本知识。有了前端知识,做元素定位会很轻松,同样写网络爬虫也很有帮助 2.常用定位方法(8种) (1)id (2)nam…...

Git - .gitignore 文件

一、.gitignore 文件介绍 在使用 Git 进行版本控制时,.gitignore 文件是一个非常重要的配置文件,用于告诉 Git 哪些文件或目录不需要被追踪和提交到版本库中。合理使用 .gitignore 文件可以避免提交不必要的文件,如临时文件、编译生成的文件…...

MPI与多线程(如OpenMP)混合编程注意事项与性能优化

文章目录 MPI与多线程(如OpenMP)混合编程注意事项与性能优化混合编程注意事项性能优化策略示例代码编译与运行性能调优建议 MPI与多线程(如OpenMP)混合编程注意事项与性能优化 混合编程注意事项 MPI初始化与线程支持级别: 需要在MPI_Init之前调用MPI_Init_thread指…...

计算机网络学习(八)——MAC

一、MAC 在计算机网络中,MAC(Media Access Control,媒体访问控制)地址是数据链路层的重要概念,它用于唯一标识网络中的设备,并且在局域网(如以太网)中发挥关键作用。 MAC 是硬件地址…...

英语六级-阅读篇

目录 2023年12月大学英语真题(二) 十五选十(Section A) 单词表 短语表 译文 Passage Two(Section C) 单词表 短语表 译文 简介:其实我总结这篇文章就是平时记忆该阅读文章单词中出现的…...

右键打开 pycharm 右键 pycharm

文件夹右键打开pycharm aaa.reg notepad 右下角把文件格式改为:ansi Windows Registry Editor Version 5.00[HKEY_CLASSES_ROOT\Directory\Background\shell\PyCharm] "Open with PyCharm" "Icon""\"D:\\soft\\PyCharm 2024.1.4\\bi…...

机器人坐标系标定

机器人坐标系标定 机器人坐标系标定 1. 知识目标 理解机器人坐标系的定义掌握机器人坐标系的分类 2. 技能目标 能够正确标定机器人坐标系 3. 机器人坐标系的作用 代表不同的物体或边界示例: 相对于桌子、弓箭、坯料、其他机器或边界移动 用途: 使用…...

Flink流处理基础概论

文章目录 引言Flink基本概述传统数据架构的不足Dataflow中的几大基本概念Dataflow流式处理宏观流程数据并行和任务并行的区别Flink中几种数据传播策略Flink中事件的延迟和吞吐事件延迟事件的吞吐如何更好的理解事件的延迟和吞吐flink数据流的几种操作输入输出转换操作滚动聚合窗…...

【RabbitMQ】记录 InvalidDefinitionException: Java 8 date/time type

目录 1. 添加必要依赖 2. 配置全局序列化方案&#xff08;推荐&#xff09; 3. 配置RabbitMQ消息转换器 关键点说明 1. 添加必要依赖 首先确保项目中包含JSR-310支持模块&#xff1a; <dependency><groupId>com.fasterxml.jackson.datatype</groupId>&l…...

如何通过API接口实现自动化上货跨平台铺货?商品采集|商品上传实现详细步骤

一、引言&#xff1a;跨平台铺货的技术挑战与 API 价值 在电商多平台运营时代&#xff0c;商家需要将商品同步上架至淘宝、京东、拼多多、亚马逊、Shopee 等多个平台&#xff0c;传统手动铺货模式存在效率低下&#xff08;单平台单商品上架需 30-60 分钟&#xff09;、数据一致…...

《三维点如何映射到图像像素?——相机投影模型详解》

引言 以三维投影介绍大多比较分散&#xff0c;不少小伙伴再面对诸多的坐标系转换中容易弄混&#xff0c;特别是再写代码的时候可能搞错&#xff0c;所有这篇文章帮大家完整的梳理3D视觉中的投影变换的全流程&#xff0c;一文弄清楚这个过程&#xff0c;帮助大家搞清坐标系转换…...

Go 语言范围循环变量重用问题与 VSCode 调试解决方法

文章目录 问题描述问题原因1. Go 1.21 及更早版本的范围循环行为2. Go 1.22 的改进3. VSCode 调试中的问题4. 命令行 dlv debug 的正确输出 三种解决方法1. 启用 Go 模块2. 优化 VSCode 调试配置3. 修改代码以确保兼容性4. 清理缓存5. 验证环境 验证结果结论 在 Go 编程中&…...

青少年编程与数学 02-020 C#程序设计基础 04课题、常量和变量

青少年编程与数学 02-020 C#程序设计基础 04课题、常量和变量 一、主函数1. 主函数的基本格式2. 主函数的参数3. 主函数的返回值4. 主函数的作用5. 主函数的示例6. 主函数的注意事项 二、变量1. 变量的声明示例 2. 变量的初始化声明时初始化声明后赋值 3. 变量的类型3.1 值类型…...

零基础设计模式——结构型模式 - 适配器模式

第三部分&#xff1a;结构型模式 - 适配器模式 (Adapter Pattern) 欢迎来到结构型模式的第一站&#xff01;结构型模式关注的是如何将类或对象组合成更大的结构&#xff0c;同时保持结构的灵活性和效率。适配器模式是其中非常实用的一个&#xff0c;它能帮助我们解决接口不兼容…...

【QT】TXT文件的基础操作

目录 一、QT删除TXT文件内容 方法1&#xff1a;使用QFile打开文件并截断 方法2&#xff1a;使用QSaveFile&#xff08;更安全的写入方式&#xff09; 方法3&#xff1a;使用QTextStream 使用示例 注意事项 二、QT操作TXT文件&#xff1a;清空内容并写入新数据 完整实现代…...

WordPress多语言插件安装与使用教程

WordPress多语言插件GTranslate的使用方法 在wordpress网站后台搜索多语言插件GTranslate并安装&#xff0c;安装完成、用户插件后开始设置&#xff0c;以下为设置方法&#xff1a; 1、先在后台左侧找到Gtranslate&#xff0c;进入到设置界面 2、选择要显示的形式&#xff0c…...

互联网大厂Java求职面试:短视频平台大规模实时互动系统架构设计

互联网大厂Java求职面试&#xff1a;短视频平台大规模实时互动系统架构设计 面试背景介绍 技术总监&#xff08;严肃脸&#xff09;&#xff1a; 欢迎来到我们今天的模拟面试&#xff0c;我是技术部的李总监&#xff0c;负责平台后端架构和高可用系统设计。今天我们将围绕一个…...

欣佰特科技|SenseGlove Nova2 力反馈数据手套:助力外科手术训练的精准触觉模拟

在医疗科技持续发展的背景下&#xff0c;虚拟现实&#xff08;VR&#xff09;技术正在改变外科手术培训的方式&#xff0c;而 SenseGlove Nova2 力反馈数据手套 在这一领域发挥着重要作用。 SenseGlove Nova2 力反馈数据手套 与 VirtualiSurg 手术模拟系统深度结合。其手部追踪…...

Axure元件动作七:移动、旋转、启用/禁用效果、置于顶层/底层详解

亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢!如有帮助请订阅专栏! Axure产品经理精品视频课已登录CSDN可点击学习https://edu.csdn.net/course/detail/40420 案例视频: Axure移动、旋转、置于顶层底层、启用禁用 课程主题:移动、旋转、启用/禁用效果、置于顶…...

网络安全-等级保护(等保) 3-2-2 GB/T 28449-2019 第7章 现场测评活动/第8章 报告编制活动

################################################################################ GB/T 28449-2019《信息安全技术 网络安全等级保护测评过程指南》是规定了等级测评过程&#xff0c;是纵向的流程&#xff0c;包括&#xff1a;四个基本测评活动:测评准备活动、方案编制活…...

Flutter跨平台通信实战|3步打通Android原生能力,实现底层API调用!

当你的Flutter应用需要调用Android独有的硬件能力&#xff08;如传感器、蓝牙模块&#xff09;或系统级API时&#xff0c;如何与原生平台"对话"&#xff1f;本文手把手教你通过MethodChannel实现双向通信&#xff0c;让Flutter轻松驾驭Android底层能力&#xff01; 一…...

IAM角色访问AWS RDS For MySQL

IAM角色访问AWS RDS For MySQL Tips: 写这篇文章&#xff0c;主要是用作记录&#xff1b;在AWS配置IAM RDS 角色权限访问&#xff0c;官方文档不怎么全&#xff0c;踩了一些坑… AWS云上配置 开启IAM身份验证 登录AWS控制台搜索并进入Databases管理页面选择数据库实例&#x…...

android property 系统

1.使用目的 目的都是为了测试。 减少编译流程。提高测试效率 2.使用方法流程 2.1 初始化默认值 方法一. 配置文件进行配置。 方法二. 手动初始化 setprop test.prop.id 12.2 获取键值并 property_get2.3 配置头文件 <cutils/properties.h>3.注意事项 3.1 关于无法…...

Karakeep | 支持Docker/NAS 私有化部署!稍后阅读工具告别云端依赖,让知识收藏更有序

Karakeep 介绍 Karakeep&#xff08;以前的 Hoarder&#xff09;是一款开源的“Bookmark Everything”应用程序&#xff0c;一款基于 AI 驱动的开源书签管理工具&#xff0c;专为解决传统浏览器书签管理中的混乱问题而设计。其核心目标是通过智能化技术帮助用户高效整理、检索和…...

RV1126+FFMPEG多路码流监控项目大体讲解

一.项目介绍&#xff1a; 本项目采用的是易百纳RV1126开发板和CMOS摄像头&#xff0c;使用的推流框架是FFMPEG开源项目。这个项目的工作流程如下(如上图)&#xff1a;通过采集摄像头的VI模块&#xff0c;再通过硬件编码VENC模块进行H264/H265的编码压缩&#xff0c;并把压缩后的…...

el-dialog 组件 多层嵌套 被遮罩问题

<el-dialog title"提示" :visible.sync"dialogBindUserVisible" width"30%" append-to-body :before-close"handleClose"> <span>这是一段信息</span> <span slot"footer" class"dialog-footer&q…...

探秘谷歌Gemini:开启人工智能新纪元

一、引言 在人工智能的浩瀚星空中&#xff0c;每一次重大模型的发布都宛如一颗璀璨新星闪耀登场&#xff0c;而谷歌 Gemini 的亮相&#xff0c;无疑是其中最为耀眼的时刻之一。它的出现&#xff0c;犹如在 AI 领域投下了一颗重磅炸弹&#xff0c;引发了全球范围内的广泛关注与热…...