当前位置：首页 > news >正文

opencv实战项目手势识别-手势音量控制（opencv）

news 2026/2/9 23:57:42

本项目是使用了谷歌开源的框架mediapipe，里面有非常多的模型提供给我们使用，例如面部检测，身体检测，手部检测等。

手势识别系列文章

1.opencv实现手部追踪（定位手部关键点）

2.opencv实战项目实现手势跟踪并返回位置信息（封装调用）

3.手势识别-手势音量控制（opencv）

4.opencv实战项目手势识别-手势控制鼠标

未完待续...

在这里插入图片描述

代码需要用到opencv HandTraqckModule模块 mediapipe模块和一个音量控制模块

AndreMiras/pycaw: Python Core Audio Windows Library (github.com) 音量控制模块的作者，有兴趣可以了解

手部追踪模块来自前期的我们实战内容opencv 实现手势跟踪并返回位置信息（封装调用）_陈子迩的博客-CSDN博客

下面给大家详细说一下代码

import cv2
import time
import numpy as np
from HandTraqckModule import *
import math
from comtypes import CLSCTX_ALL
from pycaw.pycaw import AudioUtilities, IAudioEndpointVolume

这些行导入了所需的库和模块：

cv2: OpenCV 库，用于图像处理和显示。
time: Python 标准库，用于处理时间操作。
numpy: 数值计算库，用于插值计算。
HandTraqckModule: 自定义的手部追踪模块（你的代码中似乎有个拼写错误，正确的应该是 HandTrackModule）。
math: Python 标准库，用于数学计算。
comtypes: 用于处理 COM 接口的库。
pycaw: 用于访问 Windows 音频控制接口的库。

devices = AudioUtilities.GetSpeakers()
interface = devices.Activate(IAudioEndpointVolume._iid_, CLSCTX_ALL, None)
volume = interface.QueryInterface(IAudioEndpointVolume)
volRange = volume.GetVolumeRange()
minVol = volRange[0]
maxVol = volRange[1]

这部分代码获取了默认音频输出设备的信息，并通过 pycaw 库设置了音量范围、最小音量和最大音量。

wCam, hCam = 1280, 720
cap = cv2.VideoCapture(0)
cap.set(3, wCam)
cap.set(4, hCam)

这里设置了摄像头的分辨率，并通过 OpenCV 打开摄像头。

pTime = 0
detector = handDetector(detectionCon=0.7)

初始化了上一帧的时间 pTime，并创建了 handDetector 类的实例 detector，设置了手势检测的置信度阈值为 0.7。

while True:success, img = cap.read()img = detector.findHands(img)lmList = detector.findPosition(img, draw=False)if len(lmList) != 0:# 从手部标记点列表中获取两个指尖的坐标x1, y1 = lmList[4][1], lmList[4][2]x2, y2 = lmList[8][1], lmList[8][2]cx, cy = (x1 + x2) // 2, (y1 + y2) // 2# 绘制手势标记和连接线cv2.circle(img, (x1, y1), 15, (255, 255, 0), cv2.FILLED)cv2.circle(img, (x2, y2), 15, (255, 0, 0), cv2.FILLED)cv2.line(img, (x1, y1), (x2, y2), (255, 0, 0), 3)cv2.circle(img, (cx, cy), 10, (255, 255, 0), cv2.FILLED)# 计算手势长度length = math.hypot(x2 - x1, y2 - y1)# 映射手势长度到音量范围vol = np.interp(length, [10, 230], [minVol, maxVol])print(int(length), int(vol))# 设置系统音量volume.SetMasterVolumeLevel(vol, None)# 如果手势长度小于一定阈值，绘制一个圆圈表示手势过小if length < 50:cv2.circle(img, (cx, cy), 15, (255, 100, 100), cv2.FILLED)cTime = time.time()fps = 1 / (cTime - pTime)pTime = cTime# 绘制帧率信息cv2.putText(img, f'FPS:{int(fps)}', (40, 40), cv2.FONT_HERSHEY_PLAIN, 3, (255, 255, 0), 3)# 显示图像cv2.imshow('img', img)cv2.waitKey(1)

这部分代码是主要的处理循环，它会不断地从摄像头捕获图像，然后使用 detector 对象进行手部检测和标记绘制。随后，通过手指标记点的坐标计算手势的长度，并将这个长度映射到音量范围，然后设置系统音量。如果手势长度小于阈值，会在图像上绘制一个圆圈来表示手势过小。最后，还会绘制帧率信息并显示图像。

下面附上全部代码

总体代码

import cv2
import time
import numpy as np
from HandTraqckModule import *
import math
from comtypes import CLSCTX_ALL
from pycaw.pycaw import AudioUtilities, IAudioEndpointVolume# 获取默认音频输出设备
devices = AudioUtilities.GetSpeakers()
interface = devices.Activate(IAudioEndpointVolume._iid_, CLSCTX_ALL, None)
volume = interface.QueryInterface(IAudioEndpointVolume)
# 获取音量范围
volRange = volume.GetVolumeRange()
minVol = volRange[0]
maxVol = volRange[1]# 设置摄像头分辨率
wCam, hCam = 1280, 720# 打开摄像头
cap = cv2.VideoCapture(0)
cap.set(3, wCam)
cap.set(4, hCam)pTime = 0
detector = handDetector(detectionCon=0.7)while True:success, img = cap.read()img = detector.findHands(img)lmList = detector.findPosition(img, draw=False)if len(lmList) != 0:x1, y1 = lmList[4][1], lmList[4][2]x2, y2 = lmList[8][1], lmList[8][2]cx, cy = (x1 + x2) // 2, (y1 + y2) // 2# 绘制手势标记和连接线cv2.circle(img, (x1, y1), 15, (255, 255, 0), cv2.FILLED)cv2.circle(img, (x2, y2), 15, (255, 0, 0), cv2.FILLED)cv2.line(img, (x1, y1), (x2, y2), (255, 0, 0), 3)cv2.circle(img, (cx, cy), 10, (255, 255, 0), cv2.FILLED)# 计算手势长度length = math.hypot(x2 - x1, y2 - y1)# 映射手势长度到音量范围vol = np.interp(length, [10, 230], [minVol, maxVol])print(int(length), int(vol))# 设置系统音量volume.SetMasterVolumeLevel(vol, None)# 如果手势长度小于一定阈值，绘制一个圆圈表示手势过小if length < 50:cv2.circle(img, (cx, cy), 15, (255, 100, 100), cv2.FILLED)cTime = time.time()fps = 1 / (cTime - pTime)pTime = cTime# 绘制帧率信息cv2.putText(img, f'FPS:{int(fps)}', (40, 40), cv2.FONT_HERSHEY_PLAIN, 3, (255, 255, 0), 3)# 显示图像cv2.imshow('img', img)cv2.waitKey(1)

opencv实战项目手势识别-手势音量控制（opencv）

本项目是使用了谷歌开源的框架mediapipe，里面有非常多的模型提供给我们使用，例如面部检测，身体检测，手部检测等。手势识别系列文章 1.opencv实现手部追踪（定位手部关键点） 2.opencv实战项目实现手势跟踪…...

编程日记 2023/8/15 22:39:58

Mac下编译32位Qt

不建议，MAC新版不支持32位程序！！！ Mac下编译32位Qt 关于Mac10.11.4下编译32bit Qt5.6.1的问题...

编程日记 2023/8/15 22:38:57

企业数据库遭到360后缀勒索病毒攻击，360勒索病毒解密

在当今数字化时代，企业的数据安全变得尤为重要。随着数字化办公的推进，企业的生产运行效率得到了很大提升，然而针对网络安全威胁，企业也开始慢慢引起重视。近期，我们收到很多企业的求助，企业的服务器遭到了…...

编程日记 2023/8/15 22:37:55

C++11时间日期库chrono的使用

chrono是C11中新加入的时间日期操作库，可以方便地进行时间日期操作，主要包含了：duration, time_point, clock。时钟与时间点 chrono中用time_point模板类表示时间点，其支持基本算术操作；不同时钟clock分别返回其对应…...

编程日记 2023/8/15 22:36:54

每天一道leetcode：1466. 重新规划路线（图论中等广度优先遍历）

今日份题目： n 座城市，从 0 到 n-1 编号，其间共有 n-1 条路线。因此，要想在两座不同城市之间旅行只有唯一一条路线可供选择（路线网形成一颗树）。去年，交通运输部决定重新规划路线，以…...

编程日记 2023/8/15 22:35:53

Mysql—修改用户密码（重置密码）

Mysql—修改用户密码（重置密码） 1、登录mysql 1 2 [rootlocalhost ~]# mysql -uroot -p123456 [rootlocalhost ~]# mysql -hlocalhost -uroot -p123456 如果忘记密码，则跳过MySQL的密码认证过程。步骤如下： 修改Mysql配置文件…...

编程日记 2023/8/15 22:34:52

ECE585 Tomasulo算法：C++ Tomasulo算法模拟器

ECE585 Tomasulo算法：C Tomasulo算法模拟器在计算机科学中，Tomasulo算法是一种动态调度和动态执行的方法，它可以有效地处理计算机指令的依赖性。这种算法由IBM的Robert Tomasulo发明，最初用于IBM 360/91的浮点单元。在这篇文章中…...

编程日记 2023/8/15 22:33:50

Qt中在QLabel上画点，重写QLabel类

Qt中在QLabel上画点，重写QLabel类 QT中label进行绘图 1.首先新建一个类，让这个类继承QLabel 2.在类中对鼠标点击事件及绘图事件进行重写 3.然后在UI框架下添加label控件， 4.右键label控件，添加重写的类，将其提升为刚…...

编程日记 2023/8/15 22:32:49

ssm+vue小型企业办公自动化系统源码和论文PPT

ssmvue小型企业办公自动化系统源码和论文PPT013 开发工具：idea 数据库mysql5.7(mysql5.7最佳) 数据库链接工具：navcat,小海豚等开发技术：java ssm tomcat8.5 摘要互联网发展至今，无论是其理论还是技术都已经成熟&#xf…...

编程日记 2023/8/15 22:31:48

C++ STL priority_queue

目录一.认识priority_queue 二. priority_queue的使用三.仿函数 1.什么是仿函数 2.控制大小堆 3.TopK问题四.模拟实现priority_queue 1.priority_queue的主要接口框架 2.堆的向上调整算法 3.堆的向下调整算法 4.仿函数控制大小堆五.priority_queue模拟实现整体代码和测…...

编程日记 2023/8/15 22:30:47

[PyTorch][chapter 50][创建自己的数据集 2]

前言： 这里主要针对图像数据进行预处理.定义了一个 class Pokemon(Dataset) 类，实现图像数据集加载,划分的基本方法. 目录： 整体框架 __init__ load_images save_csv divide_data __len__ denormalize __g…...

编程日记 2023/8/15 22:29:44

SQL-每日一题【1341. 电影评分】

题目表：Movies 表：Users 请你编写一个解决方案： 查找评论电影数量最多的用户名。如果出现平局，返回字典序较小的用户名。查找在 February 2020 平均评分最高的电影名称。如果出现平局，返回字典序较小的电影名称。 …...

编程日记 2023/8/15 22:28:43

基于DBN的伪测量配电网状态估计，DBN的详细原理

目录背影 DBN神经网络的原理 DBN神经网络的定义受限玻尔兹曼机（RBM） DBN的伪测量配电网状态估计基本结构主要参数数据 MATALB代码结果图展望背影 DBN是一种深度学习神经网络，拥有提取特征，非监督学习的能力，是一种非常好的分类算法，本文将DBN算法伪测量配电网…...

编程日记 2023/8/15 22:27:42

Python运算符全解析：技巧与案例探究

在Python编程中，运算符是强大的工具，能够使我们在数据处理和逻辑判断方面更加灵活。本篇博客将全面探讨Python中常用的运算符，包括算术、比较、逻辑、赋值、位、成员和身份运算符，通过实际案例为你展示如何妙用运算符解决问题。 …...

编程日记 2023/8/15 22:26:41

NPCon：AI模型技术与应用峰会北京站（参会感受）

8月12日，我有幸参加了在北京皇家格兰云天大酒店举行的“AI模型技术与应用峰会”。这次会议邀请了很多技术大咖，他们围绕： 六大论点大模型涌现，如何部署训练架构与算力芯片 LLM 应用技术栈与Agent全景解析视觉GPU推理服务部署 …...

编程日记 2023/8/15 22:25:40

为什么爬虫要用高匿代理IP？高匿代理IP有什么优点

只要搜代理IP，度娘就能给我们跳出很多品牌的推广，比如我们青果网路的。正如你所看到的，我们厂商很多宣传用词都会用到高匿这2字。这是为什么呢？高匿IP有那么重要吗？ 这就需要我们从HTTP代理应用最多最广的&#xf…...

编程日记 2023/8/15 22:24:39

【JavaWeb】MySQL约束、事务、多表查询

1 约束 PRIMARY KEY 主键约束 UNIQUE 唯一约束 NOT NULL 非空约束 DEFAULT 默认值约束 FOREIGN KEY 外键约束主键主键值必须唯一且非空；每个表必须有一个主键建表时主键约束 CREATE TABLE 表名 (字段名字段类型 PRIMARY KEY,字段名字段类型 );CR…...

编程日记 2023/8/15 22:23:39

【并发编程】自研数据同步工具优化：创建线程池多线程异步去分页调用其他服务接口获取海量数据

文章目录场景：解决方案场景： 前段时间在做一个数据同步工具，其中一个服务的任务是调用A服务的接口，将数据库中指定数据请求过来，交给kafka去判断哪些数据是需要新增，哪些数据是需要修改的。刚开始的设…...

编程日记 2023/8/15 22:22:38

七、dokcer-compose部署springboot的jar

1、准备打包后包名为 ruoyi-admin.jar 增加接口 httpL//{ip}:{port}/common/test/han #环境变量预application.yml 中REDIS_HOSTt的值，去环境变量去找；如果找不到REDIS_HOST就用myredis 1、Dockerfile FROM hlw/java:8-jreRUN ln -sf /usr/share/z…...

编程日记 2023/8/15 22:21:36

k8s 使用 containerd 运行时配置 http 私服

简介 Kubernetes 从 v1.20 开始弃用 Docker，并推荐用户切换到基于容器运行时接口（CRI）的容器引擎，如 containerd、cri-o 等。目前使用的环境中使用了 Kubernetes v1.22.3，containerd 1.4.3，containerd 在…...

编程日记 2023/8/15 22:20:35

[2025CVPR]DeepVideo-R1：基于难度感知回归GRPO的视频强化微调框架详解

突破视频大语言模型推理瓶颈，在多个视频基准上实现SOTA性能一、核心问题与创新亮点 1.1 GRPO在视频任务中的两大挑战安全措施依赖问题 GRPO使用min和clip函数限制策略更新幅度，导致：梯度抑制：当新旧策略差异过大时梯度消失收敛困难：策略无法充分优化# 传统GRPO的梯…...

编程新知 2025/8/19 23:46:57

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文？ 多租户隔离：自动为接入设备追加租户前缀，后端按 ClientID 拆分队列。零代码鉴权：将入站用户名替换为 OAuth Access-Token，后端 Broker 统一校验。灰度发布：根据 IP/地理位写…...

编程新知 2025/8/1 10:20:23

智能在线客服平台：数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展，消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁，不仅优化了客户体验，还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用，并…...

编程新知 2026/2/4 17:51:19

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?

论文网址：pdf 英文是纯手打的！论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误，若有发现欢迎评论指正！文章偏向于笔记，谨慎食用目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2…...

编程新知 2026/2/6 14:42:11

生成 Git SSH 证书

🔑 1. 生成 SSH 密钥对在终端（Windows 使用 Git Bash，Mac/Linux 使用 Terminal）执行命令： ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 参数说明： -t rsa&#x…...

编程新知 2025/9/18 11:31:13

Android15默认授权浮窗权限

我们经常有那种需求，客户需要定制的apk集成在ROM中，并且默认授予其【显示在其他应用的上层】权限，也就是我们常说的浮窗权限，那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…...

编程新知 2026/2/1 4:13:59

学习STC51单片机32（芯片为STC89C52RCRC）OLED显示屏2

每日一言今天的每一份坚持，都是在为未来积攒底气。案例：OLED显示一个A 这边观察到一个点，怎么雪花了就是都是乱七八糟的占满了屏幕。。解释 ： 如果代码里信号切换太快（比如 SDA 刚变，SCL 立刻变&#…...

编程新知 2026/2/6 0:50:24

3-11单元格区域边界定位(End属性)学习笔记

返回一个Range 对象，只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意：它移动的位置必须是相连的有内容的单元格…...

编程新知 2026/2/9 15:39:14

高效线程安全的单例模式：Python 中的懒加载与自定义初始化参数

高效线程安全的单例模式：Python 中的懒加载与自定义初始化参数在软件开发中，单例模式（Singleton Pattern）是一种常见的设计模式，确保一个类仅有一个实例，并提供一个全局访问点。在多线程环境下，实现单例模式时需要注意线程安全问题，以防止多个线程同时创建实例，导致…...

编程新知 2025/11/25 19:50:27

LCTF液晶可调谐滤波器在多光谱相机捕捉无人机目标检测中的作用

中达瑞和自2005年成立以来，一直在光谱成像领域深度钻研和发展，始终致力于研发高性能、高可靠性的光谱成像相机，为科研院校提供更优的产品和服务。在《低空背景下无人机目标的光谱特征研究及目标检测应用》这篇论文中提到中达瑞和 LCTF 作为多…...

编程新知 2025/12/31 17:08:10

相关文章：