当前位置：首页 > news >正文

opencv实战项目手势识别-手势控制键盘

news 2026/2/10 22:05:18

手势识别是一种人机交互技术，通过识别人的手势动作，从而实现对计算机、智能手机、智能电视等设备的操作和控制。

1. opencv实现手部追踪（定位手部关键点）

2.opencv实战项目实现手势跟踪并返回位置信息（封装调用）

3.opencv实战项目手势识别-手势控制鼠标

4.opencv实战项目手势识别-手势控制键盘

未完待续

本专栏记录作者的学习之旅会一直更新下去，欢迎订阅一起学习进步

本项目是使用了谷歌开源的框架mediapipe，里面有非常多的模型提供给我们使用，例如面部检测，身体检测，手部检测等在这里插入图片描述

代码需要用到opencv HandTraqckModule模块 mediapipe模块和一个键盘控制模块pynput，cvzone模块

一、HandTraqckModule模块

前面的文章中有封装手部检测模块的教程，这边简单的介绍一下，有新增加的模块可以简单学习一下

import cv2
import mediapipe as mp
import mathclass HandDetector:"""Finds Hands using the mediapipe library. Exports the landmarksin pixel format. Adds extra functionalities like finding howmany fingers are up or the distance between two fingers. Alsoprovides bounding box info of the hand found."""def __init__(self, mode=False, maxHands=2, detectionCon=0.5, minTrackCon=0.5):""":param mode: In static mode, detection is done on each image: slower:param maxHands: Maximum number of hands to detect:param detectionCon: Minimum Detection Confidence Threshold:param minTrackCon: Minimum Tracking Confidence Threshold"""self.mode = modeself.maxHands = maxHandsself.detectionCon = detectionConself.minTrackCon = minTrackConself.mpHands = mp.solutions.handsself.hands = self.mpHands.Hands(self.mode, self.maxHands,self.detectionCon, self.minTrackCon)self.mpDraw = mp.solutions.drawing_utilsself.tipIds = [4, 8, 12, 16, 20]self.fingers = []self.lmList = []def findHands(self, img, draw=True):"""Finds hands in a BGR image.:param img: Image to find the hands in.:param draw: Flag to draw the output on the image.:return: Image with or without drawings"""imgRGB = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)self.results = self.hands.process(imgRGB)if self.results.multi_hand_landmarks:for handLms in self.results.multi_hand_landmarks:if draw:self.mpDraw.draw_landmarks(img, handLms,self.mpHands.HAND_CONNECTIONS)return imgdef findPosition(self, img, handNo=0, draw=True):"""Finds landmarks of a single hand and puts them in a listin pixel format. Also finds the bounding box around the hand.:param img: main image to find hand in:param handNo: hand id if more than one hand detected:param draw: Flag to draw the output on the image.:return: list of landmarks in pixel format; bounding box"""xList = []yList = []bbox = []bboxInfo = []self.lmList = []if self.results.multi_hand_landmarks:myHand = self.results.multi_hand_landmarks[handNo]for id, lm in enumerate(myHand.landmark):h, w, c = img.shapepx, py = int(lm.x * w), int(lm.y * h)xList.append(px)yList.append(py)self.lmList.append([px, py])if draw:cv2.circle(img, (px, py), 5, (255, 0, 255), cv2.FILLED)xmin, xmax = min(xList), max(xList)ymin, ymax = min(yList), max(yList)boxW, boxH = xmax - xmin, ymax - yminbbox = xmin, ymin, boxW, boxHcx, cy = bbox[0] + (bbox[2] // 2), \bbox[1] + (bbox[3] // 2)bboxInfo = {"id": id, "bbox": bbox, "center": (cx, cy)}if draw:cv2.rectangle(img, (bbox[0] - 20, bbox[1] - 20),(bbox[0] + bbox[2] + 20, bbox[1] + bbox[3] + 20),(0, 255, 0), 2)return self.lmList, bboxInfodef fingersUp(self):"""Finds how many fingers are open and returns in a list.Considers left and right hands separately:return: List of which fingers are up"""if self.results.multi_hand_landmarks:myHandType = self.handType()fingers = []# Thumbif myHandType == "Right":if self.lmList[self.tipIds[0]][0] > self.lmList[self.tipIds[0] - 1][0]:fingers.append(1)else:fingers.append(0)else:if self.lmList[self.tipIds[0]][0] < self.lmList[self.tipIds[0] - 1][0]:fingers.append(1)else:fingers.append(0)# 4 Fingersfor id in range(1, 5):if self.lmList[self.tipIds[id]][1] < self.lmList[self.tipIds[id] - 2][1]:fingers.append(1)else:fingers.append(0)return fingersdef findDistance(self, p1, p2, img, draw=True):"""Find the distance between two landmarks based on theirindex numbers.:param p1: Point1 - Index of Landmark 1.:param p2: Point2 - Index of Landmark 2.:param img: Image to draw on.:param draw: Flag to draw the output on the image.:return: Distance between the pointsImage with output drawnLine information"""if self.results.multi_hand_landmarks:x1, y1 = self.lmList[p1][0], self.lmList[p1][1]x2, y2 = self.lmList[p2][0], self.lmList[p2][1]cx, cy = (x1 + x2) // 2, (y1 + y2) // 2if draw:cv2.circle(img, (x1, y1), 15, (255, 0, 255), cv2.FILLED)cv2.circle(img, (x2, y2), 15, (255, 0, 255), cv2.FILLED)cv2.line(img, (x1, y1), (x2, y2), (255, 0, 255), 3)cv2.circle(img, (cx, cy), 15, (255, 0, 255), cv2.FILLED)length = math.hypot(x2 - x1, y2 - y1)return length, img, [x1, y1, x2, y2, cx, cy]def handType(self):"""Checks if the hand is left or right:return: "Right" or "Left""""if self.results.multi_hand_landmarks:if self.lmList[17][0] < self.lmList[5][0]:return "Right"else:return "Left"def main():cap = cv2.VideoCapture(0)detector = HandDetector(detectionCon=0.8, maxHands=1)while True:# Get image framesuccess, img = cap.read()# Find the hand and its landmarksimg = detector.findHands(img)lmList, bboxInfo = detector.findPosition(img)print(detector.handType())# Displaycv2.imshow("Image", img)cv2.waitKey(1)if __name__ == "__main__":main()

导入库：导入了必要的库，包括 OpenCV (cv2) 用于图像处理和显示，Mediapipe (mediapipe) 用于手部检测和跟踪，以及数学库 (math)。
HandDetector 类：这是主要的手势检测器类，提供了多个方法来处理手部检测和分析手势。
- __init__ 方法：初始化检测器的参数，例如检测模式、最大检测手数、检测和跟踪的置信度阈值等。
- findHands 方法：在给定的图像中寻找手部，可以选择是否绘制检测结果。
- findPosition 方法：找到单个手部的关键点位置（landmarks）并将它们存储在像素格式的列表中，同时计算手部的边界框信息。
- fingersUp 方法：确定手势中有多少个手指打开，将结果以列表形式返回。
- findDistance 方法：计算两个指定关键点之间的距离，并在图像上绘制结果。
- handType 方法：确定手的类型是左手还是右手。

具体就不展开讲了

这个函数在有一个专门的包叫做cvzone里有，但是不知道是不是版本的问题，少了一些东西，运行不起来，只能自己手撸检测模块。

下面是主函数的代码

import cv2
from cvzone.HandTrackingModule import HandDetector
from HandTrackingModule import *
from time import sleep
import numpy as np
import cvzone
from pynput.keyboard import Controllercap = cv2.VideoCapture(0)
cap.set(3, 1280)
cap.set(4, 720)detector =HandDetector(detectionCon=0.5)
keys = [["Q", "W", "E", "R", "T", "Y", "U", "I", "O", "P"],["A", "S", "D", "F", "G", "H", "J", "K", "L", ";"],["Z", "X", "C", "V", "B", "N", "M", ",", ".", "/"]]
finalText = ""keyboard = Controller()def drawAll(img, buttonList):for button in buttonList:x, y = button.posw, h = button.sizecvzone.cornerRect(img, (button.pos[0], button.pos[1], button.size[0], button.size[1]),20, rt=0)cv2.rectangle(img, button.pos, (x + w, y + h), (255, 0, 255), cv2.FILLED)cv2.putText(img, button.text, (x + 20, y + 65),cv2.FONT_HERSHEY_PLAIN, 4, (255, 255, 255), 4)return img#
# def drawAll(img, buttonList):
#     imgNew = np.zeros_like(img, np.uint8)
#     for button in buttonList:
#         x, y = button.pos
#         cvzone.cornerRect(imgNew, (button.pos[0], button.pZXos[1], button.size[0], button.size[1]),
#                           20, rt=0)
#         cv2.rectangle(imgNew, button.pos, (x + button.size[0], y + button.size[1]),
#                       (255, 0, 255), cv2.FILLED)
#         cv2.putText(imgNew, button.text, (x + 40, y + 60),
#                     cv2.FONT_HERSHEY_PLAIN, 2, (255, 255, 255), 3)
#
#     out = img.copy()
#     alpha = 0.5
#     mask = imgNew.astype(bool)
#     print(mask.shape)
#     out[mask] = cv2.addWeighted(img, alpha, imgNew, 1 - alpha, 0)[mask]
#     return outclass Button():def __init__(self, pos, text, size=[85, 85]):self.pos = posself.size = sizeself.text = textbuttonList = []
for i in range(len(keys)):for j, key in enumerate(keys[i]):buttonList.append(Button([100 * j + 50, 100 * i + 50], key))while True:success, img = cap.read()img = detector.findHands(img)lmList, bboxInfo = detector.findPosition(img)img = drawAll(img, buttonList)if lmList:for button in buttonList:x, y = button.posw, h = button.sizeif x < lmList[8][0] < x + w and y < lmList[8][1] < y + h:cv2.rectangle(img, (x - 5, y - 5), (x + w + 5, y + h + 5), (175, 0, 175), cv2.FILLED)cv2.putText(img, button.text, (x + 20, y + 65),cv2.FONT_HERSHEY_PLAIN, 4, (255, 255, 255), 4)l, _, _ = detector.findDistance(8, 12, img, draw=False)print(l)## when clickedif l < 30:keyboard.press(button.text)cv2.rectangle(img, button.pos, (x + w, y + h), (0, 255, 0), cv2.FILLED)cv2.putText(img, button.text, (x + 20, y + 65),cv2.FONT_HERSHEY_PLAIN, 4, (255, 255, 255), 4)finalText += button.textsleep(0.15)cv2.rectangle(img, (50, 350), (700, 450), (175, 0, 175), cv2.FILLED)cv2.putText(img, finalText, (60, 430),cv2.FONT_HERSHEY_PLAIN, 5, (255, 255, 255), 5)cv2.imshow("Image", img)cv2.waitKey(1)

导入库：导入了需要的库，包括 OpenCV (cv2) 用于图像处理和显示，Mediapipe 中的 HandDetector 用于手部检测，cvzone 用于绘制按钮外观，numpy 用于数组处理，pynput.keyboard 中的 Controller 用于模拟键盘输入，time 用于延时。
设置摄像头参数：通过 OpenCV 设置摄像头的分辨率为 1280x720。
创建 HandDetector 实例：使用 HandDetector 类创建一个手势检测器实例，设置检测的置信度阈值为 0.5。
创建按钮列表：创建了一个包含虚拟键盘按钮信息的列表，按键布局通过嵌套列表 keys 定义。
创建 Button 类：用于创建虚拟按钮的类，每个按钮包含位置、文本内容和大小。
主循环：进入一个无限循环，用于处理实时的摄像头捕获图像帧。
- 读取图像帧：从摄像头捕获图像帧。
- 手部检测：使用手势检测器找出图像中的手部和关键点。
- 绘制按钮：调用 drawAll 函数在图像上绘制虚拟按钮。
- 遍历按钮列表：对每个按钮进行检查，看是否有手指触摸到按钮。
  - 如果手指在按钮范围内，绘制高亮效果。
  - 计算手指触摸点与按钮中心的距离，如果小于一定阈值，则模拟键盘按下并记录输入。
- 绘制已输入的文本：在图像上绘制已输入的文本。
- 显示图像：通过 OpenCV 显示处理后的图像。
- 等待键盘输入：等待 1 毫秒，以便保持图像窗口的响应性。
运行主程序：执行主循环，处理实时的摄像头捕获和手势识别。

如果有遇到问题可以评论区留言，大家一起相互学习！

opencv实战项目手势识别-手势控制键盘

手势识别是一种人机交互技术，通过识别人的手势动作，从而实现对计算机、智能手机、智能电视等设备的操作和控制。 1. opencv实现手部追踪（定位手部关键点） 2.opencv实战项目实现手势跟踪并返回位置信息（封装调用&am…...

编程日记 2023/8/13 18:43:07

1.作用域

1.1局部作用域局部作用域分为函数作用域和块作用域。 1.函数作用域: 在函数内部声明的变量只能在函数内部被访问，外部无法直接访问。总结： (1)函数内部声明的变量，在函数外部无法被访问 (2)函数的参数也是函数内部的局部变量 (3)不同函数…...

编程日记 2023/8/13 18:42:06

黑马B站八股文学习笔记

视频地址：https://www.yuque.com/linxun-bpyj0/linxun/vy91es9lyg7kbfnr 大纲基础篇基础篇要点：算法、数据结构、基础设计模式 1. 二分查找要求能够用自己语言描述二分查找算法能够手写二分查找代码能够解答一些变化后的考法算法描述前提&a…...

编程日记 2023/8/13 18:41:05

前端常用的上传下载文件的几种方式，直接上传、下载文件，读取.xlsx文件数据，导出.xlsx数据

一、通过调用接口下载文件 const onExport async () > {try {let res await axios.request({method: POST,url: 请求地址,responseType: blob,params: { data: null },headers: { Authorization: Bearer UserModule.token },//看看请求是否需要token});let reader new…...

编程日记 2023/8/13 18:40:04

FPGA应用学习笔记--时钟域的控制亚稳态的解决

时钟域就是同一个时钟的区域，体现在laways语句边缘触发语句中，设计规模增大就会导致时钟不同步，有时差，就要设计多时钟域。会经过与门的延时产生的新时钟域，这种其实不推荐使用，但在ascl里面很常见在处理…...

编程日记 2023/8/13 18:39:03

AirServer是什么软件，手机屏幕投屏电脑神器

什么是 AirServer？ AirServer 是适用于 Mac 和 PC 的先进的屏幕镜像接收器。它允许您接收 AirPlay 和 Google Cast 流，类似于 Apple TV 或 Chromecast 设备。AirServer 可以将一个简单的大屏幕或投影仪变成一个通用的屏幕镜像接收器 ，是一款…...

编程日记 2023/8/13 18:38:02

如何使用 AT+WEBSERVER 指令实现自定义的 Webserver html 网页配网

开启 AT 固件中的 Webserver 指令和 FS 指令支持乐鑫官网发布的默认通用 AT 固件不支持 webserver 配网功能， 需要用户自己搭建 esp-at 环境，并在 sdkconfig 中开启 webserver AT 指令和 FS 指令的支持， 如下图所示： 测试 AT 固…...

编程日记 2023/8/13 18:37:00

期权定价模型系列【4】—期权组合的Delta-Gamma-Vega中性

期权组合的Delta-Gamma-Vega中性期权组合构建时往往会进行delta中性对冲，在进行中性对冲后，期权组合的delta敞口为0，此时期权组合仍然存在gamma与vega敞口。因此研究期权组合的delta-gamma-vega敞口中性是有必要的。本文旨在对delta-gamma-…...

编程日记 2023/8/13 18:35:59

k8sday02

第四章实战入门本章节将介绍如何在kubernetes集群中部署一个nginx服务，并且能够对其进行访问。 Namespace Namespace是kubernetes系统中的一种非常重要资源，它的主要作用是用来实现多套环境的资源隔离或者多租户的资源隔离。默认情况下&…...

编程日记 2023/8/13 18:34:58

黑马头条项目学习--Day2: app端文章查看,静态化freemarker,分布式文件系统minIO

app端文章 Day02: app端文章查看，静态化freemarker,分布式文件系统minIOa. app端文章列表查询1) 需求分析2) 实现思路 b. app端文章详细1) 需求分析2) Freemarker概述a) 基础语法种类b) 集合指令（List和Map）c) if指令d) 运算符e) 空值处理f) …...

编程日记 2023/8/13 18:33:56

特语云用Linux和MCSM面板搭建我的世界基岩版插件服教程

Linux系统用MCSM和DockerWine 搭建我的世界 LiteLoaderBDS 服务器 Minecraft Bedrock Edition 也就是我的世界基岩版，这是 Minecraft 的另一个版本。Minecraft 基岩版可以运行在 Win10、Android、iOS、XBox、switch。基岩版不能使用 Java 版的服务器，…...

编程日记 2023/8/13 18:32:55

2023.8

编译 make install 去掉 folly armv8-acrc arrow NEON 相关链接 https://blog.csdn.net/u011889952/article/details/118762819 这里面的方案二，我之前也是用的这个 https://blog.csdn.net/zzhongcy/article/details/105512565 参考的此博客火焰图 https://b…...

编程日记 2023/8/13 18:31:53

CSV文件编辑器——Modern CSV for mac

Modern CSV for Mac是一款功能强大、操作简单的CSV文件编辑器，适用于Mac用户快速、高效地处理和管理CSV文件。Modern CSV具有直观的用户界面，可以轻松导入、编辑和导出CSV文件。它支持各种功能，包括排序、过滤、查找和替换，使您能…...

编程日记 2023/8/13 18:30:52

全国各地区数字经济工具变量-文本词频统计（2002-2023年）

数据简介：本数据使用全国各省工作报告，对其中数字经济相关的词汇进行词频统计，从而构建数字经济相关的工具变量。凭借数字经济政策供给与数字经济发展水平的相关系数的显著性作为二者匹配程度的划分依据，一定程度上规避了数字经济…...

编程日记 2023/8/13 18:29:49

MacOS安装RabbitMQ

官网地址： RabbitMQ: easy to use, flexible messaging and streaming — RabbitMQ 一、brew安装 brew update #更新一下homebrew brew install rabbitmq #安装rabbitMQ 安装结果： > Caveats > rabbitmq Management Plugin enabled by defa…...

编程日记 2023/8/13 18:28:47

关于selenium 元素定位的浅度解析

一、By类单一属性定位元素名称描述 Webdriver API id id属性 driver.find_element(By.ID, "id属性值") name name属性 driver.find_element(By.NAME, "name属性值") class_name class属性 driver.find_element(By.CLASS_NAME, "class_na…...

编程日记 2023/8/13 18:27:46

狐猬编程:货运

玩具厂生产了一批玩具需要运往美国销售。该批玩具根据大小，已经将其打包装在不同的包装盒里用以运输。该批玩具包装盒共有六个型号，分别1*1*h、2*2*h、3*3*h、4*4*h、5*5*h、6*6*h的包装盒。由于疫情的影响，运输价格十分昂贵，海运…...

编程日记 2023/8/13 18:26:44

SpringBoot复习：（34）@EnableWebMvc注解为什么让@WebMvcAutoconfiguration失效？

它导入了DelegatingWebMvcConfiguration 它会把容器中的类型为WebMvcConfigurer的bean注入到类型为WebMvcConfigurerComposite的成员变量configurers中。可以看到它继承了WebMvcConfigurerSupport类而WebMvcConfigureAutoConfiguration类定义如下可以看到一个Conditional…...

编程日记 2023/8/13 18:25:43

批量将CSV文件转换为TXT文件

要批量将CSV文件转换为TXT文件，可以按照以下步骤进行操作： 1. 导入所需的Python库：首先，您需要导入csv库来读取CSV文件。 import csv 2. 定义文件路径和输出文件夹： input_folder "your_input_folder_path&q…...

编程日记 2023/8/13 18:24:42

vite跨域配置踩坑，postman链接后端接口正常，但是前端就是不能正常访问

问题一：怎么都链接不了后端地址根据以下配置，发现怎么都链接不了后端地址，proxy对了呀。仔细看，才发现host有问题 // 本地运行配置，及反向代理配置server: {host: 0,0,0,0,port: 80,// cors: true, // 默认启用并允…...

编程日记 2023/8/13 18:23:40

接口测试中缓存处理策略

在接口测试中，缓存处理策略是一个关键环节，直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性，避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明： 一、缓存处理的核…...

编程新知 2026/2/8 4:37:27

超短脉冲激光自聚焦效应

前言与目录强激光引起自聚焦效应机理超短脉冲激光在脆性材料内部加工时引起的自聚焦效应，这是一种非线性光学现象，主要涉及光学克尔效应和材料的非线性光学特性。自聚焦效应可以产生局部的强光场，对材料产生非线性响应，可能…...

编程新知 2026/2/8 20:42:48

java 实现excel文件转pdf | 无水印 | 无限制

文章目录目录文章目录前言 1.项目远程仓库配置 2.pom文件引入相关依赖 3.代码破解二、Excel转PDF 1.代码实现 2.Aspose.License.xml 授权文件总结前言 java处理excel转pdf一直没找到什么好用的免费jar包工具，自己手写的难度，恐怕高级程序员花费一年的事件，也…...

编程新知 2025/11/5 4:10:42

连锁超市冷库节能解决方案：如何实现超市降本增效

在连锁超市冷库运营中，高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术，实现年省电费15%-60%，且不改动原有装备、安装快捷、…...

编程新知 2025/11/30 16:55:29

对WWDC 2025 Keynote 内容的预测

借助我们以往对苹果公司发展路径的深入研究经验，以及大语言模型的分析能力，我们系统梳理了多年来苹果 WWDC 主题演讲的规律。在 WWDC 2025 即将揭幕之际，我们让 ChatGPT 对今年的 Keynote 内容进行了一个初步预测，聊作存档。等到明…...

编程新知 2026/2/6 23:56:39

（二）原型模式

原型的功能是将一个已经存在的对象作为源目标，其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。一、源型模式的定义原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现，忽略对象创建过程中的其它细节。 📌 核心特点：避免重复初…...

编程新知 2026/2/10 15:49:06

ESP32 I2S音频总线学习笔记（四）： INMP441采集音频并实时播放

简介前面两期文章我们介绍了I2S的读取和写入，一个是通过INMP441麦克风模块采集音频，一个是通过PCM5102A模块播放音频，那如果我们将两者结合起来，将麦克风采集到的音频通过PCM5102A播放，是不是就可以做一个扩音器了呢…...

编程新知 2026/2/9 20:01:01

镜像里切换为普通用户

如果你登录远程虚拟机默认就是 root 用户，但你不希望用 root 权限运行 ns-3（这是对的，ns3 工具会拒绝 root），你可以按以下方法创建一个非 root 用户账号并切换到它运行 ns-3。一次性解决方案：创建非 roo…...

编程新知 2025/9/11 11:00:29

LLM基础1_语言模型如何处理文本

基于GitHub项目：https://github.com/datawhalechina/llms-from-scratch-cn 工具介绍 tiktoken：OpenAI开发的专业"分词器" torch：Facebook开发的强力计算引擎，相当于超级计算器理解词嵌入：给词语画"…...

编程新知 2025/9/25 5:16:24

SiFli 52把Imagie图片，Font字体资源放在指定位置，编译成指定img.bin和font.bin的问题

分区配置 (ptab.json) img 属性介绍： img 属性指定分区存放的 image 名称，指定的 image 名称必须是当前工程生成的 binary 。如果 binary 有多个文件，则以 proj_name:binary_name 格式指定文件名， proj_name 为工程名&…...

编程新知 2026/1/23 10:51:19

一、HandTraqckModule模块

相关文章：