当前位置：首页 > article >正文

Python-基于mediapipe,pyautogui,cv2和numpy的电脑手势截屏工具（进阶版）

article 2026/5/9 20:45:31

前言：在我们的日常生活中，手机已经成为我们每天工作，学习，生活的一个不可或缺的部分。众所周知：为了我们的使用方便，手机里面的很多功能非常人性化，既便捷又高效，其中就有手机的截屏方式，它们花样繁多，如三指截屏，手势截屏等。那么怎么在电脑里面也实现这个功能呢？（虽然我们知到电脑也有快捷的截屏方式-Ctrl+Shift+S。但是很明显，这依然不够快捷，因为这至少需要用户的两次手动操作）。那么废话不多说，我们直接开始今天的Python学习之路-利用PyCharm手搓一个基于mediapipe,pyautogui,cv2和numpy的电脑手势截屏工具。

编程思路：本次编程我们需要pyautogui来获取屏幕的尺寸，这对于确定按钮的位置和大小非常有用；接着利用mediapipe初始化一个手部模型，用来检测视频流中的手部关键点；numpy提供了计算机在采集了用户手部姿态所得到的数据的处理，并与mediapipe所建立的数学模型进行比较等。cv2是本次编程的重头戏，它为调用计算机摄像头进行信息采集，以及用户手部模型的实时可视化展现等提供了可能。这次我们额外添加了win32com库，用于语音提醒用户程序初始化进程。此外，我们将截屏所得图片的存放位置改为系统的图片文件夹中，更接近普通的截屏操作（这个需要调用os库操作系统，pathlib库获取文件位置，time库获取时间戳等）。

第一步：导入库

本次编程所需调用的库：

1，标准库：cv2,numpy,time,os,pathlib。

2，第三方库：mediapipe,pyautogui,win32com。

# 导入必要库
import cv2
import mediapipe as mp
import pyautogui
import numpy as np
import os
from pathlib import Path
import time
import win32com.client

第二步：程序初始化

我们需要初始化判断模型并给出屏幕尺存等相关变量参数。此外，我们同时也需要初始化语音播放器音量，语速及图片的保存路径等。

# 初始化语音播报器
speaker = win32com.client.Dispatch("SAPI.SpVoice")
speaker.Rate = 1  # 设置语速
speaker.Volume = 100  # 设置音量
speaker.Speak("欢迎使用手势截图工具")

# 初始化保存路径
save_folder = get_pictures_path() / "Gesture_Screenshots"
save_folder.mkdir(parents=True, exist_ok=True)# 初始化MediaPipe手部模型
mp_hands = mp.solutions.hands
hands = mp_hands.Hands(max_num_hands=2, min_detection_confidence=0.7)
mp_draw = mp.solutions.drawing_utils# 屏幕尺寸和状态变量
screen_w, screen_h = pyautogui.size()
waiting_for_click = False
blink_counter = 0
screenshot_taken = False
btn_rect = (500, 400, 200, 60)# 自定义紫色调色板
PURPLE_POINT = (255, 0, 255)  # BGR格式-亮紫色
PURPLE_LINE = (200, 0, 200)  # BGR格式-深紫色

第三步：构建内部逻辑

接下来我们需要编写程序内部判断模型等的内在逻辑，并将鼠标，按键事件与计算机采集信息所得的对比结果联系起来。此外，我们还会构建图片的路径函数以将图片存放至指定位置。

# 获取图片保存路径函数
def get_pictures_path():if os.name == 'nt':return Path.home() / "Pictures"else:xdg_pics =

Python-基于mediapipe,pyautogui,cv2和numpy的电脑手势截屏工具（进阶版）

相关文章：

Python-基于mediapipe,pyautogui,cv2和numpy的电脑手势截屏工具（进阶版）

@EventListener底层原理（超详细）| @TransactionalEventListener底层原理 | 事务同步

NX/UG二次开发—CAM—快速查找程序参数名称

X86路由搭配rtl8367s交换机

【C++语言】卡码网语言基础课系列----5. A+B问题VIII

【LLM-agent】(task1)简单客服和阅卷智能体

CAP 定理的 P 是什么

RK3568使用opencv（使用摄像头捕获图像数据显示）

ZZNUOJ(C/C++)基础练习1021——1030(详解版)

2025 年，链上固定收益领域迈向新时代

使用where子句筛选记录

基于互联网+智慧水务信息化整体解决方案

FIDL：Flutter与原生通讯的新姿势，不局限于基础数据类型

文件读写操作

cf1000（div.2）

【2025年数学建模美赛E题】(农业生态系统)完整解析+模型代码+论文

jhat命令详解

FFmpeg(7.1版本)的基本组成

DDD - 领域驱动设计分层架构：构建可演化的微服务架构

大数据挖掘--两个角度理解相似度计算理论

主流的AEB标准有哪些？

开源智慧园区管理系统如何重塑企业管理模式与运营效率

decison tree 决策树

Spring Data JPA 实战：构建高性能数据访问层

11 Spark面试真题

【AI论文】VideoAuteur：迈向长叙事视频

循环神经网络（RNN）+pytorch实现情感分析

css-background-color（transparent）

【Leetcode 热题 100】32. 最长有效括号

Linux网络 | 网络层IP报文解析、认识网段划分与IP地址