当前位置：首页 > news >正文

opencvocr识别手机摄像头拍摄的指定区域文字，文字符合规则就语音报警

news 2026/1/2 12:09:39

安装python，pycharm，自行安装。
Python下安装OpenCv
2.1 打开cmd,先安装opencv-python

pip install opencv-python --user -i https://pypi.tuna.tsinghua.edu.cn/simple

2.2 再安装opencv-contrib-python

pip install opencv-contrib-python --user -i https://pypi.tuna.tsinghua.edu.cn/simple

3.Pycharm安装opencv-python
打开pycharm，然后打开setting，打开python解析器
在这里插入图片描述
点击Go to tool window。下面红框处管理和下载python依赖包

点击下图的设置，然后点击管理仓库

新增python包仓库： https://pypi.tuna.tsinghua.edu.cn/simple/

在这里搜索并下载opencv-python，numpy
下载完成，新建py文件，执行代码。有窗口输出该路径的图片就说明成功了。

import cv2 as cv# 这段代码是测试opencv是否正常安装。运行下面这段代码出现图片就是成功的
src = cv.imread("C:\\Users\Administrator\Desktop\\city1.jpg")
cv.namedWindow("input image",cv.WINDOW_AUTOSIZE)
cv.imshow("input image",src)
cv.waitKey(0)
cv.destroyAllWindows()
print("hi python")

下载Tesseract OCR，去官网 https://github.com/UB-Mannheim/tesseract/wiki
下载exe。安装完成后，需要设置Tesseract-OCR的系统环境。详细看这篇文章
https://blog.csdn.net/qq_38463737/article/details/109679007
下载Tesseract OCR的语言包，中文语言包和英文语言包。
去官网 https://github.com/tesseract-ocr/tessdata 下载eng.traineddata和chi_sim.traineddata

然后把那两个文件放到**/Tesseract-OCR/tessdata
pycharm 的python包安装pytesseract
在项目文件.venv/Lib/site-packages/pytesseract/pytesseract.py 文件中修改变量tesseract_cmd，路径自行修改。这是为了解决BUG：”tesseract is not installed or it‘s not in your PATH“
安装gTTS 谷歌语音播报，pillow，pyttsx3 离线语音播报。
在手机上下载“IP 摄像头”，并安装。这里我在应用宝里下载了 IP 摄像头。使用该软件，要电脑连接手机热点，同处在局域网内。

10，全部py代码如下

# 本代码参考了https://blog.csdn.net/weixin_35752233/article/details/142606296  ， https://blog.csdn.net/m0_58892312/article/details/120923578 和 AI
# 人脸模型库文件“ haarcascade_frontalface_default.xml ”，帮助摄像头获取的画面去对比
# 1. 第二句代码中的admin为我的IP摄像头用户名， admin为我的IP摄像头密码，这个可以在手机APP的设置里查看和修改，代码中的要使用自己的用户名、密码。
# 2. @后面的地址是局域网IP地址，这个在打开IP摄像头服务器之后的界面就能看到，也需要修改为自己的地址。
# 3.代码的其他部分无需修改。
import time
import cv2 as cv
import pytesseract
import numpy as np
import pyttsx3
from gtts import gTTS# 图像的裁剪和缩放是图像预处理的两个基本操作。裁剪主要是根据需要对图像的特定区域进行选取，剔除无效或干扰信息。缩放则是为了满足特定的分辨率或图像尺寸需求，对图像的大小进行调整。
# 裁剪图片
def crop_image(image, x, y, width, height):return image[y:y + height, x:x + width]# 缩放图片
def resize_image(image, width, height):return cv.resize(image, (width, height))# 灰度化.        图像的灰度化和二值化是将图像从彩色转换到灰度图像和黑白图像的过程，这些转换对于提高OCR的准确性和效率至关重要。
def to_grayscale(image):return cv.cvtColor(image, cv.COLOR_BGR2GRAY)# 二值化.
def to_binary(image, threshold=127, maxval=255):return cv.threshold(image, threshold, maxval, cv.THRESH_BINARY)[1]# 噪声去除是图像预处理中非常重要的一步。它通常通过滤波技术实现，可以减少图像中的随机噪声，提高图像质量，有助于后续的文字检测和识别。
def remove_noise(image, kernel_size=3):return cv.medianBlur(image, kernel_size)# 文本行检测                     和字符分割是预处理的高级步骤，它们是为了从图像中准确地分离出单独的字符或文本行，这对于OCR识别至关重要。
def detect_text_lines(image):# 使用Canny边缘检测算法edged = cv.Canny(image, 100, 200)# 找到轮廓contours, _ = cv.findContours(edged, cv.RETR_LIST, cv.CHAIN_APPROX_SIMPLE)return contours# 字符分割
def segment_characters(image, contours):characters = []for contour in contours:x, y, w, h = cv.boundingRect(contour)roi_image = image[y:y + h, x:x + w]characters.append(roi_image)return characters# 识别并截取红色区域
def extract_red_region(image):# 转换为HSV颜色空间hsv = cv.cvtColor(image, cv.COLOR_BGR2HSV)# 定义红色的范围lower_red = np.array([0, 120, 70])upper_red = np.array([10, 255, 255])mask1 = cv.inRange(hsv, lower_red, upper_red)lower_red = np.array([170, 120, 70])upper_red = np.array([180, 255, 255])mask2 = cv.inRange(hsv, lower_red, upper_red)# 合并两个掩码mask = mask1 + mask2# 形态学操作kernel = np.ones((5, 5), np.uint8)mask = cv.morphologyEx(mask, cv.MORPH_CLOSE, kernel)mask = cv.morphologyEx(mask, cv.MORPH_OPEN, kernel)return mask# 文字保存为临时mp3文件
def text_to_speech(text, lang='en'):# 创建gTTS对象tts = gTTS(text=text, lang=lang)# 保存为临时文件temp_file = "temp_audio.mp3"tts.save(temp_file)return temp_file# 读取视频信息。 # @前为账号密码，@后为ip地址
cap = cv.VideoCapture("http://admin:admin@192.168.169.143:8081/video")
# cap = cv.VideoCapture(0)
while cap.isOpened():# 读取一帧图片f, image = cap.read()# 保存当前帧为图片文件cv.imwrite('captured_image.jpg', image)print("图片已保存为 captured_image.jpg")time.sleep(0.5)# 项目相对路径下captured_image.jpg，自行修改文件路径picture = cv.imread("D:\\download_software\\python_project\\camera_test\\captured_image.jpg")# 提取红色区域 -> 红色底纹白颜色文字red_mask = extract_red_region(picture)# 查找轮廓contours, _ = cv.findContours(red_mask, cv.RETR_EXTERNAL, cv.CHAIN_APPROX_SIMPLE)for contour in contours:x, y, w, h = cv.boundingRect(contour)roi = picture[y:y + h, x:x + w]# ps：没有必要灰度处理和二值化处理，因为红色区域的图像已经很清楚了# # 转换为灰度图像# gray_picture = cv.cvtColor(roi, cv.COLOR_BGR2GRAY)# # 二值化处理# _, binary_picture = cv.threshold(gray_picture, 200, 255, cv.THRESH_BINARY_INV)# 使用Tesseract OCR识别文字text = pytesseract.image_to_string(roi, config='--psm 6',lang="eng")print("OCR识别结果：" + text)cv.imshow("Red Region", roi)# 如果文本包含MAU或者AHU，播放mp3语音进行报警if "MAU" in text or "AHU" in text:# 创建语音引擎engine = pyttsx3.init()# 进行语音播报 指定要播报的文本engine.say(text)# 阻止 没播报完程序就退出engine.runAndWait()# 使用OpenCV的自定义函数进行图像预处理# # 设定裁剪区域的坐标和尺寸# x, y, width, height = 100, 100, 200, 200# cropped_image = crop_image(image, x, y, width, height)## # 设定缩放尺寸# new_width, new_height = 300, 300# resized_image = resize_image(cropped_image, new_width, new_height)# 读取图片并转换为灰度图# gray_picture = cv.cvtColor(picture, cv.COLOR_BGR2GRAY)# 读取图片并进行二值化# _, binary_picture = cv.threshold(gray_picture, 0, 255, cv.THRESH_BINARY_INV + cv.THRESH_OTSU)# 读取图片并去除噪声# noise_free_picture = remove_noise(binary_picture)# 使用Tesseract进行OCR处理     chi_sim | eng# text = pytesseract.image_to_string(noise_free_picture,lang="eng")# 打印OCR结果# print("OCR识别结果：" + text)# cv.imshow("Video Stream", picture)#退出视频识别if cv.waitKey(1) & 0xFF == ord('q'):breakcap.release()
cv.destroyAllWindows()

运行效果展示。我手机的IP摄像头拍摄正对着wps那块区域，识别出来的红色区域在左上角。因为OCR识别使用我用的是english语言包，所以识别文字内容不太准确，汉字没有识别出来，但是我这里的需求只要识别英文单词就可以了。此时，电脑正在播放识别出来的文字内容。大致需求已经实现了。

opencvocr识别手机摄像头拍摄的指定区域文字，文字符合规则就语音报警

安装python，pycharm，自行安装。 Python下安装OpenCv 2.1 打开cmd,先安装opencv-python pip install opencv-python --user -i https://pypi.tuna.tsinghua.edu.cn/simple2.2 再安装opencv-contrib-python pip install opencv-contrib-python --user …...

编程日记 2024/12/5 17:51:31

微服务即时通讯系统（5）用户管理子服务，网关子服务

用户管理子服务（user文件） 用户管理子服务也是这个项目中的一个业务最多的子服务，接口多，但是主要涉及的数据表只有user表，Redis的键值对和ES的一个搜索引擎，主要功能是对用户的个人信息进行修改管理&#…...

编程日记 2024/12/5 17:48:29

postgreSQL安装后启动有The application server could not be contacted问题

不得不说pgsql是真的麻烦,找问题找了几个小时才解决.直接步入主题吧首先问题如下安装后,双击启动就出现上述问题首先删除路径为 c:\Users\your_name\AppData\Roaming\pgAdmin 之内的所有文件和文件夹, 如果找不到AppData,就把这个点开接着找到你安装pgsql的路径,我的是D…...

编程日记 2024/12/5 17:45:25

架构05-架构安全性

零、文章目录架构05-架构安全性 1、软件架构安全的重要性 **系统安全：**不仅包括防御黑客攻击，还包括安全备份与恢复、安全审计、防治病毒等。**关注重点：**认证、授权、凭证、保密、传输安全、验证。 2、认证（Authenticatio…...

编程日记 2024/12/5 17:43:22

虚幻引擎---材质篇

一、基础知识虚幻引擎中的材质（Materials） 定义了场景中对象的表面属性，包括颜色、金属度、粗糙度、透明度等等；可以在材质编辑器中可视化地创建和编辑材质；虚幻引擎的渲染管线的着色器是用高级着色语言（…...

编程日记 2024/12/5 17:42:21

NPM镜像详解

NPM镜像详解什么是NPM镜像 NPM镜像（NPM Mirror）是一个完整的NPM包的副本服务器。由于npm的官方registry服务器部署在国外，国内访问可能会比较慢，因此使用镜像可以加快包的下载速度。常用的NPM镜像源 npm官方镜像 https://reg…...

编程日记 2024/12/5 17:40:18

从智能合约到去中心化AI：Web3的技术蓝图

Web3正在成为互联网发展的重要方向，其核心理念是去中心化、用户主权和自治。随着区块链技术、智能合约以及人工智能（AI）等技术的发展，Web3不仅重新定义了数据存储和交易方式，还为更智能化、去中心化的数字生态系统铺平…...

编程日记 2024/12/5 17:34:11

STM32进阶定时器3 通用定时器案例1：LED呼吸灯——PWM脉冲

功能它有基本定时器所有功能，还增加以下功能 TIM2、TIM3、TIM4、TIM5 多种时钟源： 外部时钟源模式1： 每个定时器有四个输入通道只有通道1和通道2的信号可以作为时钟信号源通道1 和通道2 的信号经过输入滤液和边缘检测器外部时钟源…...

编程日记 2024/12/5 17:33:09

开源即时通讯与闭源即时通讯该怎么选择，其优势是什么？

在选择即时通讯软件时，应根据企业的经营领域来选择适合自身需求的开源或闭源方案。不同领域对开源和闭源即时通讯的理念存在差异，因此总结两个点简要分析这两种选择，有助于做出更明智的决策。一、开源与闭源的根本区别在于软件的源代码是否…...

编程日记 2024/12/5 17:32:08

930[water]

算法...

编程日记 2024/12/5 17:31:05

2024论文翻译 | Multi-Review Fusion-in-Context

摘要接地气的文本生成，包括长篇问答和摘要等任务，需要同时进行内容选择和内容整合。当前的端到端方法由于其不透明性，难以控制和解释。因此，近期的研究提出了一个模块化方法，每个步骤都有独立的组件。具体来说&#…...

编程日记 2024/12/5 17:30:03

（78）MPSK基带调制通信系统瑞利平坦衰落信道传输性能的MATLAB仿真

文章目录前言一、MATLAB仿真1.仿真代码2.仿真结果二、子函数与完整代码总结前言本文给出瑞利平坦衰落信道上的M-PSK通信系统性能仿真的MATLAB源代码与仿真结果。其中，调制方式M-PSK包括BPSK、QPSK、8-PSK、16-PSK、32-PSK等方式。一、MATLAB仿真 1.仿真代码 …...

编程日记 2024/12/5 17:28:00

【机器学习】机器学习的基本分类-监督学习-决策树-CART（Classification and Regression Tree）

CART（Classification and Regression Tree） CART（分类与回归树）是一种用于分类和回归任务的决策树算法，提出者为 Breiman 等人。它的核心思想是通过二分法递归地将数据集划分为子集，从而构建一棵树。CART …...

编程日记 2024/12/5 17:26:58

【金猿CIO展】复旦大学附属中山医院计算机网络中心副主任张俊钦：推进数据安全风险评估，防范化解数据安全风险，筑牢医疗数据安全防线...

‍ 张俊钦本文由复旦大学附属中山医院计算机网络中心副主任张俊钦撰写并投递参与“数据猿年度金猿策划活动——2024大数据产业年度优秀CIO榜单及奖项”评选。大数据产业创新服务媒体 ——聚焦数据改变商业数据要素时代，医疗数据已成为医院运营与决策的重要基石…...

编程日记 2024/12/5 17:24:54

工业机器视觉-基于深度学习的水表表盘读数识别

字轮数字识别、指针读数识别（角度换算）、根据指针角度进行读数修正、根据最高位指针(x0.1)读数对字轮数字进行修正、得到最终读数。基于深度学习的目标检测技术和OpenCV图像处理技术，可识别所有类型的表盘机械读数。...

编程日记 2024/12/5 17:22:52

基于ZooKeeper搭建Hadoop高可用集群

ZooKeeper搭建Hadoop高可用集群在之前安装的Hadoop3.3.6集群中HDFS NameNode 和 YARN ResourceManager 都是单节点，集群不具有高可用性。 HDFS 高可用架构 HDFS 高可用架构主要组件： Active NameNode 和 Standby NameNode： 两台 NameNode…...

编程日记 2024/12/5 17:21:49

力扣88题：合并两个有序数组

力扣88题：合并两个有序数组题目描述给定两个按非递减顺序排列的整数数组 nums1 和 nums2，以及它们的长度 m 和 n，要求将 nums2 合并到 nums1，使得合并后的数组仍按非递减顺序排列。输入与输出示例 1： 输入&am…...

编程日记 2024/12/5 17:18:44

python 笔记之线程同步和死锁

同步： 共享数据： 如果多个线程共同对某个数据修改，则可能出现不可预测的结果，为了保证数据的正确性，需要对多个数据进行同步同步：一个一个的完成，一个做完另一个才能进来效率会降低使用Thre…...

编程日记 2024/12/5 17:16:39

SpringBoot小知识(4)：高级配置知识与bean的绑定

一、EnableConfigurationProperties ConfigurationProperties注解在我们之前讲过，他是从配置中读取参数封装给实体类的一个注解。那么EnableConfigurationProperties是个啥呢？ EnableConfigurationProperties 是 Spring Framework 中用于启用基于配置文…...

编程日记 2024/12/5 17:14:37

Python毕业设计选题：基于大数据的淘宝电子产品数据分析的设计与实现-django+spark+spider

开发语言：Python框架：djangoPython版本：python3.7.7数据库：mysql 5.7数据库工具：Navicat11开发软件：PyCharm 系统展示管理员登录管理员功能界面电子产品管理系统管理数据可视化分析看板展示摘要本…...

编程日记 2024/12/5 17:12:35

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向深度学习与微纳光子学的结合主要集中在以下几个方向： 逆向设计通过神经网络快速预测微纳结构的光学响应，替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。特征提取与优化从复杂的光学数据中自…...

编程新知 2026/1/2 4:31:56

HTML 语义化

目录 HTML 语义化HTML5 新特性HTML 语义化的好处语义化标签的使用场景最佳实践 HTML 语义化 HTML5 新特性标准答案： 语义化标签： <header>：页头<nav>：导航<main>：主要内容<article>&#x…...

编程新知 2025/11/25 7:21:34

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务中文乱码问题： 下面创建一个简单的Flask RESTful API示例。首先，我们需要创建环境，安装必要的依赖，然后…...

编程新知 2025/12/25 20:13:52

前端倒计时误差!

提示：记录工作中遇到的需求及解决办法文章目录前言一、误差从何而来？二、五大解决方案1. 动态校准法（基础版）2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言前几天听说公司某个项…...

编程新知 2025/9/8 23:14:43

ETLCloud可能遇到的问题有哪些？常见坑位解析

数据集成平台ETLCloud，主要用于支持数据的抽取（Extract）、转换（Transform）和加载（Load）过程。提供了一个简洁直观的界面，以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...

编程新知 2025/12/30 23:19:28

佰力博科技与您探讨热释电测量的几种方法

热释电的测量主要涉及热释电系数的测定，这是表征热释电材料性能的重要参数。热释电系数的测量方法主要包括静态法、动态法和积分电荷法。其中，积分电荷法最为常用，其原理是通过测量在电容器上积累的热释电电荷，从而确定热释电系数…...

编程新知 2025/12/31 14:30:23

多模态图像修复系统：基于深度学习的图片修复实现

多模态图像修复系统：基于深度学习的图片修复实现 1. 系统概述本系统使用多模态大模型（Stable Diffusion Inpainting）实现图像修复功能，结合文本描述和图片输入，对指定区域进行内容修复。系统包含完整的数据处理、模型训练、推理部署流程。 import torch import numpy …...

编程新知 2025/9/9 21:28:16

Scrapy-Redis分布式爬虫架构的可扩展性与容错性增强：基于微服务与容器化的解决方案

在大数据时代，海量数据的采集与处理成为企业和研究机构获取信息的关键环节。Scrapy-Redis作为一种经典的分布式爬虫架构，在处理大规模数据抓取任务时展现出强大的能力。然而，随着业务规模的不断扩大和数据抓取需求的日益复杂，传统…...

编程新知 2025/12/24 22:19:49

Vue 模板语句的数据来源

🧩 Vue 模板语句的数据来源：全方位解析 Vue 模板（<template> 部分）中的表达式、指令绑定（如 v-bind, v-on）和插值（{{ }}）都在一个特定的作用域内求值。这个作用域由当前组件…...

编程新知 2025/10/4 11:36:04

软件工程期末复习

瀑布模型：计划螺旋模型：风险低原型模型: 用户反馈喷泉模型:代码复用高内聚低耦合：模块内部功能紧密模块之间依赖程度小高内聚：指的是一个模块内部的功能应该紧密相关。换句话说，一个模块应当只实现单一的功能…...

编程新知 2025/12/31 0:10:40

相关文章：