当前位置: 首页 > article >正文

OpenCv高阶(八)——摄像头调用、摄像头OCR

文章目录

  • 前言
  • 一、摄像头调用通用方法
      • 1、导入必要的库
      • 2、创建摄像头接口
  • 二、摄像头OCR
    • 1.引入库
    • 2、定义函数
      • (1)定义显示opencv显示函数
      • (2)保持宽高比的缩放函数
      • (3)坐标点排序函数
      • (4) 四点透视变换实现
    • 3、读取摄像头显示摄像头画面并做灰度处理
    • 4、做中值滤波并使用canny边缘检测
    • 5、轮廓检测
    • 6、遍历轮廓
    • 7、透视变换
    • 完整代码展示
  • 总结
      • 应用
        • 文档处理
        • 车牌识别
        • 身份证识别
        • 场景文字识别


前言

摄像头 OCR 是指利用摄像头采集图像信息,然后通过光学字符识别(OCR)技术对图像中的文字进行识别和处理的一种技术手段。

一、摄像头调用通用方法

1、导入必要的库

import cv2
import numpy as np

2、创建摄像头接口

读取本地的视频文件或者摄像头,接收的参数为视频文件的地址,或者摄像头的名称(一般0指的是电脑自身的摄像头,1则是外接的摄像头)

video_capture=cv2.VideoCapture('../data/test.avi')#判断视频文件或者摄像头是否正常读取,如果读取失败则返回提示信息
if not  video_capture.isOpened():print("视频打开失败")exit()

视频以及摄像头文件我们都可以把它理解成老式的电影,一段视频以及摄像头读取的画面都可以看成是一张图片一张图片的播放,只是视频和摄像头的播放速度很快,导致我们视觉上认为动作是连贯的,帧率也就是一秒播放多少张图片。

在这里插入图片描述
因此,在使用opencv读取摄像头和视频文件时我们采用循环的方法来不断获取摄像头读取的画面。
当我们要使用opencv来做视觉方向的问题时,我们就可以调用摄像头,对对读取到的每一帧画面做视觉方面的处理,来达到与摄像头结合的动态效果。

while True:ret,frame=video_capture.read()#ret是一个标志,检测摄像头是否读取成功,frame则是接收到的画面,是一张一张的图片if not ret:break#设置这个if判断,是为了手动控制跳出循环,当我们按下ESC键时跳出循环停止读取画面。if cv2.waitKey(100)==27:break#释放摄像头资源
video_capture.release()
cv2.destroyAllWindows()

二、摄像头OCR

简单处理文字,将不正的文档扶正并使文档的字迹更清晰。

1.引入库

import numpy as np
import cv2

2、定义函数

(1)定义显示opencv显示函数

def cv_show(name,value):cv2.imshow(name,value)cv2.waitKey(50)

(2)保持宽高比的缩放函数

def resize(image, width=None, height=None, inter=cv2.INTER_AREA):dim=None(h, w) = image.shape[:2]  # 获取原始高度和宽度(兼容灰度/彩色图)# 尺寸计算逻辑if width is None and height is None:return image  # 无缩放直接返回if width is None:r = height / float(h)  # 计算高度缩放比例dim = (int(w * r), height)  # 新尺寸元组(宽度, 高度)else:r = width / float(w)    # 计算宽度缩放比例dim = (width, int(h * r))# 执行缩放操作resized = cv2.resize(image, dim, interpolation=inter)return resized

(3)坐标点排序函数

def order_points(pts):rect = np.zeros((4, 2), dtype="float32")  # 初始化4x2矩阵#按顺序找到对应的坐标0123,分别是左上右上右下、左下# 计算坐标点x+y的和s = pts.sum(axis=1)  # 形状:(4,) ,对矩阵的每一行进行求和操作rect[0] = pts[np.argmin(s)]  # 左上角:x+y最小rect[2] = pts[np.argmax(s)]  # 右下角:x+y最大# 计算坐标点x-y的差diff = np.diff(pts, axis=1)  # 形状:(4,1)rect[1] = pts[np.argmin(diff)]  # 右上角:x-y最小(即y相对较大)rect[3] = pts[np.argmax(diff)]  # 左下角:x-y最大(即y相对较小)return rect  # 返回有序坐标:[左上, 右上, 右下, 左下]

(4) 四点透视变换实现

def four_point_transform(image, pts):# 坐标排序(关键步骤!)rect = order_points(pts)(tl, tr, br, bl) = rect  # 解构赋值四个顶点# 计算输出图像的宽度(取两组对边最大值)widthA = np.sqrt(((br[0] - bl[0]) ** 2) + (br[1] - bl[1]) ** 2)widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + (tr[1] - tl[1]) ** 2)maxWidth = max(int(widthA), int(widthB))# 计算输出图像的高度(同理)heightA = np.sqrt(((tr[0] - br[0]) ** 2) + (tr[1] - br[1]) ** 2)heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + (tl[1] - bl[1]) ** 2)maxHeight = max(int(heightA), int(heightB))# 定义目标点坐标(规范坐标系)dst = np.array([[0, 0],[maxWidth - 1, 0],          # 宽度方向预留1像素边界[maxWidth - 1, maxHeight - 1],[0, maxHeight - 1]], dtype="float32")# 计算透视变换矩阵(核心数学操作)M = cv2.getPerspectiveTransform(rect, dst)# 执行透视变换warped = cv2.warpPerspective(image, M, (maxWidth, maxHeight))return warped

3、读取摄像头显示摄像头画面并做灰度处理

#读取输入
cap=cv2.VideoCapture(0)
if not cap.isOpened():print("摄像头打开失败")exit()while True:flag=0  #是否检测到文档的标志ret,frame=cap.read()orig=frame.copy()if not ret: #读取失败则退出循环print("不能读取摄像头")breakcv_show('iamge',frame)gray=cv2.cvtColor(frame,cv2.COLOR_BGRA2GRAY)

4、做中值滤波并使用canny边缘检测

gray=cv2.medianBlur(gray,3)
edged=cv2.Canny(gray,75,200)
cv_show('i',edged)

中值滤波核大小 3 适用于720p分辨率

Canny阈值可改为自适应算法(如基于图像亮度百分比)

5、轮廓检测

#轮廓检测cnts=cv2.findContours(edged,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE)[-2]cnts=sorted(cnts,key=cv2.contourArea,reverse=True)[:3]# 取面积前三的轮廓image_contours=cv2.drawContours(orig,cnts,-1,(0,255,0),2) # 多边形近似cv_show('image_contours',image_contours)

RETR_EXTERNAL 只检测最外层轮廓(假设文档无嵌套)

面积阈值 20000 需根据摄像头分辨率调整(例如:1280x720下约为2%画面占比)

6、遍历轮廓

 #遍历轮廓做透视变换for c in cnts:peri=cv2.arcLength(c,True)#做轮廓近似approx=cv2.approxPolyDP(c,0.01*peri,True)area=cv2.contourArea(approx)#做透视变换要求轮廓近似满足是4个点,挑选出符合要求的结果if area>20000 and len(approx)==4:screenCnt=approxflag=1  #标识找到了文档print(peri,area)print('检测到文档')break

7、透视变换

if flag==1:image_contours=cv2.drawContours(frame,[screenCnt],0,(0,255,0),2)cv_show('image',image_contours)#左四点转换,扶正后的坐标warped=four_point_transform(orig,screenCnt.reshape(4,2))cv_show('warped',warped)cap.release()
cv2.destroyAllWindows()

完整代码展示

import numpy as np
import cv2def cv_show(name,value):cv2.imshow(name,value)cv2.waitKey(50)def resize(image,width=None,height=None,inter=cv2.INTER_AREA):dim=None(h,w)=image.shape[:2]if width is None and height is None:return imageif width is None:r=height/float(h)dim=(int(w*r),height)else:r=width/float(w)dim=(width,int(h*r))resized=cv2.resize(image,dim,interpolation=inter)return resizeddef order_points(pts):#一共四个坐标点rect=np.zeros((4,2),dtype='float32')#按顺序找到对应的坐标0123,分别是左上右上右下、左下s=pts.sum(axis=1)   #对矩阵的每一行进行求和操作rect[0]=pts[np.argmin(s)]rect[2]=pts[np.argmax(s)]diff=np.diff(pts,axis=1)rect[1]=pts[np.argmin(diff)]rect[3]=pts[np.argmax(diff)]return rectdef four_point_transform(image,pts):#获取输入的坐标点rect=order_points(pts)(tl,tr,br,bl)=rect#计算输入的w和h值widthA=np.sqrt(((br[0]-bl[0])**2) +( br[1] - bl[1])**2)widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + (tr[1] - tl[1]) ** 2)maxwidth=max(int(widthA),int(widthB))heightA=np.sqrt(((tr[0]-br[0])**2) +( tr[1] - br[1])**2)heightB=np.sqrt(((tl[0]-bl[0])**2) +( tl[1] - bl[1])**2)maxheight=max(int(heightA),int(heightB))dst=np.array([[0,0],[maxwidth,0],[maxwidth,maxheight],[0,maxheight]],dtype='float32')M=cv2.getPerspectiveTransform(rect,dst)warped=cv2.warpPerspective(image,M,(maxwidth,maxheight))return warped#读取输入
cap=cv2.VideoCapture(0)
if not cap.isOpened():print("摄像头打开失败")exit()while True:flag=0  #是否检测到文档的标志ret,frame=cap.read()orig=frame.copy()if not ret: #读取失败则退出循环print("不能读取摄像头")breakcv_show('iamge',frame)gray=cv2.cvtColor(frame,cv2.COLOR_BGRA2GRAY)gray=cv2.medianBlur(gray,3)edged=cv2.Canny(gray,75,200)cv_show('i',edged)#轮廓检测cnts=cv2.findContours(edged,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE)[-2]cnts=sorted(cnts,key=cv2.contourArea,reverse=True)[:3]image_contours=cv2.drawContours(orig,cnts,-1,(0,255,0),2)cv_show('image_contours',image_contours)#遍历轮廓做透视变换for c in cnts:peri=cv2.arcLength(c,True)#做轮廓近似approx=cv2.approxPolyDP(c,0.01*peri,True)area=cv2.contourArea(approx)#做透视变换要求轮廓近似满足是4个点,挑选出符合要求的结果if area>20000 and len(approx)==4:screenCnt=approxflag=1  #标识找到了文档print(peri,area)print('检测到文档')breakif flag==1:image_contours=cv2.drawContours(frame,[screenCnt],0,(0,255,0),2)cv_show('image',image_contours)#左四点转换,扶正后的坐标warped=four_point_transform(orig,screenCnt.reshape(4,2))cv_show('warped',warped)cap.release()
cv2.destroyAllWindows()

总结

应用

文档处理

快速将纸质文档中的文字转换为电子文本,方便编辑、存储和检索,提高文字处理效率。

车牌识别

在智能交通系统中,通过摄像头拍摄车牌图像,利用 OCR 技术自动识别车牌号码,实现车辆的自动管理和收费等功能。

身份证识别

在一些需要身份验证的场合,如银行开户、酒店入住等,通过摄像头 OCR 快速识别身份证上的文字信息,提高信息录入效率和准确性。

场景文字识别

在图像和视频内容分析中,识别场景中的文字,如街道标志、广告招牌等,为图像理解和信息检索提供支持。

相关文章:

OpenCv高阶(八)——摄像头调用、摄像头OCR

文章目录 前言一、摄像头调用通用方法1、导入必要的库2、创建摄像头接口 二、摄像头OCR1.引入库2、定义函数(1)定义显示opencv显示函数(2)保持宽高比的缩放函数(3)坐标点排序函数(4)…...

Java开发经验——阿里巴巴编码规范实践解析3

摘要 本文深入解析了阿里巴巴编码规范中关于错误码的制定与管理原则,强调错误码应便于快速溯源和沟通标准化,避免过于复杂。介绍了错误码的命名与设计示例,推荐采用模块前缀、错误类型码和业务编号的结构。同时,探讨了项目错误信…...

MySQL——6、内置函数

内置函数 1、日期函数2、字符串函数3、数学函数4、其他函数 1、日期函数 1.1、获取当前日期: 1.2、获取当前时间: 1.3、获取当前时间戳: 1.4、获取当前日期时间: 1.5、提取出日期: 1.6、给日期添加天数或时间…...

MySQL如何查看某个表所占空间大小?(表空间大小查看方法)

文章目录 一、使用SQL查询查看表空间1.1 查询所有表的大小(包括数据和索引)1.2 查询特定数据库的表大小1.3 查询单个表的详细空间信息 二、使用命令行工具查看表空间2.1 使用mysql客户端查询2.2 查看物理文件大小(适用于MyISAM/InnoDB&#x…...

软件架构之-论软件系统架构评估以及应用

论软件系统架构评估以及应用 摘要正文 摘要 2023年2月,本人所在集团公司承接了长三角地区某省渔船图纸电子化审查系统项目开发,该项目旨在为长三角地区渔船建造设计院,以及渔船图纸审查机构提供一个便捷化的服务平台。在此项目中,…...

低延迟与高性能的技术优势解析:SmartPlayer VS VLC Media Player

在实时视频流的应用中,RTSP(Real-Time Streaming Protocol)播放器扮演着至关重要的角色,尤其是在视频监控、远程医疗、直播等高实时性需求的场景中。随着行业需求的不断升级,对播放器的低延迟、稳定性、兼容性等方面的…...

pytorch小记(十九):深入理解 PyTorch 的 `torch.randint()` 与 `.long()` 转换

pytorch小记(十九):深入理解 PyTorch 的 torch.randint 与 .long 转换 一、torch.randint() 基本概念示例:生成一个二维随机整型张量 二、为什么需要调用 .long()三、典型场景示例1. 随机索引采样2. 伪标签生成3. 直接在 GPU 上生…...

深入解析Spring Boot与微服务架构:从入门到实践

深入解析Spring Boot与微服务架构:从入门到实践 引言 Spring Boot作为Java生态中最受欢迎的框架之一,以其简洁的配置和强大的功能赢得了开发者的青睐。本文将带领大家从Spring Boot的基础知识入手,逐步深入到微服务架构的实践,帮…...

【交互 / 差分约束】

题目 代码 #include <bits/stdc.h> using namespace std; using ll long long;const int N 10510; const int M 200 * 500 10; int h[N], ne[M], e[M], w[M], idx; ll d[N]; int n, m; bool st[N]; int cnt[N];void add(int a, int b, int c) {w[idx] c, e[idx] b…...

宝塔面板部署前后端项目SpringBoot+Vue2

这篇博客主要用来记录宝塔部署前端后端项目的过程。因为宝塔部署有点麻烦&#xff0c;至少在我看来挺麻烦的。我还是喜欢原始的ssh连接服务器进行操作。但是公司有项目用到了宝塔&#xff0c;没办法啊&#xff0c;只能摸索记录一下。 我们需要提前准备好后端项目的jar包和前端项…...

现代生活健康养生新视角

在科技飞速发展的今天&#xff0c;我们的生活方式发生巨大转变&#xff0c;健康养生也需要新视角。从光线、声音等生活细节入手&#xff0c;能为健康管理开辟新路径。​ 光线与健康密切相关。早晨接触自然光线&#xff0c;可调节生物钟&#xff0c;提升血清素水平&#xff0c;…...

鸿蒙Next API17新特性学习之如何使用新增鼠标轴事件

今天咱们接着学习鸿蒙开发文档API17版本的新特性——对鼠标轴事件的支持。这对于需要精细交互的应用来说是一个非常有用的特性&#xff0c;例如地图滚动、文档浏览等场景。本文将详细介绍在鸿蒙 Next 中如何使用新增的鼠标轴事件。 开发步骤 环境准备 在开始开发之前&#x…...

多模态大语言模型arxiv论文略读(八十一)

What is the Visual Cognition Gap between Humans and Multimodal LLMs? ➡️ 论文标题&#xff1a;What is the Visual Cognition Gap between Humans and Multimodal LLMs? ➡️ 论文作者&#xff1a;Xu Cao, Bolin Lai, Wenqian Ye, Yunsheng Ma, Joerg Heintz, Jintai …...

3.4/Q2,Charls最新文章解读

文章题目&#xff1a;Associations between reversible and potentially reversible cognitive frailty and falls in community-dwelling older adults in China: a longitudinal study DOI&#xff1a;10.1186/s12877-025-05872-2 中文标题&#xff1a;中国社区老年人可逆性和…...

通过觅思文档项目实现Obsidian文章浏览器在线访问

觅思文档项目开源地址 觅思文档项目开源地址&#xff1a;https://gitee.com/zmister/MrDoc 觅思文档部署步骤概览 服务器拉取代码&#xff1a; git clone https://gitee.com/zmister/mrdoc-install.git && cd mrdoc-install && chmod x docker-install.sh &a…...

Python列表全面解析:从入门到精通

文章目录 Python列表全面解析&#xff1a;从入门到精通一、列表基础1. 什么是列表&#xff1f;2. 列表特性总结表 二、列表的基本操作(基础)1. 访问元素2. 修改列表 三、列表的常用方法(基础)1. 添加元素的方法2. 删除元素的方法3. 查找和统计方法4. 排序和反转 四、列表的高级…...

5月18总结

一.算法题总结 1. 解题思路&#xff1a;对于这个题&#xff0c;我最开始想到就是二分&#xff0c;但是头痛的是有三个解&#xff0c;如果我在-100到100之间二分&#xff0c;那么只能得出一个解&#xff0c;然后我就想了一下&#xff0c;这个要求精度&#xff0c;那么0.01这么小…...

赋予AI更强的“思考”能力

刚刚&#xff01;北大校友、OpenAI前安全副总裁Lilian Weng最新博客来了&#xff1a;Why We Think 原文链接&#xff1a;Why We Think by Lilian Weng 这篇文章关注&#xff1a;如何让AI不仅仅是“知道”答案&#xff0c;更能“理解”问题并推导出答案。通过赋予AI更强的“思…...

Linux Bash | Capture Output / Recall

注&#xff1a;本文为 “Linux Bash | Capture Output / Recall” 相关文章合辑。 英文引文&#xff0c;机翻未校。 中文引文&#xff0c;略作重排。 Automatically Capture Output of the Last Command Into a Variable Using Bash 使用 Bash自动将最后一个命令的输出捕获到…...

2025/5/18

继续研究一下大佬的RAG项目。开始我的碎碎念。 RAG可以分成两部分&#xff1a;一个是问答&#xff0c;一个是数据处理。 问答是人提问&#xff0c;然后查数据库&#xff0c;把查的东西用大模型组织成人话&#xff0c;回答人的提问。 数据处理是把当下知识库里的东西&#xf…...

基于Quicker构建从截图到公网图像链接获取的自动化流程

写在前面&#xff1a;本博客仅作记录学习之用&#xff0c;部分图片来自网络&#xff0c;如需引用请注明出处&#xff0c;同时如有侵犯您的权益&#xff0c;请联系删除&#xff01; 文章目录 前言预备内容转webp程序PicGo设置Quicker设置视频演示总结互动致谢参考 前言 在自建博…...

LeetCode算 法 实 战 - - - 双 指 针 与 移 除 元 素、快 慢 指 针 与 删 除 有 序 数 组 中 的 重 复 项

LeetCode算 法 实 战 - - - 双 指 针 与 移 除 元 素、快 慢 指 针 与 删 除 有 序 数 组 中 的 重 复 项 第 一 题 - - - 移 除 元 素方 法 一 - - - 双 重 循 环方 法 二 - - - 双 指 针方 法 三 - - - 相 向 双 指 针&#xff08;面 对 面 移 动&#xff09; 第 二 题 - - -…...

uniapp自定义日历计划写法(vue2)

文章目录 uniapp自定义日历计划写法(vue2)1、效果2、实现源码前言:我们有时候需要实现的日历找不到相应的插件的时候,往往需要手动去写一个日历,以下就是我遇到这样的问题时,手搓出来的一个解决方案,希望可以帮助到更多的人。创作不易,请多多支持uniapp自定义日历计划写…...

Java IO框架

I/O框架 流 流的分类&#xff1a; 按方向&#xff1a; 输入流&#xff1a;将存储设备的内容读入到内存中 输出流&#xff1a;将内存的内容写入到存储设备中 按单位&#xff1a; 字节流&#xff1a;以字节为单位&#xff0c;可以读取所有数据 字符流&#xff1a;以字符为单…...

数据库2——查询

查询 学习内容学习感受 学习内容 一、实验目的与要求&#xff1a; 1、掌握SQL单表及多表之间的查询 2、掌握统计及分组函数 二、实验内容&#xff1a; 1.简单查询 ① 从fruits表中检索s_id为100的供货商所供货的水果名和价格 源码&#xff1a; SELECT f_name, f_price FROM…...

Mamba LLM 架构简介:机器学习的新范式

Mamba LLM 架构简介&#xff1a;机器学习的新范式 探索 Mamba LLM 的强大功能&#xff0c;Mamba LLM 是来自一流大学的变革性架构&#xff0c;重新定义了 AI 中的序列处理。语言模型是一种经过训练的机器学习模型&#xff0c;用于在自然语言上执行概率分布。它们的架构主要由多…...

Android 性能优化入门(一)—— 数据结构优化

1、概述 一款 app 除了要有令人惊叹的功能和令人发指交互之外&#xff0c;在性能上也应该追求丝滑的要求&#xff0c;这样才能更好地提高用户体验&#xff1a; 优化目的性能指标优化的方向更快流畅性启动速度页面显示速度(显示和切换)响应速度更稳定稳定性避免出现 应用崩溃&…...

数据库中的锁机制

目录 数据库中的锁机制:原理、分类与实际案例详解 一、数据库锁的核心作用与基本概念 1.1 为什么需要数据库锁? 1.2 锁的分类 二、锁机制的实现与典型场景 2.1 共享锁(Shared Lock) 工作原理 适用场景 代码示例(MySQL) 案例分析 2.2 排他锁(Exclusive Lock) …...

【网络入侵检测】基于Suricata源码分析运行模式(Runmode)

【作者主页】只道当时是寻常 【专栏介绍】Suricata入侵检测。专注网络、主机安全&#xff0c;欢迎关注与评论。 1. 概要 &#x1f44b; 在 Suricata 中抽象出线程、线程模块和队列三个概念&#xff1a;线程类似进程&#xff0c;可多线程并行执行操作&#xff1b;监听、解码、检…...

AI日报 - 2025年05月19日

&#x1f31f; 今日概览 (60秒速览) ▎&#x1f916; 大模型前沿 | GPT-5传闻再起&#xff0c;将基于全新模型构建&#xff0c;与GPT-4彻底分离&#xff1b;Claude 3.7 Sonnet系统提示泄露&#xff0c;揭示其主动引导对话、多语言支持及安全新特性&#xff1b;研究指出直接复用…...