当前位置：首页 > news >正文

机器学习：opencv--摄像头OCR

news 2026/5/12 7:49:35

前言

一、三个函数

1.显示图像

2.点排序

3.透视变换

二、代码实例

1.打开摄像头

2.图像预处理

3.检测特定轮廓

4.对轮廓进行处理

5.释放资源

前言

摄像头OCR指的是利用摄像头捕捉图像中的文字信息，并通过光学字符识别（OCR）技术将其转换为可编辑的文本。

一、三个函数

1.显示图像

def cv_show(name, img):cv2.imshow(name, img)cv2.waitKey(60)

2.点排序

接收传入的坐标（为轮廓的四个顶点），

对每一行进行求和，
1. 最小值是该轮廓的左上角，
2. 最大值是右下角，
对每一行进行求差，
1. 最小的是右上角，
2. 最大的是右下角，
按照左上，右上，右下，左下的顺序填入rect矩阵

def order_points(pts):# 共4个坐标点rect = np.zeros((4, 2), dtype="float32")  # 用来存储排序之后的坐标位置# 按顺序找到对应坐标 0 1 2 3 分别是左上,右上,右下,左下s = pts.sum(axis=1)  # 对pts矩阵的每一行进行求和操作。 (x+y)rect[0] = pts[np.argmin(s)]rect[2] = pts[np.argmax(s)]diff = np.diff(pts, axis=1)  # 对pts矩阵的每一行进行求差操作。(y-x)rect[1] = pts[np.argmin(diff)]rect[3] = pts[np.argmax(diff)]return rect

3.透视变换

获取排序之后的点坐标
计算该轮廓的宽和高的较大值，当做变换之后的图像宽高
通过cv2.getPerspectiveTransform方法计算透视变换矩阵
再通过cv2.warpPerspective方法获取透视变换之后的图像

def four_point_transform(image, pts):# 获取输入坐标点rect = order_points(pts)(tl, tr, br, bl) = rect# 计算输入的w和h的值  欧式距离公式widthA = np.sqrt(((br[0] - bl[0]) ** 2) + ((br[1] - bl[1]) ** 2))widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + ((tr[1] - tl[1]) ** 2))maxWidth = max(int(widthA), int(widthB))heightA = np.sqrt(((tr[0] - br[0]) ** 2) + ((tr[1] - br[1]) ** 2))heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + ((tl[1] - bl[1]) ** 2))maxHeight = max(int(heightA), int(heightB))# 变换后对应坐标位置dst = np.array([[0, 0], [maxWidth - 1, 0],[maxWidth - 1, maxHeight - 1], [0, maxHeight - 1]], dtype="float32")# 计算透视变换矩阵M = cv2.getPerspectiveTransform(rect, dst)# 应用透视变换warped = cv2.warpPerspective(image, M, (maxWidth, maxHeight))  # 返回变换后结果return warped

二、代码实例

1.打开摄像头

参数为0 则用电脑自带摄像头
参数为1 则用外接摄像头
若摄像头未被打开则输出Cannot open camera

cap = cv2.VideoCapture(0)  # 确保摄像头是可以启动的状态  电脑自带摄像头用0 外接的用1
if not cap.isOpened():print("Cannot open camera")exit()

2.图像预处理

打开摄像头之后，读取每一帧的画面并显示
转换成灰度图，进行高斯滤波处理，
然后使用Canny算子进行边缘检测并显示，
再对边缘检测之后的图像进行轮廓检测，
只取轮廓大小前十的轮廓将其画出来，并显示

while True:flag = 0  # 标识符 当前是否检测到文档ret, image = cap.read()orig = image.copy()if not ret:print('不能读取摄像头')breakcv_show('image', image)gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)gray = cv2.GaussianBlur(gray, (5, 5), 0)edged = cv2.Canny(gray, 75, 200)cv_show('1', edged)cnts = cv2.findContours(edged.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)[1]cnts = sorted(cnts, key=cv2.contourArea, reverse=True)[:10]image_contours = cv2.drawContours(image, cnts, -1, (0, 255, 0), 2)cv_show('image_contours', image_contours)

输出：

3.检测特定轮廓

遍历上述获取的轮廓
对轮廓进行近似处理，并获取其特征点集
判断轮廓面积大于20000 并且特征点集只有4个

    for c in cnts:peri = cv2.arcLength(c, True)  # 计算轮廓的周长# True表示是否选择封闭轮廓approx = cv2.approxPolyDP(c, 0.05 * peri, True)  # 返回轮廓点集area = cv2.contourArea(approx)if area > 20000 and len(approx) == 4:screenCnt = approxflag = 1print(peri, area)print('检测到文档')break

4.对轮廓进行处理

如果在画面中获取到了符合条件的轮廓
就在原图上画出该轮廓
并将该轮廓图像进行透视变换并显示
最后对其进行二值化处理并显示

    if flag == 1:image_contours = cv2.drawContours(image, [screenCnt], 0, (0, 255, 0), 2)cv_show('image', image_contours)warped = four_point_transform(orig, screenCnt.reshape(4, 2))cv_show('warped', warped)warped = cv2.cvtColor(warped, cv2.COLOR_BGR2GRAY)ref = cv2.threshold(warped, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]cv2.imshow('ref', ref)cv2.waitKey(0)

输出：

5.释放资源

最后循环结束之后记得释放资源

cap.release()  # 释放捕获器
cv2.destroyAllWindows()  # 关闭图像窗口

机器学习：opencv--摄像头OCR

目录前言一、三个函数 1.显示图像 2.点排序 3.透视变换二、代码实例 1.打开摄像头 2.图像预处理 3.检测特定轮廓 4.对轮廓进行处理 5.释放资源前言摄像头OCR指的是利用摄像头捕捉图像中的文字信息，并通过光学字符识别（OCR）技…...

编程日记 2024/10/1 9:26:30

基于二分查找的动态规划 leetcode 300.最长递增子序列

如题： https://leetcode.cn/problems/longest-increasing-subsequence/description/ 其实常规动态规划的解法就没什么好说的了，有意思的是官方放出了一个二分查找的动态规化解法，时间复杂度能降到O(nlog(n))，但是为什么这样能解&…...

编程日记 2024/10/1 9:25:29

Java8 IntStream流sum的Bug

做. - 力扣（LeetCode）的时候发现 IntStream流中的sum在相加的过程中会加到突破Int上限导致数据不对，需要装成LongStream流才能有正确的输出。 long sum Arrays.stream(milestones).asLongStream().sum(); 要这样子写，只把sum改…...

编程日记 2024/10/1 9:24:28

PCL 索引空间采样

目录一、概述 1.1原理 1.2实现步骤 1.3应用场景二、代码实现 2.1关键函数 2.1.1 索引空间采样 2.1.2 可视化原始点云和下采样后的点云 2.2完整代码三、实现效果 PCL点云算法汇总及实战案例汇总的目录地址链接： PCL点云算法与项目实战案例汇总&#xf…...

编程日记 2024/10/1 9:23:27

PasteForm最佳CRUD实践，实际案例PasteTemplate详解之3000问(三)

作为“贴代码”力推的一个CRUD实践项目PasteTemplate,在对现有的3个项目进行实战后效果非常舒服！下面就针对PasteForm为啥我愿称为最佳CRUD做一些回答: 哪里可以下载这个PasteForm的项目案例目前“贴代码”对外使用PasteForm的项目有"贴Builder(PasteSpide…...

编程日记 2024/10/1 9:22:27

【无标题】logistic映射

当Logistic映射中的控制参数 μ \mu μ 为负数时，系统的行为与正数 μ \mu μ 的情况截然不同。Logistic映射的一般形式是： x ( t 1 ) μ x ( t ) ( 1 − x ( t ) ) x(t1) \mu x(t) (1 - x(t)) x(t1)μx(t)(1−x(t))其中 x ( t ) x(t) x(t) 表示时…...

编程日记 2024/10/1 9:21:25

基于Node.js+Express+MySQL+VUE科研成果网站发布查看科研信息科研成果论文下载免费安装部署

目录 1.技术选型‌ ‌2.功能设计‌ ‌3.系统架构‌ ‌4.开发流程‌ 5.开发背景 6.开发目标 7.技术可行性 8.功能可行性 8.1功能图 8.2 界面设计 8.3 部分代码构建一个基于Spring Boot、Java Web、J2EE、MySQL数据库以及Vue前后端分离的科研成果网站，可…...

编程日记 2024/10/1 9:18:22

提升C++代码质量的一些建议

文章目录 1. 命名清晰2. 简洁性3. 一致性4. 注释5. 避免复杂性6. 重构7. 测试8. 错误处理9. 文档10. 代码复用11. 性能优化12. 安全性- 代码规范推荐 C开发中，写出优雅且可维护的代码不仅能提升代码质量，还能提高团队协作效率和项目长期的可扩展性。以下…...

编程日记 2024/10/1 9:17:21

起重机防摇摆技术如何达标-武汉正向科技

武汉正向科技防摇摆控制器主要技术参数 1、防摇摆精度： 0.4 2、行车到达目标位置偏差位置偏差： 25mm 3、通讯方式：PROFINET / PROFIBUS / RS232 / RS422 / RS485； 4、消除载荷的摇摆达 96% 以上； 5、技术先进…...

编程日记 2024/10/1 9:16:20

[大语言模型-论文精读] MoRAG - 基于多部分融合的检索增强型人体动作生成

MoRAG--Multi-Fusion Retrieval Augmented Generation for Human Motion KS Shashank, S Maheshwari, RK Sarvadevabhatla - arXiv preprint arXiv:2409.12140, 2024 MoRAG - 基于多部分融合的检索增强型人体动作生成 1. 目录 MoRAG--Multi-Fusion Retrieval Augmented Generat…...

编程日记 2024/10/1 9:12:12

解决端口被占用

当你被你的编译器提醒， 当前端口被占用， 但明明你的服务什么的都没有启用，这时有三种解决办法： 1 。重启。重启解决80%的问题 2 。修改你的端口号。 3 。去windows命令行中查看，端口占用情况第一步 &#xf…...

编程日记 2024/10/1 9:11:11

【递归】7. leetcode 404 左叶子之和

1 题目描述题目链接：左叶子之和 2 解答思路递归分为三步，接下来就按照这三步来思考问题第一步：挖掘出相同的子问题 （关系到具体函数头的设计） 第二步：只关心具体子问题做了什么 （关系…...

编程日记 2024/10/1 9:10:10

react+antdMobie实现消息通知页面样式

一、实现效果二、代码 import React, { useEffect, useState } from react; import style from ./style/index.less; import { CapsuleTabs, Ellipsis, Empty, SearchBar, Tag } from antd-mobile; //消息通知页面 export default function Notification(props) {const [opti…...

编程日记 2024/10/1 9:00:59

Git 撤销一个已经push到远端仓库的commit

在 Git 中，撤销一个已经推送到远程仓库的改动有几种不同的方法，具体取决于你是否想要完全删除改动，还是只是恢复文件的某个状态。以下是常见的几种方法： git revert 撤销特定的commit git revert 是最安全的方法，因为…...

编程日记 2024/10/1 8:58:57

lambda表达式底层实现

一、lambda 代码 & 反编译原始Java代码假设我们有以下简单的Java程序，它使用Lambda表达式来遍历并打印一个字符串列表： import java.util.Arrays; import java.util.List;public class LambdaExample {public static void main(String[] args) {…...

编程日记 2024/10/1 8:56:55

鸿蒙NEXT开发-组件事件监听和状态管理（基于最新api12稳定版）

注意：博主有个鸿蒙专栏，里面从上到下有关于鸿蒙next的教学文档，大家感兴趣可以学习下如果大家觉得博主文章写的好的话，可以点下关注，博主会一直更新鸿蒙next相关知识专栏地址: https://blog.csdn.net/qq_56760790/…...

编程日记 2024/10/1 8:50:50

《More Effective C++》的学习

引用与指针没有所谓的null reference reference一定需要代表某个对象，所以C要求reference必须有初值。 QString &s; 使用reference可能比使用pointer更高效。因为reference一定是有效的，而指针可能为空（需要多加一个判断&#xff0…...

编程日记 2024/10/1 8:47:44

Leetcode面试经典150题-322.零钱兑换

给你一个整数数组 coins ，表示不同面额的硬币；以及一个整数 amount ，表示总金额。计算并返回可以凑成总金额所需的最少的硬币个数。如果没有任何一种硬币组合能组成总金额，返回 -1 。你可以认为每种硬币的数量是无限的。示…...

编程日记 2024/10/1 8:45:42

python17_len()函数

len()函数 A B "" C "hello world" D 18 E 18def len_test(s):try:# 尝试计算字符串的长度length len(s)return lengthexcept TypeError:# 如果不是字符串，则返回 None 或者提示错误return Noneif __name__ "__main__":# 单…...

编程日记 2024/10/1 8:43:40

车视界系统小程序的设计

管理员账户功能包括：系统首页，个人中心，汽车品牌管理，汽车颜色管理，用户管理，汽车信息管理，汽车订单管理系统管理微信端账号功能包括：系统首页，汽车信息，我…...

编程日记 2024/10/1 8:36:33

硬件工程师的办公室布局与效率系统：从工具管理到创意激发

1. 我的“极乐之穹”：一个硬件工程师的办公室漫游每次在博客里提到“极乐之穹”，指的都是我的办公室。偶尔，我也会聊起在四处搜罗时遇到并收入囊中的那些令人心动的电子设备或“艺术品”。时间久了，总有人让我拍点照片分享。问题在…...

编程新知 2026/5/12 7:41:36

ctf show web 入门43

打开靶场代码逻辑如下： if(!preg_match(“/\ |/|cat/i”, $c)) 它过滤了三个关键内容： \ (空格)：你不能直接在命令中使用空格（例如 ls -l 或 cat flag 都会失败）。 / (正斜杠)：你不能使用路径符号&#xf…...

编程新知 2026/5/12 7:05:22

矩阵本地化获客技术落地：同城流量精准匹配与合规运营方案

前言同城本地化流量是短视频生态中转化率最高、精准度最强的流量赛道，广泛适配本地生活服务、实体门店、同城咨询、区域服务商等各类业态。相比于泛全域流量，同城用户具备明确的地域消费属性、就近服务需求，成交意向更强烈，获客落…...

编程新知 2026/5/12 7:03:09

通用AGI终极范式：从多模态感知到意识涌现的统一理论（世毫九实验室原创研究）

通用AGI终极范式：从多模态感知到意识涌现的统一理论作者：方见华单位：世毫九实验室摘要本研究基于世毫九理论体系的数学框架，构建了通用人工智能（AGI）的完整理论体系和演化路径。通过建立包含拓扑复杂度、动…...

编程新知 2026/5/12 6:49:42

拒绝“见光死”：为什么真正的全域店群RPA必须内置原生指纹浏览器内核？

大家好，我是林焱，一名专注电商底层业务逻辑与企业级 RPA 自动化架构定制的独立开发者。在 CSDN 的技术交流群里，我经常会遇到一些开发者抛出这样的疑问：“林大，我用 Python 写了一套并发脚本，去管理公司旗…...

编程新知 2026/5/12 6:20:41

控制流验证与硬件性能计数器的融合技术解析

1. 控制流验证与硬件性能计数器的融合在当今云计算和边缘计算环境中，可信执行环境（TEE）已成为保护敏感数据的关键技术。然而，传统的静态验证方法存在一个致命缺陷——它们无法防御运行时攻击。想象一下，你给朋友寄了一…...

编程新知 2026/5/12 5:31:19

Kimi融资超376亿商业化成熟，DeepSeek拟募资500亿估值超515亿美元，谁能笑到最后？

Kimi是融资最多的创业派，DeepSeek是估值最高的技术派，前者拼商业，后者拼“国运”。最近，被并称为“中国AI开源双子星”的Kimi（月之暗面）和DeepSeek（深度求索）频繁刷屏。先是新模型接…...

编程新知 2026/5/12 4:41:17

004、TinyML技术栈全景图：从模型到部署

004 TinyML技术栈全景图：从模型到部署去年冬天调试一个智能门磁项目，板子是STM32L4，Flash只有256KB。模型在PC上跑F1值0.97，烧进去直接死机——不是推理结果不对，是内存分配直接溢出。我盯着map文件看了三个小时，最后发现是TensorFlow Lite Micro的arena大小设错了，多…...

编程新知 2026/5/12 3:45:43

从Excel到BI Launchpad：SAP BW/4HANA数据分析实战，手把手教你用BO做报表

从Excel到BI Launchpad：SAP BW/4HANA数据分析实战指南 1. 企业级数据分析的进化之路在当今数据驱动的商业环境中，企业数据分析正经历着从静态报表到动态洞察的革命性转变。传统Excel虽然灵活易用，但在处理海量数据、实现实时协作和构建企业级…...

编程新知 2026/5/12 3:21:09

ARM Firmware Suite与Integrator开发板嵌入式开发指南

1. ARM Firmware Suite与Integrator开发板概述ARM Firmware Suite（AFS）是ARM架构下专为嵌入式系统开发设计的固件套件，在Integrator系列开发板上发挥着核心作用。这套工具链最初由ARM Limited在1999-2002年间开发，至今仍在许多传统…...

编程新知 2026/5/12 1:44:19

前言

一、三个函数

1.显示图像

2.点排序

3.透视变换

二、代码实例

1.打开摄像头

2.图像预处理

3.检测特定轮廓

4.对轮廓进行处理

5.释放资源

相关文章：