HalconDotNet实现OCR详解
文章目录
- 一、基于字符分割的 OCR
- 二、基于模板匹配的 OCR
- 三、基于深度学习的 OCR
- 四、基于特征提取的 OCR
- 五、基于区域建议的 OCR
一、基于字符分割的 OCR
字符分割是 OCR 中的一个重要步骤。首先,对包含文本的图像进行预处理,如去噪、二值化等操作,以提高图像质量。然后,根据字符的特征,如连通区域、轮廓等,将图像中的字符分割出来。可以使用投影法、连通区域分析等方法进行字符分割。对于粘连的字符,可能需要进行特殊处理,如形态学操作或基于笔画宽度的分割方法。分割后的字符可以单独进行识别,提高识别的准确性。
C# 示例代码:
using HalconDotNet;class CharacterSegmentationOCR
{public void PerformOCR(){// 读取图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 预处理:二值化HObject binaryImage;HOperatorSet.Threshold(image, out binaryImage, 128, 255);// 连通区域分析进行字符分割HObject connectedRegions;HOperatorSet.Connection(binaryImage, out connectedRegions);// 对每个连通区域进行单独处理HTuple regionCount;HOperatorSet.CountObj(connectedRegions, out regionCount);for (int i = 1; i <= regionCount; i++){HObject singleRegion;HOperatorSet.SelectObj(connectedRegions, out singleRegion, i);// 对单个字符区域进行识别,可以使用 Halcon 的 OCR 引擎HTuple recognizedText;using (new HOperatorSet()){HOperatorSet.ReadOcrClassMlp("ocr_model_file.omc", out recognizedText);HOperatorSet.DoOcrMultiClassMlp(singleRegion, recognizedText, out _, out _, out _, out _, out _, out _);}Console.WriteLine($"Recognized character: {recognizedText}");singleRegion.Dispose();}// 释放资源image.Dispose();binaryImage.Dispose();connectedRegions.Dispose();}
}
二、基于模板匹配的 OCR
模板匹配 OCR 方法首先创建一系列不同字符的模板图像。对于待识别的图像,将其与每个模板进行比较,计算相似度。相似度可以通过多种方式计算,如归一化互相关等。根据相似度最高的模板确定对应的字符。这种方法对于字体较为固定、图像质量较好的情况效果较好。但需要预先创建大量的模板,并且对于字体变化、变形等情况可能不够鲁棒。
C# 示例代码:
using HalconDotNet;class TemplateMatchingOCR
{public void PerformOCR(){// 读取待识别图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 加载字符模板HObject charTemplates = new HObject();for (char c = 'A'; c <= 'Z'; c++){HObject template = new HObject();HOperatorSet.ReadImage(out template, $"template_{c}.jpg");charTemplates = charTemplates.ConcatObj(template);template.Dispose();}// 进行模板匹配HTuple recognizedCharacters = new HTuple();HTuple scores = new HTuple();HOperatorSet.FindTemplate(image, charTemplates, -0.39, 6.28, 0.5, 1, 0.5, out _, out scores);for (int i = 0; i < scores.Length; i++){if (scores[i] > 0.8){recognizedCharacters = recognizedCharacters.ConcatObj((HTuple)charTemplates[i]);}}Console.WriteLine($"Recognized text: {recognizedCharacters}");// 释放资源image.Dispose();charTemplates.Dispose();}
}
三、基于深度学习的 OCR
深度学习在 OCR 中取得了显著的成果。通过使用深度神经网络,如卷积神经网络(CNN)和循环神经网络(RNN)的组合,可以自动学习字符的特征,无需手动设计特征提取器。首先,收集大量的标注文本图像数据集,对神经网络进行训练。训练过程中,网络不断调整权重和参数,以最小化预测结果与真实标签之间的误差。在识别阶段,将待识别图像输入训练好的网络,网络输出预测的字符序列。深度学习方法对于复杂背景、字体变化、变形等情况具有较好的鲁棒性。
C# 示例代码:
using HalconDotNet;
using Halcon.OCR;class DeepLearningOCR
{public void PerformOCR(){// 读取图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 创建 OCR 引擎HOcrEngine ocrEngine = new HOcrEngine();ocrEngine.InitOcrEngine("deep_learning_model_file.omc");// 进行 OCR 识别HTuple recognizedText;ocrEngine.ApplyOcr(image, out recognizedText);Console.WriteLine($"Recognized text: {recognizedText}");// 释放资源image.Dispose();ocrEngine.Dispose();}
}
四、基于特征提取的 OCR
特征提取是 OCR 中的关键步骤之一。通过提取字符的特征,可以减少数据维度,提高识别的效率和准确性。常见的特征包括几何特征(如字符的高度、宽度、面积等)、统计特征(如灰度直方图、矩特征等)和结构特征(如字符的笔画结构、轮廓特征等)。对于不同的字体和图像质量,可以选择不同的特征组合。然后,使用分类器对提取的特征进行分类,确定字符的类别。
C# 示例代码:
using HalconDotNet;class FeatureExtractionOCR
{public void PerformOCR(){// 读取图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 预处理:二值化HObject binaryImage;HOperatorSet.Threshold(image, out binaryImage, 128, 255);// 连通区域分析HObject connectedRegions;HOperatorSet.Connection(binaryImage, out connectedRegions);// 提取特征HTuple features = new HTuple();HTuple regionCount;HOperatorSet.CountObj(connectedRegions, out regionCount);for (int i = 1; i <= regionCount; i++){HObject singleRegion;HOperatorSet.SelectObj(connectedRegions, out singleRegion, i);// 提取几何特征和统计特征HTuple area, width, height;HOperatorSet.AreaCenter(singleRegion, out area, out _, out _);HOperatorSet.RegionFeatures(singleRegion, "width", out width);HOperatorSet.RegionFeatures(singleRegion, "height", out height);features = features.ConcatObj(area.ConcatObj(width.ConcatObj(height)));singleRegion.Dispose();}// 使用分类器进行识别HTuple recognizedCharacters;// 假设已经训练好分类器// 使用分类器对特征进行分类,得到识别结果recognizedCharacters = Classifier.Predict(features);Console.WriteLine($"Recognized text: {recognizedCharacters}");// 释放资源image.Dispose();binaryImage.Dispose();connectedRegions.Dispose();}
}
五、基于区域建议的 OCR
区域建议方法首先在图像中生成可能包含字符的区域建议。可以使用基于深度学习的目标检测算法,如 Faster R-CNN 等,来生成区域建议。然后,对每个区域建议进行字符识别。这种方法可以有效地处理复杂背景下的文本识别问题,并且可以同时识别多个字符区域。通过对区域建议进行筛选和合并,可以提高识别的准确性和效率。
C# 示例代码:
using HalconDotNet;
using Halcon.OCR;class RegionProposalOCR
{public void PerformOCR(){// 读取图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 创建 OCR 引擎HOcrEngine ocrEngine = new HOcrEngine();ocrEngine.InitOcrEngine("ocr_model_file.omc");// 使用区域建议算法生成可能的字符区域HObject regionProposals;// 假设已经有区域建议算法生成的区域regionProposals = GenerateRegionProposals(image);// 对每个区域进行 OCR 识别HTuple recognizedText = new HTuple();HTuple regionCount;HOperatorSet.CountObj(regionProposals, out regionCount);for (int i = 1; i <= regionCount; i++){HObject singleRegion;HOperatorSet.SelectObj(regionProposals, out singleRegion, i);HTuple tempRecognizedText;ocrEngine.ApplyOcr(singleRegion, out tempRecognizedText);recognizedText = recognizedText.ConcatObj(tempRecognizedText);singleRegion.Dispose();}Console.WriteLine($"Recognized text: {recognizedText}");// 释放资源image.Dispose();regionProposals.Dispose();ocrEngine.Dispose();}private HObject GenerateRegionProposals(HObject image){// 这里假设使用一个虚构的区域建议算法生成区域HObject dummyRegions = new HObject();// 根据具体需求生成区域建议并返回return dummyRegions;}
}
相关文章:
HalconDotNet实现OCR详解
文章目录 一、基于字符分割的 OCR二、基于模板匹配的 OCR三、基于深度学习的 OCR四、基于特征提取的 OCR五、基于区域建议的 OCR 一、基于字符分割的 OCR 字符分割是 OCR 中的一个重要步骤。首先,对包含文本的图像进行预处理,如去噪、二值化等操作&#…...
手搓一个Agent#Datawhale 组队学习Task3
书接上回,首先回顾一下Task2的一些补充: Task2主要任务是从零预训练一个tiny-llama模型,熟悉一下Llama的模型架构和流程。然后测试一下模型的效果。总的来说,因为某些未知的原因,loss一直没有降下去,导致最…...
基于SpringBoot+Vue+MySQL的在线酷听音乐系统
系统展示 用户前台界面 管理员后台界面 系统背景 随着互联网技术的飞速发展,网络已成为人们日常生活中不可或缺的一部分。在线音乐服务因其便捷性和丰富性,逐渐成为用户获取音乐内容的主要渠道。然而,传统的音乐播放平台往往存在歌曲资源有限…...
大数据实时数仓Hologres(一):Hologres 简单介绍
文章目录 Hologres 简单介绍 一、什么是实时数仓 Hologres 二、产品优势 1、专注实时场景 2、亚秒级交互式分析 3、统一数据服务出口 4、开放生态 5、MaxCompute查询加速 6、计算存储分离架构 三、应用场景 搭建实时数仓 四、产品架构 1、Shared Disk/Storage &am…...
【鸿蒙HarmonyOS NEXT】数据存储之分布式键值数据库
【鸿蒙HarmonyOS NEXT】数据存储之分布式键值数据库 一、环境说明二、分布式键值数据库介绍三、示例代码加以说明四、小结 一、环境说明 DevEco Studio 版本: API版本:以12为主 二、分布式键值数据库介绍 KVStore简介: 分布式键值数据库…...
基于springboot+小程序的儿童预防接种预约管理系统(疫苗1)(源码+sql脚本+视频导入教程+文档)
👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 本儿童预防接种预约微信小程序可以实现管理员和用户。 1、管理员功能有个人中心,用户管理,儿童信息管理,疫苗信息管理,儿童接种管理&#x…...
计算物理精解【8】-计算原理精解【5】
文章目录 logistic模型多元回归分析多元回归分析概览1. 多元回归的概念与重要性2. 多元回归在实际应用中的例子3. 多元回归在预测和解释数据中的优势和局限性4. 多元回归的优缺点及改进建议 多元线性回归分析详解一、原理二、性质三、计算四、例子与例题五、应用场景六、优缺点…...
【Linux】 tcp | 解除服务器对tcp连接的限制 | 物联网项目配置
一、修改tcp连接限制 1、编辑 vi /etc/sysctl.conf 2、内容 net.ipv4.tcp_keepalive_intvl 75 net.ipv4.tcp_keepalive_probes 9 net.ipv4.tcp_keepalive_time 7200 net.ipv4.ip_local_port_range 1024 65535 net.ipv4.ip_conntrack_max 20000 net.ipv4.tcp_max_tw_bucket…...
如何隐藏Windows10「安全删除硬件」里的USB无线网卡
本方法参照了原文《如何隐藏Windows10「安全删除硬件」里的USB无线网卡》里面的方法,但是文章中的描述我的实际情况不太一样,于是我针对自己的实际情况进行了调整,经过测试可以成功隐藏Windows10「安全删除硬件」里的USB无线网卡。 先说一下…...
【QT Quick】基础语法:导入外部JS文件及调试
在 QML 中,可以使用 JavaScript 来实现业务逻辑的灵活性和简化开发。接下来我们会学习如何导入 JavaScript 文件,并在 QML 中使用它,同时也会介绍如何调试这些 JavaScript 代码。 导入 JavaScript 文件 在 QML 中导入 JavaScript 文件的方式…...
【质优价廉】GAP9 AI算力处理器赋能智能可听耳机,超低功耗畅享未来音频体验!
当今世界,智能可听设备已经成为了流行趋势。随后耳机市场的不断成长起来,消费者又对AI-ANC,AI-ENC(环境噪音消除)降噪的需求逐年增加,但是,用户对于产品体验的需求也从简单的需求,升…...
用Flutter几年了,Flutter每个版本有什么区别?
用Flutter几年了,你知道Flutter每个版本有什么区别吗?不管是学习还是面试我们可能都需要了解这个信息。 Flutter 每个版本的用法基本都是一样的,每隔几天或者几周就会更新一个版本, 2018 年 12 月 5 日发布了1.x 版本&#…...
解决Qt每次修改代码后首次运行崩溃,后几次不崩溃问题
在使用unique_ptr声明成员变量后,我习惯性地在初始化构造列表中进行如下构造: 注意看,我将m_menuBtnGroup的父类指定为ui->center_menu_widget,这便是导致崩溃的根本原因,解决办法便是先用this初始化,后…...
语言的变量交换
不用第三个变量交换两个变量在面试题或者笔试题中无数次被提到,事实上,有些答案是理论性的,不是准确的。以整型为例,如下对比不同交换方式的差异。 不同的交换方式 利用中间变量c a; 00C02533 8B 45 F8 mov eax,dword ptr [a] 0…...
【muduo源码分析】「阻塞」「非阻塞」「同步」「异步」
欢迎来到 破晓的历程的 博客 ⛺️不负时光,不负己✈️ 文章目录 引言何为「muduo库」安装muduo库阻塞、非阻塞、同步、异步数据准备数据准备 引言 从本篇博客开始,我会陆续发表muduo库源码分析的相关文章。感谢大家的持续关注!!…...
顶顶通呼叫中心中间件-机器人话术挂机后是否处理完成事件
前言 问题:机器人放音的过程中,如果用户直接挂机就会继续匹配下一个流程,如果匹配上的是放音节点,还会进行放音,那么在数据库表中就会多出一条放音记录。 解决方法 一、话术添加一个全局挂机节点 需要在话术中添加一…...
Springboot Mybatis 动态SQL
动态SQL <?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE mapperPUBLIC "-//mybatis.org//DTD Mapper 3.0//EN""https://mybatis.org/dtd/mybatis-3-mapper.dtd"> <mapper namespace"com.wzb.SqlImprove2024…...
ORM的了解
什么是ORM?为什么要用ORM?-CSDN博客 C高级编程(99)面向资源的设计思想(ORM)_c orm-CSDN博客 ORM:Object-Relational-Mapping 对象关系映射 -------------------------- 我想对数据库中的表A进行增删改…...
关于大模型的10个思考
9月28日,第四届“青年科学家50论坛”在南方科技大学举行,美国国家工程院外籍院士沈向洋做了《通用人工智能时代,我们应该怎样思考大模型》的主题演讲,并给出了他对大模型的10个思考。 以下是他10个思考的具体内容: 1…...
CFR( Java 反编译器)---> lambda 表达式底层实现机制
一、安装教程 CFR(Class File Reader)是一个流行的Java反编译器,它可以将编译后的.class文件或整个.jar文件转换回Java源代码。以下是CFR的下载和使用教程: 下载CFR 访问CFR的官方网站或GitHub仓库:CFR的最新版本和所…...
面试被问烂的20道编程基础题,你必须全会,不然别去面试
文章目录前言一、Python基础篇(6道)1. Python中list和tuple有什么区别?2. Python 3.7之后普通dict已经有序了,那OrderedDict还有存在的必要吗?3. Python中的深拷贝和浅拷贝有什么区别?4. Python中的*args和…...
【AI原生架构黄金法则】:SITS 2026现场实录的7条反直觉设计铁律(仅限首批参会专家内部流出)
AI原生应用架构设计:SITS 2026技术专家实战经验分享 更多请点击: https://intelliparadigm.com 第一章:SITS 2026现场共识与AI原生架构范式跃迁 在SITS 2026全球智能系统技术峰会上,来自37个国家的架构师、AI平台工程师与标准化组…...
Speechless:你的微博数字记忆永久保存方案,告别内容丢失焦虑
Speechless:你的微博数字记忆永久保存方案,告别内容丢失焦虑 【免费下载链接】Speechless 把新浪微博的内容,导出成 PDF 文件进行备份的 Chrome Extension。 项目地址: https://gitcode.com/gh_mirrors/sp/Speechless 你是否曾经历过精…...
AD19原理图编译总报off grid pin警告?手把手教你从库源头搞定封装与栅格对齐
AD19原理图编译报off grid pin警告?从库源头解决封装与栅格对齐问题 每次在AD19中编译原理图时,看到那一长串的"off grid pin"警告,是不是感觉特别烦躁?这些看似无害的警告实际上可能隐藏着严重的设计隐患。作为一位经历…...
《QGIS空间数据处理与高级制图》005:第三方预处理插件推荐
作者:翰墨之道,毕业于国际知名大学空间信息与计算机专业,获硕士学位,现任国内时空智能领域资深专家、CSDN知名技术博主。多年来深耕地理信息与时空智能核心技术研发,精通 QGIS、GrassGIS、OSG、OsgEarth、UE、Cesium、OpenLayers、Leaflet、MapBox 等主流工具与框架,兼具…...
Betaflight飞控固件:2025年如何让你的穿越机飞行更稳定更智能?
Betaflight飞控固件:2025年如何让你的穿越机飞行更稳定更智能? 【免费下载链接】betaflight Open Source Flight Controller Firmware 项目地址: https://gitcode.com/gh_mirrors/be/betaflight 还在为穿越机飞行抖动、信号不稳定而苦恼吗&#x…...
编译原理实战:手把手教你化简DFA
1. 从零开始理解DFA化简 第一次接触DFA化简这个概念时,我盯着课本上那些复杂的箭头和状态图发了好一会儿呆。作为一个编译原理的初学者,最让我困惑的是:为什么已经有了能工作的DFA,还要费劲去化简它?直到在实际项目中遇…...
TTS-Backup:Tabletop Simulator数据备份与资源管理的技术解决方案
TTS-Backup:Tabletop Simulator数据备份与资源管理的技术解决方案 【免费下载链接】tts-backup Backup Tabletop Simulator saves and assets into comprehensive Zip files. 项目地址: https://gitcode.com/gh_mirrors/tt/tts-backup 在数字桌游时代&#x…...
Windows 11系统优化深度指南:使用Win11Debloat实现高效系统清理与性能提升
Windows 11系统优化深度指南:使用Win11Debloat实现高效系统清理与性能提升 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes …...
24GB 内存 M4 运行本地模型:虽有局限但乐趣与优势并存!
在配备 24GB 内存的 M4 上运行本地模型 2026 年 5 月 10 日,阅读时长 13 分钟。涉及 Elixir、大语言模型(LLM)、通义千问(Qwen)、LLM Studio。断断续续尝试在本地运行模型一段时间后,终于找到可行方案。虽输…...
