当前位置: 首页 > news >正文

HalconDotNet实现OCR详解

文章目录

  • 一、基于字符分割的 OCR
  • 二、基于模板匹配的 OCR
  • 三、基于深度学习的 OCR
  • 四、基于特征提取的 OCR
  • 五、基于区域建议的 OCR


一、基于字符分割的 OCR

  字符分割是 OCR 中的一个重要步骤。首先,对包含文本的图像进行预处理,如去噪、二值化等操作,以提高图像质量。然后,根据字符的特征,如连通区域、轮廓等,将图像中的字符分割出来。可以使用投影法、连通区域分析等方法进行字符分割。对于粘连的字符,可能需要进行特殊处理,如形态学操作或基于笔画宽度的分割方法。分割后的字符可以单独进行识别,提高识别的准确性。
C# 示例代码:

using HalconDotNet;class CharacterSegmentationOCR
{public void PerformOCR(){// 读取图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 预处理:二值化HObject binaryImage;HOperatorSet.Threshold(image, out binaryImage, 128, 255);// 连通区域分析进行字符分割HObject connectedRegions;HOperatorSet.Connection(binaryImage, out connectedRegions);// 对每个连通区域进行单独处理HTuple regionCount;HOperatorSet.CountObj(connectedRegions, out regionCount);for (int i = 1; i <= regionCount; i++){HObject singleRegion;HOperatorSet.SelectObj(connectedRegions, out singleRegion, i);// 对单个字符区域进行识别,可以使用 Halcon 的 OCR 引擎HTuple recognizedText;using (new HOperatorSet()){HOperatorSet.ReadOcrClassMlp("ocr_model_file.omc", out recognizedText);HOperatorSet.DoOcrMultiClassMlp(singleRegion, recognizedText, out _, out _, out _, out _, out _, out _);}Console.WriteLine($"Recognized character: {recognizedText}");singleRegion.Dispose();}// 释放资源image.Dispose();binaryImage.Dispose();connectedRegions.Dispose();}
}

二、基于模板匹配的 OCR

  模板匹配 OCR 方法首先创建一系列不同字符的模板图像。对于待识别的图像,将其与每个模板进行比较,计算相似度。相似度可以通过多种方式计算,如归一化互相关等。根据相似度最高的模板确定对应的字符。这种方法对于字体较为固定、图像质量较好的情况效果较好。但需要预先创建大量的模板,并且对于字体变化、变形等情况可能不够鲁棒。
C# 示例代码:

using HalconDotNet;class TemplateMatchingOCR
{public void PerformOCR(){// 读取待识别图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 加载字符模板HObject charTemplates = new HObject();for (char c = 'A'; c <= 'Z'; c++){HObject template = new HObject();HOperatorSet.ReadImage(out template, $"template_{c}.jpg");charTemplates = charTemplates.ConcatObj(template);template.Dispose();}// 进行模板匹配HTuple recognizedCharacters = new HTuple();HTuple scores = new HTuple();HOperatorSet.FindTemplate(image, charTemplates, -0.39, 6.28, 0.5, 1, 0.5, out _, out scores);for (int i = 0; i < scores.Length; i++){if (scores[i] > 0.8){recognizedCharacters = recognizedCharacters.ConcatObj((HTuple)charTemplates[i]);}}Console.WriteLine($"Recognized text: {recognizedCharacters}");// 释放资源image.Dispose();charTemplates.Dispose();}
}

三、基于深度学习的 OCR

  深度学习在 OCR 中取得了显著的成果。通过使用深度神经网络,如卷积神经网络(CNN)和循环神经网络(RNN)的组合,可以自动学习字符的特征,无需手动设计特征提取器。首先,收集大量的标注文本图像数据集,对神经网络进行训练。训练过程中,网络不断调整权重和参数,以最小化预测结果与真实标签之间的误差。在识别阶段,将待识别图像输入训练好的网络,网络输出预测的字符序列。深度学习方法对于复杂背景、字体变化、变形等情况具有较好的鲁棒性。
C# 示例代码:

using HalconDotNet;
using Halcon.OCR;class DeepLearningOCR
{public void PerformOCR(){// 读取图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 创建 OCR 引擎HOcrEngine ocrEngine = new HOcrEngine();ocrEngine.InitOcrEngine("deep_learning_model_file.omc");// 进行 OCR 识别HTuple recognizedText;ocrEngine.ApplyOcr(image, out recognizedText);Console.WriteLine($"Recognized text: {recognizedText}");// 释放资源image.Dispose();ocrEngine.Dispose();}
}

四、基于特征提取的 OCR

  特征提取是 OCR 中的关键步骤之一。通过提取字符的特征,可以减少数据维度,提高识别的效率和准确性。常见的特征包括几何特征(如字符的高度、宽度、面积等)、统计特征(如灰度直方图、矩特征等)和结构特征(如字符的笔画结构、轮廓特征等)。对于不同的字体和图像质量,可以选择不同的特征组合。然后,使用分类器对提取的特征进行分类,确定字符的类别。
C# 示例代码:

using HalconDotNet;class FeatureExtractionOCR
{public void PerformOCR(){// 读取图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 预处理:二值化HObject binaryImage;HOperatorSet.Threshold(image, out binaryImage, 128, 255);// 连通区域分析HObject connectedRegions;HOperatorSet.Connection(binaryImage, out connectedRegions);// 提取特征HTuple features = new HTuple();HTuple regionCount;HOperatorSet.CountObj(connectedRegions, out regionCount);for (int i = 1; i <= regionCount; i++){HObject singleRegion;HOperatorSet.SelectObj(connectedRegions, out singleRegion, i);// 提取几何特征和统计特征HTuple area, width, height;HOperatorSet.AreaCenter(singleRegion, out area, out _, out _);HOperatorSet.RegionFeatures(singleRegion, "width", out width);HOperatorSet.RegionFeatures(singleRegion, "height", out height);features = features.ConcatObj(area.ConcatObj(width.ConcatObj(height)));singleRegion.Dispose();}// 使用分类器进行识别HTuple recognizedCharacters;// 假设已经训练好分类器// 使用分类器对特征进行分类,得到识别结果recognizedCharacters = Classifier.Predict(features);Console.WriteLine($"Recognized text: {recognizedCharacters}");// 释放资源image.Dispose();binaryImage.Dispose();connectedRegions.Dispose();}
}

五、基于区域建议的 OCR

  区域建议方法首先在图像中生成可能包含字符的区域建议。可以使用基于深度学习的目标检测算法,如 Faster R-CNN 等,来生成区域建议。然后,对每个区域建议进行字符识别。这种方法可以有效地处理复杂背景下的文本识别问题,并且可以同时识别多个字符区域。通过对区域建议进行筛选和合并,可以提高识别的准确性和效率。
C# 示例代码:

using HalconDotNet;
using Halcon.OCR;class RegionProposalOCR
{public void PerformOCR(){// 读取图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 创建 OCR 引擎HOcrEngine ocrEngine = new HOcrEngine();ocrEngine.InitOcrEngine("ocr_model_file.omc");// 使用区域建议算法生成可能的字符区域HObject regionProposals;// 假设已经有区域建议算法生成的区域regionProposals = GenerateRegionProposals(image);// 对每个区域进行 OCR 识别HTuple recognizedText = new HTuple();HTuple regionCount;HOperatorSet.CountObj(regionProposals, out regionCount);for (int i = 1; i <= regionCount; i++){HObject singleRegion;HOperatorSet.SelectObj(regionProposals, out singleRegion, i);HTuple tempRecognizedText;ocrEngine.ApplyOcr(singleRegion, out tempRecognizedText);recognizedText = recognizedText.ConcatObj(tempRecognizedText);singleRegion.Dispose();}Console.WriteLine($"Recognized text: {recognizedText}");// 释放资源image.Dispose();regionProposals.Dispose();ocrEngine.Dispose();}private HObject GenerateRegionProposals(HObject image){// 这里假设使用一个虚构的区域建议算法生成区域HObject dummyRegions = new HObject();// 根据具体需求生成区域建议并返回return dummyRegions;}
}

相关文章:

HalconDotNet实现OCR详解

文章目录 一、基于字符分割的 OCR二、基于模板匹配的 OCR三、基于深度学习的 OCR四、基于特征提取的 OCR五、基于区域建议的 OCR 一、基于字符分割的 OCR 字符分割是 OCR 中的一个重要步骤。首先&#xff0c;对包含文本的图像进行预处理&#xff0c;如去噪、二值化等操作&#…...

手搓一个Agent#Datawhale 组队学习Task3

书接上回&#xff0c;首先回顾一下Task2的一些补充&#xff1a; Task2主要任务是从零预训练一个tiny-llama模型&#xff0c;熟悉一下Llama的模型架构和流程。然后测试一下模型的效果。总的来说&#xff0c;因为某些未知的原因&#xff0c;loss一直没有降下去&#xff0c;导致最…...

基于SpringBoot+Vue+MySQL的在线酷听音乐系统

系统展示 用户前台界面 管理员后台界面 系统背景 随着互联网技术的飞速发展&#xff0c;网络已成为人们日常生活中不可或缺的一部分。在线音乐服务因其便捷性和丰富性&#xff0c;逐渐成为用户获取音乐内容的主要渠道。然而&#xff0c;传统的音乐播放平台往往存在歌曲资源有限…...

大数据实时数仓Hologres(一):Hologres 简单介绍

文章目录 Hologres 简单介绍 一、什么是实时数仓 Hologres 二、产品优势 1、专注实时场景 2、亚秒级交互式分析 3、统一数据服务出口 4、开放生态 5、MaxCompute查询加速 6、计算存储分离架构 三、应用场景 搭建实时数仓 四、产品架构 1、Shared Disk/Storage &am…...

【鸿蒙HarmonyOS NEXT】数据存储之分布式键值数据库

【鸿蒙HarmonyOS NEXT】数据存储之分布式键值数据库 一、环境说明二、分布式键值数据库介绍三、示例代码加以说明四、小结 一、环境说明 DevEco Studio 版本&#xff1a; API版本&#xff1a;以12为主 二、分布式键值数据库介绍 KVStore简介&#xff1a; 分布式键值数据库…...

基于springboot+小程序的儿童预防接种预约管理系统(疫苗1)(源码+sql脚本+视频导入教程+文档)

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 本儿童预防接种预约微信小程序可以实现管理员和用户。 1、管理员功能有个人中心&#xff0c;用户管理&#xff0c;儿童信息管理&#xff0c;疫苗信息管理&#xff0c;儿童接种管理&#x…...

计算物理精解【8】-计算原理精解【5】

文章目录 logistic模型多元回归分析多元回归分析概览1. 多元回归的概念与重要性2. 多元回归在实际应用中的例子3. 多元回归在预测和解释数据中的优势和局限性4. 多元回归的优缺点及改进建议 多元线性回归分析详解一、原理二、性质三、计算四、例子与例题五、应用场景六、优缺点…...

【Linux】 tcp | 解除服务器对tcp连接的限制 | 物联网项目配置

一、修改tcp连接限制 1、编辑 vi /etc/sysctl.conf 2、内容 net.ipv4.tcp_keepalive_intvl 75 net.ipv4.tcp_keepalive_probes 9 net.ipv4.tcp_keepalive_time 7200 net.ipv4.ip_local_port_range 1024 65535 net.ipv4.ip_conntrack_max 20000 net.ipv4.tcp_max_tw_bucket…...

如何隐藏Windows10「安全删除硬件」里的USB无线网卡

本方法参照了原文《如何隐藏Windows10「安全删除硬件」里的USB无线网卡》里面的方法&#xff0c;但是文章中的描述我的实际情况不太一样&#xff0c;于是我针对自己的实际情况进行了调整&#xff0c;经过测试可以成功隐藏Windows10「安全删除硬件」里的USB无线网卡。 先说一下…...

【QT Quick】基础语法:导入外部JS文件及调试

在 QML 中&#xff0c;可以使用 JavaScript 来实现业务逻辑的灵活性和简化开发。接下来我们会学习如何导入 JavaScript 文件&#xff0c;并在 QML 中使用它&#xff0c;同时也会介绍如何调试这些 JavaScript 代码。 导入 JavaScript 文件 在 QML 中导入 JavaScript 文件的方式…...

【质优价廉】GAP9 AI算力处理器赋能智能可听耳机,超低功耗畅享未来音频体验!

当今世界&#xff0c;智能可听设备已经成为了流行趋势。随后耳机市场的不断成长起来&#xff0c;消费者又对AI-ANC&#xff0c;AI-ENC&#xff08;环境噪音消除&#xff09;降噪的需求逐年增加&#xff0c;但是&#xff0c;用户对于产品体验的需求也从简单的需求&#xff0c;升…...

用Flutter几年了,Flutter每个版本有什么区别?

用Flutter几年了&#xff0c;你知道Flutter每个版本有什么区别吗&#xff1f;不管是学习还是面试我们可能都需要了解这个信息。 Flutter 每个版本的用法基本都是一样的&#xff0c;每隔几天或者几周就会更新一个版本&#xff0c; 2018 年 12 月 5 日发布了1.x 版本&#…...

解决Qt每次修改代码后首次运行崩溃,后几次不崩溃问题

在使用unique_ptr声明成员变量后&#xff0c;我习惯性地在初始化构造列表中进行如下构造&#xff1a; 注意看&#xff0c;我将m_menuBtnGroup的父类指定为ui->center_menu_widget&#xff0c;这便是导致崩溃的根本原因&#xff0c;解决办法便是先用this初始化&#xff0c;后…...

语言的变量交换

不用第三个变量交换两个变量在面试题或者笔试题中无数次被提到&#xff0c;事实上&#xff0c;有些答案是理论性的&#xff0c;不是准确的。以整型为例&#xff0c;如下对比不同交换方式的差异。 不同的交换方式 利用中间变量c a; 00C02533 8B 45 F8 mov eax,dword ptr [a] 0…...

【muduo源码分析】「阻塞」「非阻塞」「同步」「异步」

欢迎来到 破晓的历程的 博客 ⛺️不负时光&#xff0c;不负己✈️ 文章目录 引言何为「muduo库」安装muduo库阻塞、非阻塞、同步、异步数据准备数据准备 引言 从本篇博客开始&#xff0c;我会陆续发表muduo库源码分析的相关文章。感谢大家的持续关注&#xff01;&#xff01;…...

顶顶通呼叫中心中间件-机器人话术挂机后是否处理完成事件

前言 问题&#xff1a;机器人放音的过程中&#xff0c;如果用户直接挂机就会继续匹配下一个流程&#xff0c;如果匹配上的是放音节点&#xff0c;还会进行放音&#xff0c;那么在数据库表中就会多出一条放音记录。 解决方法 一、话术添加一个全局挂机节点 需要在话术中添加一…...

Springboot Mybatis 动态SQL

动态SQL <?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE mapperPUBLIC "-//mybatis.org//DTD Mapper 3.0//EN""https://mybatis.org/dtd/mybatis-3-mapper.dtd"> <mapper namespace"com.wzb.SqlImprove2024…...

ORM的了解

什么是ORM&#xff1f;为什么要用ORM&#xff1f;-CSDN博客 C高级编程&#xff08;99&#xff09;面向资源的设计思想&#xff08;ORM&#xff09;_c orm-CSDN博客 ORM:Object-Relational-Mapping 对象关系映射 -------------------------- 我想对数据库中的表A进行增删改…...

关于大模型的10个思考

9月28日&#xff0c;第四届“青年科学家50论坛”在南方科技大学举行&#xff0c;美国国家工程院外籍院士沈向洋做了《通用人工智能时代&#xff0c;我们应该怎样思考大模型》的主题演讲&#xff0c;并给出了他对大模型的10个思考。 以下是他10个思考的具体内容&#xff1a; 1…...

CFR( Java 反编译器)---> lambda 表达式底层实现机制

一、安装教程 CFR&#xff08;Class File Reader&#xff09;是一个流行的Java反编译器&#xff0c;它可以将编译后的.class文件或整个.jar文件转换回Java源代码。以下是CFR的下载和使用教程&#xff1a; 下载CFR 访问CFR的官方网站或GitHub仓库&#xff1a;CFR的最新版本和所…...

面试被问烂的20道编程基础题,你必须全会,不然别去面试

文章目录前言一、Python基础篇&#xff08;6道&#xff09;1. Python中list和tuple有什么区别&#xff1f;2. Python 3.7之后普通dict已经有序了&#xff0c;那OrderedDict还有存在的必要吗&#xff1f;3. Python中的深拷贝和浅拷贝有什么区别&#xff1f;4. Python中的*args和…...

【AI原生架构黄金法则】:SITS 2026现场实录的7条反直觉设计铁律(仅限首批参会专家内部流出)

AI原生应用架构设计&#xff1a;SITS 2026技术专家实战经验分享 更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;SITS 2026现场共识与AI原生架构范式跃迁 在SITS 2026全球智能系统技术峰会上&#xff0c;来自37个国家的架构师、AI平台工程师与标准化组…...

Speechless:你的微博数字记忆永久保存方案,告别内容丢失焦虑

Speechless&#xff1a;你的微博数字记忆永久保存方案&#xff0c;告别内容丢失焦虑 【免费下载链接】Speechless 把新浪微博的内容&#xff0c;导出成 PDF 文件进行备份的 Chrome Extension。 项目地址: https://gitcode.com/gh_mirrors/sp/Speechless 你是否曾经历过精…...

AD19原理图编译总报off grid pin警告?手把手教你从库源头搞定封装与栅格对齐

AD19原理图编译报off grid pin警告&#xff1f;从库源头解决封装与栅格对齐问题 每次在AD19中编译原理图时&#xff0c;看到那一长串的"off grid pin"警告&#xff0c;是不是感觉特别烦躁&#xff1f;这些看似无害的警告实际上可能隐藏着严重的设计隐患。作为一位经历…...

《QGIS空间数据处理与高级制图》005:第三方预处理插件推荐

作者:翰墨之道,毕业于国际知名大学空间信息与计算机专业,获硕士学位,现任国内时空智能领域资深专家、CSDN知名技术博主。多年来深耕地理信息与时空智能核心技术研发,精通 QGIS、GrassGIS、OSG、OsgEarth、UE、Cesium、OpenLayers、Leaflet、MapBox 等主流工具与框架,兼具…...

Betaflight飞控固件:2025年如何让你的穿越机飞行更稳定更智能?

Betaflight飞控固件&#xff1a;2025年如何让你的穿越机飞行更稳定更智能&#xff1f; 【免费下载链接】betaflight Open Source Flight Controller Firmware 项目地址: https://gitcode.com/gh_mirrors/be/betaflight 还在为穿越机飞行抖动、信号不稳定而苦恼吗&#x…...

编译原理实战:手把手教你化简DFA

1. 从零开始理解DFA化简 第一次接触DFA化简这个概念时&#xff0c;我盯着课本上那些复杂的箭头和状态图发了好一会儿呆。作为一个编译原理的初学者&#xff0c;最让我困惑的是&#xff1a;为什么已经有了能工作的DFA&#xff0c;还要费劲去化简它&#xff1f;直到在实际项目中遇…...

TTS-Backup:Tabletop Simulator数据备份与资源管理的技术解决方案

TTS-Backup&#xff1a;Tabletop Simulator数据备份与资源管理的技术解决方案 【免费下载链接】tts-backup Backup Tabletop Simulator saves and assets into comprehensive Zip files. 项目地址: https://gitcode.com/gh_mirrors/tt/tts-backup 在数字桌游时代&#x…...

Windows 11系统优化深度指南:使用Win11Debloat实现高效系统清理与性能提升

Windows 11系统优化深度指南&#xff1a;使用Win11Debloat实现高效系统清理与性能提升 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes …...

24GB 内存 M4 运行本地模型:虽有局限但乐趣与优势并存!

在配备 24GB 内存的 M4 上运行本地模型 2026 年 5 月 10 日&#xff0c;阅读时长 13 分钟。涉及 Elixir、大语言模型&#xff08;LLM&#xff09;、通义千问&#xff08;Qwen&#xff09;、LLM Studio。断断续续尝试在本地运行模型一段时间后&#xff0c;终于找到可行方案。虽输…...