当前位置: 首页 > news >正文

SpringBoot+OCR 实现PDF 内容识别

一、SpringBoot+OCR对pdf文件内容识别提取

1、在 Spring Boot 中,您可以结合 OCR(Optical Character Recognition)库来实现对 PDF 文件内容的识别和提取。

一种常用的 OCR 库是 Tesseract,而 pdf2image 是一个用于将 PDF 转换为图像的工具,可以与 Tesseract 配合使用。

以下是一个简单的 Spring Boot 示例,演示如何使用 Tesseract 和 pdf2image 对 PDF 文件进行 OCR 识别和提取:

  1. 添加 Maven 依赖

在您的 Spring Boot 项目中,添加以下依赖:

<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter</artifactId>
</dependency>
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.30</version> <!-- 使用最新版本 -->
</dependency>
<dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>4.5.5</version> <!-- 使用最新版本 -->
</dependency>
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox-tools</artifactId><version>2.0.30</version> <!-- 使用最新版本 -->
</dependency>
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox-debugger</artifactId><version>2.0.30</version> <!-- 使用最新版本 -->
</dependency>
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox-app2</artifactId><version>2.0.30</version> <!-- 使用最新版本 -->
</dependency>
<dependency><groupId>org.bouncycastle</groupId><artifactId>bcprov-jdk15on</artifactId><version>1.68</version> <!-- 使用最新版本 -->
</dependency>
  1. 编写代码
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.tools.PDFToImage;
import org.springframework.stereotype.Service;import java.awt.image.BufferedImage;
import java.io.File;
import java.util.ArrayList;
import java.util.List;@Service
public class OCRService {public String extractTextFromPDF(String pdfFilePath) {try {// Convert PDF to imagesList<BufferedImage> images = convertPDFToImages(pdfFilePath);// Use OCR to extract text from imagesStringBuilder extractedText = new StringBuilder();for (BufferedImage image : images) {extractedText.append(performOCR(image)).append("\n");}return extractedText.toString();} catch (Exception e) {e.printStackTrace();return "Error extracting text from PDF.";}}private List<BufferedImage> convertPDFToImages(String pdfFilePath) throws Exception {List<BufferedImage> images = new ArrayList<>();try (PDDocument document = PDDocument.load(new File(pdfFilePath))) {PDFToImage pdfToImage = new PDFToImage();pdfToImage.setStartPage(1);pdfToImage.setEndPage(document.getNumberOfPages());pdfToImage.setOutputPrefix("outputImage");pdfToImage.processPages(document);for (int i = 1; i <= document.getNumberOfPages(); i++) {BufferedImage image = pdfToImage.getImage(i - 1);images.add(image);}}return images;}private String performOCR(BufferedImage image) throws Exception {ITesseract tesseract = new Tesseract();return tesseract.doOCR(image);}
}

在这个例子中,OCRService 类包含了两个方法。convertPDFToImages 方法将 PDF 文件转换为图像,而 performOCR 方法使用 Tesseract 对图像执行 OCR。最后,extractTextFromPDF 方法将这两个步骤结合在一起,对 PDF 中的每个页面执行 OCR,并返回提取的文本。

请注意,为了使这个示例运行,您需要在系统上安装 Tesseract OCR,并配置其环境变量,以便 Java 可以找到 Tesseract 的执行文件。此外,也需要配置 pdf2image 的相关依赖。

以上代码示例仅供参考,实际项目中可能需要根据具体情况进行适当的调整和优化。

2、Tesseract OCR

Tesseract OCR 是一个开源的光学字符识别引擎,由 Google 开发和维护。它能够识别图像中的文本并将其转换为可编辑的文本格式。以下是一些关于 Tesseract OCR 的关键信息:

主要特点:

  1. 多语言支持: Tesseract 支持多种语言的文本识别,包括但不限于英语、中文、西班牙语、法语等。
  2. 开源: Tesseract 是开源的,可以在 GitHub 上找到其源代码。这使得开发人员可以自由使用、修改和分发它。
  3. 灵活性: Tesseract 可以处理不同字体和样式的文本,并在一定程度上适应图像质量的变化。
  4. 训练自定义字体: 如果您有特定的字体需要识别,Tesseract 允许您使用训练数据来训练模型,以提高对这些字体的识别能力。

如何使用 Tesseract OCR:

  1. 安装 Tesseract OCR: 在您的系统上安装 Tesseract。它支持多个操作系统,包括 Windows、Linux 和 macOS。您可以从 Tesseract GitHub Releases 页面下载预编译的二进制文件。
  2. 配置环境变量: 将 Tesseract 可执行文件所在的目录添加到系统的 PATH 环境变量中,以便在命令行中直接调用 Tesseract。
  3. 使用 Tesseract: 您可以通过命令行或通过编程语言的接口使用 Tesseract。对于 Java,您可以使用 Tesseract 的 Java API(Tess4J)。

Tess4J(Java API for Tesseract):

Tess4J 是 Tesseract 的 Java 封装库,它允许您在 Java 应用程序中使用 Tesseract OCR。以下是一个简单的 Java 示例:

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import java.io.File;public class TesseractExample {public static void main(String[] args) {ITesseract tesseract = new Tesseract();try {File imageFile = new File("path/to/your/image.png");String result = tesseract.doOCR(imageFile);System.out.println("OCR Result:\n" + result);} catch (Exception e) {e.printStackTrace();}}
}

确保您在项目中添加了 Tess4J 的依赖:

<dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>4.5.5</version> <!-- 使用最新版本 -->
</dependency>

此示例演示了如何使用 Tess4J 从图像文件中提取文本。请根据您的实际需求进行适当的配置和扩展。

3、SpringBoot+pdf2image

在Spring Boot中使用pdf2image库进行PDF到图像的转换通常涉及以下几个步骤:

  1. 添加 Maven 依赖:

    在您的 Spring Boot 项目的 pom.xml 文件中添加以下依赖:

    <dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter</artifactId></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.30</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox-tools</artifactId><version>2.0.30</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox-debugger</artifactId><version>2.0.30</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox-app2</artifactId><version>2.0.30</version></dependency><dependency><groupId>org.bouncycastle</groupId><artifactId>bcprov-jdk15on</artifactId><version>1.68</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox-graphics2d</artifactId><version>2.0.30</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox-font2d</artifactId><version>2.0.30</version></dependency><dependency><groupId>com.github.jai-imageio</groupId><artifactId>jai-imageio-core</artifactId><version>1.4.0</version></dependency><dependency><groupId>com.github.jai-imageio</groupId><artifactId>jai-imageio-jpeg2000</artifactId><version>1.3.0</version></dependency>
    </dependencies>
    
  2. 编写代码:

    创建一个服务类或控制器类,用于处理 PDF 到图像的转换。以下是一个简单的示例:

    import org.apache.pdfbox.pdmodel.PDDocument;
    import org.apache.pdfbox.rendering.PDFRenderer;
    import org.apache.pdfbox.tools.imageio.ImageIOUtil;
    import org.springframework.stereotype.Service;import java.awt.image.BufferedImage;
    import java.io.File;
    import java.io.IOException;@Service
    public class PdfToImageService {public void convertPdfToImages(String pdfFilePath, String outputFolderPath) {try {PDDocument document = PDDocument.load(new File(pdfFilePath));PDFRenderer pdfRenderer = new PDFRenderer(document);for (int page = 0; page < document.getNumberOfPages(); ++page) {BufferedImage image = pdfRenderer.renderImageWithDPI(page, 300); // 300 DPIImageIOUtil.writeImage(image, outputFolderPath + "page_" + (page + 1) + ".png", 300);}document.close();} catch (IOException e) {e.printStackTrace();}}
    }
    
  3. 使用服务类:

    在您的控制器类或其他需要的地方使用 PdfToImageService

    import org.springframework.beans.factory.annotation.Autowired;
    import org.springframework.web.bind.annotation.GetMapping;
    import org.springframework.web.bind.annotation.PathVariable;
    import org.springframework.web.bind.annotation.RestController;@RestController
    public class PdfToImageController {@Autowiredprivate PdfToImageService pdfToImageService;@GetMapping("/convertPdfToImages/{pdfFileName}")public String convertPdfToImages(@PathVariable String pdfFileName) {String pdfFilePath = "path/to/pdf/files/" + pdfFileName + ".pdf";String outputFolderPath = "path/to/output/folder/";pdfToImageService.convertPdfToImages(pdfFilePath, outputFolderPath);return "PDF to images conversion complete.";}
    }
    

    这是一个简单的示例,您可以根据实际需求进行扩展和修改。确保您的项目中有适当的文件读取和写入权限,并根据需要添加错误处理。

二、SpringBoot+OCR对pdf文件内指定区域的内容识别提取

在Spring Boot中使用OCR对PDF文件的指定区域进行内容识别和提取,您需要结合PDF处理库和OCR库。以下是一个基本的步骤,其中使用了Apache PDFBox作为PDF处理库,Tesseract作为OCR库。

1. 添加 Maven 依赖:

<dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter</artifactId></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.30</version></dependency><dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>4.5.5</version></dependency><!-- 其他可能需要的依赖 -->
</dependencies>

2. 编写服务类:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import org.springframework.stereotype.Service;import java.awt.Rectangle;
import java.io.File;
import java.io.IOException;@Service
public class PdfOcrService {public String extractTextFromPdfRegion(String pdfFilePath, Rectangle region) {try {PDDocument document = PDDocument.load(new File(pdfFilePath));PDFTextStripper pdfStripper = new PDFTextStripper();pdfStripper.setSortByPosition(true);String pdfText = pdfStripper.getText(document);String extractedText = performOCR(pdfText, region);document.close();return extractedText;} catch (IOException e) {e.printStackTrace();return "Error extracting text from PDF.";}}private String performOCR(String pdfText, Rectangle region) {ITesseract tesseract = new Tesseract();String extractedText = "";try {extractedText = tesseract.doOCR(pdfText, region);} catch (Exception e) {e.printStackTrace();}return extractedText;}
}

3. 使用服务类:

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.PathVariable;
import org.springframework.web.bind.annotation.RestController;import java.awt.Rectangle;@RestController
public class PdfOcrController {@Autowiredprivate PdfOcrService pdfOcrService;@GetMapping("/extractText/{pdfFileName}")public String extractTextFromPdfRegion(@PathVariable String pdfFileName) {String pdfFilePath = "path/to/pdf/files/" + pdfFileName + ".pdf";// Define the region you want to extract (x, y, width, height)Rectangle region = new Rectangle(100, 100, 300, 200);return pdfOcrService.extractTextFromPdfRegion(pdfFilePath, region);}
}

在上述代码中,PdfOcrService 类加载PDF文档并使用PDFBox提取文本。然后,它调用performOCR 方法,该方法使用Tesseract OCR库对指定区域的文本进行识别。

请注意,这只是一个基本示例,您可能需要根据实际需求进行调整。确保在生产环境中处理异常和错误,以确保应用程序的稳定性。

相关文章:

SpringBoot+OCR 实现PDF 内容识别

一、SpringBootOCR对pdf文件内容识别提取 1、在 Spring Boot 中&#xff0c;您可以结合 OCR&#xff08;Optical Character Recognition&#xff09;库来实现对 PDF 文件内容的识别和提取。 一种常用的 OCR 库是 Tesseract&#xff0c;而 pdf2image 是一个用于将 PDF 转换为图…...

Go和Java实现抽象工厂模式

Go和Java实现抽象工厂模式 本文通过简单数据库操作案例来说明抽象工厂模式的使用&#xff0c;使用Go语言和Java语言实现。 1、抽象工厂模式 抽象工厂模式是围绕一个超级工厂创建其他工厂。该超级工厂又称为其他工厂的工厂。这种类型的设计模式属于创 建型模式&#xff0c;它…...

深入理解Java虚拟机---内存分配

深入理解Java虚拟机---内存分配 GC日志内存分配与回收策略对象优先在Eden分配大对象直接进入老年代长期存活的对象将进入老年代动态对象年龄判定空间分配担保 GC日志 以下两段典型的GC日志&#xff1a; 33.125: [GC [DefNew: 3324K->152K(3712K), 0.0025925 secs] 3324K-&…...

计算机网络2

OSI参考模型七层&#xff1a; 1.应用层 2.表示层 3.会话层 4.传输层 5.网络层 6.数据链路层 7.物理层 TCP/IP模型 5层参考模型...

jenkins-Generic Webhook Trigger指定分支构建

文章目录 1 需求分析1.1 关键词 : 2、webhooks 是什么&#xff1f;3、配置步骤3.1 github 里需要的仓库配置&#xff1a;3.2 jenkins 的主要配置3.3 option filter配置用于匹配目标分支 实现指定分支构建 1 需求分析 一个项目一般会开多个分支进行开发&#xff0c;测试&#x…...

源码解析8-QSS原理-案例-Qt的qss特殊设置多个子控件的颜色与伪状态

Qt源码解析 索引 源码解析8-QSS原理-案例-Qt的qss特殊设置多个子控件的颜色与伪状态 有些时候我们想特殊设置QSS&#xff0c;比如某一类标题栏目&#xff0c;某一个窗口中的颜色。 重要的是我们需要同时设置多个特殊的按钮等。 统一设置所有 单一按钮全局设置 QPushButton…...

Nginx+Tomcat实现负载均衡和动静分离

目录 前瞻 动静分离和负载均衡原理 实现方法 实验&#xff08;七层代理&#xff09; 部署Nginx负载均衡服务器(192.168.75.50:80) 部署第一台Tomcat应用服务器&#xff08;192.168.75.60:8080&#xff09; 多实例部署第二台Tomcat应用服务器&#xff08;192.168.75.70:80…...

linux系统的u盘/mmc/sd卡等的支持热插拔和自动挂载行为

1.了解mdev mdev是busybox自带的一个简化版的udev。udev是从Linux 2.6 内核系列开始的设备文件系统&#xff08;DevFS&#xff09;的替代品&#xff0c;是 Linux 内核的设备管理器。总的来说&#xff0c;它取代了 devfs 和 hotplug&#xff0c;负责管理 /dev 中的设备节点。同时…...

使用Python将OSS文件免费下载到本地:项目分析和准备工作

大家好&#xff0c;我是水滴~~ 本文将介绍如何使用Python编程语言将OSS&#xff08;对象存储服务&#xff09;中的文件免费下载到本地计算机。我们先进行项目分析和准备工作&#xff0c;为后续的编码及实施提供基础。 《Python入门核心技术》专栏总目录・点这里 文章目录 1. 前…...

从Gitee克隆项目、启动方法

从gitee克隆VUE项目到本地后&#xff0c;不能直接运行&#xff0c;需要进行npm install安装node_modules文件夹里面的内容&#xff0c;因为在git上传的时候&#xff0c;一般都会过滤到node_modules中的依赖文件。 安装依赖以后&#xff0c;启动通过npm run serve启动项目出错。…...

不用再找了,这是大模型实践最全的总结

随着ChatGPT的迅速出圈&#xff0c;加速了大模型时代的变革。对于以Transformer、MOE结构为代表的大模型来说&#xff0c;传统的单机单卡训练模式肯定不能满足上千&#xff08;万&#xff09;亿级参数的模型训练&#xff0c;这时候我们就需要解决内存墙和通信墙等一系列问题&am…...

QT 记录

qml 移动窗口会闪烁 int main(int argc, char *argv[]) {QCoreApplication::setAttribute(Qt::AA_UseOpenGLES);//orQCoreApplication::setAttribute(Qt::AA_UseSoftwareOpenGL); }window 拉取qml程序依赖文件 打开QT自带的命令窗口&#xff0c;转到exe程序目录&#xff1a; …...

智能优化算法应用:基于黑寡妇算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于黑寡妇算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于黑寡妇算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.黑寡妇算法4.实验参数设定5.算法结果6.参考文…...

VSCode 常用的快捷键和技巧系列(2)

一、如何让VSCode工程树显示图标 第一步&#xff1a;安装 快捷键 CtrlP &#xff0c;输入 ext install vscode-icons &#xff0c;然后点击安装插件 第二步&#xff1a;配置 安装成功后&#xff0c;点击Reload重新加载。 然后配置&#xff0c;当前图标使用VsCode-Icons Go…...

【Hadoop】执行start-dfs.sh启动hadoop集群时,datenode没有启动怎么办

执行start-dfs.sh后&#xff0c;datenode没有启动&#xff0c;很大一部分原因是因为在第一次格式化dfs后又重新执行了格式化命令&#xff08;hdfs namenode -format)&#xff0c;这时主节点namenode的clusterID会重新生成&#xff0c;而从节点datanode的clusterID 保持不变。 在…...

计算机网络(四)

九、网络安全 &#xff08;一&#xff09;什么是网络安全&#xff1f; A、网络安全状况 分布式反射攻击逐渐成为拒绝攻击的重要形式 涉及重要行业和政府部门的高危漏洞事件增多。 基础应用和通用软硬件漏洞风险凸显&#xff08;“心脏出血”&#xff0c;“破壳”等&#x…...

非递归实现的快速排序

目录 序列文章 前言 学前补充 非递归快速排序 注意事项&#xff08;重要&#xff09; 实现步骤 代码实现 时空复杂度 快速排序的特性 栈的相关代码 序列文章 非递归实现的快速排序&#xff1a;http://t.csdnimg.cn/UEcL6 快速排序的挖坑法与双指针法&#xff1a;ht…...

windows 安装jenkins

下载jenkins 官方下载地址&#xff1a;Jenkins 的安装和设置 清华源下载地址&#xff1a;https://mirrors.tuna.tsinghua.edu.cn/jenkins/windows-stable/ 最新支持java8的版本时2.346.1版本&#xff0c;在清华源中找不到&#xff0c;在官网中没找到windows的下载历史&#xff…...

SQL进阶理论篇(十二):InnoDB中的MVCC是如何实现的?

文章目录 简介事务版本号行记录的隐藏列Undo LogRead View的工作流程总结参考文献 简介 在不同的DBMS里&#xff0c;MVCC的实现机制是不同的。本节我们会以InnoDB举例&#xff0c;讲解InnoDB里MVCC的实现机制。 我们需要掌握这么几个概念&#xff1a; 事务版本号行记录的隐藏…...

SpringCloudAliBaba篇之Seata:分布式事务组件理论与实践

1、事务简介 事务(Transaction)是访问并可能更新数据库中各种数据项的一个程序执行单元(unit)。在关系数据库中&#xff0c;一个事务由一组SQL语句组成&#xff0c;事务具有4个属性&#xff1a;原子性、一致性、隔离性、持久性。这四个属性通常称为ACID原则。 原子性(atomici…...

日语AI面试高效通关秘籍:专业解读与青柚面试智能助攻

在如今就业市场竞争日益激烈的背景下&#xff0c;越来越多的求职者将目光投向了日本及中日双语岗位。但是&#xff0c;一场日语面试往往让许多人感到步履维艰。你是否也曾因为面试官抛出的“刁钻问题”而心生畏惧&#xff1f;面对生疏的日语交流环境&#xff0c;即便提前恶补了…...

OpenLayers 可视化之热力图

注&#xff1a;当前使用的是 ol 5.3.0 版本&#xff0c;天地图使用的key请到天地图官网申请&#xff0c;并替换为自己的key 热力图&#xff08;Heatmap&#xff09;又叫热点图&#xff0c;是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...

C++:std::is_convertible

C++标志库中提供is_convertible,可以测试一种类型是否可以转换为另一只类型: template <class From, class To> struct is_convertible; 使用举例: #include <iostream> #include <string>using namespace std;struct A { }; struct B : A { };int main…...

《Playwright:微软的自动化测试工具详解》

Playwright 简介:声明内容来自网络&#xff0c;将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具&#xff0c;支持 Chrome、Firefox、Safari 等主流浏览器&#xff0c;提供多语言 API&#xff08;Python、JavaScript、Java、.NET&#xff09;。它的特点包括&a…...

渗透实战PortSwigger靶场-XSS Lab 14:大多数标签和属性被阻止

<script>标签被拦截 我们需要把全部可用的 tag 和 event 进行暴力破解 XSS cheat sheet&#xff1a; https://portswigger.net/web-security/cross-site-scripting/cheat-sheet 通过爆破发现body可以用 再把全部 events 放进去爆破 这些 event 全部可用 <body onres…...

YSYX学习记录(八)

C语言&#xff0c;练习0&#xff1a; 先创建一个文件夹&#xff0c;我用的是物理机&#xff1a; 安装build-essential 练习1&#xff1a; 我注释掉了 #include <stdio.h> 出现下面错误 在你的文本编辑器中打开ex1文件&#xff0c;随机修改或删除一部分&#xff0c;之后…...

抖音增长新引擎:品融电商,一站式全案代运营领跑者

抖音增长新引擎&#xff1a;品融电商&#xff0c;一站式全案代运营领跑者 在抖音这个日活超7亿的流量汪洋中&#xff0c;品牌如何破浪前行&#xff1f;自建团队成本高、效果难控&#xff1b;碎片化运营又难成合力——这正是许多企业面临的增长困局。品融电商以「抖音全案代运营…...

全球首个30米分辨率湿地数据集(2000—2022)

数据简介 今天我们分享的数据是全球30米分辨率湿地数据集&#xff0c;包含8种湿地亚类&#xff0c;该数据以0.5X0.5的瓦片存储&#xff0c;我们整理了所有属于中国的瓦片名称与其对应省份&#xff0c;方便大家研究使用。 该数据集作为全球首个30米分辨率、覆盖2000–2022年时间…...

(二)原型模式

原型的功能是将一个已经存在的对象作为源目标,其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。 一、源型模式的定义 原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现,忽略对象创建过程中的其它细节。 📌 核心特点: 避免重复初…...

2025 后端自学UNIAPP【项目实战:旅游项目】6、我的收藏页面

代码框架视图 1、先添加一个获取收藏景点的列表请求 【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口&#xff08;适配服务端返回 Token&#xff09; export const login async (code, avatar) > {const res await http…...