python pdf转图片再OCR
- 先pdf转图片
import os
from pdf2image import convert_from_path# PDF文件路径
pdf_path = '/Users/xxx/2022.pdf'
# 输出图片的文件夹
output_folder = './output_images2022'
# 输出图片的命名格式
output_name = 'page'# 如果输出文件夹不存在,创建它
if not os.path.exists(output_folder):os.makedirs(output_folder)# 将PDF转换为图像列表,设置分辨率为300 DPI
images = convert_from_path(pdf_path, dpi=300)# 保存每一页为PNG图片
for i, image in enumerate(images):image.save(f'{output_folder}/{output_name}_{i+1}.png', 'PNG')
- OCR
from PIL import ImageEnhance
import pytesseract
from PIL import Image
from openpyxl import Workbook# 配置 Tesseract 的路径(如果需要)
# pytesseract.pytesseract.tesseract_cmd = r'/usr/local/bin/tesseract' # Mac 的路径
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' # Windows 的路径# 打开图片
# image_path = "/Users/xxx/page_3.png" # 替换为你的图片路径def enhance_image(img):img = img.convert('L') # 转灰度img = ImageEnhance.Contrast(img).enhance(2.0)return imgdef allimngs(image_path):image = Image.open(image_path)image = enhance_image(image)# 使用 pytesseract 进行 OCRtext = pytesseract.image_to_string(image, lang="chi_sim") # 中文# # 打印提取的文本# print("提取的文本:")# print(text.replace(' ', ''))return text.replace(' ', '')# 统计子字符串出现次数class TrieNode:def __init__(self):self.children = {}self.keywords = []class Trie:def __init__(self):self.root = TrieNode()def insert(self, keyword):node = self.rootfor char in keyword:if char not in node.children:node.children[char] = TrieNode()node = node.children[char]node.keywords.append(keyword)def count_keywords(text, keywords):# 去重关键词以确保唯一性keywords = list(set(keywords))# 构建Trie树trie = Trie()for kw in keywords:trie.insert(kw)# 初始化计数器counters = {kw: 0 for kw in keywords}i = 0n = len(text)while i < n:current_node = trie.rootmax_len = 0current_len = 0end_pos = i# 寻找从当前位置开始的最长匹配关键词for j in range(i, n):char = text[j]if char in current_node.children:current_node = current_node.children[char]current_len += 1if current_node.keywords: # 当前节点是某个关键词的结尾max_len = current_lenend_pos = j + 1 # 更新结束位置为当前字符的下一个位置else:break # 无后续匹配,退出循环if max_len > 0:# 更新所有匹配的关键词计数器for kw in current_node.keywords:counters[kw] += 1i = end_pos # 跳跃到已匹配部分的末尾else:i += 1 # 无匹配,移动到下一个字符return countersif __name__ == "__main__":keywords = ['矮小','安于现状','暗藏','暗淡','暗黑']all_text = ''workbook = Workbook()sheet = workbook.activefor i in range(108):i = i+1image_path = f"/Users/xxx/output_images2022/page_{i}.png"all_text = all_text + allimngs(image_path)all_text = all_text.replace(' ', '').replace('\n', '')result = count_keywords(all_text, keywords)num = 1for k, v in result.items():sheet[f'A{num}'] = ksheet[f'B{num}'] = vprint(k, v, num)num = num + 1workbook.save(filename='2022.xlsx')相关文章:
python pdf转图片再OCR
先pdf转图片 import os from pdf2image import convert_from_path# PDF文件路径 pdf_path /Users/xxx/2022.pdf # 输出图片的文件夹 output_folder ./output_images2022 # 输出图片的命名格式 output_name page# 如果输出文件夹不存在,创建它 if not os.path.ex…...
(2)Docker 常用命令
文章目录 Docker 服务器Docker 镜像Docker 容器本地 RegistryRUN vs CMD vs ENTRYPOINTRUNCMDENTRYPOINT 限制容器对内存、CPU 和 IO 资源的使用内存CPUBlock IO设置权重bps 和 iops cgroup 和 namespacecgroupnamespacMount namespaceUTS namespaceIPC namespacePID namespace…...
虚拟列表技术深度解析:原理、实现与性能优化实战
虚拟列表技术深度解析:原理、实现与性能优化实战 引言 在当今数据驱动的互联网应用中,长列表渲染已成为前端开发的核心挑战。传统的一次性全量渲染方式在数据量超过千条时,往往导致页面卡顿、内存飙升等问题。虚拟列表(Virtual L…...
服务器简介(含硬件外观接口介绍)
服务器(Server)是指提供资源、服务、数据或应用程序的计算机系统或设备。它通常比普通的个人计算机更强大、更可靠,能够长时间无间断运行,支持多个用户或客户端的请求。简单来说,服务器就是专门用来存储、管理和提供数…...
c++下的onnx推理
参考代码:https://github.com/itsnine/yolov5-onnxruntime 参考链接:https://blog.csdn.net/magic_ll/article/details/125517798 1.下载onnx 官网:https://github.com/microsoft/onnxruntime/releases/tag/v1.21.0 2.下载代码 https://g…...
TCP三次握手与四次挥手面试回答版本
面试官:说一下TCP三次握手的过程 参考面试回答: 在第一次握手的时候、客户端会随机生成初始化序号、放到TCP报文头部的序号字段中、同时把SYN标志设置为1 这样就表示SYN报文(这里是请求报文)。客户端将报文放入 TCP 报文首部的序…...
Vue3 使用PrimeVue的面包屑组件Breadcrumb,使用JS滚动进行
做了一个自动添加的面包写导航栏,需要在添加之后自动滚动到最右边,发现常规的滚动方法不行,以下是源码,直接调用ScrollToRight方法就行,最主要的就是在value后面加一个$el: <Breadcrumb :home"hom…...
0101基础知识-区块链-web3
文章目录 1 web3学习路线2 区块链简史2.1 区块链2.2 公共账本2.3 区块链的设计哲学2.3.1 去中心化2.3.2 共识2.3.2.1 上链2.3.2.2 共识算法 3 web3面向资产的互联网3.1 安全性和去中心化的权衡 4 智能合约4.1 以太坊智能合约4.2 去中心化应用 5 小结结语 1 web3学习路线 参考下…...
工作纪实_63-Mac电脑使用brew安装软件
最近在接触kafka,想着在自己的电脑安装一套环境,docker也能行,但是还是想装一些原生的软件试试看,因此便想着整理一下brew的命令,这命令确实是方便,不需要下载tar包乱八七糟的东西,一键安装 bre…...
Cadence学习笔记之---库元件制作、元件放置
目录 01 | 引 言 02 | 环境描述 03 | 工具介绍 04 | 无源器件的制作 05 | IC芯片制作 06 | 放置元件 07 | 结 语 01 | 引 言 在上一篇小记中,讲述使用Cadence创建原理图工程和元件库; 本篇小记主要讲述如何制作常用的库元件,如电阻、…...
服务器如何修复SSL证书错误?
修复服务器上的SSL证书错误需要根据具体错误类型逐步排查和解决。以下是常见的步骤和解决方案: --- ### **1. 确认错误类型** 首先检查浏览器或工具(如OpenSSL)报错的具体信息,常见错误包括: - **证书过期**…...
图解Mysql原理:深入理解事务的特性以及它的实现机制
前言 大家好,我是程序蛇玩编程。 Mysql中事务大家不陌生吧,事务就是要保证一组数据库操作,要么全部成功,要么全部失败。那它具有哪些特性,如何实现的呢?接着往下看。 正文 事务的特性: 事务的基本特性主要为四种…...
《前端面试题之 Vue 篇(第四集)》
目录 1、Vue 中实现强制刷新2、Vue3 和 Vue2 的区别解析3、 Vue3 性能优于 Vue2 的原因解析4、Vue3 使用 Proxy5、首屏优化6、组件的理解7、vue项目中合理规划文件目录8、Nuxt.js 简单了解9、单页应用10、 SEO 优化 1、Vue 中实现强制刷新 在 Vue 中实现强制刷新的分析如下&am…...
C++ 模块化编程(Modules)在大规模系统中的实践难点
随着项目规模的不断扩大和代码复杂性的提升,传统的 C++ 开发模式逐渐暴露出一些根深蒂固的问题,尤其是头文件和预处理器机制所带来的编译效率低下、依赖管理混乱以及代码复用性差等痛点。C++20 标准引入的模块化编程(Modules)特性,正是为了解决这些问题而设计的一项革命性…...
DasViewer主要功能流程介绍
摘要:本文主要介绍DasViewer软件本地数据、云端数据以及在线3DTiles服务模型浏览功能。 本地数据浏览功能 打开 DasViewer 浏览器;打开本地数据,包括如下几种方式: 选择工程文件(.dav、.dvp)、模型文件(…...
提交bug单时,应该说明哪些信息?
在提交 Bug 单时,为了让开发人员能够快速定位和解决问题,需要详细说明以下几方面信息: Bug 的基本信息 标题:简洁明了地概括 Bug 的主要问题,例如 “登录页面输入错误密码后提示信息不准确”。Bug 类型:明确…...
Linux[指令与权限]
Linux指令与权限 Linux环境中,打包文件有多种 tar (打包/解包) 指令 tar -czvf 文件要打包到的位置 文件(打包并压缩到) tar -xzvf 文件(在当前目录下解压) tar选项 -c创建压缩文件 -z使用gzip属性压缩 -v展现压缩过程 -f后面使用新建文档名 -x不要新建,解压 -C 文件…...
MySQL 的锁,表级锁是哪一层的锁?行锁是哪一层的锁?
MySQL 的锁层级与类型 在 MySQL 中,锁的层级和实现与存储引擎密切相关。 1. 表级锁(Table-Level Locks) (1)存储引擎层的表级锁 实现层级:存储引擎层(如 MyISAM、InnoDB)。特点&a…...
Flink介绍——实时计算核心论文之Dataflow论文总结
数据流处理的演变与 Dataflow 模型的革新 在大数据处理领域,流式数据处理系统的发展历程充满了创新与变革。从早期的 S4 到 Storm,再到 MillWheel,每一个系统都以其独特的方式推动了技术的进步。S4 以其无中心架构和 PE(Processi…...
Next.js 编译并运行
next build 是用于构建 Next.js 应用的命令,而运行构建后的应用则通过 next start。这里是一个简明的流程说明: ✅ 构建 Next.js 应用 next build这个命令会: 编译项目中的 TypeScript 和 JavaScript 代码;优化静态资源…...
星火燎原:Spark技术如何重塑大数据处理格局
在数字化浪潮席卷全球的今天,数据已成为企业发展与社会进步的核心驱动力。面对海量且复杂的数据,传统的数据处理技术逐渐显得力不从心。而Apache Spark作为大数据领域的明星框架,凭借其卓越的性能与强大的功能,如同一束璀璨的星火…...
LeetCode 2563.统计公平数对的数目:排序 + 二分查找
【LetMeFly】2563.统计公平数对的数目:排序 二分查找 力扣题目链接:https://leetcode.cn/problems/count-the-number-of-fair-pairs/ 给你一个下标从 0 开始、长度为 n 的整数数组 nums ,和两个整数 lower 和 upper ,返回 公平…...
2025深圳中兴通讯安卓开发社招面经
2月27号 中兴通讯一面 30多分钟 自我介绍 聊项目 我的优缺点,跟同事相比,有什么突出的地方 Handler机制,如何判断是哪个消息比较耗时 设计模式:模板模式 线程的状态 线程的开启方式 线程池原理 活动的启动模式 Service和Activity…...
【Redis】redis主从哨兵
Redis 主从复制 在访问量极高的场景下,单台 Redis 已难以承载所有请求,且单点故障风险高。通过主从复制,可以实现读写分离、数据备份与高可用。 概念 主节点(Master):负责写操作,将数据变更同…...
windows docker desktop 无法访问容器端口映射
为什么使用docker desktop访问映射的端口失败,而其端口对应的服务是正常的? 常见问题,容器的防火墙没有关闭!!! 以centos7为例,默认情况下防火墙处于开启状态: 这下访问就OK了...
OpenRAN 6G网络:架构、用例和开放问题
英文标题: Open RAN for 6G Networks: Architecture, Use Cases and Open Issues 作者信息 Bharat Agarwal:2016年毕业于Galgotias University,获得电气与电子工程学士学位;2023年在爱尔兰都柏林城市大学获得电子工程博士学位。2…...
《TCP/IP详解 卷1:协议》之第四、五章:ARP RARP
目录 一、ARP && RARP 报文结构 1、ARP请求报文示例 2、ARP响应报文示例 3、RARP请求报文示例 4、RARP响应报文示例 5、关于 padding 6、免费ARP 二、tcpdump 的使用 1、基本语法 2、常用选项 3、常用过滤条件 三、arp 命令的使用 1、基本语法 2、常用选…...
ttsfrd的使用
ttsfrd的作用: 文本标准化,将数字转成大写等预处理,例:数字处理123 → 一百二十三, 日期处理2023-12-25 → 2023年12月25日,特殊符号 40¥→40元。从而适合TTS朗读。 SDK模型下载 from modelsc…...
实战华为1:1方式1 to 1 VLAN映射
本文摘自笔者于2024年出版,并得到广泛读者认可,已多次重印的《华为HCIP-Datacom路由交换学习指南》。 华为设备的1 to 1 VLAN映射有1:1和N :1两种方式。1:1方式是将指定的一个用户私网VLAN标签映射为一个公网VLAN标签,是一种一对一的映射关系…...
NLP 梳理03 — 停用词删除和规范化
一、说明 前文我们介绍了标点符号删除、文本的大小写统一,本文介绍英文文章的另一些删除内容,停用词删除。还有规范化处理。 二、什么是停用词,为什么删除它们? 2.1 停用词的定义 停用词是语言中的常用词,通常语义…...
