当前位置: 首页 > news >正文

pdf转图片

目录

pdf2image库

PyMuPDF库

python-office库

pdfplumber库


pdf2image库

安装:pip install pdf2image

使用时会报错:pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?

需要安装 poppler-windows 环境,下载地址:
链接: https://pan.baidu.com/s/1fGrYoMhDMIM4BUYE3Dp00Q?pwd=r9d7 提取码: r9d7

下载解压后将bin文件路径添加到环境变量path中,添加完成后命令行窗口输入pdftotext -v 可查看是否安装成功,安装成功后有版本信息。

设置环境变量后还是不行的话就在convert_from_path 方法中添加poppler_path 二进制文件路径。

from pdf2image import convert_from_pathpdf_path = rf'test.pdf'
save_imgpath = rf'xxx'images = convert_from_path(pdf_path, poppler_path=r'D:\poppler-24.08.0\Library\bin')
for i, image in enumerate(images):  #  将每一张图片保存为PNG文件image.save(fr'{save_imgpath}\page_{i + 1}.png', 'PNG')

PyMuPDF库

PyMuPDF 还提供了丰富的功能来操作PDF文件,如读取、写入、分割、合并、旋转、裁剪等。此外,它还支持加密和解密PDF文档,以及提取文本、图像和元数据等信息。

安装:pip install PyMuPDF

from fitz import open, Matrix def pdf2img(pdf_path, img_dir):doc = open(pdf_path)  # 打开pdf# print(doc.page_count)  # 获取word文档页数# print(doc.metadata)  # 获取pdf 目录信息for page in doc:  # 遍历pdf的每一页【doc[page_no] ,可通过获取的页数和切片方式转换对应页的数据】# 将缩放因子 zoom_x 和 zoom_y 设为 2.0 之后,可以将转换出来的图片大小提高四倍zoom_x = 2.0  # 设置每页的水平缩放因子zoom_y = 2.0  # 设置每页的垂直缩放因子mat = Matrix(zoom_x, zoom_y)# mat = Matrix(zoom_x, zoom_y).prerotate(0)  # .prerotate(50)可设置旋转角度# mat = Matrix(zoom_x, zoom_y).prescale(1,2)  # .prescale(1,2) 设置图片宽高比# mat = Matrix(zoom_x, zoom_y).preshear(1,3)  # preshear(1,3) 拉伸图片pix = page.get_pixmap(matrix=mat,alpha=False)  #  Page 页面-光栅图像,alpha设置后会突出主体显示pix.pil_save(rf"{img_dir}\page-1{page.number}.png")  # 保存光栅图像图像,需要依赖第三方框架:Pillow# pix.save(rf"{img_dir}\page-1{page.number}.png")

python-office库

python-office库 是一个Python 自动化办公第三方库,能解决大部分自动化办公的问题。一行代码即可实现转换。

https://pypi.org/project/python-office/0.1.20/

安装依赖包特多,基本都会失败,使用镜像源安装:pip install python-office -i https://pypi.tuna.tsinghua.edu.cn/simple

from office import pdfpdf.pdf2imgs(pdf_path, save_img_path, merge=True)

pdfplumber库

pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple

doc = pdfplumber.open(pdf_path)
print(doc.metadata)  # 获取pdf 目录信息
print(doc.pages)  # 获取pdf文件每页对象列表,打印结果[<Page:1>, <Page:2>, <Page:3>]
print(len(doc.pages))  # 获取文件页数
import pdfplumberwith pdfplumber.open(pdf_path) as pd:for i,p in enumerate(pd.pages):img = p.to_image(resolution=500) # 可设置宽高参数,resolution 不设置时图片清晰图会低img.save(rf'{save_img_path}\{i}.png')

相关文章:

pdf转图片

目录 pdf2image库 PyMuPDF库 python-office库 pdfplumber库 pdf2image库 安装&#xff1a;pip install pdf2image 使用时会报错&#xff1a;pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH? 需要安装 po…...

Go 协程上下文切换的代价

在 Go 语言中&#xff0c;协程&#xff08;Goroutine&#xff09;是一种非常轻量级的并发执行单元&#xff0c;设计之初就是为了简化并发编程并提高性能。协程的上下文切换被认为是非常高效的&#xff0c;但是它的真正性能优势需要我们深入了解其背后的机制。 本文将深入探讨 …...

HTTP 持久连接(长连接)

HTTP 持久连接&#xff08;长连接&#xff09; HTTP 持久连接&#xff08;HTTP Persistent Connections&#xff09;&#xff0c;也常被称作 HTTP 长连接&#xff0c;是 HTTP 协议中的一种重要特性&#xff0c;以下是关于它的详细介绍&#xff1a; 一、基本概念 在传统的 HTT…...

12月10日IO

作业&#xff1a;使用read和write实现拷贝文件&#xff0c;将1.txt内容前一半拷贝给2.txt后一半拷贝给3.txt #include <myhead.h>int main(int argc, const char *argv[]) {//打开三个文件int fd1,fd2,fd3;fd1open("1.txt",O_RDONLY);fd2open("2.txt&quo…...

Composite Pattern

Composite Pattern The intent of Composite pattern is to composite objects into tree structures to represent a “part-whole” hierarchy .The Composite Pattern allow clients to treat individual objects and composite objects uniformly. UML Used in Qt Exam…...

Springboot MVC

1. Springboot为MVC提供的自动配置 Spring Boot 为 Spring MVC 提供了自动配置&#xff0c;这在大多数应用程序中都能很好地工作。除了已经实现了 Spring MVC 的默认功能外&#xff0c;自动配置还提供了以下特性&#xff1a; 包括 ContentNegotiatingViewResolver 和 BeanNam…...

MySQL数据表记录增操作

对数据库的操作用的最最频繁的呢,总结起来就四个字:增删改查! 查是属于DQL(Data QueryLanguage &#xff0c;数据查询语言)部分,而增、改、删属于DML&#xff08;Data Manipulation Language, 数据操纵语言&#xff09; 增&#xff1a;作用是往数据库的数据表里写入记录值 语…...

maven报错“找不到符号“

问题 springboot项目 maven编译打包过程&#xff0c;报错"找不到符号" 解决 很多网上方法都试过&#xff0c;都没用 换jdk&#xff0c;把17->21...

python进阶-05-利用Selenium来实现动态爬虫

python进阶-05-利用Selenium来实现动态爬虫 一.说明 这是python进阶部分05&#xff0c;我们上一篇文章学习了Scrapy来爬取网站&#xff0c;但是很多网站需要登录才能爬取有用的信息&#xff0c;或者网站的静态部分是一个空壳&#xff0c;内容是js动态加载的,或者人机验证&…...

P1226 【模板】快速幂

题目描述 给你三个整数 &#x1d44e;,&#x1d44f;,&#x1d45d;求 &#x1d44e;&#x1d44f; mod &#x1d45d; 输入格式 输入只有一行三个整数&#xff0c;分别代表 &#x1d44e;,&#x1d44f;,&#x1d45d; 输出格式 输出一行一个字符串 a^b mod ps&#xf…...

【C++】求第二大的数详细解析

博客主页&#xff1a; [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 &#x1f4af;前言&#x1f4af;题目描述&#x1f4af;输入描述&#x1f4af;解题思路分析1. 题目核心要求2. 代码实现与解析3. 核心逻辑逐步解析定义并初始化变量遍历并处理输入数据更新最大值与次大值输…...

从零开始学TiDB(3)TiKV 持久化机制

如图&#xff0c;每个TiKV有两个rocksdb实例&#xff0c;rocksdbKV复制存储键值对&#xff0c;rocksdb raft负责存储复制的日志 。 每个region及其副本构成了raft group。这个OB的Zone其实有点类似&#xff0c;在OB中每个Unit及其副本构成了paxos组&#xff0c;在TiDB中叫raft…...

Elasticsearch+Kibana+IK分词器+拼音分词器安装

目录 ES报错 Kibanaik分词器拼音分词器 安装都比较简单&#xff0c;可以参考这几篇博客 ES 如何在 Linux&#xff0c;MacOS 及 Windows 上进行安装 Elasticsearch 报错 ES启动报错error downloading geoip database [GeoLite2-ASN.mmdb] Kibana KIBANA的安装教程&#xff…...

子网划分实例

看到有人问这个问题&#xff1a; 想了一下&#xff0c;这是一个子网划分的问题&#xff1a; 处理方法如图&#xff1a; 这是一个子网划分的问题 设备1用三层交换机&#xff0c;端口设置为路由模式&#xff0c;设备2和设备3为傻瓜交换机模式 设备2和设备3下挂设备都是26为掩码&…...

上海亚商投顾:创业板指震荡调整 机器人概念股再度爆发

上海亚商投顾前言&#xff1a;无惧大盘涨跌&#xff0c;解密龙虎榜资金&#xff0c;跟踪一线游资和机构资金动向&#xff0c;识别短期热点和强势个股。 一.市场情绪 沪指昨日冲高回落&#xff0c;深成指、创业板指盘中跌超1%&#xff0c;尾盘跌幅有所收窄。机器人概念股逆势爆…...

【C++ 20进阶(2):初始化 Initializer

【C 20进阶&#xff08;2&#xff09;&#xff1a;初始化 Initializer】 原文&#xff1a;https://blog.csdn.net/weixin_44259356/article/details/144377955 引言 本篇文章为系列文章将着重介绍C20新特性&#xff0c;一是希望可以和大家交流分享&#xff0c;二是也便于自己…...

【重生之我在B站学MySQL】

MySQL笔记 文章目录 MySQL的三层结构SQL语句分类sql语句数据库操作创建数据库查看、删除数据库 表操作创建表mysql常用数据类型(列类型)查询表、插入值创建表练习创建一个员工表emp 修改表mysql约束primary key(主键)not null(非空)unique(唯一)foreign key(外键)check自增长 索…...

Python实现中国象棋

探索中国象棋 Python 代码实现&#xff1a;从规则逻辑到游戏呈现 中国象棋&#xff0c;这款源远流长的棋类游戏&#xff0c;承载着深厚的文化底蕴与策略智慧。如今&#xff0c;借助 Python 与 Pygame 库&#xff0c;我们能够在数字世界中复刻其魅力&#xff0c;深入探究代码背后…...

LBS 开发微课堂|通过openGL ES轻松实现建筑物渲染及动画

为了让广大开发者 更深入地了解 百度地图开放平台的 技术能力 轻松掌握满满的 技术干货 更加简单地接入 位置服务 我们特别推出了 “位置服务&#xff08;LBS&#xff09;开发微课堂” 系列技术案例 第五期的主题是 通过openGL ES轻松实现 建筑物渲染及动画 对于…...

map1[item.id]和map1.get(item.id)的区别为何前者取出的是空,后者取出的是正确的值

在 JavaScript 中&#xff0c;map1[item.id] 和 map1.get(item.id) 用于从 Map 对象中获取值&#xff0c;但它们的工作方式有所不同&#xff1a; map1[item.id]&#xff1a;这种方式用于普通对象&#xff08;Object&#xff09;&#xff0c;它将 item.id 作为键来获取对应的值…...

Microsoft Defender for Cloud自动化工具大全:49个PowerShell脚本深度解析

Microsoft Defender for Cloud自动化工具大全&#xff1a;49个PowerShell脚本深度解析 【免费下载链接】Microsoft-Defender-for-Cloud Welcome to the Microsoft Defender for Cloud community repository 项目地址: https://gitcode.com/gh_mirrors/mi/Microsoft-Defender-…...

给STM32加个‘U盘’:手把手教你用W25Q64 Flash芯片实现掉电不丢失的数据存储

给STM32加个‘U盘’&#xff1a;手把手教你用W25Q64 Flash芯片实现掉电不丢失的数据存储 在嵌入式系统开发中&#xff0c;数据存储一直是个让人头疼的问题。想象一下&#xff0c;你花了一周时间调试的传感器参数&#xff0c;因为一次意外断电全部丢失&#xff1b;或者精心收集的…...

GPT-Image-2 老是生成失败?完整排查和修复指南,5 个真根因逐个击破

GPT-Image-2 老是生成失败&#xff1f;完整排查和修复指南&#xff0c;5 个真根因逐个击破GPT-Image-2 的处理时间比文字模型长很多——高质量 1024px 需要 145-280 秒。大多数所谓的"生成失败"其实不是模型问题&#xff0c;而是网络链路&#xff08;CDN、反代、SDK&…...

【附C源码】循环队列的C语言实现

【附C源码】循环队列的C语言实现 队列作为基础数据结构之一&#xff0c;在操作系统调度、消息传递、广度优先搜索等场景中均有广泛应用。本文将探讨一种基于循环数组的队列实现方案&#xff0c;该方案在内存利用率和操作效率之间取得了较好的平衡。 设计思路 传统数组实现队列时…...

英伟达收购SwiftStack:AI时代从算力到数据管道的战略布局

1. 项目概述&#xff1a;一次战略收购的深度拆解最近在梳理科技巨头的战略动向时&#xff0c;一个几年前的老新闻——“英伟达收购SwiftStack”——重新进入了我的视野。乍一看&#xff0c;这似乎只是一次普通的商业并购&#xff0c;一个做GPU的巨头买下了一家名不见经传的软件…...

Odrive多线程架构实战:如何为你的无刷电机项目定制启动流程与状态机

Odrive多线程架构实战&#xff1a;如何为你的无刷电机项目定制启动流程与状态机 在无刷电机控制领域&#xff0c;Odrive凭借其开源特性和强大的性能表现&#xff0c;已成为众多硬件开发者的首选平台。但当你需要将这套系统集成到自己的机器人关节、CNC主轴或无人机推进系统中时…...

终极指南:Spring事务传播机制详解——7种行为+实战案例

终极指南&#xff1a;Spring事务传播机制详解——7种行为实战案例 【免费下载链接】CodeGuide :books: 本代码库是作者小傅哥多年从事一线互联网 Java 开发的学习历程技术汇总&#xff0c;旨在为大家提供一个清晰详细的学习教程&#xff0c;侧重点更倾向编写Java核心内容。如果…...

终极iOS弹窗解决方案SDCAlertView:10个强大功能超越系统UIAlertController

终极iOS弹窗解决方案SDCAlertView&#xff1a;10个强大功能超越系统UIAlertController 【免费下载链接】SDCAlertView The little alert that could 项目地址: https://gitcode.com/gh_mirrors/sd/SDCAlertView SDCAlertView是一款强大的iOS弹窗解决方案&#xff0c;它为…...

DotNext内存映射文件:高性能IO操作的终极解决方案

DotNext内存映射文件&#xff1a;高性能IO操作的终极解决方案 【免费下载链接】dotNext Next generation API for .NET 项目地址: https://gitcode.com/gh_mirrors/do/dotNext DotNext作为下一代.NET API&#xff0c;提供了强大的内存映射文件功能&#xff0c;为开发者带…...

Fast-Planner核心思想拆解:从B样条优化到时间重分配,如何让无人机飞得更快更稳?

Fast-Planner核心思想解析&#xff1a;从B样条优化到时间重分配的无人机高速运动规划 无人机在复杂环境中的高速飞行一直是运动规划领域的重大挑战。传统方法往往在速度提升后出现轨迹抖动或避障失效的问题&#xff0c;而Fast-Planner通过创新的算法架构实现了"又快又稳&q…...