当前位置: 首页 > news >正文

pdf文档内容提取pdfplumber、PyPDF2


测试pdfplumber识别效果好些;另外pdf这两个如果超过20多页就没法识别了,结果为空

1、pdfplumber

安装:pip install pdfplumber -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com

代码:

import pdfplumberwith pdfplumber.open(r"C:\Users\loong\Downloads\数字人研究报告.pdf") as pdf:num_pages = len(pdf.pages)print(num_pages)for page_num in range(num_pages):page = pdf.pages[page_num]text = page.extract_text()print(text)

原内容
在这里插入图片描述
识别结果:
在这里插入图片描述

2、PyPDF2

安装:pip install PyPDF2

代码:

import PyPDF2
from tqdm import tqdmpdftext = ""
with open(r"C:\Users\loong\Desktop\杰创\大模型\杰创智能.pdf", "rb") as pdfFileObj:pdfReader = PyPDF2.PdfReader(pdfFileObj)for page in tqdm(pdfReader.pages):pdftext += page.extract_text()print(pdftext)

相关文章:

pdf文档内容提取pdfplumber、PyPDF2

测试pdfplumber识别效果好些;另外pdf这两个如果超过20多页就没法识别了,结果为空 1、pdfplumber 安装:pip install pdfplumber -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com代码: import pdfpl…...

运算符

目录 算术运算符 比较运算符 逻辑运算符 位运算符 运算符的优先级 MySQL从小白到总裁完整教程目录:https://blog.csdn.net/weixin_67859959/article/details/129334507?spm1001.2014.3001.5502 数据库中的表结构确立后,表中的数据代表的意义就已经确定。而…...

利用freesurfer6进行海马分割的环境配置和步骤,以及获取海马体积

利用freesurfer6进行海马分割的环境配置和步骤 Matlab Runtime 安装1. 运行recon-all:2. 利用 recon-all -s subj -hippocampal-subfields-T1 进行海马分割3. 结束后需要在/$SUBJECTS_DIR/subject/的文件夹/mri路径下输入下面的代码查看分割情况4. 在文件SUBJECTS_DIR路径下输…...

haproxy使用

haproxy使用 安装使用yum安装 配置文件global 全局配置Proxies配置Proxies配置-defaultsProxies配置-listen 简化配置 安装 社区版官网链接:http://www.haproxy.org CentOS 7 的默认的base仓库中包含haproxy的安装包文件,但是版本比较旧,是1…...

轻松实现时间录入自由!如何在Microsoft Word中轻松插入格式化的日期和时间

在文档中插入当前日期和时间有几个原因。你可能希望将其插入信函或页眉或页脚中。无论是什么原因,Word都可以轻松地将日期和时间插入文档。 如果希望在打开或打印文档时自动更新日期和时间,可以将其作为自动更新的字段插入。该字段也可以随时手动更新。…...

【排序算法】选择排序

文章目录 一:基本介绍1.1 概念1.2 算法思想1.3 思路分析图1.4 思路分析1.5 总结1.5.1 选择排序一共有数组大小-1轮排序1.5.2 每一轮排序,又是一个循环,循环的规则如下(在代码中实现): 二:代码实…...

Netty深入浅出(无处不在的IO)

为什么要有Netty Netty是为了解决网络编程的复杂性和提供易于使用、高性能和可扩展的框架而开发的。它通过提供一组可重用的组件来处理网络通信的低级细节,例如套接字管理、线程和缓冲,简化了开发网络应用程序的过程。这使开发人员可以专注于应用程序逻…...

华为C语言编程规范(2W字总结)

1、代码总体原则 1、清晰第一 清晰性是易于维护、易于重构的程序必需具备的特征。代码首先是给人读的,好的代码应当可以像文章一样发声朗诵出来。 目前软件维护期成本占整个生命周期成本的40%~90%。根据业界经验,维护期变更代码的成本,小型…...

操作系统学习笔记2

参考视频:操作系统 文章目录 1、进程管理逻辑图2、进程的由来3、进程引发的问题4、进程与程序的区别5、进程的特征6、进程的组织7、进程的状态与控制8、进程间的通信9、三级调度10、FCFS算法调度过程11、时间片轮转算法调度过程12、短作业有优先算法调度过程13、优…...

KylinOSv10系统k8s集群启动mysql5.7占用内存高的问题

问题现象 麒麟系统搭建k8s集群 mysql的pod启动失败 describe查看ommkill,放大limit资源限制到30G依旧启动失败 系统 报错信息 原因 内存占用太高 open_files_limit初始化太高 解决: 1、更换镜像 链接: https://pan.baidu.com/s/1b9uJLcc5Os0uDqD1e…...

c语言练习84:动态内存管理

动态内存管理 例题&#xff1a; 错误代码&#xff1a; #include<stdio.h> #include<stdlib.h> void GetMemory(char* p) {p (char*)malloc(100); } void Test(void) {char* str NULL;GetMemory(str);strcpy(str, "hello world");printf(str); } int …...

[Go版]设计模式——Template模版方法模式

目录 模板方法&#xff08;Template Method&#xff09;模式的说明核心思想设计优点 Go语言实现该模式的示例代码 模板方法&#xff08;Template Method&#xff09;模式的说明 核心思想 定义一个算法的骨架&#xff0c;将一些步骤的实现延迟到子类。 设计优点 将通用的模版…...

数据结构 | (四) Queue

队列 &#xff1a;只允许在一端进行插入数据操作&#xff0c;在另一端进行删除数据操作的特殊线性表&#xff0c;队列具有先进先出 FIFO(First In First Out) 入队列&#xff1a;进行插入操作的一端称为 队尾&#xff08; Tail/Rear &#xff09; 出队列&#xff1a;进行删除操…...

让照片人物开口说话,SadTalker 安装及使用(避坑指南)

AI技术突飞猛进&#xff0c;不断的改变着人们的工作和生活。数字人直播作为新兴形式&#xff0c;必将成为未来趋势&#xff0c;具有巨大的、广阔的、惊人的市场前景。它将不断融合创新技术和跨界合作&#xff0c;提供更具个性化和多样化的互动体验&#xff0c;成为未来的一种趋…...

系统架构设计:6 论软件质量保证及其应用

目录 一 软件质量保证SQA 1 制定SQA计划 2 参与但不负责开发项目的软件过程描述 3 评审...

vscode的窗口下拉显示行数不够

这是为了减少程序的空间占用而存在的一个设置。设置一下即可。 设置方法 在左上角文件&#xff0c;个人设置&#xff0c;设置中&#xff0c;&#xff08;或者用Ctrl&#xff0c;打开&#xff09; 输入terminal&#xff0c;找到bell duration&#xff0c;设置成1000。 参考…...

Linux UWB Stack实现——MCPS调度接口(数据结构)

MCPS&#xff08;MAC Common Part Sublayer&#xff0c;媒介访问控制&#xff08;Medium Access Control&#xff09;公共部分子层&#xff09;调度接口&#xff0c;文件&#xff1a;include\net\mcps802154_schedule.h。 MCPS访问方法 // MCPS 802154 访问方法 enum mcps8021…...

2023Q3数据安全政策、法规、标准及报告汇总(附下载)

数据安全处罚事件逐年升高&#xff0c;2023年呈爆发式增长。 截至2023年8月31日&#xff0c;南都大数据研究院通过各地行政执法公示平台、媒体报道等公开渠道收集到146起依据《数据安全法》作出行政处罚决定的案例。2021年公示5起&#xff0c;2022年公示11起&#xff0c;2023年…...

Ceph入门到精通-iptables 限制多个ip 的多个端口段访问

要使用iptables限制多个IP的多个端口范围的访问&#xff0c;可以使用以下命令&#xff1a; iptables -A INPUT -p tcp -m multiport --dports 端口段 -m iprange --src-range 起始IP-结束IP -j DROP上面的命令将添加一条规则到INPUT链中&#xff0c;该规则将禁止指定IP范围访问…...

【C/C++】STL——深度剖析vector容器

​&#x1f47b;内容专栏&#xff1a; C/C编程 &#x1f428;本文概括&#xff1a;vector的介绍与使用、深度剖析及模拟实现。 &#x1f43c;本文作者&#xff1a; 阿四啊 &#x1f438;发布时间&#xff1a;2023.10.8 一、vector的介绍与使用 1. vector的介绍 像string的学习…...

MaxENT模型结果美化不求人:手把手教你用MATLAB自定义ROC与Omission曲线样式(附配色方案)

MaxENT模型结果可视化进阶&#xff1a;MATLAB定制化ROC与Omission曲线全攻略 科研图表的美观程度直接影响论文的发表成功率。许多生态学研究者在使用MaxENT进行物种分布建模时&#xff0c;常对默认生成的HTML报告图表样式感到不满——单调的配色、缺乏细节的线条以及不符合期刊…...

Optisystem仿真案例5-三种调制格式的FSO空间自由光通信系统 内容:搭建了OOK、P...

Optisystem仿真案例5-三种调制格式的FSO空间自由光通信系统 内容&#xff1a;搭建了OOK、PPM、BPSK基本结构的三种调制格式的FSO空间自由光通信系统 形式&#xff1a;程序&#xff0b;附带解析 最近在搞FSO通信仿真&#xff0c;试了三种不同的调制格式——OOK、PPM、BPSK&…...

Stata实操:用GARCH模型预测沪深300波动率,手把手教你从数据清洗到结果解读

Stata金融实战&#xff1a;从沪深300数据到GARCH波动率预测全流程解析 沪深300指数作为中国股市的风向标&#xff0c;其波动率预测对风险管理至关重要。去年一位私募基金研究员曾向我展示过他们的发现&#xff1a;当使用GARCH模型捕捉到波动率聚集特征时&#xff0c;对冲策略的…...

高性能Python爬虫数据预处理流水线:PyTorch 2.8与Dask并行计算实战

高性能Python爬虫数据预处理流水线&#xff1a;PyTorch 2.8与Dask并行计算实战 1. 爬虫数据处理的现实挑战 每天都有海量数据从互联网上被爬取下来&#xff0c;但很少有人告诉你这些原始数据有多"脏"。我曾经接手过一个电商评论分析项目&#xff0c;原始数据里混杂…...

Windows右键菜单终极清理指南:3步让你的右键菜单重获新生

Windows右键菜单终极清理指南&#xff1a;3步让你的右键菜单重获新生 【免费下载链接】ContextMenuManager &#x1f5b1;️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 还在为每次右键点击文件时弹出的杂乱菜单而…...

多功能 PEG 衍生物 Ergosterol-PEG-MAL,Ergosterol-PEG-Maleimide详解

试剂基本信息中文名称&#xff1a;麦角固醇-聚乙二醇-马来酰亚胺英文名称&#xff1a;Ergosterol-PEG-MAL&#xff0c;Ergosterol-PEG-Maleimide分子量&#xff1a;0.4k&#xff0c;0.6k&#xff0c;1k&#xff0c;2k&#xff0c;3.4k&#xff0c;5k&#xff0c;10k&#xff0c…...

ai辅助开发新体验:在快马平台用对话创建智能天气应用

最近在做一个天气应用的小项目时&#xff0c;遇到了一个很实际的问题&#xff1a;GitHub经常打不开&#xff0c;导致想参考的开源代码库无法访问。这时候&#xff0c;我发现InsCode(快马)平台的AI辅助开发功能简直是个救星&#xff0c;完全改变了我的开发方式。 需求分析阶段 以…...

ssh远程登录的时候同一个秘钥可以用于多个不同服务器

可以看到&#xff1a;这2台服务器使用了同一个秘钥&#xff0c;现在都可以正常登录&#xff1a;可以看出来第二个云服务器有安全更新没有激活赶快要更新了。...

1.6.2 掌握Scala数据结构 - 列表

本次实战深入讲解了Scala中不可变列表与可变列表的核心操作。首先&#xff0c;详细演示了不可变列表的创建与元素添加&#xff0c;重点强调了其不可变特性——任何添加或合并操作&#xff08;如::、&#xff09;都会生成新列表而不改变原列表。接着&#xff0c;介绍了可变列表L…...

GKD规则分享功能:导出与导入自动化配置的实用技巧

GKD规则分享功能&#xff1a;导出与导入自动化配置的实用技巧 GKD作为一款强大的Android自动化工具&#xff0c;其规则分享功能让用户能够轻松导出和导入精心配置的自动化规则。无论是备份个人设置还是分享给朋友&#xff0c;这个功能都能大幅提升使用效率&#xff01;&#x…...