当前位置: 首页 > news >正文

获取多个PDF文件的内容并保存到excel上


# shuang
# 开发时间:2023/12/9 22:03import pdfplumber
import re
import os
import pandas as pd
import datetimedef re_text(bt, text):# re 搜索正则匹配 包含re.compile包含的文字内容m1 = re.search(bt, text)if m1 is not None:return re_block(m1[0])return Nonedef re_block(text):# 去掉空格、中英文小括号、中文冒号变英文冒号;去掉中文全角空格return text.replace(' ', '').replace(' ', '').replace(')', '').replace(')', '').replace(':', ':')def get_pdf(dir_path):pdf_file = []for root, sub_dirs, file_names in os.walk(dir_path):for name in file_names:if name.endswith('.pdf'):filepath = os.path.join(root, name)pdf_file.append(filepath)return pdf_filedef read(xlsx_path, pdf_root):# 构建excel writer 写入器writer = pd.ExcelWriter(xlsx_path)# 如果字段不通用 则需要单独拎出来判断,这里我全部拎出来做了if判断all_fields = {"序号": [],"服务商": [],"车型": [],"上车日期": [],"上车时间": [],"城市": [],"起点": [],"终点": [],"金额(元)": [],}filenames = get_pdf(pdf_root)for filename in filenames:print(f"正在读取:{filename}")with pdfplumber.open(filename) as pdf:first_page = pdf.pages[0]pdf_text = first_page.extract_text()print(pdf_text)table = first_page.extract_tables()[0]# 纳税人识别号 购买方for (id, t) in enumerate(table):if id > 0:curr1 = t[0].split(' ')curr = []for item in curr1:curr.append(item.replace('\n', ''))# t_ = str(t).replace(" ", "")all_fields["序号"].append(curr[0])all_fields["服务商"].append(curr[1])all_fields["车型"].append(curr[2])all_fields["上车时间"].append(curr[3])all_fields["上车日期"].append(curr[4])all_fields["城市"].append(curr[5])all_fields["起点"].append(curr[6])all_fields["终点"].append(curr[7])if len(curr) > 8:all_fields["金额(元)"].append(curr[8])else:all_fields["金额(元)"].append(curr[7])df = pd.DataFrame(all_fields)df.to_excel(writer)writer._save()returnpdf_root = r"行程单"
now = datetime.datetime.now()
now = str(now).split(' ')[0]
print(now)
xlsx_path = f"行程单{now}.xlsx"read(xlsx_path, pdf_root)

相关文章:

获取多个PDF文件的内容并保存到excel上

# shuang # 开发时间:2023/12/9 22:03import pdfplumber import re import os import pandas as pd import datetimedef re_text(bt, text):# re 搜索正则匹配 包含re.compile包含的文字内容m1 re.search(bt, text)if m1 is not None:return re_block(m1[0])return…...

深入了解网络流量清洗--使用免费的雷池社区版进行防护

​ 随着网络攻击日益复杂,企业面临的网络安全挑战也在不断增加。在这个背景下,网络流量清洗成为了确保企业网络安全的关键技术。本文将探讨雷池社区版如何通过网络流量清洗技术,帮助企业有效应对网络威胁。 ![] 网络流量清洗的重要性&#x…...

【FFMPEG应用篇】基于FFmpeg的转码应用(FLV MP4)

方法声明 extern "C" //ffmpeg使用c语言实现的&#xff0c;引入用c写的代码就要用extern { #include <libavcodec/avcodec.h> //注册 #include <libavdevice/avdevice.h> //设备 #include <libavformat/avformat.h> #include <libavutil/…...

LInux初学之路linux的磁盘分区/远程控制/以及关闭图形界面/查看个人身份

虚拟机磁盘分配 hostname -I 查看ip地址 ssh root虚拟就ip 远程连接 win10之后才有 远程控制重新启动 reboot xshell 使用&#xff08;个人和家庭版 免费去官方下载&#xff09; init 3 关闭界面 减小内存使用空间 init 5 回复图形界面 runlevel显示的是状态 此时和上…...

Netty 介绍、使用场景及案例

Netty 介绍、使用场景及案例 1、Netty 介绍 https://github.com/netty/netty Netty是一个高性能、异步事件驱动的网络应用程序框架&#xff0c;用于快速开发可扩展的网络服务器和客户端。它是一个开源项目&#xff0c;最初由JBoss公司开发&#xff0c;现在由社区维护。Netty的…...

小游戏选型(一):游戏化设计助力直播间互动和营收

一、社交直播间小游戏火爆 大家好&#xff0c;作为一个技术宅和游戏迷&#xff0c;今天来聊聊近期爆火的社交直播间小游戏的潮流。喜欢冲浪玩社交产品的小伙伴会发现&#xff0c;近期各大平台都推出了直播间社交小游戏&#xff0c;直播间氛围火爆&#xff0c;小游戏玩法简单&a…...

社区嵌入式服务设施建设为社区居家养老服务供给增加赋能

近年来&#xff0c;沈阳市浑南区委、区政府牢记在辽宁考察时的重要指示精神&#xff0c;认真践行以人民为中心的发展思想&#xff0c;聚集“一老一小”民生关切&#xff0c;统筹推进以社区为骨干结点的养老服务探索实践。围绕“品质养老”民生服务理念&#xff0c;针对社区老年…...

SpringBoot请求参数加密、响应参数解密

SpringBoot请求参数加密、响应参数解密 1.说明 在项目开发工程中&#xff0c;有的项目可能对参数安全要求比较高&#xff0c;在整个http数据传输的过程中都需要对请求参数、响应参数进行加密&#xff0c;也就是说整个请求响应的过程都是加密处理的&#xff0c;不在浏览器上暴…...

Mysql适配国产化数据库人大金仓冲突记录

1、mysql中查询中如果使用双引号&#xff0c;在人大金仓数据库中不支持&#xff0c;需改为单引号 例如&#xff1a; select 字段A&#xff0c;字段B&#xff0c;字段C from tableA where 字段A "1" 改为&#xff1a; select 字段A&#xff0c;字段B&#xff0c;字段…...

在微服务架构中认证和授权的那些事儿

在微服务架构中认证和授权是最基础的服务能力&#xff0c;其中这一块行业类的标准就是OAuth2 和 SSO &#xff0c;而OAuth2 和 SSO 可以归类为“用户管理和身份验证”工具&#xff0c;OpenID Connect 1.0是 OAuth 2.0 协议之上的一个简单身份层。 Part.1 认识OAuth 2.0 OAuth…...

Git使用统一规范

为什么要统一git使用的风格&#xff1f; 统一的风格使我们在工作的时候无需考虑工作流程上该如何去做的问题&#xff0c;按照一个风格去做就好了每个人风格不同&#xff0c;格式凌乱&#xff0c;查看很不方便commit没有准确的message&#xff0c;后续难以追踪问题 git messag…...

如何在前端优化中处理大量的图像资源?

在前端优化中&#xff0c;处理大量的图像资源是一项重要的任务。由于图像占据了网站带宽的大部分&#xff0c;因此优化图像可以显著提高网站的性能和用户体验。下面将介绍一些在前端优化中处理大量图像资源的常见方法。 一、压缩图像 压缩图像是减少图像文件大小和优化图像的…...

【MYSQL】性能相关

SQL 语句的性能分析是一个非常重要的任务&#xff0c;尤其是在处理大数据时。下面是一些常用的 SQL 性能分析方法&#xff1a; 执行计划: 使用 EXPLAIN 命令来查看 SQL 语句的执行计划。这可以帮助你了解查询是如何被数据库执行的&#xff0c;从而发现可能的性能瓶颈。 注意&…...

【Jmeter之get请求传递的值为JSON体实践】

Jmeter之get请求传递的值为JSON体实践 get请求的常见传参方式 1、在URL地址后面拼接&#xff0c;有多个key和value时&#xff0c;用&链接 2、在Parameters里面加上key和value 第一次遇到value的值不是字符串也不是整型&#xff0c;我尝试把json放到value里面&#xff0…...

(1)(1.13) SiK无线电高级配置(六)

文章目录 前言 15 使用FTDI转USB调试线配置SiK无线电设备 16 强制启动加载程序模式 17 名词解释 前言 本文提供 SiK 遥测无线电(SiK Telemetry Radio)的高级配置信息。它面向"高级用户"和希望更好地了解无线电如何运行的用户。 15 使用FTDI转USB调试线配置SiK无线…...

用JAVA实现樱花飘落

用java实现一个樱花飘落的方法 package Text2;import javax.swing.*; import java.awt.*; import java.util.ArrayList; import java.util.List;public class Sakura extends JFrame {private List<Point> sakuraList; // 樱花的位置列表public Sakura() {sakuraList n…...

Web开发:SQLsugar的安装和使用

一、安装 第一步&#xff0c;在你的项目中找到解决方案&#xff0c;右键-管理解决方案的Nuget 第二步&#xff0c;下载对应的包&#xff0c;注意你的框架是哪个就下载哪个的包&#xff0c;一个项目安装一次包即可 点击应用和确定 安装好后会显示sqlsugar的包 二、使用&#xf…...

Redis面试题10

Redis 支持哪些数据结构&#xff1f; Redis 支持以下几种常用的数据结构&#xff1a; 字符串&#xff08;String&#xff09;&#xff1a;用于存储字符串值&#xff0c;可以是文本或二进制数据。 列表&#xff08;List&#xff09;&#xff1a;用于存储一个有序的字符串列表&am…...

arm64架构编译electron长征路

文章目录 1. gn工具生成1.1 问题,找不到last_commit_position.h文件问题描述如下:解决方法1.2 ninja文件不是对应架构问题问题描述:解决方法1.3 问题3:clang++找不到问题描述解决方法2. electron 编译参数生成2.1 下载对应版本debian_bullseye_arm64-sysroot错误描述...

建模软件Rhinoceros mac介绍说明

Rhinoceros mac是一款3D设计软件“犀牛”&#xff0c;在当今众多三维建模软件中&#xff0c;Rhinoceros 版因为其体积小、功能强大、对硬件要求低而广受欢迎&#xff0c;对于专业的3D设计人员来说它是一款不错的3D建模软件&#xff0c;Rhinoceros Mac中文版能轻易整合3DS MAX与…...

基于RP2040 PIO与CircuitPython的IBM Model F键盘USB转接方案

1. 项目概述&#xff1a;让经典IBM键盘在现代电脑上重生如果你和我一样&#xff0c;对老式机械键盘那种扎实、清脆的“咔嗒”声和独特手感念念不忘&#xff0c;同时又对它们无法直接插在现代电脑上感到惋惜&#xff0c;那么这个项目就是为你准备的。我最近从朋友的一堆旧物里淘…...

英雄联盟智能助手Seraphine:免费开源的战绩查询与BP辅助神器

英雄联盟智能助手Seraphine&#xff1a;免费开源的战绩查询与BP辅助神器 【免费下载链接】Seraphine 英雄联盟战绩查询工具 项目地址: https://gitcode.com/gh_mirrors/se/Seraphine 还在为错过对局接受而懊恼吗&#xff1f;还在BP阶段犹豫不决错失最佳英雄选择吗&#…...

大模型涌现能力:从原理到工程实践的探索与分类

1. 项目概述&#xff1a;从“玄学”到“科学”的涌现能力探索最近和几个做模型研发的朋友聊天&#xff0c;大家不约而同地提到了一个词&#xff1a;“涌现能力”。这个词听起来有点玄乎&#xff0c;像是某种不可预测的“魔法”&#xff0c;但当我们深入讨论时&#xff0c;发现它…...

2026年实测推荐:10款思维导图工具,开发者效率翻倍

作为技术博主&#xff0c;我常年用思维导图拆解需求、梳理架构、记录学习笔记。2026年&#xff0c;工具们卷出了新高度&#xff1a;AI辅助、白板一体化、实时协作成了标配。本文从开发者视角出发&#xff0c;实测了10款热门工具&#xff0c;帮你选出最适合的那把“瑞士军刀”。…...

电赛信号分析不止于FFT:用STM32F407的ADC-DMA与加窗技术提升THD测量稳定性的实操指南

电赛信号分析进阶&#xff1a;STM32F407的ADC-DMA与加窗技术实战 在电子设计竞赛的信号分析环节&#xff0c;许多队伍止步于基础的FFT实现&#xff0c;却忽略了采样质量与频谱处理对THD&#xff08;总谐波失真&#xff09;测量结果的深远影响。当你的系统已经能够输出波形和基础…...

Doramagic开源工具箱:开发者效率提升的模块化实践

1. 项目概述&#xff1a;Doramagic&#xff0c;一个为开发者打造的魔法工具箱最近在GitHub上闲逛&#xff0c;发现了一个挺有意思的项目&#xff0c;叫“tangweigang-jpg/Doramagic”。光看这个名字&#xff0c;可能有点摸不着头脑&#xff0c;但点进去一看&#xff0c;发现这其…...

开源AI助手插件:为HuluNote笔记软件集成智能文本处理与知识管理

1. 项目概述&#xff1a;一个为HuluNote设计的开源AI助手最近在GitHub上看到一个挺有意思的项目&#xff0c;叫openclaw-hulunote-assistant。光看这个名字&#xff0c;可能很多人会有点懵&#xff0c;这到底是干嘛的&#xff1f;简单来说&#xff0c;这是一个专门为笔记应用Hu…...

QtScrcpy终极指南:如何免费实现高清Android投屏与多设备控制

QtScrcpy终极指南&#xff1a;如何免费实现高清Android投屏与多设备控制 【免费下载链接】QtScrcpy Android实时投屏软件&#xff0c;此应用程序提供USB(或通过TCP/IP)连接的Android设备的显示和控制。它不需要任何root访问权限 项目地址: https://gitcode.com/barry-ran/QtS…...

开源AI代码助手本地化部署:从Cursor10x看私有化编程助手实践

1. 项目概述&#xff1a;当AI代码助手遇上开源社区如果你是一名开发者&#xff0c;最近可能频繁听到一个词&#xff1a;Cursor。这款集成了强大AI能力的代码编辑器&#xff0c;正以惊人的速度改变着许多人的编程习惯。它不再仅仅是一个文本编辑器&#xff0c;更像是一个能理解你…...

RePKG终极指南:解锁Wallpaper Engine资源包的专业工具

RePKG终极指南&#xff1a;解锁Wallpaper Engine资源包的专业工具 【免费下载链接】repkg Wallpaper engine PKG extractor/TEX to image converter 项目地址: https://gitcode.com/gh_mirrors/re/repkg 你是否曾经对Wallpaper Engine中精美的动态壁纸感到好奇&#xff…...