txt、pdf等文件转为一行一行的doccano数据集输入格式
文章目录
- doccano 数据集导入
- 简介
- 代码实现
- 代码运行结果
- 代码公开
doccano 数据集导入

在Doccano 导入数据集时,使用TextLine的文件格式,导入的文件需要为一行一行文本的数据格式,每一行文本在导入Doccano后就是一条数据。
简介
主要工作说明:把pdf转成txt文件,在txt文件中,根据句号把文本分隔成一行一行文本,从而实现把pdf转换成doccano标注格式。
提供了两个文件转换功能:
- pdf转txt;
- txt转doccano的TextLine的文件格式;
下述是具体的函数说明:
trans_pdf_text: 实现把pdf转成txt文件,is_delete_page=True删除PDF的页码;
trans_folder_pdf2txt(prov, output_folder='pdf2txt'): 实现把prov文件夹下的所有pdf转成txt文件,存储到output_folder文件夹下;
cut_txt2sents(input_file, output_file, *args):
使用split('。')把文本切分成列表,args使用filters.py中的过滤函数进行过滤。
主要使用get_length_filter
代码实现
filters.py的代码如下:
def contains_digit_filters(sentence):"""判断句子中是否包含数字"""for char in sentence:if char.isdigit():return Truereturn Falsedef get_length_filter(bottom_len=8, top_len=1e3):"""文本长度过滤器,返回一个过滤器,用于筛选出文本长度在bottom_len与top_len之间的句子"""def _length_filter(text):if bottom_len <= len(text) <= top_len:return Truereturn Falsereturn _length_filterdef catalog_filter(text):"""过滤章节,识别到章节则返回False,删除掉:param text::return:"""text = text.strip()head = text[:5]if '第' == head[0]:if '章' in head or '节' in head or '篇' in head:return Falsereturn Truedef title_filter(text):if len(text) <= 45:if '国民经济和社会发展' in text and '五年规划' in text:return Falsereturn True
过滤器说明:
get_length_filter(bottom_len=8, top_len=1e3):
筛选长度在bottom_len与top_len之间的文本,bottom_len筛选掉长度太短的文本,top_len可筛选掉文本的目录。
下面是主要代码:
import os
import re
from filters import get_length_filter, title_filter"""
pdf -> txt
txt -> doccano
"""def delete_page_num(text):"""删除页码:param text::return:"""page_nums = [r'\n- \d+ -( *?)\n',r'\n— \d+ —( *?)+\n',r'\n\d+( *?)\n',r'\nI+( *?)\n',]patterns = [re.compile(pattern) for pattern in page_nums]for pattern in patterns:text = pattern.sub('', text)return textdef trans_pdf_text(input_file, output_file, is_delete_page=True):"""把pdf文件转为txt,删除页码,保存到output_file:param input_file::param output_file::param is_delete_page::return:"""import fitzpdf_file = fitz.open(input_file) # pdf_path是PDF文件的路径res = []for i in range(len(pdf_file)):page = pdf_file.load_page(i)res.append(page.get_text())text = ''.join(res)if is_delete_page:text = delete_page_num(text)with open(output_file, 'w') as f:f.write(text)def trans_folder_pdf2txt(prov, output_folder='pdf2txt'):"""把某目录下pdf文件转为txt,方便预览和手动修改:return:"""filenames = list(filter(lambda x: x.endswith('.pdf'),os.listdir(prov)))if not os.path.exists(p := os.path.join(output_folder, prov)):os.mkdir(p)for filename in filenames:filename = os.path.join(prov, filename)output_file = os.path.join(output_folder, filename.replace('.pdf', '.txt'))trans_pdf_text(filename,output_file)def cut_txt2sents(input_file, output_file, *args):"""这部分处理由pdf转的txt文件,再将txt文本按照句号。切分由于pdf转的txt文件,其文件内容很乱,需要进行一些处理* args: 过滤器针对句子的过滤器"""# 删除 delete_list = ['\xa0', '\t', '\u3000',' ', '', ' ', ' ', '','目\n录\n', '\n']if input_file.endswith('.txt'):with open(input_file, 'r', encoding='utf-8') as f:text = f.read()for char in delete_list:text = text.replace(char, '')text = text.replace(';', '。')text = text.replace(';', '。')## 本来按照\n切分最好,但是pdf转txt后,其中包含很多的\n,所以无法使用\n提前切分# texts = text.split('\n')# for text in texts:# data.extend(text.split('。'))data = text.split('。')# 过滤器for arg in args:data = filter(arg, data)with open(output_file, 'w') as f:f.write('\n'.join(data))def trans_folder_txt2doccano(input_folder, output_folder, *filter_funcs):"""把某目录下的txt文件转为doccano格式针对一整个文件夹内的文件,批量操作):return:"""filenames = list(filter(lambda x: x.endswith('.txt'),os.listdir(input_folder)))if not os.path.exists(output_folder):os.mkdir(output_folder)for filename in filenames:cut_txt2sents(os.path.join(input_folder, filename),os.path.join(output_folder, filename),*filter_funcs)trans_folder_txt2doccano(os.path.join(pdf_txt_folder, prov),os.path.join('doccano', prov),get_length_filter(8, 200),title_filter)trans_folder_txt2doccano(prov, f'doccano/{prov}',get_length_filter(8, 200))
代码运行结果
原始文件夹介绍:
湖北省: 存放原始文件,里面有一些pdf文件和txt文件;
pdf2txt: 存放pdf转txt的结果,若希望修改可以手动修改;
doccano: 最终的doccano TextLine 输入格式的文件;

pdf_txt_folder = 'pdf2txt'
prov = '湖北省'
trans_folder_pdf2txt(prov, pdf_txt_folder)
上述代码实现把湖北省文件夹下的pdf文件转成txt文件,并保存到pdf2txt文件夹下,程序运行结果如下:

pdf2txt/湖北省/鄂州市国民经济和社会发展第十四个五年规划和二〇三五年远景目标纲要.txt:
在pdf转txt后的文件中,包含有目录信息。

下述代码实现把pdf2txt/湖北省和湖北省文件夹下的txt文件,转换为doccano输入格式,转换结果存储在doccano文件夹下
trans_folder_txt2doccano(os.path.join(pdf_txt_folder, prov),os.path.join('doccano', prov),get_length_filter(8, 200),title_filter
)trans_folder_txt2doccano(prov, f'doccano/{prov}',get_length_filter(8, 200)
)

在txt转为doccano标注格式的过程中:
get_length_filter(8, 200):使用文件长度过滤器,只保留文本长度在8到200之间的文本;如下图所示,对比上图,利用长度过滤器删除掉了目录。

代码公开
- 链接: https://pan.baidu.com/s/1x_o70B9VJVg07VPxyMdubQ?pwd=ryku 提取码: ryku
在百度网盘中,包含了湖北省文件夹下的pdf和txt文件。 - https://github.com/JieShenAI/csdn/tree/main/24/03/pdf_txt_doccano
只有代码,不包括pdf和txt文件;
相关文章:
txt、pdf等文件转为一行一行的doccano数据集输入格式
文章目录 doccano 数据集导入简介代码实现代码运行结果代码公开 doccano 数据集导入 在Doccano 导入数据集时,使用TextLine的文件格式,导入的文件需要为一行一行文本的数据格式,每一行文本在导入Doccano后就是一条数据。 简介 主要工作说明…...
java Flink(四十二)Flink的序列化以及TypeInformation介绍(源码分析)
Flink的TypeInformation以及序列化 TypeInformation主要作用是为了在 Flink系统内有效地对数据结构类型进行管理,能够在分布式计算过程中对数据的类型进行管理和推断。同时基于对数据的类型信息管理,Flink内部对数据存储也进行了相应的性能优化。 Flin…...
社科赛斯考研:二十二载岁月铸辉煌,穿越周期的生命力之源
在考研培训行业的浩瀚海洋中,社科赛斯考研犹如一艘稳健的巨轮,历经二十二载风礼,依然破浪前行。在考研市场竞争白热化与学生对于考研机构要求越来越高的双重影响下,社科赛斯考研却以一种分蘖成长的姿态,扎根、壮大&…...
【视频图像取证篇】模糊图像增强技术之锐化类滤波场景应用小结
【视频图像取证篇】模糊图像增强技术之锐化类滤波场景应用小结 模糊图像增强技术之锐化类滤波场景应用小结—【蘇小沐】 (一)锐化类滤波器 模糊消除类滤波器(Remove blur / Unsharpness)。 通用去模糊滤波器:针对大…...
win10 禁止谷歌浏览器自动更新(操作贼简单)
禁止谷歌浏览器自动更新 (1)修改 "C:\Windows\System32\drivers\etc\hosts 文件,在最后增加 127.0.0.1 update.googleapis.com(2)保存后,winr 快捷键,输入cmd ,打开命令行 &am…...
LeetCode每日一题【24. 两两交换链表中的节点】
思路:先创建虚拟头结点,再用双指针,两两交换 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {}* ListNode(int x) : val(x), next(nullptr…...
jeecg启动Sentinel 一直是空白页面 解决办法用 外部 Sentinel SpringCloud之Sentinel概述和安装及简单整合
jeecg启动Sentinel 一直是空白页面 解决办法用 外部 Sentinel SpringCloud之Sentinel概述和安装及简单整合 文章目录 jeecg启动Sentinel 一直是空白页面 解决办法用 外部 Sentinel SpringCloud之Sentinel概述和安装及简单整合 Sentinel概述基本介绍 Sentinel安装下载地址: http…...
易基因:人类大脑的单细胞DNA甲基化和3D基因组结构|Science
大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 高通通量表观基因组分析技术可用于阐明大脑中细胞复杂性的基因调控程序。5-甲基胞嘧啶 (5mCs)是哺乳动物基因组中最常见的修饰碱基,大多数5mCs发生在胞嘧啶-鸟嘌呤二核苷酸&a…...
Nginx中设置反向代理
在Nginx中设置反向代理,你需要使用proxy_pass指令。以下是一个简单的配置示例,它将Nginx配置为反向代理,将进入的流量转发到在本地运行的Web服务器上。 nginx http { server { listen 80; location / {proxy_pass http://localhost:8080;pro…...
无线局域网——wlan
目录 一.wlan的含义和发展 二.wlan技术带来的挑战 1.企业办公场景多样 2.位置速度的要求 3.安全的要求 4.规范的挑战 三.家庭和企业不同的部署需求 1.胖AP模式组网 2.AC瘦AP模式组网 3.组网模式的不同 四.三层隧道转发实验 1.拓扑 2.AP上线 核心交换机vlan 编辑…...
ASP.NET 服务器控件
目录 一、使用的软件 1、下载 2、新建文件(写一个简单的web网页) 二、相关知识点 1、Web窗体网页的组件 (1)可视化组件 (2)用户接口逻辑 2、Web Form网页的代码模型 (1)单文件…...
[数据集][目标检测]麻雀检测数据集VOC+YOLO格式1157张1类别
数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):1157 标注数量(xml文件个数):1157 标注数量(txt文件个数):1157 标注…...
嵌入式学习第二十九天!(数据结构的概念、单向链表)
数据结构: 1. 定义: 一组用来保存一种或者多种特定关系的数据的集合(组织和存储数据) 1. 程序设计: 将现实中大量而复杂的问题以特定的数据类型和特定的数据结构存储在内存中,并在此基础上实现某个特定的功…...
【ZooKeeper】2、安装
本文基于 Apache ZooKeeper Release 3.7.0 版本书写 作于 2022年3月6日 14:22:11 转载请声明 下载zookeeper安装包 wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.7.0/apache-zookeeper-3.7.0-bin.tar.gz解压 tar -zxvf apache-zookeeper-3.7.0-b…...
通过Pytest 多数据库连接实例了解Python工厂模式与单例模式的区别
1. 前言 在做自动化测试时,有些特殊项目需要连接不同的数据库进行造数或者断言。自动化框架中,一般使用Pytest yaml 数据驱动的居多,如果一个项目中有上百条数据库相关测试用例,在数据库测试时,如果设计不合理的连接模…...
超拟人语音合成上线,打造有温度的交互新体验
语言使得人类可以构建共同想象的现实,即共同的信念,从而进行大规模团结合作,这是认知革命赋予人类力量的核心。在《人类简史》中,语言被描述成为人类进化的关键力量,而语音的能力是推动语言逐渐进化的火花。 人工智能…...
word 及PPT 中修改公式字体
主要参考: 1.word修改公式默认字体并打出漂亮公式_word 公式 字体-CSDN博客 2.word 使用数学公式字体 在2中 提供的 链接下载字体,或者可以在这里直接下载,下载链接: https://www.lanzoub.com/iNt3g1rs3w0h 密码:a52p 然后按…...
将数据转换成xml格式的文档并下载
现在有一个实体类对象的集合,需要将它们转换为xml文档,xml文档就是标签集合的嵌套,例如一个学生类,有姓名、年龄等,需要转换成一下效果: <student><age>14</age><name>张三</na…...
深入理解与实践AB测试:从理论到实战案例解析
一、引言 在互联网产品优化和运营策略制定中,AB测试(也称为分组测试或随机化对照实验)是一种科学且严谨的方法。它通过将用户群体随机分配至不同的实验组(通常是A组和B组),对比不同版本的产品或策略对关键…...
flask之请求钩子
请求钩子是通过装饰器的形式实现,Flask支持如下四种请求钩子: 1、before_first_request: 在第一次请求处理之前先被执行 2、before_request: 在每次请求前执行 3、after_request: 在每次请求处理之后被执行 接受一个参数:视图函数的响应在…...
深入剖析AI大模型:大模型时代的 Prompt 工程全解析
今天聊的内容,我认为是AI开发里面非常重要的内容。它在AI开发里无处不在,当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗",或者让翻译模型 "将这段合同翻译成商务日语" 时,输入的这句话就是 Prompt。…...
Prompt Tuning、P-Tuning、Prefix Tuning的区别
一、Prompt Tuning、P-Tuning、Prefix Tuning的区别 1. Prompt Tuning(提示调优) 核心思想:固定预训练模型参数,仅学习额外的连续提示向量(通常是嵌入层的一部分)。实现方式:在输入文本前添加可训练的连续向量(软提示),模型只更新这些提示参数。优势:参数量少(仅提…...
C++:std::is_convertible
C++标志库中提供is_convertible,可以测试一种类型是否可以转换为另一只类型: template <class From, class To> struct is_convertible; 使用举例: #include <iostream> #include <string>using namespace std;struct A { }; struct B : A { };int main…...
IGP(Interior Gateway Protocol,内部网关协议)
IGP(Interior Gateway Protocol,内部网关协议) 是一种用于在一个自治系统(AS)内部传递路由信息的路由协议,主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...
《Playwright:微软的自动化测试工具详解》
Playwright 简介:声明内容来自网络,将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具,支持 Chrome、Firefox、Safari 等主流浏览器,提供多语言 API(Python、JavaScript、Java、.NET)。它的特点包括&a…...
《通信之道——从微积分到 5G》读书总结
第1章 绪 论 1.1 这是一本什么样的书 通信技术,说到底就是数学。 那些最基础、最本质的部分。 1.2 什么是通信 通信 发送方 接收方 承载信息的信号 解调出其中承载的信息 信息在发送方那里被加工成信号(调制) 把信息从信号中抽取出来&am…...
【Java_EE】Spring MVC
目录 Spring Web MVC 编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递 注意事项 编辑参数重命名 RequestParam 编辑编辑传递集合 RequestParam 传递JSON数据 编辑RequestBody …...
VM虚拟机网络配置(ubuntu24桥接模式):配置静态IP
编辑-虚拟网络编辑器-更改设置 选择桥接模式,然后找到相应的网卡(可以查看自己本机的网络连接) windows连接的网络点击查看属性 编辑虚拟机设置更改网络配置,选择刚才配置的桥接模式 静态ip设置: 我用的ubuntu24桌…...
基于江科大stm32屏幕驱动,实现OLED多级菜单(动画效果),结构体链表实现(独创源码)
引言 在嵌入式系统中,用户界面的设计往往直接影响到用户体验。本文将以STM32微控制器和OLED显示屏为例,介绍如何实现一个多级菜单系统。该系统支持用户通过按键导航菜单,执行相应操作,并提供平滑的滚动动画效果。 本文设计了一个…...
React核心概念:State是什么?如何用useState管理组件自己的数据?
系列回顾: 在上一篇《React入门第一步》中,我们已经成功创建并运行了第一个React项目。我们学会了用Vite初始化项目,并修改了App.jsx组件,让页面显示出我们想要的文字。但是,那个页面是“死”的,它只是静态…...
