当前位置：首页 > news >正文

txt、pdf等文件转为一行一行的doccano数据集输入格式

news 2026/5/31 19:20:39

文章目录

- doccano 数据集导入
- 简介
- 代码实现
- 代码运行结果
- 代码公开

doccano 数据集导入

在这里插入图片描述

在Doccano 导入数据集时，使用TextLine的文件格式，导入的文件需要为一行一行文本的数据格式，每一行文本在导入Doccano后就是一条数据。

简介

主要工作说明：把pdf转成txt文件，在txt文件中，根据句号把文本分隔成一行一行文本，从而实现把pdf转换成doccano标注格式。
提供了两个文件转换功能：

pdf转txt；
txt转doccano的TextLine的文件格式；

下述是具体的函数说明：
trans_pdf_text: 实现把pdf转成txt文件，is_delete_page=True删除PDF的页码；

trans_folder_pdf2txt(prov, output_folder='pdf2txt'): 实现把prov文件夹下的所有pdf转成txt文件，存储到output_folder文件夹下；

cut_txt2sents(input_file, output_file, *args):
使用split('。')把文本切分成列表，args使用filters.py中的过滤函数进行过滤。
主要使用get_length_filter

代码实现

filters.py的代码如下：

def contains_digit_filters(sentence):"""判断句子中是否包含数字"""for char in sentence:if char.isdigit():return Truereturn Falsedef get_length_filter(bottom_len=8, top_len=1e3):"""文本长度过滤器，返回一个过滤器，用于筛选出文本长度在bottom_len与top_len之间的句子"""def _length_filter(text):if bottom_len <= len(text) <= top_len:return Truereturn Falsereturn _length_filterdef catalog_filter(text):"""过滤章节，识别到章节则返回False，删除掉:param text::return:"""text = text.strip()head = text[:5]if '第' == head[0]:if '章' in head or '节' in head or '篇' in head:return Falsereturn Truedef title_filter(text):if len(text) <= 45:if '国民经济和社会发展' in text and '五年规划' in text:return Falsereturn True

过滤器说明：

get_length_filter(bottom_len=8, top_len=1e3):
筛选长度在bottom_len与top_len之间的文本，bottom_len筛选掉长度太短的文本，top_len可筛选掉文本的目录。

下面是主要代码：

import os
import re
from filters import get_length_filter, title_filter"""
pdf -> txt
txt -> doccano
"""def delete_page_num(text):"""删除页码:param text::return:"""page_nums = [r'\n- \d+ -( *?)\n',r'\n— \d+ —( *?)+\n',r'\n\d+( *?)\n',r'\nI+( *?)\n',]patterns = [re.compile(pattern) for pattern in page_nums]for pattern in patterns:text = pattern.sub('', text)return textdef trans_pdf_text(input_file, output_file, is_delete_page=True):"""把pdf文件转为txt，删除页码，保存到output_file:param input_file::param output_file::param is_delete_page::return:"""import fitzpdf_file = fitz.open(input_file)  # pdf_path是PDF文件的路径res = []for i in range(len(pdf_file)):page = pdf_file.load_page(i)res.append(page.get_text())text = ''.join(res)if is_delete_page:text = delete_page_num(text)with open(output_file, 'w') as f:f.write(text)def trans_folder_pdf2txt(prov, output_folder='pdf2txt'):"""把某目录下pdf文件转为txt，方便预览和手动修改:return:"""filenames = list(filter(lambda x: x.endswith('.pdf'),os.listdir(prov)))if not os.path.exists(p := os.path.join(output_folder, prov)):os.mkdir(p)for filename in filenames:filename = os.path.join(prov, filename)output_file = os.path.join(output_folder, filename.replace('.pdf', '.txt'))trans_pdf_text(filename,output_file)def cut_txt2sents(input_file, output_file, *args):"""这部分处理由pdf转的txt文件，再将txt文本按照句号。切分由于pdf转的txt文件，其文件内容很乱，需要进行一些处理* args: 过滤器针对句子的过滤器"""# 删除  delete_list = ['\xa0', '\t', '\u3000',' ', '', ' ', ' ', '','目\n录\n', '\n']if input_file.endswith('.txt'):with open(input_file, 'r', encoding='utf-8') as f:text = f.read()for char in delete_list:text = text.replace(char, '')text = text.replace(';', '。')text = text.replace('；', '。')## 本来按照\n切分最好，但是pdf转txt后，其中包含很多的\n，所以无法使用\n提前切分# texts = text.split('\n')# for text in texts:#     data.extend(text.split('。'))data = text.split('。')# 过滤器for arg in args:data = filter(arg, data)with open(output_file, 'w') as f:f.write('\n'.join(data))def trans_folder_txt2doccano(input_folder, output_folder, *filter_funcs):"""把某目录下的txt文件转为doccano格式针对一整个文件夹内的文件，批量操作):return:"""filenames = list(filter(lambda x: x.endswith('.txt'),os.listdir(input_folder)))if not os.path.exists(output_folder):os.mkdir(output_folder)for filename in filenames:cut_txt2sents(os.path.join(input_folder, filename),os.path.join(output_folder, filename),*filter_funcs)trans_folder_txt2doccano(os.path.join(pdf_txt_folder, prov),os.path.join('doccano', prov),get_length_filter(8, 200),title_filter)trans_folder_txt2doccano(prov, f'doccano/{prov}',get_length_filter(8, 200))

代码运行结果

原始文件夹介绍：

湖北省: 存放原始文件，里面有一些pdf文件和txt文件；
pdf2txt: 存放pdf转txt的结果，若希望修改可以手动修改；
doccano: 最终的doccano TextLine 输入格式的文件；
在这里插入图片描述

pdf_txt_folder = 'pdf2txt'
prov = '湖北省'
trans_folder_pdf2txt(prov, pdf_txt_folder)

上述代码实现把湖北省文件夹下的pdf文件转成txt文件，并保存到pdf2txt文件夹下，程序运行结果如下：
在这里插入图片描述
pdf2txt/湖北省/鄂州市国民经济和社会发展第十四个五年规划和二〇三五年远景目标纲要.txt:
在pdf转txt后的文件中，包含有目录信息。

下述代码实现把pdf2txt/湖北省和湖北省文件夹下的txt文件，转换为doccano输入格式，转换结果存储在doccano文件夹下

trans_folder_txt2doccano(os.path.join(pdf_txt_folder, prov),os.path.join('doccano', prov),get_length_filter(8, 200),title_filter
)trans_folder_txt2doccano(prov, f'doccano/{prov}',get_length_filter(8, 200)
)

在这里插入图片描述
在txt转为doccano标注格式的过程中：
get_length_filter(8, 200)：使用文件长度过滤器，只保留文本长度在8到200之间的文本；如下图所示，对比上图，利用长度过滤器删除掉了目录。

代码公开

链接: https://pan.baidu.com/s/1x_o70B9VJVg07VPxyMdubQ?pwd=ryku 提取码: ryku
在百度网盘中，包含了湖北省文件夹下的pdf和txt文件。
https://github.com/JieShenAI/csdn/tree/main/24/03/pdf_txt_doccano
只有代码，不包括pdf和txt文件；

txt、pdf等文件转为一行一行的doccano数据集输入格式

文章目录

doccano 数据集导入

简介

代码实现

代码运行结果

代码公开

相关文章：

txt、pdf等文件转为一行一行的doccano数据集输入格式

java Flink（四十二）Flink的序列化以及TypeInformation介绍（源码分析）

社科赛斯考研：二十二载岁月铸辉煌，穿越周期的生命力之源

【视频图像取证篇】模糊图像增强技术之锐化类滤波场景应用小结

win10 禁止谷歌浏览器自动更新(操作贼简单)

LeetCode每日一题【24. 两两交换链表中的节点】

jeecg启动Sentinel 一直是空白页面解决办法用外部 Sentinel SpringCloud之Sentinel概述和安装及简单整合

易基因：人类大脑的单细胞DNA甲基化和3D基因组结构｜Science

Nginx中设置反向代理

无线局域网——wlan

ASP.NET 服务器控件

[数据集][目标检测]麻雀检测数据集VOC+YOLO格式1157张1类别

嵌入式学习第二十九天！（数据结构的概念、单向链表）

【ZooKeeper】2、安装

通过Pytest 多数据库连接实例了解Python工厂模式与单例模式的区别

超拟人语音合成上线，打造有温度的交互新体验

word 及PPT 中修改公式字体

将数据转换成xml格式的文档并下载

深入理解与实践AB测试：从理论到实战案例解析

flask之请求钩子

艾尔登法环帧率解锁终极指南：告别卡顿，畅享丝滑游戏体验

基于XGBoost与SHAP的分子气味预测：从特征工程到可解释性分析

UE4动画蓝图实战：用双骨骼IK节点搞定手部穿模，附完整蓝图节点截图

用数字逻辑门复刻柏林钟：从二进制编码到硬件实现

串口通信粘包问题：成因深度解析与项目实战解决方案

Python基础语法：常用内置函数

光轮智能谢晨访谈总结机器人仿真数据产业

论文写作效率翻倍？okbiye 毕业论文 AI 功能全解析：从需求到终稿的规范路径

3分钟开启PC游戏分屏派对：NucleusCoop让单机游戏秒变多人同屏神器

因果推断与机器学习融合：量化分析社会运动中镇压与抗议的动态关系