当前位置: 首页 > article >正文

Python实战:3种高效方法将TXT转CSV(附完整代码)

Python实战3种高效方法将TXT转CSV附完整代码在日常数据处理工作中我们经常需要将文本文件TXT转换为更结构化的CSV格式。无论是处理日志文件、数据采集结果还是简单的数据交换这种转换都是数据分析师和开发者的基本功。本文将介绍三种高效实用的Python方法帮助你在不同场景下快速完成转换任务。1. 基础文件操作法纯Python实现对于简单的TXT文件转换需求使用Python内置的文件操作功能就能轻松搞定。这种方法不依赖任何第三方库适合轻量级数据处理场景。# 读取文本文件内容并输出到CSV文件 with open(data.txt, r) as input_file, open(data.csv, w, newline) as output_file: for line in input_file: # 假设txt文件中的字段由逗号和空格分隔 fields line.strip().split(, ) # 将字段以逗号分隔写入csv文件 output_file.write(,.join(fields) \n)关键参数说明newline确保在不同操作系统上正确处理换行符strip()去除每行首尾的空白字符split(, )按指定分隔符拆分字段注意这种方法假设TXT文件已经使用固定分隔符如逗号组织数据。如果分隔符不统一需要先进行数据清洗。2. 标准库解决方案csv模块详解Python内置的csv模块提供了更专业的CSV文件处理能力特别适合处理复杂格式的文本数据。2.1 基本读写操作import csv with open(data.txt, r) as input_file, open(data.csv, w, newline) as output_file: csv_reader csv.reader(input_file) csv_writer csv.writer(output_file) for row in csv_reader: csv_writer.writerow(row)2.2 处理带表头的数据当TXT文件包含列名时使用DictReader/DictWriter能更好地处理字段映射import csv with open(data_with_header.txt, r) as input_file: csv_reader csv.DictReader(input_file) data [row for row in csv_reader] with open(output.csv, w, newline) as output_file: fieldnames data[0].keys() if data else [] csv_writer csv.DictWriter(output_file, fieldnamesfieldnames) csv_writer.writeheader() csv_writer.writerows(data)csv模块优势对比特性基础文件操作csv模块自动处理引号❌✅支持不同分隔符需手动处理内置支持处理空值需手动处理自动处理性能较快稍慢代码复杂度低中等3. 数据分析利器pandas高级转换对于大型数据集或需要复杂转换的场景pandas库提供了最强大的解决方案。3.1 基本转换import pandas as pd # 读取TXT文件 df pd.read_csv(data.txt, delimiter, ) # 写入CSV文件 df.to_csv(output.csv, indexFalse)3.2 处理复杂格式pandas可以轻松应对各种复杂情况# 处理不规则分隔符 df pd.read_csv(irregular_data.txt, sep\s*,\s*, enginepython) # 处理缺失值 df pd.read_csv(data_with_missing.txt, na_values[NA, null]) # 指定列数据类型 df pd.read_csv(data.txt, dtype{Age: int32, Salary: float64}) # 保存时控制精度 df.to_csv(output.csv, float_format%.2f, encodingutf-8)pandas性能优化技巧使用chunksize参数处理大文件chunk_iter pd.read_csv(large_data.txt, chunksize10000) for chunk in chunk_iter: process(chunk)指定dtype减少内存占用dtypes {id: int32, price: float32} df pd.read_csv(data.txt, dtypedtypes)只读取需要的列usecols [name, date, value] df pd.read_csv(data.txt, usecolsusecols)4. 实战场景解决方案4.1 日志文件转换处理服务器日志时常需要将半结构化文本转为CSVimport re import pandas as pd log_pattern r(\d{4}-\d{2}-\d{2}) (\d{2}:\d{2}:\d{2}) (\w) (.*) logs [] with open(server.log, r) as f: for line in f: match re.match(log_pattern, line) if match: logs.append({ date: match.group(1), time: match.group(2), level: match.group(3), message: match.group(4) }) pd.DataFrame(logs).to_csv(log_analysis.csv, indexFalse)4.2 处理多分隔符数据当数据中存在多种分隔符时可以先用正则表达式统一处理import re def clean_line(line): # 将各种空白符统一替换为逗号 return re.sub(r[\s,;|], ,, line.strip()) with open(messy_data.txt, r) as infile, open(clean_data.csv, w) as outfile: for line in infile: outfile.write(clean_line(line) \n)4.3 处理大型文件的内存优化对于超大文件可以使用生成器逐行处理import csv def process_large_file(input_path, output_path): with open(input_path, r) as infile, open(output_path, w, newline) as outfile: reader csv.reader(infile) writer csv.writer(outfile) # 处理表头 headers next(reader) writer.writerow([h.strip() for h in headers]) # 逐行处理数据 for row in reader: processed_row [field.strip() for field in row] writer.writerow(processed_row) process_large_file(huge_data.txt, huge_output.csv)

相关文章:

Python实战:3种高效方法将TXT转CSV(附完整代码)

Python实战:3种高效方法将TXT转CSV(附完整代码) 在日常数据处理工作中,我们经常需要将文本文件(TXT)转换为更结构化的CSV格式。无论是处理日志文件、数据采集结果还是简单的数据交换,这种转换都…...

MedGemma X-Ray入门指南:中文医学术语理解能力测评(肺炎/肺不张/胸腔积液)

MedGemma X-Ray入门指南:中文医学术语理解能力测评(肺炎/肺不张/胸腔积液) 1. 引言:当AI遇见X光片 想象一下,你手头有一张胸部X光片,需要快速判断是否存在肺炎、肺不张或者胸腔积液。对于非放射科医生来说…...

PP-DocLayoutV3效果对比:传统OCR与智能文档分析的差距

PP-DocLayoutV3效果对比:传统OCR与智能文档分析的差距 你是不是也遇到过这种情况?用传统的OCR工具扫描一份合同或者报告,出来的文字顺序乱七八糟,表格变成了几行看不懂的代码,图片旁边的说明文字也不知道跑哪去了。最…...

嵌入式按钮去抖与多击识别库debounceButton

1. 项目概述debounceButton是一个轻量级、可移植的嵌入式按钮去抖与多击(double-click / triple-click)识别库,专为资源受限的 MCU(如 STM32F0/F1/F4、ESP32、nRF52、RP2040 等)设计。其核心目标并非仅实现硬件电平消抖…...

GTE中文嵌入模型应用场景解析:智能客服FAQ匹配、合同比对、专利查重

GTE中文嵌入模型应用场景解析:智能客服FAQ匹配、合同比对、专利查重 1. 什么是GTE中文文本嵌入模型 你可能已经用过各种AI工具,但有没有想过:当系统说“这两句话意思很接近”,它到底怎么判断的?答案就藏在文本嵌入&a…...

形态学算子实战指南:腐蚀、膨胀、开闭运算在工业检测中的精准应用

1. 工业检测中的形态学基础:从理论到实战 第一次接触形态学算子是在五年前的PCB板缺陷检测项目上。当时产线上有批电路板总是出现微小的短路和断路问题,传统阈值分割怎么调参数都搞不定。直到老工程师扔给我一行HALCON代码:opening_circle(Re…...

Java毕业设计基于SpringBoot架构的酒店后台管理系统

前言 Java基于B/S架构的酒店后台管理系统是一种功能全面、易于维护、跨平台的信息化解决方案。它可以帮助酒店实现高效、便捷的后台管理,提升酒店的运营效率和客户满意度。同时,该系统还具有良好的可扩展性和安全性,可以满足酒店不断变化的业…...

C# ABP vNext 模块化架构实战:从零构建一个可复用的业务模块

1. 从零开始理解ABP vNext模块化架构 第一次接触ABP vNext框架时,我被它强大的模块化能力深深吸引。记得当时接手一个电商系统重构项目,需要同时开发用户管理、商品管理和订单管理三大功能。传统开发方式下,这些功能都挤在一个项目里&#xf…...

Java毕业设计基于SpringBoot+Java Web的生鲜团购销售系统

前言 该系统适用于社区生鲜团购、农产品电商等场景。通过为社区居民提供便捷的生鲜团购服务,满足他们的日常购物需求。同时,通过优化供应链管理和营销策略,降低运营成本和提高销售额。 综上所述,SpringBoot基于JavaWeb的生鲜团购销…...

嵌入式莫尔斯电码编解码库:轻量纯C实现

1. Morse 编码/解码库技术解析:嵌入式系统中的轻量级字符-莫尔斯电码双向转换实现1.1 库定位与工程价值Morse 库是一个专为资源受限嵌入式环境设计的纯 C 语言轻量级编解码组件,其核心功能是实现 ASCII 字符串与莫尔斯电码二进制表示之间的确定性双向映射…...

5步掌握SWE-bench:评估语言模型编程能力的实战指南

5步掌握SWE-bench:评估语言模型编程能力的实战指南 【免费下载链接】SWE-bench SWE-Bench: Can Language Models Resolve Real-world Github Issues? 项目地址: https://gitcode.com/GitHub_Trending/sw/SWE-bench SWE-bench是当前评估语言模型在真实软件工…...

YOLOv5训练数据集报错?一招教你批量转换JPEG到JPG格式(附完整代码)

YOLOv5训练数据集格式兼容性问题全解析:从JPEG到JPG的高效批量转换方案 在计算机视觉项目的实际开发中,数据集准备往往是耗时最长且最容易出错的环节之一。最近在技术社区中,关于YOLOv5训练过程中遇到的ignoring corrupt image/label报错讨论…...

DeepSeek-OCR-2保姆级教程:Docker Compose编排OCR+PostgreSQL元数据服务

DeepSeek-OCR-2保姆级教程:Docker Compose编排OCRPostgreSQL元数据服务 1. 教程概述 1.1 学习目标 通过本教程,你将学会如何使用Docker Compose一键部署DeepSeek-OCR-2完整服务,包括OCR识别引擎、vLLM推理加速、Gradio前端界面以及Postgre…...

AVL-Excite新手必看:5步搞定发动机阀系系统建模(附B站视频教程)

AVL-Excite新手必看:5步搞定发动机阀系系统建模(附B站视频教程) 作为一名刚接触AVL-Excite的工程师或学生,面对复杂的发动机阀系系统建模可能会感到无从下手。本文将带你从零开始,通过五个清晰的步骤,快速…...

嵌入式CronAlarms:MCU上的crontab定时调度框架

1. CronAlarms 库深度解析:嵌入式系统中的 crontab 风格定时任务调度器1.1 设计定位与工程价值CronAlarms 并非传统意义上的硬件驱动库,而是一个面向资源受限嵌入式平台的轻量级、事件驱动型定时任务调度框架。其核心设计哲学是将 Unix 系统中成熟可靠的…...

Qwen-Image入门必看:CUDA12.4+RTX4090D环境下的多模态大模型推理实践

Qwen-Image入门必看:CUDA12.4RTX4090D环境下的多模态大模型推理实践 1. 环境准备与快速部署 1.1 硬件与系统要求 在开始使用Qwen-Image定制镜像前,请确保您的硬件环境满足以下要求: GPU型号:NVIDIA RTX 4090D(24GB…...

cv_resnet101_face-detection_cvpr22papermogface 集成Java Web应用:SpringBoot后端服务实战

cv_resnet101_face-detection_cvpr22papermogface 集成Java Web应用:SpringBoot后端服务实战 1. 引言 想象一下,一个办公楼的门禁系统,每天上下班高峰期,员工排着长队等待刷卡或指纹验证。或者一个社区安防中心,保安…...

英飞凌霍尔开关C++硬件抽象库设计与多平台实践

1. 项目概述Infineon Hall-Switch C库是面向嵌入式磁传感应用的轻量级硬件抽象层(HAL)实现,专为英飞凌单霍尔效应开关传感器家族设计。该库不依赖特定操作系统或复杂中间件,以纯C11标准编写,核心代码无动态内存分配、无…...

教师必备!这款免费Word插件让你的教案制作效率提升300%(附安装包)

教师必备!这款免费Word插件让你的教案制作效率提升300% 作为一名教师,每天面对最多的可能就是教案和试卷的制作了。从知识点整理到题目编排,从答案标注到格式调整,这些看似简单的工作往往要耗费大量时间。特别是当我们需要反复修改…...

阿里云工程师亲授:如何根据业务场景选择Hudi/Iceberg/Paimon(附决策流程图)

阿里云工程师实战指南:Hudi/Iceberg/Paimon技术选型方法论 在数据湖架构选型过程中,Hudi、Iceberg和Paimon这三个开源项目经常让技术决策者陷入"选择困难症"。作为阿里云数据团队的一线架构师,我参与过数十个企业级数据平台的设计&…...

SolidWorks设计问答助手:基于Phi-3-mini-128k-instruct的工程知识库

SolidWorks设计问答助手:基于Phi-3-mini的工程知识库实战 作为一名在机械设计领域摸爬滚打多年的工程师,我深知一个痛点:面对SolidWorks里复杂的参数、层出不穷的设计规范和材料选择,我们常常需要一边翻手册,一边查资…...

自然语言生成跟进记录、自然语言生成预约登记功能

在企业数字化转型的深化阶段,客户关系管理(CRM)作为连接企业与客户的核心环节,其运营效率直接影响业务推进节奏。传统CRM操作中,手动撰写跟进记录、录入预约登记的重复性工作,不仅耗费大量人力时间&#xf…...

C#图像处理提速秘籍:OpenCVSharp+CUDA编译踩坑实录(附完整解决方案)

C#图像处理提速秘籍:OpenCVSharpCUDA编译踩坑实录(附完整解决方案) 当你在C#项目中处理高分辨率图像或视频流时,是否经历过这样的煎熬?CPU占用率飙升到100%,风扇狂转如直升机起飞,而算法执行时…...

PyTorch 2.6实战技巧:修改strip_optimizer函数解决加载错误

PyTorch 2.6实战技巧:修改strip_optimizer函数解决加载错误 1. 问题背景与现象 1.1 常见错误场景 当你在PyTorch 2.6及以上版本中训练YOLO系列模型时,可能会遇到这样的错误提示: RuntimeError: unsupported operation: ultralytics.nn.ta…...

Moondream2智能文档分析:OCR与内容理解结合

Moondream2智能文档分析:OCR与内容理解结合 1. 引言 每天我们都要处理大量的文档——扫描的合同、拍摄的发票、手写的笔记,还有各种表格和报告。传统的OCR技术能帮我们把图片上的文字识别出来,但往往也就到此为止了。你得到的只是一堆冷冰冰…...

Wan2.2-T2V-A5B背后的AI原理:卷积神经网络在视频生成中的角色演进

Wan2.2-T2V-A5B背后的AI原理:卷积神经网络在视频生成中的角色演进 1. 引言 你可能已经看过不少由AI生成的短视频,从一段简单的文字描述,就能变出一段流畅、生动的画面。这背后,像Wan2.2-T2V-A5B这样的模型功不可没。当我们惊叹于…...

3阶准均匀B样条曲线在车辆路径规划中的高效应用

1. 为什么3阶准均匀B样条曲线适合车辆路径规划 第一次接触B样条曲线时,我完全被各种数学公式绕晕了。直到在自动驾驶项目中实际应用后才发现,3阶准均匀B样条曲线简直是路径规划的"黄金标准"。想象一下开车时方向盘的操作——既不能像折线那样突…...

从理论到波形:深入理解DSP中EPWM死区生成机制与IGBT保护设计

从理论到波形:深入理解DSP中EPWM死区生成机制与IGBT保护设计 在电力电子系统的设计中,IGBT的安全运行始终是工程师面临的核心挑战之一。我曾亲眼目睹一个价值数十万元的变频器模块因为PWM信号设计不当而在测试台上炸裂,飞溅的金属碎片和刺鼻的…...

RK312X Android 7.1 ACM功能的内核‘instances’变量踩坑与修复指南

RK312X Android 7.1 ACM驱动中instances变量的生命周期管理陷阱与解决方案 在嵌入式Linux内核开发领域,USB Gadget驱动的稳定性问题往往隐藏着最微妙的技术细节。当我们在RK312X平台上为Android 7.1系统调试ACM(Abstract Control Model)功能时…...

嵌入式系统字节对齐原理与结构体内存布局实战

1. 字节对齐:嵌入式系统中不可忽视的内存布局规则在嵌入式开发实践中,字节对齐(Byte Alignment)并非仅关乎编译器优化的理论概念,而是直接影响硬件寄存器访问正确性、跨平台通信可靠性及系统稳定性的底层机制。本文基于…...