当前位置：首页 > news >正文

【Python系列】Parquet 数据处理与合并：高效数据操作实践

news 2026/5/14 3:09:36

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。

推荐:kwan 的首页,持续学习,不断总结,共同进步,活到老学到老
导航
檀越剑指大厂系列:全面总结 java 核心技术,jvm,并发编程 redis,kafka,Spring,微服务等
常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,typora 等
数据库系列:详细总结了常用数据库 mysql 技术点,以及工作中遇到的 mysql 问题等
新空间代码工作室:提供各种软件服务,承接各种毕业设计,毕业论文等
懒人运维系列:总结好用的命令,解放双手不香吗?能用一个命令完成绝不用两个操作
数据结构与算法系列:总结数据结构和算法,不同类型针对性训练,提升编程思维,剑指大厂

非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。💝💝💝 ✨✨ 欢迎订阅本专栏 ✨✨

博客目录

- 1.Parquet 文件简介
- 2.环境准备
- 3.读取 Parquet 文件
- 4.数据清洗
- 5.数据合并
- 6.写入 Parquet 文件
- 7.性能优化
- 8.总结

在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet 作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如 Apache Spark、Apache Hive 等。
在这里插入图片描述

1.Parquet 文件简介

Parquet 是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。Parquet 文件可以被多种数据处理工具读取和写入，包括 Hadoop、Pig、Hive 等。

2.环境准备

在开始之前，确保你的 Python 环境中已经安装了 Pandas 库和 pyarrow（用于读写 Parquet 文件）。如果尚未安装，可以通过以下命令进行安装：

pip install pandas pyarrow

import pandas as pdpath1 = 'create_final_entities.parquet'path2 = '1111/create_final_entities.parquet'# 读取Parquet文件
df1 = pd.read_parquet(path1)
df2 = pd.read_parquet(path2)# 修改df1中每一条记录的name字段首尾的引号
df1['name'] = df1['name'].str.strip('"')
df1['type'] = df1['type'].str.strip('"')
df1['description'] = df1['description'].str.strip('"')# 合并两个DataFrame
df_combined = pd.concat([df1, df2], ignore_index=True)# 定义新文件的路径
output_path = '2222/create_final_entities.parquet'# 将合并后的数据写入新的Parquet文件
df_combined.to_parquet(output_path)

3.读取 Parquet 文件

在 Python 脚本中，我们首先导入必要的库，并定义 Parquet 文件的路径。使用pd.read_parquet()函数可以轻松读取 Parquet 文件到 DataFrame 对象中。示例中，我们有两个 Parquet 文件，分别存储在不同的路径下。

import pandas as pdpath1 = 'create_final_entities.parquet'
path2 = '1111/create_final_entities.parquet'df1 = pd.read_parquet(path1)
df2 = pd.read_parquet(path2)

4.数据清洗

在实际的数据操作过程中，经常需要对数据进行清洗，以确保数据的质量和一致性。在本例中，我们对df1中的name、type和description字段进行了清洗，去除了字段值首尾的引号。

df1['name'] = df1['name'].str.strip('"')
df1['type'] = df1['type'].str.strip('"')
df1['description'] = df1['description'].str.strip('"')

5.数据合并

数据合并是数据分析中常见的操作之一。在本例中，我们使用pd.concat()函数将两个 DataFrame 对象合并为一个新的 DataFrame。ignore_index=True参数确保合并后的 DataFrame 索引是连续的，而不是重复的。

df_combined = pd.concat([df1, df2], ignore_index=True)

6.写入 Parquet 文件

完成数据合并后，我们通常需要将结果保存到新的文件中。使用to_parquet()函数可以将 DataFrame 对象写入 Parquet 文件。在写入之前，我们需要定义新文件的存储路径。

output_path = '2222/create_final_entities.parquet'
df_combined.to_parquet(output_path)

7.性能优化

在处理大规模数据时，性能是一个重要的考虑因素。Parquet 格式本身就提供了高效的压缩和编码方案，但我们还可以通过以下方式进一步优化性能：

选择合适的列进行读取：如果只需要部分列，可以在读取时指定列，减少内存消耗。
使用分区存储：如果数据集很大，可以考虑使用 Hive 或 Impala 等工具进行分区存储，以优化查询性能。
并行处理：利用 Python 的多线程或多进程能力，或者使用 Spark 等分布式计算框架进行并行处理。

8.总结

通过上述步骤，我们展示了如何使用 Python 和 Pandas 库对 Parquet 文件进行高效的数据处理和合并。Parquet 文件格式以其高效的存储和查询性能，在大数据处理领域中扮演着重要角色。掌握这些基本操作，将有助于数据分析师和工程师在面对大规模数据集时，更加高效地进行数据处理和分析工作。

觉得有用的话点个赞 👍🏻 呗。
❤️❤️❤️本人水平有限，如有纰漏，欢迎各位大佬评论批评指正！😄😄😄

💘💘💘如果觉得这篇文对你有帮助的话，也请给个点赞、收藏下吧，非常感谢!👍 👍 👍

🔥🔥🔥Stay Hungry Stay Foolish 道阻且长,行则将至,让我们一起加油吧！🌙🌙🌙

【Python系列】Parquet 数据处理与合并：高效数据操作实践

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan 的首页,持续学…...

编程日记 2024/7/28 4:42:24

大脑自组织神经网络通俗讲解

大脑自组织神经网络的核心概念大脑自组织神经网络，是指大脑中的神经元通过自组织的方式形成复杂的网络结构，从而实现信息的处理和存储。这一过程涉及到神经元的生长、连接和重塑，是大脑学习和记忆的基础。其核心公式涉及神经网络的权重更新…...

编程日记 2024/7/28 4:41:19

org.springframework.context.annotation.DeferredImportSelector如何使用？

DeferredImportSelector 是 Spring 框架中一个比较高级的功能，主要用于在 Spring 应用上下文的配置阶段延迟导入某些组件或配置。这个功能特别有用，比如在处理依赖于其他自动配置的场景，或者当你想基于某些条件来决定是否导入特定的配置类时。…...

编程日记 2024/7/28 4:40:16

缓慢变化维

缓慢变化维缓慢变化维（Slowly Changing Dimensions，简称SCD）是数据仓库中的一个重要概念，用于处理维度表中数据随时间发生的变化。以下是一个具体的例子来描述缓慢变化维： 假设我们有一个销售数据仓库，其…...

编程日记 2024/7/28 4:39:13

Vue常用的指令都有哪些？都有什么作用？什么是自定义指令？

常用指令： 1、v-model 多用于表单元素实现双向数据绑定 (同angular中的ng-model) 2、v-for格式： v-for"字段名in(of)数组json"循环数组或json(同angular中的ng repeat),需要注意从vue2开始取消了$index 3、v-show 4、v-hide 隐藏内容 (同a…...

编程日记 2024/7/28 4:38:09

kettle从入门到精通第八十一课 ETL之kettle kettle中的json对象字段写入postgresql中的json字段正确姿势

1、上一节可讲解了如何将json数据写入pg数据库表中的json字段，虽然实现了效果，但若客户继续使用表输出步骤则仍然无法解决问题。正确的的解决方式是设置数据库连接参数stringtypeunspecified 2、stringtypeunspecified 参数的作用： 当设置…...

编程日记 2024/7/28 4:36:07

计算机网络实验-RIP配置与分析

前言：本博客仅作记录学习使用，部分图片出自网络，如有侵犯您的权益，请联系删除一、相关知识路由信息协议（Routing Information Protocol，RIP）是一种基于距离向量（Distance-Vector&…...

编程日记 2024/7/28 4:34:01

33.【C语言】实践扫雷游戏

预备知识： 第13篇一维数组第13.5篇二维数组第28篇库函数第29篇自定义函数第30篇函数补充 0x1游戏的运行： 1.随机布置雷 2.排雷基本规则： 点开一个格子后，显示1，对于9*9，代表以1为中心的去…...

编程日记 2024/7/28 4:29:51

git学习笔记（总结了常见命令与学习中遇到的问题和解决方法）

前言最近学习完git，学习过程中也遇到了很多问题，这里给大家写一篇总结性的博客，主要大概讲述git命令和部分难点问题（简单的知识点这里就不再重复讲解了） 一.git概述 1.1什么是git Git是一个分布式的版本控制软件。…...

编程日记 2024/7/28 4:28:41

【计算机网络】TCP协议详解

欢迎来到破晓的历程的博客 ⛺️不负时光，不负己✈️ 文章目录 1、引言2、udp和tcp协议的异同3、tcp服务器3.1、接口认识3.2、服务器设计 4、tcp客户端4.1、客户端设计4.2、说明 5、再研Tcp服务端5.1、多进程版5.2、多线程版 5、守护进程化5.1、什么是守护进程5.2…...

编程日记 2024/7/28 4:23:32

2.3 大模型硬件基础：AI芯片（上篇） —— 《带你自学大语言模型》系列

本系列目录《带你自学大语言模型》系列部分目录及计划，完整版目录见：带你自学大语言模型系列 —— 前言第一部分走进大语言模型（科普向） 第一章走进大语言模型 1.1 从图灵机到GPT，人工智能经历了什么&#xff1…...

编程日记 2024/7/28 4:22:31

Java | Leetcode Java题解之第279题完全平方数

题目： 题解： class Solution {public int numSquares(int n) {if (isPerfectSquare(n)) {return 1;}if (checkAnswer4(n)) {return 4;}for (int i 1; i * i < n; i) {int j n - i * i;if (isPerfectSquare(j)) {return 2;}}return 3;}// 判断是否为…...

编程日记 2024/7/28 4:21:28

JS逆向高级爬虫

JS逆向高级爬虫 JS逆向的目的是通过运行本地JS的文件或者代码,以实现脱离他的网站和浏览器,并且还能拿到和浏览器加密一样的效果。 10.1、编码算法【1】摘要算法：一切从MD5开始 MD5是一个非常常见的摘要(hash)逻辑. 其特点就是小巧. 速度快. 极难被破解. 所以,…...

编程日记 2024/7/28 4:20:24

基于Golang+Vue3快速搭建的博客系统

WANLI 博客系统项目介绍基于vue3和gin框架开发的前后端分离个人博客系统，包含md格式的文本编辑展示，点赞评论收藏，新闻热点，匿名聊天室，文章搜索等功能。项目在线访问：http://bloggo.chat/ 访客账号…...

编程日记 2024/7/28 4:18:22

DVWA中命令执行漏洞细说

在攻击中，命令注入是比较常见的方式，今天我们细说在软件开发中如何避免命令执行漏洞我们通过DVWA中不同的安全等级来细说命令执行漏洞 1、先调整DVWA的安全等级为Lower,调整等级在DVWA Security页面调整 2、在Command Injection页面输入127.0.0.1&…...

编程日记 2024/7/28 4:17:21

【YOLOv5/v7改进系列】引入中心化特征金字塔的EVC模块

一、导言现有的特征金字塔方法过于关注层间特征交互而忽视了层内特征的调控。尽管有些方法尝试通过注意力机制或视觉变换器来学习紧凑的层内特征表示，但这些方法往往忽略了对密集预测任务非常重要的被忽视的角落区域。为了解决这个问题，作者提出了CF…...

编程日记 2024/7/28 4:16:20

【QT】常用控件（概述、QWidget核心属性、按钮类控件、显示类控件、输入类控件、多元素控件、容器类控件、布局管理器）

一、控件概述 Widget 是 Qt 中的核心概念，英文原义是 “小部件”，此处也把它翻译为 “控件”。控件是构成一个图形化界面的基本要素。像上述示例中的按钮、列表视图、树形视图、单行输入框、多行输入框、滚动条、下拉框都可以称为 “控件”。 Qt 作为…...

编程日记 2024/7/28 4:15:18

【Python】字母 Rangoli 图案

一、题目 You are given an integer N. Your task is to print an alphabet rangoli of size N. (Rangoli is a form of Indian folk art based on creation of patterns.) Different sizes of alphabet rangoli are shown below: # size 3 ----c---- --c-b-c-- c-b-a-b-c --…...

编程日记 2024/7/28 4:12:15