72_Pandas.DataFrame保存并读取带pickle的系列(to_pickle、read_pickle)
72_Pandas.DataFrame保存并读取带pickle的系列(to_pickle、read_pickle)
要将 pandas.DataFrame、pandas.Series 对象保存为 pickle 文件,请使用 to_pickle() 方法,并使用 pd.read_pickle() 函数读取保存的 pickle 文件。
在此对以下内容进行说明。
- 什么是pickle
- 将 pickle 与 pandas 一起使用的优点
- 保存/加载为 CSV 文件时
- 保存/加载为 pickle 文件时
- 压缩处理
什么是pickle
pickle 是 Python 标准库中包含的一个模块,用于将 Python 对象转换为字节(序列化、pickling)以及从字节转换为 Python 对象(反序列化、unpickling)。
为了方便起见,这里将经过 pickle 并保存的文件称为 pickle 文件。
将 pickle 与 pandas 一起使用的优点
pandas 提供了以 CSV 文件和 JSON 文件等格式保存和读取 pandas.DataFrame 和 pandas.Series 对象的方法。
- 03_Pandas读取csv/tsv文件(read_csv,read_table)
- 34_Pandas对CSV文件内容的导出和添加(to_csv)
- 50_Pandas读取 Excel 文件 (xlsx, xls)
- 51_Pandas (to_excel) 编写 Excel 文件 (xlsx, xls)
- 55_Pandas.DataFrame 转换为 JSON 字符串/文件并保存 (to_json)
- 56_Pandas读取 JSON 字符串/文件 (read_json)
与 CSV 文件和 JSON 文件不同,pickle 文件无法用编辑器检查或在其他应用程序中重复使用,但优点是对象可以按原样读取和写入,而无需在保存或加载时进行任何特殊设置或处理。 以下面的 pandas.DataFrame 为例。它是使用日期和时间信息作为索引的时间序列数据,'list’列存储列表类型对象。
import pandas as pddf = pd.DataFrame({'list': [[0, 0], [0, 1], [1, 0], [1, 1]]},index=pd.date_range('2018-01-01', '2018-01-04', freq='D'))print(df)
# list
# 2018-01-01 [0, 0]
# 2018-01-02 [0, 1]
# 2018-01-03 [1, 0]
# 2018-01-04 [1, 1]print(df.index)
# DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04'], dtype='datetime64[ns]', freq='D')print(type(df['list'][0]))
# <class 'list'>
保存/加载为 CSV 文件时
保存为 CSV 并重新加载时,首先需要指定 read_csv() 的 index_col 和 parse_dates 参数,以将索引指定为时间序列数据。
df.to_csv('data/pandas_obj.csv')df_from_csv = pd.read_csv('data/pandas_obj.csv', index_col=0, parse_dates=True)print(df_from_csv)
# list
# 2018-01-01 [0, 0]
# 2018-01-02 [0, 1]
# 2018-01-03 [1, 0]
# 2018-01-04 [1, 1]print(df_from_csv.index)
# DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04'], dtype='datetime64[ns]', freq=None)
此外,由于“list”列被读取为字符串,因此有必要将其转换为列表类型对象,例如通过将内置函数 eval() 应用于每个元素。
- 06_Pandas中map(),applymap(),apply()函数的使用方法
print(type(df_from_csv['list'][0]))
# <class 'str'>df_from_csv['list'] = df_from_csv['list'].apply(eval)print(df_from_csv)
# list
# 2018-01-01 [0, 0]
# 2018-01-02 [0, 1]
# 2018-01-03 [1, 0]
# 2018-01-04 [1, 1]print(type(df_from_csv['list'][0]))
# <class 'list'>
保存/加载为 pickle 文件时
如果使用 to_pickle() 和 read_pickle() 将其视为 pickle 文件,则可以保存该对象而无需指定参数或转换它,并且可以按原样恢复它。
df.to_pickle('data/pandas_obj.pkl')df_from_pkl = pd.read_pickle('data/pandas_obj.pkl')print(df_from_pkl)
# list
# 2018-01-01 [0, 0]
# 2018-01-02 [0, 1]
# 2018-01-03 [1, 0]
# 2018-01-04 [1, 1]print(df_from_pkl.index)
# DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04'], dtype='datetime64[ns]', freq='D')print(type(df_from_pkl['list'][0]))
# <class 'list'>
当想要保存对象的状态以暂时挂起工作时,pickle 文件也很有用,并且不必考虑任何特定的事情。 此外,它还具有比 CSV 等更快的处理速度的优点。
压缩处理
如果将扩展名指定为 .gz、.bz2、.xz 或 .zip,将自动执行压缩/解压缩过程。
df.to_pickle('data/pandas_obj.zip')df_from_pkl_zip = pd.read_pickle('data/pandas_obj.zip')print(df_from_pkl_zip)
# list
# 2018-01-01 [0, 0]
# 2018-01-02 [0, 1]
# 2018-01-03 [1, 0]
# 2018-01-04 [1, 1]
还可以在压缩参数中显式指定格式(‘gzip’、‘bz2’、‘xz’、‘zip’)。
相关文章:
72_Pandas.DataFrame保存并读取带pickle的系列(to_pickle、read_pickle)
72_Pandas.DataFrame保存并读取带pickle的系列(to_pickle、read_pickle) 要将 pandas.DataFrame、pandas.Series 对象保存为 pickle 文件,请使用 to_pickle() 方法,并使用 pd.read_pickle() 函数读取保存的 pickle 文件。 在此对…...
Redis哨兵模式和Redis Cluster模式
文章目录 🔊博主介绍🥤本文内容Redis Cluster 模式支持自动故障转移功能吗?Redis Cluster 模式支持自动故障转移功能和哨兵有什么区别?Redis Cluster 模式和哨兵模式(Sentinel)在自动故障转移方面有一些关键…...
C语言第三十二弹---自定义类型:联合和枚举
✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】 目录 1、联合体 1.1、联合体类型的声明 1.2、联合体的特点 1.3、相同成员的结构体和联合体对比 1.4、联合体大小的计算 1.5、联合的⼀个练习 2、枚举类型 …...
milvus upsert流程源码分析
milvus版本:v2.3.2 整体架构: Upsert 的数据流向: 1.客户端sdk发出Upsert API请求。 import numpy as np from pymilvus import (connections,Collection, )num_entities, dim 4, 3print("start connecting to Milvus") connections.connect("default",…...
QT网络通信
九、网络 基础概念 1.1 TCP/UDP TCP/UDP UDP TCP 协议相同点:都存在于传输层,全双工通信 TCP:全双工通信、面向连接、可靠 TCP(即传输控制协议):是一种面向连接的传输层协议,它能提供高可靠性通…...
案例分析|山西某光伏发电站轨道巡检机器人解决方案
随着光伏发电技术的不断发展,光伏变电站配电室作为能量转换和输送的关键节点,承担着重要的电力分配和保护功能。然而,传统的人工巡检方式存在诸多问题,如巡检周期长、效率低、安全风险高等,已经无法满足光伏变电站配电…...
Apache POl
介绍 Apache POl是一个处理Miscrosoft Ofice各种文件格式的开源项目。简单来说就是,我们可以使用 POI 在 Java 程序中对Miscrosoft Office各种文件进行读写操作,一般情况下,POI都是用于操作 Excel 文件。 Apache POl 的应用场景 1.银行网银系统导出交易…...
高防服务器托管应注意什么
选择高防服务器托管主要考虑的因素:1.服务商的服务器大小。2.服务器的防御值大小。3.服务器机房的位置以及机房的资质。 具体内容如下: 1.服务器大小是按照U来定的,U是一种表示服务器外部尺寸的单位(计量单位:高度或厚…...
swagger-ui.html报错404,解决办法
swagger-ui.html报错404,解决办法!现在后端开发项目中,为了节省时间,使用swagger插件,可以方便的快捷生成接口文档。但是如果你在请求前端页面路径比如:http://127.0.0.1:7777/swagger-ui.html。找不到。那是因为你的配…...
golang 函数式编程库samber/mo使用: Future
golang 函数式编程库samber/mo使用: Future 如果您对samber/mo库不了解, 请先阅读第一篇 Option 本节讲述Future的使用,它可以帮助我们处理异步编程问题。 示例 我们先来看看下面代码的示例, 注释解释了每一步的操作。 packa…...
【Spring连载】使用Spring Data访问 MongoDB(十四)----Mongodb特有的查询方法
【Spring连载】使用Spring Data访问 MongoDB(十四)----Mongodb特有的查询方法 一、定义通用查询方法二、MongoDB特有的查询方法2.1 地理空间查询Geo-spatial Queries2.2 基于JSON的查询方法和字段限制2.3 使用SpEL表达式的基于JSON的查询2.4 全文检索查询…...
消息中间件篇之RabbitMQ-消息重复消费
一、导致重复消费的情况 1. 网络抖动。 2. 消费者挂了。 消费者消费消息后,当确认消息还没有发送到MQ时,就发生网络抖动或者消费者宕机。那当消费者恢复后,由于MQ没有收到消息,而且消费者有重试机制,消费者就会再一次消…...
常见设计模式之单例模式
单例模式 单例模式是一种常用的软件设计模式,主要目的是确保一个类在整个应用程序生命周期中只有一个实例,并提供一个全局访问点以获取该实例。 单例模式分为几种不同的实现方式,包括懒汉模式和饿汉模式。每种方式都有其特点和适用场景。例如…...
VL817-Q7 USB3.0 HUB芯片 适用于扩展坞 工控机 显示器
VL817-Q7 USB3.1 GEN1 HUB芯片 VL817-Q7 USB3.1 GEN1 HUB芯片 VIA Lab的VL817是一款现代USB 3.1 Gen 1集线器控制器,具有优化的成本结构和完全符合USB标准3.1 Gen 1规范,包括ecn和2017年1月的合规性测试更新。VL817提供双端口和双端口4端口配置&…...
【Android安全】Windows 环境下载 AOSP 源码
准备环境 安装 git 安装 Python 硬盘剩余容量最好大于 800G 打开 Git Bash,用 git 克隆源代码仓库 git clone https://android.googlesource.com/platform/manifest.git //没有梯子使用清华源 git clone https://aosp.tuna.tsinghua.edu.cn/platform/manifest.git这…...
Vue.js+SpringBoot开发快递管理系统
目录 一、摘要1.1 项目介绍1.2 项目录屏 二、研究内容2.1 数据中心模块2.2 快递类型模块2.3 快递区域模块2.4 快递货架模块2.5 快递档案模块 三、界面展示3.1 登录注册3.2 快递类型3.3 快递区域3.4 快递货架3.5 快递档案3.6 系统基础模块 四、免责说明 一、摘要 1.1 项目介绍 …...
Linux/Spectra
Enumeration nmap 第一次扫描发现系统对外开放了22,80和3306端口,端口详细信息如下 22端口运行着ssh,80端口还是http,不过不同的是打开了mysql的3306端口 TCP/80 进入首页,点击链接时,提示域名不能解析&…...
C 嵌入式系统设计模式 08:硬件代理模式
本书的原著为:《Design Patterns for Embedded Systems in C ——An Embedded Software Engineering Toolkit 》,讲解的是嵌入式系统设计模式,是一本不可多得的好书。 本系列描述我对书中内容的理解。本文章描述访问硬件的设计模式之一&…...
【k8s配置与存储--持久化存储(PV、PVC、存储类)】
1、PV与PVC 介绍 持久卷(PersistentVolume,PV) 是集群中的一块存储,可以由管理员事先制备, 或者使用存储类(Storage Class)来动态制备。 持久卷是集群资源,就像节点也是集群资源一样…...
【Vite】解决Vite http proxy error: Error: connect ECONNREFUSED
今天写bug,发现了这个问题 我经过我一晚上的搜索努力,在github上找到了解决办法,不得不说,交友网站还是很好用的。 参考 这一行是关键代码。 因为我连的是本地后台服务,所以最后配置成这样 server: {open: true,pro…...
在setting菜单里显示的有些字符 不正常,
比如时间 显示的不是正常字体,location 下面显示的字体也是不正常的。在setting菜单里显示的有些字符 不正常,比如时间 显示的不是正常字体,location 下面显示的字体也是不正常的。设置菜单(Settings)中出现字符显示异…...
别再只会用HttpClient了!用C# Socket手搓一个TCP聊天室(WinForms实战)
用C# Socket构建WinForms聊天室:从零实现TCP通信实战 第一次接触网络编程时,看着那些晦涩的协议文档和黑底白字的命令行界面,总觉得离实际应用很远。直到把Socket和WinForms结合起来,才发现原来网络通信可以如此直观——消息在文本…...
深度相机D435与机械臂搭配使用:坐标系转换与点云数据处理详解
深度相机D435与机械臂协同工作全流程解析:从坐标系对齐到精准抓取 在工业自动化领域,视觉引导的机械臂系统正在重塑生产线的运作方式。Intel RealSense D435深度相机凭借其出色的三维感知能力和性价比,成为众多机器人工程师的首选传感器。但当…...
保姆级教程:用Sentinel-1 SAR和Landsat 9光学影像,手把手教你识别海洋“暗流”——内波
从数据到发现:Sentinel-1与Landsat 9协同解译海洋内波实战指南 当南海的碧波下暗流涌动,卫星的"天眼"正记录着这些肉眼不可见的海洋脉动。内波——这种水下百米深处的能量传递者,通过改变海面微结构,在遥感影像上留下独…...
C#与Halcon控件深度集成:打造高交互性图像浏览窗口
1. 为什么需要深度集成Halcon控件? 在工业视觉和图像处理领域,Halcon一直是功能强大的工具库。但很多开发者在使用C#开发界面时,常常会遇到一个尴尬的问题:Halcon自带的图像显示窗口交互体验不够友好。想象一下,当操作…...
从OSM到CARLA:用Python脚本高效构建仿真地图
1. 为什么需要从OSM到CARLA的地图转换 自动驾驶仿真测试离不开高精度的数字地图。CARLA作为开源的自动驾驶仿真平台,使用OpenDRIVE(xodr)格式描述道路网络。但手动绘制xodr地图就像用Excel画CAD图纸——不仅效率低下,还容易出错。…...
Spring Boot REST 异常处理规范
Spring Boot REST 异常处理规范:构建健壮的后端服务 在现代Web开发中,RESTful API已成为前后端交互的核心方式。异常处理不当可能导致接口响应混乱,甚至泄露敏感信息。Spring Boot提供了一套完善的异常处理规范,帮助开发者高效管…...
告别LVDS布线噩梦:手把手教你用JESD204B协议搞定高速ADC/DAC接口(附Subclass1配置要点)
高速数据采集设计革命:JESD204B协议实战指南与Subclass1配置精髓 第一次在项目中使用JESD204B接口时,我被它简洁的布线震撼了——原本需要几十对LVDS差分线的8通道ADC系统,现在只需要4对高速串行线就能搞定。但随后在调试阶段,当S…...
抖音无水印下载终极指南:5分钟掌握专业级资源管理工具
抖音无水印下载终极指南:5分钟掌握专业级资源管理工具 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppo…...
计算机网络的计算模式
计算模式指的是网络中计算任务(数据处理、存储、运算等)在客户端和服务器之间如何分配与协作。随着技术发展,主要经历了以下几种模式的演变。一、计算模式的主要类型模式核心特点处理位置典型代表集中式计算模式所有计算在主机完成࿰…...
