当前位置: 首页 > article >正文

别再乱用JSON存数据了!聊聊Python里更省心的pickle(.pkl)文件,附Pandas和PyTorch实战

Python数据持久化实战为什么pickle比JSON更值得选择当你需要在Python中保存一个嵌套字典、自定义类实例或是Pandas DataFrame时第一反应可能是用JSON——毕竟它简单通用。但每次遇到datetime对象或自定义类时JSON的局限性就会让你头疼不已。这就是pickle存在的意义它能完美保留Python对象的原生状态就像按下暂停键一样简单。1. 为什么JSON不够用pickle的不可替代性JSON确实是个好格式——对人类可读、跨语言支持、简单易用。但当你的数据结构稍微复杂一点JSON就开始力不从心了。假设你需要保存一个这样的数据结构import datetime from collections import defaultdict data { timestamp: datetime.datetime.now(), stats: defaultdict(int, {views: 100, clicks: 30}), custom: YourCustomClass(param11, param22) # 你的自定义类 }尝试用JSON保存这个结构你会立即遇到三个问题类型丢失datetime对象无法直接序列化为JSON特殊容器defaultdict会变成普通dict自定义类需要额外实现编码逻辑而pickle处理这些就像处理普通字典一样简单import pickle with open(data.pkl, wb) as f: pickle.dump(data, f) # 就这么简单关键差异对比特性JSONpickle基本数据类型✓✓复杂Python对象✗✓自定义类实例需额外处理✓函数/类定义✗✓跨语言支持✓✗人类可读✓✗安全性高低提示当你的数据只在Python生态内流转且需要保留完整的对象状态时pickle几乎是唯一选择。2. 实战场景Pandas与pickle的完美配合Pandas的DataFrame是数据分析的核心数据结构而pickle是保存DataFrame最完整的方式。对比常见的保存方式import pandas as pd df pd.DataFrame({ date: pd.date_range(20230101, periods5), value: [1.1, 2.2, 3.3, 4.4, 5.5], category: [A, None, B, B, A] # 包含缺失值 })保存方式对比# CSV方式 - 丢失类型信息和索引 df.to_csv(data.csv) # JSON方式 - 处理缺失值和日期很麻烦 df.to_json(data.json) # pickle方式 - 完美保留所有信息 df.to_pickle(data.pkl) # 等同于 pickle.dump(df, open(data.pkl, wb))性能测试结果100万行DataFrame格式写入时间读取时间文件大小CSV2.1s3.4s48MBJSON4.7s5.2s62MBpickle0.8s0.3s36MB注意pickle在Pandas中的性能优势在大数据量时尤为明显特别是当DataFrame包含复杂数据类型时。3. PyTorch模型保存pickle的深度应用在深度学习领域pickle扮演着关键角色。PyTorch的模型保存.pt或.pth文件实际上就是基于pickle的变体。看一个实际例子import torch import torch.nn as nn class NeuralNet(nn.Module): def __init__(self): super().__init__() self.layer1 nn.Linear(10, 20) self.layer2 nn.Linear(20, 1) def forward(self, x): x torch.relu(self.layer1(x)) return torch.sigmoid(self.layer2(x)) model NeuralNet()保存模型的几种方式对比仅保存参数推荐方式torch.save(model.state_dict(), model_params.pkl)保存整个模型包含结构torch.save(model, full_model.pkl) # 依赖pickle保存为TorchScript生产环境推荐scripted_model torch.jit.script(model) scripted_model.save(model.pt) # 不依赖pickle为什么PyTorch选择pickle能序列化复杂的Python对象如nn.Module保留模型的所有方法和属性与Python生态深度集成重要安全提示永远不要加载来源不明的.pkl文件pickle可以执行任意代码。对于模型共享更安全的做法是使用state_dict或TorchScript格式。4. 高级技巧与替代方案虽然pickle很强大但在某些场景下可能需要考虑替代方案。以下是几种进阶用法压缩pickle文件import gzip import pickle data {...} # 你的大数据对象 # 写入压缩文件 with gzip.open(data.pkl.gz, wb) as f: pickle.dump(data, f) # 读取压缩文件 with gzip.open(data.pkl.gz, rb) as f: loaded pickle.load(f)更快的替代品cPicklePython 2时代的选择Python 3中pickle已经是C实现dill能序列化更多类型如lambda函数joblib特别适合大型numpy数组安全使用建议使用pickle.HIGHEST_PROTOCOL获得最佳性能pickle.dump(data, f, protocolpickle.HIGHEST_PROTOCOL)对不受信任的数据使用pickletools分析import pickletools with open(suspect.pkl, rb) as f: pickletools.dis(f) # 查看pickle内容是否可疑考虑使用restricted_unpicklerPython 3.8def restricted_loads(data): allowed_classes {SafeClass, OtherSafeClass} return pickle.loads(data, classesallowed_classes)在实际项目中我通常会根据数据特点选择存储方案需要跨语言使用 → JSON/Parquet临时存储Python复杂对象 → pickle大型数值数据 → HDF5/feather生产环境模型部署 → TorchScript/ONNX

相关文章:

别再乱用JSON存数据了!聊聊Python里更省心的pickle(.pkl)文件,附Pandas和PyTorch实战

Python数据持久化实战:为什么pickle比JSON更值得选择? 当你需要在Python中保存一个嵌套字典、自定义类实例或是Pandas DataFrame时,第一反应可能是用JSON——毕竟它简单通用。但每次遇到datetime对象或自定义类时,JSON的局限性就会…...

小型语言模型(SLM)实战:高效部署与成本优化指南

1. 小型语言模型(SLM)入门指南:2026年实战手册在AI技术快速迭代的今天,大型语言模型(LLM)虽然频频登上头条,但真正改变行业游戏规则的却是那些能在本地设备上运行的小型语言模型(SLM…...

Arcana:Elixir原生嵌入式RAG库,一体化智能检索与生成方案

1. 项目概述:一个为Elixir生态量身打造的嵌入式RAG库如果你正在用Elixir和Phoenix构建应用,并且想为它加上一个智能的“知识大脑”,让应用能理解、检索并回答用户基于你私有数据的问题,那么Arcana就是你一直在找的那个工具。它不是…...

画图工具推荐:绘制架构图、流程图

画图工具推荐:绘制架构图、流程图在数字化协作时代,绘制清晰的架构图和流程图是程序员、产品经理和设计师的必备技能。无论是梳理系统逻辑、规划业务流程,还是向团队传递设计思路,一款高效的工具能事半功倍。本文将推荐几款实用工…...

《Windows Internals》10.2.12 学习笔记:交互式服务与 Session 0 隔离——为什么现代 Windows 服务不能再直接弹窗到桌面?

🔥个人主页:杨利杰YJlio❄️个人专栏:《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》 《Python》 《Kali Linux》 《那些年未解决的Windows疑难杂症》🌟 让复杂的事情更…...

Dockerfile系列(二) 镜像分层与缓存-为什么你的构建这么慢

镜像分层与缓存:为什么你的构建这么慢?本文基于 Docker 24.x,理解分层机制是写出高效 Dockerfile 的关键。场景引入:改一行代码,构建五分钟? 上篇咱们写了个能跑的 Dockerfile,但用着用着发现问…...

《Windows Internals》10.2.11 学习笔记:虚拟服务账户(The Virtual Service Account)——为什么 Windows 服务不再只依赖普通账号?

🔥个人主页:杨利杰YJlio❄️个人专栏:《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》 《Python》 《Kali Linux》 《那些年未解决的Windows疑难杂症》🌟 让复杂的事情更…...

低算力适配!面向采摘机器人的改进 YOLOv8 实现遮挡花椒精准识别

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式https://pmc.ncbi.nlm.nih.gov/articles/PMC12894851/pdf/41598_2026_Article_36671.pdf计算机视觉研究院专栏Column of Computer Vision …...

C++ 类设计实践(一):自定义 String 类与顺序栈

引言在学完 C 的类、构造函数、析构函数、拷贝控制、运算符重载、模板等核心知识后,动手设计一个完整的类是最好的巩固方式。今天,我将通过两个实践项目来检验这些知识的掌握程度:自定义 String 类:模拟标准库 std::string 的核心…...

Python自动化仿真终极指南:用MPh脚本化你的COMSOL多物理场工作流

Python自动化仿真终极指南:用MPh脚本化你的COMSOL多物理场工作流 【免费下载链接】MPh Pythonic scripting interface for Comsol Multiphysics 项目地址: https://gitcode.com/gh_mirrors/mp/MPh 还在为重复的COMSOL仿真操作感到疲惫吗?&#x1…...

终极指南:Agent创业机会,从垂直领域切入

终极指南:Agent创业机会,从垂直领域切入 引言 痛点引入:AI Agent浪潮下,普通创业者/技术人该怎么抢滩? 过去两年的AI技术发展,完全是“天翻地覆”级别的——ChatGPT的诞生把通用大语言模型(LLM&…...

基于LangGraph与多智能体协作的AI内容生成系统实战解析

1. 项目概述:一个基于多智能体协作的AI内容生成系统如果你也像我一样,经常被各种报告、方案、甚至小说创作的需求搞得焦头烂额,那么今天分享的这个项目,可能会成为你的“生产力倍增器”。我最近深度体验并拆解了一个名为“XunLong…...

LinkSwift网盘直链下载助手:免费解锁八大网盘高速下载的终极指南

LinkSwift网盘直链下载助手:免费解锁八大网盘高速下载的终极指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云…...

Amlogic S9xxx Armbian历史版本获取指南:解决新内核不兼容的实战方案

Amlogic S9xxx Armbian历史版本获取指南:解决新内核不兼容的实战方案 【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, s905w, s905, s…...

3分钟掌握RPG Maker解密工具:轻松提取游戏资源

3分钟掌握RPG Maker解密工具:轻松提取游戏资源 【免费下载链接】RPGMakerDecrypter Tool for decrypting and extracting RPG Maker XP, VX and VX Ace encrypted archives and MV and MZ encrypted files. 项目地址: https://gitcode.com/gh_mirrors/rp/RPGMaker…...

5分钟快速上手StarRailCopilot:崩坏星穹铁道智能自动化助手

5分钟快速上手StarRailCopilot:崩坏星穹铁道智能自动化助手 【免费下载链接】StarRailCopilot 崩坏:星穹铁道脚本 | Honkai: Star Rail auto bot (简体中文/繁體中文/English/Espaol) 项目地址: https://gitcode.com/gh_mirrors/st/StarRailCopilot …...

我从前熬夜整理会议纪要熬到头秃,后悔没早用!2026自动生成会议纪要真的太香了

上个月刚经历完因为会议纪要出错扣半个月绩效的社死现场,作为每周要泡在四五个会里的内容创作者,我前两年光是整理会议、访谈录音,每周就能耗掉我10小时以上,熬到发缝变宽都没解决问题。测了不下10款自动纪要工具,我可…...

如何在现代显示器上完美体验《植物大战僵尸》?PvZWidescreen宽屏模组彻底告别黑边困扰

如何在现代显示器上完美体验《植物大战僵尸》?PvZWidescreen宽屏模组彻底告别黑边困扰 【免费下载链接】PvZWidescreen Widescreen mod for Plants vs Zombies 项目地址: https://gitcode.com/gh_mirrors/pv/PvZWidescreen 还在为经典游戏《植物大战僵尸》在…...

Rust 所有权系统:借用检查器与生命周期

# Rust异步编程:Tokio运行时深度解析> **版本说明**:本文基于 Tokio 1.x 版本和 Rust 1.75 编写,所有代码示例均经过测试验证。## 📚 引言异步编程是现代高性能服务的基石,而 Tokio 作为 Rust 生态中最成熟的异步运…...

别再只用来校验文件了!聊聊哈希值在Python、Java和数据库里的5个实战骚操作

哈希值的五大高阶应用:从数据去重到分布式系统的实战技巧 开发者在日常工作中经常使用哈希值进行简单的数据校验,但它的潜力远不止于此。当我们将哈希算法与特定编程语言特性、数据库优化和系统设计相结合时,能解锁许多令人惊喜的高级用法。…...

NVIDIA Grace CPU架构解析与数据中心能效优化实践

1. NVIDIA Grace CPU家族:数据中心效率革命的核心引擎当全球数据量以每年23%的速度增长,传统CPU架构却陷入性能提升瓶颈时,数据中心的能效比成为决定未来计算能力的关键指标。作为从业十五年的数据中心架构师,我见证过无数次硬件迭…...

SpringBoot配置文件加密进阶:手把手教你自定义Jasypt加密算法和前缀后缀(告别默认ENC)

SpringBoot配置文件加密进阶:手把手教你自定义Jasypt加密算法和前缀后缀(告别默认ENC) 在企业级应用开发中,配置文件的安全性往往被忽视,尤其是数据库连接信息、API密钥等敏感数据。虽然Jasypt提供了开箱即用的ENC()加…...

Edgi-Talk开发套件:边缘AI全栈解决方案解析

1. Edgi-Talk开发套件核心解析这款由英飞凌和RT-Thread联合设计的开发板,本质上是一个面向边缘AI场景的全栈解决方案。PSOC Edge E84 SoC的双核架构设计非常有意思——400MHz的Cortex-M55主攻AI运算,搭配200MHz的Cortex-M33处理常规任务,这种…...

如何自动同步SQL异构表数据_利用触发器实现实时数据复制

不能,触发器仅支持同库同结构表的同步;跨库或异构场景需用binlogDebeziumKafka自定义消费者方案。触发器能自动同步异构表吗?不能,别硬套触发器本身不解决异构问题——它只在同库同结构的表上可靠运行。INSERT、UPDATE、DELETE 触…...

长沙心理医院暖心指南+真实案例分享

随着社会节奏加快,心理健康问题逐渐成为影响个人生活质量与社会和谐的重要因素。在长沙,作为中部核心城市,心理疾病就诊需求持续攀升,但与此同时,患者在就医过程中仍面临诸多挑战。据相关统计显示,长沙市居…...

青少年心理咨询指南:真实案例分享与暖心复盘

行业痛点分析当前长沙心理领域面临多重技术挑战。一方面,青少年心理问题呈现高发趋势,但社会对精神心理疾病仍存在认知偏差,导致病耻感普遍,许多学生因“怕被贴标签”而拒绝求助。另一方面,三甲医院心理科号源紧张&…...

终极解决方案:3分钟搞定Windows与iPhone网络共享驱动安装

终极解决方案:3分钟搞定Windows与iPhone网络共享驱动安装 【免费下载链接】Apple-Mobile-Drivers-Installer Powershell script to easily install Apple USB and Mobile Device Ethernet (USB Tethering) drivers on Windows! 项目地址: https://gitcode.com/gh_…...

解锁音乐自由:ncmdumpGUI带你轻松解密网易云NCM格式

解锁音乐自由:ncmdumpGUI带你轻松解密网易云NCM格式 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾在网易云音乐下载了心爱的歌曲&#x…...

如何为魔兽争霸3解锁180fps帧率限制:WarcraftHelper完整配置指南

如何为魔兽争霸3解锁180fps帧率限制:WarcraftHelper完整配置指南 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 魔兽争霸3作为经典RTS游戏…...

VS Code Copilot Next 配置避坑黄金三角:权限粒度 × 语言服务器绑定 × Workspace Trust 状态(实测137次失败回溯)

更多请点击: https://intelliparadigm.com 第一章:VS Code Copilot Next 自动化工作流配置避坑指南 VS Code Copilot Next(v1.120)引入了基于 Workspace Trust 和 Language Server Protocol 的深度集成机制,但默认配…...