当前位置：首页 > news >正文

pandas处理json的相关操作

news 2026/5/31 11:37:26

Pandas 是一个强大的数据处理库，它提供了丰富的功能来处理 JSON 数据。以下是 Pandas 中处理 JSON 的所有常见操作：

1. 读取 JSON 文件

使用 pandas.read_json() 函数可以从 JSON 文件或 JSON 字符串中读取数据。

从 JSON 文件读取

import pandas as pd# 从 JSON 文件读取
df = pd.read_json('data.json')
print(df)

从 JSON 字符串读取

json_data = '''
[{"name": "Alice", "age": 30},{"name": "Bob", "age": 25}
]
'''df = pd.read_json(json_data)
print(df)

2. 将 DataFrame 保存为 JSON 文件

使用 DataFrame.to_json() 方法可以将 DataFrame 保存为 JSON 文件或 JSON 字符串。

保存为 JSON 文件

df = pd.DataFrame({'name': ['Alice', 'Bob'],'age': [30, 25]
})df.to_json('output.json', orient='records', lines=True)

保存为 JSON 字符串

json_string = df.to_json(orient='records')
print(json_string)

3. JSON 数据的方向（`orient` 参数）

Pandas 支持多种 JSON 数据的方向（orient 参数），用于控制 JSON 数据的结构。

常见 `orient` 选项：

'split'：字典格式，包含 index、columns 和 data。
'records'：列表格式，每行是一个字典。
'index'：字典格式，键是行索引。
'columns'：字典格式，键是列名。
'values'：仅包含数据值的二维列表。

示例

df = pd.DataFrame({'name': ['Alice', 'Bob'],'age': [30, 25]
})# 使用不同的 orient 参数
print(df.to_json(orient='split'))
print(df.to_json(orient='records'))
print(df.to_json(orient='index'))
print(df.to_json(orient='columns'))
print(df.to_json(orient='values'))

4. 处理嵌套 JSON 数据

如果 JSON 数据是嵌套的（例如包含字典或列表），可以使用 json_normalize() 函数将其展平。

示例

import pandas as pd
from pandas import json_normalizenested_json = [{"name": "Alice","age": 30,"address": {"city": "New York","zip": "10001"}},{"name": "Bob","age": 25,"address": {"city": "Los Angeles","zip": "90001"}}
]# 展平嵌套 JSON
df = json_normalize(nested_json)
print(df)

输出：

    name  age       address.city address.zip
0  Alice   30          New York       10001
1    Bob   25      Los Angeles       90001

5. 处理 JSON 中的列表数据

如果 JSON 数据中包含列表，可以使用 explode() 方法将列表拆分为多行。

示例

df = pd.DataFrame({'name': ['Alice', 'Bob'],'courses': [['Math', 'Science'], ['History', 'English']]
})# 将列表拆分为多行
df = df.explode('courses')
print(df)

输出：

    name   courses
0  Alice      Math
0  Alice   Science
1    Bob   History
1    Bob   English

6. 从 API 获取 JSON 数据

Pandas 可以直接从 API 获取 JSON 数据并转换为 DataFrame。

示例

import pandas as pd
import requests# 从 API 获取数据
url = 'https://api.example.com/data'
response = requests.get(url)
data = response.json()# 转换为 DataFrame
df = pd.DataFrame(data)
print(df)

7. 处理 JSON 中的日期

如果 JSON 数据中包含日期字符串，可以使用 pd.to_datetime() 将其转换为日期类型。

示例

df = pd.DataFrame({'date': ['2023-01-01', '2023-02-01'],'value': [10, 20]
})# 将日期字符串转换为日期类型
df['date'] = pd.to_datetime(df['date'])
print(df)

8. 处理 JSON 中的缺失值

Pandas 会自动将 JSON 中的 null 转换为 NaN，可以使用 fillna() 或 dropna() 处理缺失值。

示例

df = pd.DataFrame({'name': ['Alice', 'Bob', None],'age': [30, None, 25]
})# 填充缺失值
df_filled = df.fillna('Unknown')
print(df_filled)# 删除包含缺失值的行
df_dropped = df.dropna()
print(df_dropped)

9. 处理 JSON 中的多层索引

如果 JSON 数据包含多层索引（例如嵌套字典），可以使用 pd.MultiIndex 处理。

示例

data = {('Alice', 'age'): 30,('Alice', 'city'): 'New York',('Bob', 'age'): 25,('Bob', 'city'): 'Los Angeles'
}df = pd.DataFrame(data, index=[0])
print(df)

10. 处理 JSON 中的复杂结构

如果 JSON 数据结构非常复杂，可以结合 Python 的 json 模块和 Pandas 进行处理。

示例

import json
import pandas as pdcomplex_json = '''
{"employees": [{"name": "Alice", "age": 30, "skills": ["Python", "SQL"]},{"name": "Bob", "age": 25, "skills": ["Java", "C++"]}]
}
'''# 解析 JSON
data = json.loads(complex_json)# 提取嵌套数据
employees = data['employees']
df = pd.DataFrame(employees)# 展平嵌套列表
df = df.explode('skills')
print(df)

11. 处理 JSON 中的大文件

对于大型 JSON 文件，可以使用 chunksize 参数分块读取。

示例

chunks = pd.read_json('large_data.json', lines=True, chunksize=1000)
for chunk in chunks:print(chunk)

12. 处理 JSON 中的非标准格式

如果 JSON 数据是非标准格式（例如每行一个 JSON 对象），可以使用 lines=True 参数。

示例

json_data = '''
{"name": "Alice", "age": 30}
{"name": "Bob", "age": 25}
'''df = pd.read_json(json_data, lines=True)
print(df)

13. 处理 JSON 中的 Unicode 字符

Pandas 默认支持 Unicode 字符，无需额外处理。

示例

df = pd.DataFrame({'name': ['张三', '李四'],'age': [30, 25]
})json_string = df.to_json(orient='records', force_ascii=False)
print(json_string)

14. 处理 JSON 中的时间序列

如果 JSON 数据中包含时间序列，可以使用 pd.date_range() 或 pd.to_datetime() 处理。

示例

df = pd.DataFrame({'date': ['2023-01-01', '2023-01-02'],'value': [10, 20]
})df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)
print(df)

15. 处理 JSON 中的多表数据

如果 JSON 数据包含多个表，可以分别读取并合并。

示例

data = {"table1": [{"name": "Alice", "age": 30}],"table2": [{"name": "Bob", "age": 25}]
}df1 = pd.DataFrame(data['table1'])
df2 = pd.DataFrame(data['table2'])# 合并两个表
df = pd.concat([df1, df2], ignore_index=True)
print(df)

总结

Pandas 提供了强大的工具来处理 JSON 数据，包括读取、写入、展平嵌套结构、处理缺失值等。通过灵活使用这些功能，可以轻松地将 JSON 数据转换为 DataFrame 并进行进一步的分析和处理。

pandas处理json的相关操作

Pandas 是一个强大的数据处理库，它提供了丰富的功能来处理 JSON 数据。以下是 Pandas 中处理 JSON 的所有常见操作： 1. 读取 JSON 文件使用 pandas.read_json() 函数可以从 JSON 文件或 JSON 字符串中读取数据。从 JSON 文件读取 import pandas as …...

编程日记 2025/1/12 14:53:37

linux内存泄露定位过程（kmemleak和slab debug）

1，当遇到内存增加过多时，或者由于内存导致系统oom时我们怎么定位呢，定位时需要确认是内核态还是用户态内存泄露。排查步骤 top查看VIRT和RES内存 rootubuntu2004:~# top top - 21:05:39 up 7 min, 1 user, load average: 5.01, 4.09, 2.…...

编程日记 2025/1/12 14:51:35

2025年安卓面试复习总结

文章目录深入理解并熟练运用常用设计模式及反射原理，能够自定义注解及泛型，多次通过设计模式对 app 代码进行高效重构，显著提升代码的可维护性与扩展性。设计模式自定义注解泛型Kotlin泛型精通多线程原理，对 ThreadPoolExecutor…...

编程日记 2025/1/12 14:49:32

JS scrollIntoView 技巧揭秘：解锁网页流畅交互

文章目录一.基本概念二.语法和参数基本语法：element.scrollIntoView();参数详解： 三.应用场景和示例场景一：点击目录点位到相应的位置React 示例代码：Vue3 示例代码： 场景二：轮播图定位到指定图片示例代码…...

编程日记 2025/1/12 14:43:25

【Ubuntu 24.04】常见问题解决

1.24开启3D加速黑屏参考文章：Ubuntu24开机黑屏，VMware卡死，虚拟机繁忙解决方案没有3D加速就没有动画，所以我们需要开启3D加速，但是直接开启3D加速会黑屏由于Ubuntu24内部的图形加速驱动异常，因此需要更新…...

编程日记 2025/1/12 14:41:23

前端依赖安装指南

前端依赖安装指南一、NVM管理工具安装 1.在 Windows 上安装下载 NVM for Windows 的安装程序：(最新版本可以在 nvm-windows Releases 页面找到)运行下载的安装程序并按步骤操作。 2.配置 NVM exe安装自动配置环境变量 3. 验证 NVM 安装验证 NVM 是否成功…...

编程日记 2025/1/12 14:39:21

灌区闸门自动化控制系统-精准渠道量测水-灌区现代化建设

项目背景本项目聚焦于黑龙江某一灌区的现代化改造工程，该灌区覆盖广阔，灌溉面积高达7.5万亩，地域上跨越6个乡镇及涵盖17个村庄。项目核心在于通过全面的信息化建设，强力推动节水灌溉措施的实施，旨在显著提升农业用水的…...

编程日记 2025/1/12 14:37:16

ELK实战（最详细）

一、什么是ELK ELK是三个产品的简称：ElasticSearch(简称ES) 、Logstash 、Kibana 。其中： ElasticSearch：是一个开源分布式搜索引擎Logstash ：是一个数据收集引擎，支持日志搜集、分析、过滤，支持大量数据…...

编程日记 2025/1/12 14:36:14

《大型语言模型与强化学习的融合：探索问题的新解决方案与开源验证需求》

强化学习在2020年代初期通过开源项目如CleanRL的多学习者PPO算法取得了显著进展，但在语言模型领域未能充分利用其潜力 1. 开源项目CleanRL的贡献 CleanRL 是一个致力于提供简单、高效且易于理解的强化学习（RL）算法实现的开源项目。该项目通…...

编程日记 2025/1/12 14:35:11

springboot 默认的 mysql 驱动版本

本案例以 springboot 3.1.12 版本为例 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>3.1.12</version><relativePath/> </parent> 点击 spring-…...

编程日记 2025/1/12 14:34:10

10分钟快速了解OceanGPT(沧渊)

10分钟快速了解OceanGPT(沧渊) 海洋科学任务的大语言模型——OceanGPT OceanGPT是如何训练的？为了训练 OceanGPT (沧渊) ，收集了一个跨越多个领域的海洋科学语料库。由于每个子领域和主题都有其独特的数据特征和模式，因此提出了一个特定于领域的指令生成框架，称为 DoDirec…...

编程日记 2025/1/12 14:31:06

蓝桥杯嵌入式速通（1）

1.工程准备创建一文件夹存放自己的代码，并在mdk中include上文件夹地址把所有自身代码的头文件都放在headfile头文件中，之后只需要在新的文件中引用headfile即可 headfile中先提前可加入 #include "stdio.h" #include "string.h"…...

编程日记 2025/1/12 14:29:03

Redis优化建议详解

Redis优化建议详解 1. 内存优化 1.1 内存配置设置最大内存 maxmemory 4gb 内存淘汰策略 maxmemory-policy allkeys-lru 样本数量 maxmemory-samples 51.2 内存优化策略数据结构优化使用压缩列表（ziplist）合理设置hash-max-ziplist-entries使用整数…...

编程日记 2025/1/12 14:27:00

ceph 存储 full 阈值调整

前言在 Ceph 集群中，默认情况下，当某些 OSD（对象存储守护进程）的使用率达到 85% 时，系统会发出 nearfull 警告，并可能限制进一步的写入操作，以防止数据丢失或集群不稳定。要允许在 OSD 使用率超过 85% 的情况下继续写入，您可以调整以下两个参数： mon_osd_nearful…...

编程日记 2025/1/12 14:16:50

后端技术选型 sa-token校验学习下结合项目学习后端鉴权

目录后端注册拦截器实现对 WebMvcConfigurer 接口的类实现静态变量方法重写注册 Spring Framework拦截器 Sa-Token中SaServletFilter拦截器思考为什么使用两个拦截器 1. Spring Framework 拦截器 2. SaServletFilter 为什么要注册两个拦截器？ 总结 …...

编程日记 2025/1/12 14:15:49

Vue.js组件开发-实现组件切换效果的两种方法条件渲染、动态组件

在Vue.js中，实现组件切换效果通常依赖于条件渲染或动态组件。方法一：条件渲染条件渲染使用v-if、v-else-if和v-else指令来根据条件展示或隐藏组件。这种方法适用于需要在不同条件下展示不同组件的场景。 <template><div><button cli…...

编程日记 2025/1/12 14:14:47

primitive 的 Appearance编写着色器材质

import { nextTick, onMounted, ref } from vue import * as Cesium from cesium import gsap from gsaponMounted(() > { ... })// 1、创建矩形几何体，Cesium.RectangleGeometry：几何体，Rectangle：矩形 let rectGeometry new…...

编程日记 2025/1/12 14:08:41

1.初识Seata Quick Start | Apache Seata 官网 2.准备nacos和 seata 启动nacos startup.cmd -m standalone账号nacos 密码nacos 搭建seata TC 这里下载的 1.4.2 seata-server-1.4.2 1.修改seata配置文件 registry.conf 这里我们使用nacos作为注册中心和配置中心 r…...

编程日记 2025/1/12 14:01:33

流浪猫流浪狗领养PHP网站源码

源码介绍流浪猫流浪狗领养PHP网站源码，适合做猫狗宠物类的发信息发布。当然其他信息发布也是可以的。导入数据库，修改数据库配置/application/database.php 设置TP伪静态，设置运行目录， 后台：/abcd.php/dashboard?…...

编程日记 2025/1/12 13:59:31

asammdf python 处理MF4文件库简介

asammdf 是一个功能强大的 Python 库，专门用于处理汽车行业常用的 MDF（Measured Data Format）文件。以下是 asammdf 的主要功能总结： 主要功能读取和写入 MDF 文件： 支持 MDF 文件的版本 3.x 和 4.x。能够读取和…...

编程日记 2025/1/12 13:52:24

CentOS 7下‘Development Tools’和‘开发工具’组有区别吗？实测告诉你答案

CentOS 7下‘Development Tools’与‘开发工具’的隐藏关联：技术细节全解析在Linux系统管理中，yum的软件包组功能一直是个既实用又充满谜团的领域。特别是当系统语言环境与软件包元数据语言不一致时，开发者们常常会遇到一个有趣的现象&#x…...

编程新知 2026/5/26 3:38:09

告别道路预测老套路：用ParkPredict+模型思路，解决停车场里的‘鬼探头’难题

破解泊车场景预测困局：ParkPredict模型的技术革新与实践停车场里的每一次转向、倒车和避让，都是对自动驾驶系统预测能力的极限挑战。与开放道路的规则明确不同，这里没有清晰的车道线指引，没有统一的行驶方向，只有随时可…...

编程新知 2026/5/26 2:11:27

基于Arduino的模块化DIY智能时钟：从RTC到RGB LED的完整实现

1. 项目概述：打造一台高度可定制的DIY RGB LED时钟如果你和我一样，对市面上千篇一律的电子钟感到审美疲劳，同时又对Arduino和电子DIY充满热情，那么这个项目可能就是为你准备的。我们不是在简单地组装一个套件，而是在亲…...

编程新知 2026/5/26 2:05:15

我靠这个测试设计方法，把漏测率降低了80%

当“直觉测试”撞上南墙很长一段时间里，我和许多测试同行一样，测试用例的设计主要依靠两样东西：需求文档和“测试直觉”。这种模式在业务逻辑相对简单、迭代速度平缓时还能勉强应付。一旦面对复杂的企业级应用、高频的敏捷迭代，或…...

编程新知 2026/5/26 0:40:30

智能体所有权与版权：AI Agent Harness Engineering 创造的作品归谁所有？

1. 标题选项《AI Agent创作版权迷局破解：从Harness工程原理到所有权划分的完整指南》《智能体作品归谁？AI Agent Harness Engineering场景下的版权规则深度拆解》《告别权属纠纷：一文搞懂AI Agent生成内容的所有权、版权与收益分配规则》《Harness工程视角下的AI创作权：…...

编程新知 2026/5/26 0:18:08

0.2毫秒快速启动的操作系统

在工业控制以及航空航天等核心场景，极速启动就是高可靠系统的生命线。0.2毫秒超快启动搭配硬件看门狗，让设备在掉电重启、异常恢复时瞬时归位，关键任务永不延误！ https://www.bilibili.com/video/BV11mLY6VERt/?spm_id_from333.1…...

编程新知 2026/5/26 0:16:07

Windows文件夹共享

目标：同一局域网实现在一台计算机上共享文件夹，在另一台电脑访问一、电脑A 1.点击要共享的文件夹 -> 属性 -> 共享2.添加Everyone用户组3.控制面板中网络共享关闭密码保存，在访问时不用输入账号密码。二、电脑B 1.在文件资源管理器路径…...

编程新知 2026/5/25 23:39:42

告别CAJ格式困扰：3分钟学会用开源工具将知网文献转为PDF

告别CAJ格式困扰：3分钟学会用开源工具将知网文献转为PDF 【免费下载链接】caj2pdf Convert CAJ (China Academic Journals) files to PDF. 转换中国知网 CAJ 格式文献为 PDF。佛系转换，成功与否，皆是玄学。项目地址: https://gitcode.com/…...

编程新知 2026/5/25 23:20:56

深度解析网络设备权限管理工具：中兴光猫工厂模式与Telnet服务完整指南

深度解析网络设备权限管理工具：中兴光猫工厂模式与Telnet服务完整指南【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 在当今网络设备管理领域，获取设备完整控制…...

编程新知 2026/5/25 22:12:18

ZMJS，把 JavaScript 解释器放进 SAP ABAP 应用服务器之后，很多扩展思路会变得不一样

我今天看这个 oisee/zmjs 仓库时，最吸引人的不是它把 JavaScript 语法做进了 ABAP，而是它选择了一条非常 SAP 的路线，纯 ABAP、无外部依赖、无 Kernel Module、以类和接口的形式运行在 SAP 应用服务器内部。仓库自己的定位很直接，ZMJS 是一个面向 SAP ABAP 的 Mini JavaScr…...

编程新知 2026/5/25 21:17:35