当前位置: 首页 > article >正文

使用 Pandas 进行多格式数据整合:从 Excel、JSON 到 HTML 的处理实战

前言

在数据处理与分析的实际场景中,我们经常需要整合不同格式的数据,例如 Excel 表格、JSON 配置文件、HTML 报表等。本文以一个具体任务(蓝桥杯模拟练习题)为例,详细讲解如何使用 Python 的 Pandas 库结合其他工具,将三种不同格式的数据文件合并为统一的结构化输出,满足业务分析的需求。

题目地址:

1.数据处理 - 蓝桥云课

本文主要解释大佬的题解

一、任务背景与目标

1.任务描述

我们需要合并三个文件的数据:

  • 2022_january.xlsx(Excel 表格):存储 1 月的消费数据
  • 2022_february.json(JSON 文件):存储 2 月的消费数据
  • 2022_may.html(HTML 文件):存储 5 月的消费数据

2.目标输出

最终数据需整合成一个字典,结构如下:

{"january": {"1-1": {"food": 123, "clothes": 456, ...},  # 1月1日消费数据"1-2": {...}},"february": { ... },"may": { ... }
}

每个月份的每一天数据需包含固定的 6 个消费类别(food, clothes, vehicle, sports, loans, other),缺失类别默认值为 0。

二、数据处理全流程解析

一、任务核心目标

将 ExcelJSONHTML 三种格式的数据文件,按月份 - 日期 - 消费类别的层级结构合并为统一的字典,具体要求:

  1. 键名规范:月份用英文(january/february/may),日期格式为 M-d(如 1-5)。
  2. 消费类别:固定 6 个类别(foodclothesvehiclesportsloansother),缺失值默认 0。

二、分格式数据处理步骤

1. Excel 文件(2022_january.xlsx)处理

核心问题:从表格中提取日期和消费数据,转换为指定格式。
关键步骤

# 1. 读取文件并跳过无效行,指定索引列
data_1_xlsx = pd.read_excel('/home/project/2022_january.xlsx', skiprows=4, index_col=2)
# 2. 删除无关列(前两列可能为序号或说明,非数据列)
data_1_xlsx = data_1_xlsx.drop(data_1_xlsx.columns[[0, 1]], axis=1)
# 3. 日期格式处理:转换为 datetime 后格式化为 M-d(如 1-5,去掉前导零)
data_1_xlsx.index = pd.to_datetime(data_1_xlsx.index).strftime('%-m-%-d')
# 4. 转换为字典:{日期: {类别: 金额}}
data_1 = {'january': data_1_xlsx.to_dict('index')}

技术点

  • skiprows=4:跳过前 4 行无用数据(如标题、说明行),确保从有效数据行开始读取。
  • index_col=2:将第 3 列(索引 2)作为日期列(假设该列存储日期信息)。
  • strftime('%-m-%-d'):生成无 lead-zero 的日期(如 1-1 而非 01-01),严格匹配题目要求。
2. JSON 文件(2022_february.json)处理

核心问题:直接加载 JSON 数据,确保格式符合要求。
关键步骤

with open('/home/project/2022_february.json', 'r') as jsonf:data_2 = json.load(jsonf)

技术点

  • JSON 文件结构假设为 {日期: {类别: 金额}},与目标格式一致,可直接加载。
  • 若原始数据缺失类别(题目未提及),需补全;但根据正确代码,此处直接使用原始数据(可能已满足要求)。
3. HTML 文件(2022_may.html)处理

核心问题:解析 HTML 表格,提取日期和消费数据。
关键步骤

# 1. 解析HTML并提取所有表头文本
with open('/home/project/2022_may.html', 'r') as htmlf:data_5_html = htmlf.read()
data_5_html = BeautifulSoup(data_5_html, 'lxml')  # 使用高效解析器
headers = [body.text for body in data_5_html.find_all('th')]  # 提取所有表头# 2. 按7个字段一组处理数据(1个日期+6个消费类别)
data_5 = {"may": {}}
for i in range(7, len(headers), 7):  # 从第7个元素开始(跳过表头说明)date = headers[i]  # 日期字段(第i个元素)values = headers[i:i+7]  # 7个字段:日期+6个类别(实际用后6个)day_data = {headers[j]: int(values[j]) for j in range(i+1, i+7)}  # 提取后6个类别data_5['may'][date] = day_data

技术点

  • 表格结构分析:假设 HTML 表格的表头和数据行按固定格式排列,每个日期对应 7 个字段(日期 + 6 个类别)。
  • 索引计算:通过 range(7, len(headers), 7) 分组,每组第一个元素为日期,后续 6 个为消费金额。
  • 类型转换:金额转换为整数(int(values[j])),与题目示例输出一致。

三、数据合并与格式校验

1. 合并三部分数据
data = {**data_1, **data_2, **data_5}

原理:使用字典解包(**)将三个月份的数据合并,键名(january/february/may)自动拼接,避免重复。

2. 格式校验关键点
  • 日期格式:所有日期键必须为 M-d 形式(如 1-1),通过 strftime 或直接提取确保一致性。
  • 消费类别:确保每个日期的字典包含全部 6 个类别(题目示例中other默认 0,但原始数据可能已包含,无需额外补全)。
  • 绝对路径:使用题目规定的绝对路径(如 /home/project/...),避免文件读取错误。

四、完整代码逻辑总结

  1. Excel 处理: 跳过无效行,选择正确索引列,格式化日期,转换为字典。
  2. JSON 处理:直接加载,假设数据结构已符合要求(键为日期,值为类别金额)。
  3. HTML 处理:解析表格,按固定字段分组提取日期和消费数据,转换为整数。
  4. 合并:通过字典解包合并三部分数据,确保键名和格式完全符合目标结构。

五、易错点与解决方案

  1. 文件路径错误:必须使用绝对路径(题目明确要求),避免因工作目录变化导致的 FileNotFoundError
  2. 日期格式不匹配:使用 pd.to_datetime 和 strftime 严格控制日期格式,确保无前导零(如 %-m)。
  3. 表格结构解析错误:通过打印 headers 或数据行调试,确认 HTML 表格的字段顺序和分组逻辑(如每组 7 个字段)。
  4. 数据类型不一致:消费金额统一为整数(与示例一致),使用 int() 转换,避免浮点型误差。

六、总结

本题核心是多格式数据的解析与结构化转换,需针对每种格式的特点选择合适的库(pandas 处理表格,json 处理键值对,BeautifulSoup 处理 HTML 表格),并严格按照题目要求的层级结构组织数据。关键在于格式细节的精确匹配(日期、类别名称、数据类型),以及通过调试确保每一步解析后的数据结构符合预期。

相关文章:

使用 Pandas 进行多格式数据整合:从 Excel、JSON 到 HTML 的处理实战

前言 在数据处理与分析的实际场景中,我们经常需要整合不同格式的数据,例如 Excel 表格、JSON 配置文件、HTML 报表等。本文以一个具体任务(蓝桥杯模拟练习题)为例,详细讲解如何使用 Python 的 Pandas 库结合其他工具&…...

深入解析 Linux 中动静态库的加载机制:从原理到实践

引言 在 Linux 开发中,动静态库是代码复用的核心工具。静态库(.a)和动态库(.so)的加载方式差异显著,直接影响程序的性能、灵活性和维护性。本文将深入剖析两者的加载机制,结合实例演示和底层原…...

VuePress 使用教程:从入门到精通

VuePress 使用教程:从入门到精通 VuePress 是一个以 Vue 驱动的静态网站生成器,它为技术文档和技术博客的编写提供了优雅而高效的解决方案。无论你是个人开发者、团队负责人还是开源项目维护者,VuePress 都能帮助你轻松地创建和管理你的文档…...

Kafka与Spark-Streaming

大数据处理的得力助手:Kafka与Spark-Streaming 在大数据处理的领域中,Kafka和Spark-Streaming都是极为重要的工具。今天,咱们就来深入了解一下它们,看看这些技术是如何让数据处理变得高效又强大的。先来说说Kafka,它是…...

【设计】接口幂等性设计

1. 幂等性定义 接口幂等性: 无论调用次数多少,对系统状态的影响与单次调用相同。 比如用户支付接口因网络延迟重复提交了三次。 导致原因: 用户不可靠(手抖多点)网络不可靠(超时重传)系统不可…...

闲聊人工智能对媒体的影响

技术总是不断地改变信息的传播方式。互联网促进了社交媒体的蓬勃发展。 网络媒体成为主流。大语言模型为代表的人工智能的出现,又会对媒体传播带来怎样的改变呢?媒体的演变反映了社会和技术的演变。 人工智能(AI) 将继续对整个媒体行业产生变革性的影响。…...

卷积神经网络--手写数字识别

本文我们通过搭建卷积神经网络模型,实现手写数字识别。 pytorch中提供了手写数字的数据集 ,我们可以直接从pytorch中下载 MNIST中包含70000张手写数字图像:60000张用于训练,10000张用于测试 图像是灰度的,28x28像素 …...

Pandas 数据导出:如何将 DataFrame 追加到 Excel 的不同工作表

在数据分析和数据处理过程中,将数据导出到 Excel 文件是一个常见的需求。Pandas 提供了强大的功能来实现这一需求,尤其是将数据追加到同一个 Excel 文件的不同工作表(Sheet)中。本文将详细介绍如何使用 Pandas 实现这一功能&#…...

Unity中数据和资源加密(异或加密,AES加密,MD5加密)

在项目开发中,始终会涉及到的一个问题,就是信息安全,在调用接口,或者加载的资源,都会涉及安全问题,因此就出现了各种各样的加密方式。 常见的也是目前用的最广的加密方式,分别是:DE…...

SQL Server 2019 安装与配置详细教程

一、写在最前的心里话 和 MySQL 对比,SQL Server 的安装和使用确实要处理很多细节: 需要选择配置项很多有“定义实例”的概念,同一机器可以运行多个数据库服务设置身份验证方式时,需要同时配置 Windows 和 SQL 登录要想 Spring …...

Qt 调试信息重定向到本地文件

1、在Qt软件开发过程中,我们经常使用qDebug()输出一些调试信息在QtCreator终端上。 但若将软件编译、生成、打包为一个完整的可运行的程序并安装在系统中后,系统中没有QtCreator和编译环境,那应用程序出现问题,如何输出信息排查…...

MyBatisPlus文档

一、MyBatis框架回顾 使用springboot整合Mybatis,实现Mybatis框架的搭建 1、创建示例项目 (1)、创建工程 新建工程 创建空工程 创建模块 创建springboot模块 选择SpringBoot版本 (2)、引入依赖 <dependencies><dependency><groupId>org.springframework.…...

Memcached 主主复制架构搭建与 Keepalived 高可用实现

实验目的 掌握基于 repcached 的 Memcached 主主复制配置 实现通过 Keepalived 的 VIP 高可用机制 验证数据双向同步及故障自动切换能力 实验环境 角色IP 地址主机名虚拟 IP (VIP)主节点10.1.1.78server-a10.1.1.80备节点10.1.1.79server-b10.1.1.80 操作系统: CentOS 7 软…...

Android 使用支付接口,需要进行的加密逻辑:MD5、HMAC-SHA256以及RSA

目录 前言MD5HMAC-SHA256RSA其他 前言 不使用加密​​&#xff1a;支付系统如同「裸奔」&#xff0c;面临数据泄露、资金被盗、法律追责等风险。 正确使用加密​​&#xff1a;构建「端到端安全防线」&#xff0c;确保交易合法可信&#xff0c;同时满足国际合规要求。 支付系…...

软件工程效率优化:一个分层解耦与熵减驱动的系统框架

软件工程效率优化&#xff1a;一个分层解耦与熵减驱动的系统框架** 摘要 (Abstract) 本报告构建了一个全面、深入、分层的软件工程效率优化框架&#xff0c;旨在超越简单的技术罗列&#xff0c;从根本的价值驱动和熵减原理出发&#xff0c;系统性地探讨提升效率的策略与实践。…...

鸿蒙ArkUI之相对布局容器(RelativeContainer)实战之狼人杀布局,详细介绍相对布局容器的用法,附上代码,以及效果图

在鸿蒙应用开发中&#xff0c;若是遇到布局相对复杂的场景&#xff0c;往往需要嵌套许多层组件&#xff0c;去还原UI图的效果&#xff0c;若是能够掌握相对布局容器的使用&#xff0c;对于复杂的布局场景&#xff0c;可直接减少组件嵌套&#xff0c;且随心所欲完成复杂场景的布…...

详解 Servlet 处理表单数据

Servlet 处理表单数据 1. 什么是 Servlet&#xff1f;2. 表单数据如何发送到 Servlet&#xff1f;2.1 GET 方法2.2 POST 方法 3. Servlet 如何接收表单数据&#xff1f;3.1 获取单个参数&#xff1a;getParameter()示例&#xff1a; 3.2 获取多个参数&#xff1a;getParameterV…...

Spring Cloud Gateway 如何将请求分发到各个服务

前言 在微服务架构中&#xff0c;API 网关&#xff08;API Gateway&#xff09;扮演着非常重要的角色。它负责接收客户端请求&#xff0c;并根据预定义的规则将请求路由到对应的后端服务。Spring Cloud Gateway 是 Spring 官方推出的一款高性能网关&#xff0c;支持动态路由、…...

解释器体系结构风格-笔记

解释器&#xff08;Interpreter&#xff09;是一种软件设计模式或体系结构风格&#xff0c;主要用于为语言&#xff08;或表达式&#xff09;定义其语法、语义&#xff0c;并通过解释器来解析和执行语言中的表达式。解释器体系结构风格广泛应用于编程语言、脚本语言、规则引擎、…...

线程函数库

pthread_create函数 pthread_create 是 POSIX 线程库&#xff08;pthread&#xff09;中的一个函数&#xff0c;用于创建一个新的线程。 头文件 #include <pthread.h> 函数原型 int pthread_create(pthread_t *thread, const pthread_attr_t *attr,void *(*s…...

[C]基础13.深入理解指针(5)

博客主页&#xff1a;向不悔本篇专栏&#xff1a;[C]您的支持&#xff0c;是我的创作动力。 文章目录 0、总结1、sizeof和strlen的对比1.1 sizeof1.2 strlen1.3 sizeof和strlen的对比 2、数组和指针笔试题解析2.1 一维数组2.2 字符数组2.2.1 代码12.2.2 代码22.2.3 代码32.2.4 …...

OpenCV 图形API(60)颜色空间转换-----将图像从 YUV 色彩空间转换为 RGB 色彩空间函数YUV2RGB()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 将图像从 YUV 色彩空间转换为 RGB。 该函数将输入图像从 YUV 色彩空间转换为 RGB。Y、U 和 V 通道值的常规范围是 0 到 255。 输出图像必须是 8…...

11.原型模式:思考与解读

原文地址:原型模式&#xff1a;思考与解读 更多内容请关注&#xff1a;7.深入思考与解读设计模式 引言 在软件开发中&#xff0c;尤其是当需要创建大量相似对象时&#xff0c;你是否遇到过这样的情况&#xff1a;每次创建新对象时&#xff0c;是否都需要重新初始化一些复杂的…...

深度解析 Java 泛型通配符 `<? super T>` 和 `<? extends T>`

Java 泛型中的通配符 ? 与 super、extends 关键字组合形成的 <? super T> 和 <? extends T> 是泛型系统中最重要的概念之一&#xff0c;也是许多开发者感到困惑的地方。本文将全面剖析它们的语义、使用场景和设计原理。 一、基础概念回顾 1. 泛型通配符 ? ?…...

hbuilderx云打包生成的ipa文件如何上架

使用hbuilderx打包&#xff0c;会遇到一个问题。开发的ios应用&#xff0c;需要上架到app store&#xff0c;因此&#xff0c;就需要APP store的签名证书&#xff0c;并且还需要一个像xcode那样的工具来上架app store。 我们这篇文章说明下&#xff0c;如何在windows电脑&…...

Golang | 位运算

位运算比常规运算快&#xff0c;常用于搜索引擎的筛选功能。例如&#xff0c;数字除以二等价于向右移位&#xff0c;位移运算比除法快。...

天能资管(SkyAi):大数据洞察市场,引领投资新风向

在金融市场的浩瀚海洋中,信息如同灯塔,指引着投资者前行的方向。谁能更准确地把握市场动态和趋势,谁就能在激烈的市场竞争中占据先机。天能资管(SkyAi),作为卡塔尔投资局(QIA)旗下的科技先锋,凭借其强大的大数据处理能力与前沿的技术架构,为全球投资者提供了前所未有的市场洞察…...

产品动态|千眼狼sCMOS科学相机捕获单分子荧光信号

单分子荧光成像技术&#xff0c;作为生物分子动态研究的关键工具&#xff0c;对捕捉微弱信号要求严苛。传统EMCCD相机因成本高昂&#xff0c;动态范围有限&#xff0c;满阱容量低等问题&#xff0c;制约单分子研究成果产出效率。 千眼狼精准把握科研需求与趋势&#xff0c;自研…...

基于大牛直播SDK的Android屏幕扬声器采集推送RTMP技术解析

在移动互联网时代&#xff0c;直播技术的应用越来越广泛&#xff0c;而屏幕采集推送作为直播内容源的重要获取方式之一&#xff0c;也备受关注。本文将基于大牛直播SDK&#xff0c;深入剖析如何实现Android屏幕采集推送RTMP的完整流程&#xff0c;带你领略其背后的技术细节与魅…...

Linux防火墙工具UFW介绍

UFW(Uncomplicated Firewall)是 Ubuntu、Debian 等 Debian 系 Linux 发行版默认的防火墙管理工具,基于 iptables 开发,旨在通过简化的命令行接口(CLI)降低防火墙配置门槛,适合新手和简单场景。 核心目标:让用户无需深入理解 iptables 的 “表 - 链” 结构,通过直观的命…...