当前位置：首页 > news >正文

Python处理Excel文件并与数据库匹配做拼接

news 2026/5/25 3:08:08

Python处理Excel文件并与数据库匹配做拼接

需求：Python处理Excel中数据并于数据库交互匹配得到账号信息等其他操作

Python实现

import os
import pandas as pd
import pymssql
import warnings
import time# 提取速率函数
def extract_broadband_speed(speed):if pd.notnull(speed) and 'M' in str(speed):return str(speed).split('M')[0] + 'M'else:return ''# 拼接工单标题函数
def concatenate_with_dash(row):product_type = row.get('产品类型')workorder_type = row.get('工单类型')access_type = row.get('方式')broadband_speed = row.get('速率提取')if workorder_type in ['改', '其他']:if product_type == '宽带':return f"{product_type}-{broadband_speed}-{access_type}-{workorder_type}"else:return f"{product_type}-{workorder_type}"elif product_type == '宽带':return f"{product_type}-{broadband_speed}-{access_type}-{workorder_type}机"else:return f"{product_type}-{workorder_type}机"# 清空文件夹下的所有Excel文件数据只保留一个表头数据
def clear_data_in_excel_files(current_directory):# 获取当前文件夹下的所有 Excel 文件files = [file for file in os.listdir(current_directory) if file.endswith('.xls') or file.endswith('.xlsx')]# 遍历所有 Excel 文件并清空除第一行表头外的数据for file in files:file_path = os.path.join(current_directory, file)  # 获取文件的路径df = pd.read_excel(file_path)  # 读取 Excel 文件df = df.head(0)  # 保留第一行表头df.to_excel(file_path, index=False, header=True)  # 将清空后的数据覆盖写入原 Excel 文件print(f"成功清空文件: {file}")print("成功清空所有 Excel 文件的除第一行表头外的数据")def main():start_time = time.time()print("程序开始时间:", time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(start_time)))warnings.filterwarnings('ignore')  # 忽略警告# 数据库连接信息server = '127.0.0.1'database = 'YD'username = 'sa'password = 'xyz@1234560'conn = pymssql.connect(server, username, password, database)# 执行 SQL 查询sql_query = '''SELECT 地市, 人员名称, [账号]FROM [ZHB]'''# 读取数据库数据data = pd.read_sql(sql_query, conn)data.rename(columns={'人员名称': '处理人'}, inplace=True)# 获取当前工作目录current_directory = os.getcwd()# 获取当前文件夹下的所有文件files = [file for file in os.listdir(current_directory) if file.endswith('.xls')]# 统计各个工单类型的总数workorder_count = {}for file in files:file_path = os.path.join(current_directory, file)  # 获取文件的路径df0 = pd.read_excel(file_path)  # 读取 Excel 文件df0['速率提取'] = df0['速率'].apply(extract_broadband_speed)df0['用户品质-NEW'] = df0['速率提取'].apply(lambda x: '千兆' if x == '1000M' else '普通品质')df0['产品工单类型合并'] = df0.apply(concatenate_with_dash, axis=1).str.replace('装机', '新装')# 修改“区域属性”列名内容，含有城市和乡镇的替换为城镇df0['区域-修改'] = df0['区域'].fillna('城镇').str.replace('城市', '城镇').str.replace('乡镇', '城镇')# 修改“是否沿街”列名中有内容的改成是，没有内容的改成否df0['是否沿街-修改'] = df0['沿街'].apply(lambda x: '是' if pd.notnull(x) else '否')df0['开始时间'] = df0['预约上门时间'].apply(lambda x: str(x).split(' ~ ')[0].strip() if isinstance(x, str) else '')df0['结束时间'] = df0['预约上门时间'].apply(lambda x: str(x).split(' ~ ')[-1].strip() if isinstance(x, str) else '')print(f"成功读取文件: {file}")# 统计各个工单类型的总数for workorder_type in df0['产品类型']:workorder_count[workorder_type] = workorder_count.get(workorder_type, 0) + 1# 使用 merge 进行数据匹配merged_df = pd.merge(df0, data[['地市', '处理人', '账号']], on=['地市', '处理人'], how='left')# 打印每个产品类型的相关信息for idx, (product_type, group_data) in enumerate(merged_df.groupby('产品类型')):print(f"产品类型 {idx + 1}: {product_type}")filtered_data = merged_df[merged_df['产品类型'].isin(['ZW', 'TR'])]filtered_data.to_excel("源文件/ZW_TR数据合并.xlsx", index=False)print("成功将产品类型为 ZW_TR数据合并.xlsx")product_types = ['云', '门铃', '喇叭', 'HM']hm_data = merged_df[merged_df['产品类型'].isin(product_types)]hm_data.to_excel("源文件/HM_数据.xlsx", index=False)# 将其它类型的数据分别保存到不同文件中other_data = merged_df[~merged_df['产品类型'].isin(['ZW', 'TR', '云', '门铃', '喇叭', 'HM'])]for product_type, group_data in other_data.groupby('产品类型'):file_name = f"源文件/{product_type}_数据.xlsx"group_data.to_excel(file_name, index=False)print(f"成功将产品类型为 {product_type} 的数据导出到文件 {file_name}")print("成功将数据库查询结果匹配并拆分业务导出为Excel文件")# 遍历目标文件夹下的所有 Excel 文件target_folder = '数据库字段/'clear_data_in_excel_files(target_folder)for file_name in os.listdir(target_folder):file_path = os.path.join(target_folder, file_name)if file_name.endswith('.xlsx'):source_file_path = os.path.join('源文件/', file_name)if os.path.isfile(source_file_path):df_source = pd.read_excel(source_file_path)df_target = pd.read_excel(file_path)for source_col, target_col in [('施工单编码', '编码'),('施工单编码', 'boss号'),('产品工单类型合并', '工单标题'),('市', '市'),('县', '县'),('接入方式', '接入方式'),('受理时间', '受理时间'),('派单时间', '派单时间'),('归档时间', '归档时间'),('预约上门时间', '前台预约时间'),('处理人', '施工人员'),# 字段添加('宽带速率', '宽带速率'),('宽带套餐资费', '套餐信息'),('开始时间', '预约上门时间'),('区域-修改', '区域'),('是否沿街-修改', '沿街商铺'),('用户品质-NEW', '品质'),]:if source_col in df_source.columns and target_col in df_target.columns:df_target[target_col] = df_source[source_col]if 'ZW_TR数据合并.xlsx' in source_file_path:if 'ZW资费' in df_source.columns and '信息' in df_target.columns:df_target['信息'] = df_source['ZW资费']df_target.to_excel(file_path, index=False)print(f"成功将字段复制到文件 {file_path} 中")# 打印工单类型的总数print("产品类型总数：")for workorder_type, count in workorder_count.items():print(f"{workorder_type}: {count}")end_time = time.time()print("程序结束时间:", time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(end_time)))run_time = end_time - start_timeprint("程序运行耗时:%0.2f" % run_time, "s")# 提示用户按任意键退出程序input("按任意键退出程序")if __name__ == "__main__":main()

Python处理Excel文件并与数据库匹配做拼接

Python处理Excel文件并与数据库匹配做拼接需求：Python处理Excel中数据并于数据库交互匹配得到账号信息等其他操作 Python实现 import os import pandas as pd import pymssql import warnings import time# 提取速率函数 def extract_broadband_speed(speed):if…...

编程日记 2023/12/10 0:08:40

#pic_center R 1 R_1 R1 R 2 R^2 R2 目录一、出现的问题二、解决办法三、其它可供参考一、出现的问题在本地运行 npm run docs:dev之后，出现 Error [ERR_MODULE_NOT_FOUND]: Cannot find package Z:\Blog\docs\node_modules\htmlparser2\ imported from Z:\Blo…...

编程日记 2023/12/10 0:06:37

高项备考葵花宝典-项目进度管理输入、输出、工具和技术(中，很详细考试必过)

项目进度管理的目标是使项目按时完成。有效的进度管理是项目管理成功的关键之一，进度问题在项目生命周期内引起的冲突最多。小型项目中，定义活动、排列活动顺序、估算活动持续时间及制定进度模型形成进度计划等过程的联系非常密切，可以视为一…...

编程日记 2023/12/10 0:03:35

sql注入 [GXYCTF2019]BabySQli1

打开题目多次尝试以后我们发现存在一个admin的账号，但是密码我们不知道我们尝试一下万能密码 admin or 11 -- q 报错我们尝试bp抓一下包看看看着很像编码先去base32解码再base64解码得到我们从这个sql语句中得到注入点为name 根据报错信息我们知道是…...

编程日记 2023/12/10 0:00:31

python二维数组创建赋值问题：更改单个值却更改了所有项的值

test_list [] dic1 {} test_list [dic1 for _ in range(3)] ll [1, 2, 3]for i in range(3):test_list[i][value] ll[i]print(test_list)运行结果：每次赋值都更改了所有项原因：python的二位数据创建方式就是这样，官方文档中有描述Wha…...

编程日记 2023/12/9 23:58:30

深度模型训练时CPU或GPU的使用model.to(device)

一、使用device控制使用CPU还是GPU device torch.device("cuda:0" if torch.cuda.is_available() else "cpu") # 单GPU或者CPU.先判断机器上是否存在GPU，没有则使用CPU训练 model model.to(device) data data.to(device)#或者在确定有GPU的…...

编程日记 2023/12/9 23:56:28

SpringBoot3-实现和注册拦截器

1、pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.…...

编程日记 2023/12/9 23:55:27

Ubuntu 22.04源码安装yasm 1.3.0

sudo lsb_release -r看到操作系统的版本是22.04，sudo uname -r可以看到内核版本是5.15.0-86-generic，sudo gcc --version可以看到版本是11.2.0，sudo make --version可以看到版本是GNU Make 4.3。下载yasm http://yasm.tortall.net/Downlo…...

编程日记 2023/12/9 23:54:26

LeetCode [中等]矩阵置零

73. 矩阵置零 - 力扣（LeetCode） 暴力解法用两个标记数组分别记录每一行和每一列是否有零出现。遍历该数组一次，如果某个元素为 0，那么就将该元素所在的行和列所对应标记数组的位置置为 true。再次遍历该数组，用标…...

编程日记 2023/12/9 23:50:22

十一、了解分布式计算

1、什么是（数据）计算？ 2、分布式(数据)计算 （1）概念顾名思义，分布式计算，即以分布式的形式完成数据的统计，得到需要的结果。分布式数据计算，顾名思义，就是…...

编程日记 2023/12/9 23:47:19

数据结构和算法专题---2、算法思想

上文讲到算法的概念、复杂度，本文给大家介绍具体的算法思想，让大家对算法设计理念有个认识，后续再分别介绍各种算法。算法思想算法是解决问题的一种思想和方法，其基本思想是将一个复杂问题分解为多个简单的子问题，…...

编程日记 2023/12/9 23:46:18

在AWS Lambda上部署标准FFmpeg工具——自定义层的方案

大纲 1 确定Lambda运行时环境1.1 Lambda系统、镜像、内核版本1.2 运行时1.2.1 Python1.2.2 Java 2 打包FFmpeg3 创建Lambda的Layer4 测试4.1 创建Lambda函数4.2 附加FFmpeg层4.3 添加测试代码4.4 运行测试参考文献 FFmpeg被广泛应用于音/视频流处理领域。对于简单的需求&#…...

编程日记 2023/12/9 23:42:15

prometheus服务发现之consul

文章目录前言一、Consul 在这里的作用二、原理三、实现过程安装 consul节点信息（exporter）注册进去consul节点信息（exporter）从consul解除注册：prometheus配置consul地址总结前言我们平时使用 prometheus 收集监控…...

编程日记 2023/12/9 23:41:14

基于SSM的鞍山职业技术学院图书借阅管理系统

文章目录项目介绍主要功能截图：部分代码展示设计总结项目获取方式🍅 作者主页：超级无敌暴龙战士塔塔开 🍅 简介：Java领域优质创作者🏆、简历模板、学习资料、面试题库【关注我，都给你】 🍅文末获取源码联系🍅 项目介绍基于SSM的鞍山职业技术学院图书借阅管理…...

编程日记 2023/12/9 23:40:11

分布式数据库HBase

文章目录前言一、HBase概述 1.1.1 什么是HBase HBase是一个分布式的、面向列的开源数据库HBase是Google BigTable的开源实现HBase不同于一般的关系数据库, 适合非结构化数据存储HBase是一种分布式、可扩展、支持海量数据存储的 NoSQL数据库。HBase是依赖Hadoop的。为什么HBa…...

编程日记 2023/12/9 23:38:08

快捷切换raw页面到repo页面-Raw2Repo插件

Raw2Repo By Rick 📖快捷切换代码托管平台raw页面到repo页面 🔗github链接 https://github.com/rickhqh/Raw2Repo ✨Features 功能： ✅单击 Raw2Repo 插件按钮，即可跳转到相应的代码仓库页面。✅支持 GitHub、Gitee、GitCode …...

编程日记 2023/12/9 23:37:08

web：[GXYCTF2019]BabyUpload（文件上传、一句话木马、文件过滤）

题目页面显示为文件上传随便上传一个文件看看上传一个文本文件显示上传了一个图片显示上传包含一句话木马的图片上传了一个包含php一句话木马的文件，显示如上换一个写法上传成功尝试上传.htaccess，上传失败，用抓包修改文件后缀 …...

编程日记 2023/12/9 23:36:06

C++ Div3、Sqrt 函数高性能实现（带汇编指令集）

均采用魔法数字（Magic Number）实现，一个是经典求平方根函数所使用的魔法数字：0x5f375a86、0x5f3759df。 float Sqrt(float x) noexcept { /* 0x5f3759df */float xhalf 0.5f * x;int32_t i *(int32_t*)&x;i 0x5f375a86 - …...

编程日记 2023/12/9 23:34:03