当前位置：首页 > news >正文

Python爬虫——城市数据分析与市场潜能计算（Pandas库）

news 2026/5/24 15:37:06

使用Python进行城市市场潜能分析

简介

本教程将指导您如何使用Python和Pandas库来处理城市数据，包括GDP、面积和城市间距离。我们将计算每个城市的市场潜能，这有助于了解各城市的经济影响力。

步骤 1: 准备环境

确保您的环境中安装了Python和以下库：

pandas
numpy
matplotlib

可以通过以下命令安装缺失的库：

pip install pandas numpy matplotlib openpyxl

步骤 2: 读取数据

使用Pandas读取包含城市名称、年份、GDP、面积和城市ID的Excel文件。

import pandas as pd# 读取数据
data_df = pd.read_excel('283地级市数据.xlsx', sheet_name='Sheet1', header=0)

步骤 3: 数据预处理

确保数据框的索引和列名正确设置，以便进行后续计算。

# 设置城市ID为索引
data_df.set_index('id', inplace=True)

步骤 4: 读取距离数据

读取城市间距离数据，确保第一行和第一列包含城市ID。

distance_df = pd.read_excel('规整化的283地级市的欧氏距离(带标题).xlsx', index_col=0, header=0)

步骤 5: 计算市场潜能

计算每个城市的市场潜能，考虑其GDP和与其他城市的距离。

import numpy as np# 计算di值
dii_values = (2/3) * (data_df['area'] / np.pi)**0.5# 初始化市场潜能DataFrame
market_potential_df = pd.DataFrame(index=data_df.index, columns=data_df['year'].unique())# 计算市场潜能
for year in market_potential_df.columns:for city_id in market_potential_df.index:Y_i = data_df.loc[city_id, 'gdp']dii = dii_values.loc[city_id]MP_i = Y_i / dii if not np.isnan(Y_i) else 0for other_city_id in distance_df.index:if city_id != other_city_id:Y_j = data_df.loc[other_city_id, 'gdp']d_ij = distance_df.loc[city_id, other_city_id]MP_i += Y_j / d_ij if not np.isnan(Y_j) else 0market_potential_df.loc[city_id, year] = MP_i

步骤 6: 输出结果

将计算结果输出到新的Excel文件。

output_file_path = '市场潜能结果.xlsx'
market_potential_df.to_excel(output_file_path)
print(f"市场潜能数据已成功输出到 {output_file_path}")

步骤 7: 可视化分析

使用matplotlib绘制特定城市的市场潜能变化。

import matplotlib.pyplot as plt# 绘制石家庄2003-2015年的市场潜能散点图
shijiazhuang_id = 3  # 石家庄市的城市ID
shijiazhuang_potential = market_potential_df.loc[shijiazhuang_id, (market_potential_df.columns >= 2003) & (market_potential_df.columns <= 2015)]
plt.figure(figsize=(10, 6))
plt.scatter(shijiazhuang_potential.index, shijiazhuang_potential.values, color='blue')
plt.title('石家庄2003-2015年市场潜能散点图')
plt.xlabel('年份')
plt.ylabel('市场潜能')
plt.grid(True)
plt.show()

结论

本教程提供了一个完整的流程，从读取城市数据到计算市场潜能，最后将结果可视化。这有助于理解各城市的经济影响力和相互关系。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import osplt.rcParams['font.sans-serif'] = ['SimHei']  # 黑体
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['axes.unicode_minus'] = False  # 正确显示负号# 读取GDP和面积数据，假设第一列为城市名称，第二列为年份，第三列为GDP，第四列为面积，第五列为城市ID
data_df = pd.read_excel('283地级市数据.xlsx', sheet_name='Sheet1', header=0)# 读取距离数据，第一行为城市ID，第一列为城市ID
distance_df = pd.read_excel('规整化的283地级市的欧氏距离(带标题).xlsx', index_col=0, header=0)# 计算di值
dii_values = (2/3) * (data_df['area'] / np.pi)**0.5# 初始化市场潜能DataFrame，使用城市ID作为索引
market_potential_df = pd.DataFrame(index=data_df['id'].unique(), columns=data_df['year'].unique())# 计算市场潜能
for year in market_potential_df.columns:for city_id in market_potential_df.index:# 找到当前城市和年份对应的GDPcity_data = data_df[(data_df['id'] == city_id) & (data_df['year'] == year)]if city_data.empty:continue  # 如果没有找到数据，跳过这个城市和年份Y_i = city_data['gdp'].values[0]dii = dii_values[city_id]MP_i = Y_i / dii if not np.isnan(Y_i) else 0for other_city_id in distance_df.index:if city_id != other_city_id:# 找到其他城市和年份对应的GDPother_city_data = data_df[(data_df['id'] == other_city_id) & (data_df['year'] == year)]if other_city_data.empty:continue  # 如果没有找到数据，跳过这个城市Y_j = other_city_data['gdp'].values[0]d_ij = distance_df.loc[city_id, other_city_id]MP_i += Y_j / d_ij if not np.isnan(Y_j) else 0market_potential_df.loc[city_id, year] = MP_i# 读取Excel文件到DataFrame
market_potential_df = pd.read_excel('市场潜能结果.xlsx')# 确保ID列是DataFrame的索引
market_potential_df.set_index('id', inplace=True)# 筛选石家庄市的数据，城市ID为3
shijiazhuang_id = 3  # 石家庄市的城市ID
shijiazhuang_potential = market_potential_df.loc[shijiazhuang_id, (market_potential_df.columns >= 2003) & (market_potential_df.columns <= 2015)]# 确保年份是数值类型
shijiazhuang_potential.index = pd.to_numeric(shijiazhuang_potential.index, errors='coerce')# 绘制散点图
plt.figure(figsize=(10, 6))
plt.scatter(shijiazhuang_potential.index, shijiazhuang_potential.values, color='blue')
plt.title('石家庄2003-2015年城市潜力散点图')
plt.xlabel('年份')
plt.ylabel('城市潜力')
plt.grid(True)
plt.show()

在这里插入图片描述

Python爬虫——城市数据分析与市场潜能计算（Pandas库）

使用Python进行城市市场潜能分析简介本教程将指导您如何使用Python和Pandas库来处理城市数据，包括GDP、面积和城市间距离。我们将计算每个城市的市场潜能，这有助于了解各城市的经济影响力。步骤 1: 准备环境确保您的环境中安装了Python和以下库&…...

编程日记 2024/12/4 5:21:56

如何搭建JMeter分布式集群环境来进行性能测试

在性能测试中，当面对海量用户请求的压力测试时，单机模式的JMeter往往力不从心。如何通过分布式集群环境，充分发挥JMeter的性能测试能力？这正是许多测试工程师在面临高并发、海量数据时最关注的问题。那么，如何轻松搭建…...

编程日记 2024/12/4 5:20:53

【Halcon】 derivate_gauss

1、derivate_gauss Halcon中的derivate_gauss算子是一个功能强大的图像处理工具，它通过将图像与高斯函数的导数进行卷积，来计算各种图像特征。这些特征在图像分析、物体识别、图像增强等领域具有广泛的应用。参数解释 Sigma：高斯函数的标准差，用于控制平滑的程度。Sigma…...

编程日记 2024/12/4 5:19:52

stm32中systick时钟pinlv和系统节拍频率有什么区别，二者有无影响？

在STM32中，SysTick时钟频率和系统节拍频率是两个不同的概念，它们之间存在区别，并且这种区别会对系统的运行产生一定的影响。以下是对这两个概念的详细解释以及它们之间关系的探讨： 一、SysTick时钟频率定义：SysTick…...

编程日记 2024/12/4 5:18:51

柔性数组详解+代码展示

系列文章目录 🎈 🎈 我的CSDN主页:OTWOL的主页，欢迎！！！👋🏼👋🏼 🎉🎉我的C语言初阶合集：C语言初阶合集，希望能…...

编程日记 2024/12/4 5:17:50

前端入门指南：Webpack插件机制详解及应用实例

前言在现代前端开发中，模块化和构建工具的使用变得越来越重要，而Webpack作为一款功能强大的模块打包工具，几乎成为了开发者的默认选择。Webpack不仅可以将各种资源（如JavaScript文件、CSS文件、图片等）打包成优化后的…...

编程日记 2024/12/4 5:15:48

C++备忘录模式

在读《大话设计模式》，在此记录有关C实现备忘录模式。场景引入：游戏中的存档，比如打boss之前记录人物的血量等状态。下面代码是自己根据理解实现的存档人物血量功能。 #include <iostream>using namespace std;//声明玩家类 class …...

编程日记 2024/12/4 5:13:47

【Electron学习笔记（四）】进程通信（IPC）

进程通信（IPC） 进程通信（IPC）前言正文1、渲染进程→主进程（单向）2、渲染进程⇌主进程（双向）3、主进程→渲染进程进程通信（IPC） 前言在Electron框架中&…...

编程日记 2024/12/4 5:12:44

Java 中的 remove 方法深度解析

在 Java 编程中，remove方法是一个经常被使用的操作。它可以用于从各种数据结构中移除特定的元素，帮助我们有效地管理和操作数据。本文将深入探讨 Java 中的remove方法，包括在不同数据结构中的应用、使用场景、注意事项以及性能考虑等方面。 …...

编程日记 2024/12/4 5:11:42

企业品牌曝光的新策略：短视频矩阵系统

企业品牌曝光的新策略：短视频矩阵系统在当今数字化时代，短视频已经渗透到我们的日常生活之中，成为连接品牌与消费者的关键渠道。然而，随着平台于7月20日全面下线了短视频矩阵的官方接口，许多依赖于此接口的小公司和内…...

编程日记 2024/12/4 5:10:39

【初阶数据结构与算法】二叉树顺序结构---堆的应用之堆排、Top-K问题

文章目录一、堆排引入之使用堆排序数组二、真正的堆排1.向上调整算法建堆2.向下调整算法建堆3.向上和向下调整算法建堆时间复杂度比较4.建堆后的排序4.堆排序和冒泡排序时间复杂度以及性能比较三、Top-K问题一、堆排引入之使用堆排序数组在了解真正的堆排之前，我…...

编程日记 2024/12/4 5:08:37

vue3 + ts 使用 el-tree

实现效果： 代码： <template><div class"my-tree-container"><el-scrollbar height"100%"><el-tree ref"treeRef" :data"treeData" node-key"id" n…...

编程日记 2024/12/4 5:07:34

Create Stunning Word Clouds with Ease!

Looking to craft breathtaking word clouds? WordCloudStudio is your go-to solution! Whether you’re a marketer, educator, designer, or simply someone who loves visualizing data, this app has everything you need. Download now: https://apps.apple.com/app/wor…...

编程日记 2024/12/4 5:06:33

html+css网页设计旅游马林旅行社5个页面

htmlcss网页设计旅游马林旅行社5个页面网页作品代码简单，可使用任意HTML辑软件（如：Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作）。获取源码 1&#…...

编程日记 2024/12/4 5:05:32

python selenium（4+）+chromedriver最新版定位爬取嵌套shadow-root（open）中内容

废话不多说，直接开始本文以无界作为本文测试案例，抓取shadow-root（open）下的内容 shadow Dom in selenium： 首先先讲一下shadow Dom in selenium 版本的区别，链接指向这里在Selenium 4版本以及 chrom…...

编程日记 2024/12/4 5:04:30

React基础教程（11）：useCallback记忆函数的使用

11、useCallback记忆函数防止因为组件重新渲染，导致方法被重新创建，起到缓存作用，只有第二个参数变化了，才重新声明一次。示例代码： import {useCallback, useState} from "react";const App = () =>...

编程日记 2024/12/4 5:03:28

arp-scan 移植到嵌入式 Linux 系统是一个涉及多个步骤的过程

将 arp-scan 移植到嵌入式 Linux 系统是一个涉及多个步骤的过程。arp-scan 是一个用于发送 ARP 请求以发现网络上设备的工具，它依赖于一些标准的 Linux 库和工具。以下是将 arp-scan 移植到嵌入式 Linux 系统的基本步骤： 1. 获取 arp-scan 源码首先&a…...

编程日记 2024/12/4 5:02:27

【Linux】常用命令一

声明：以下内容均学习自《Linux就该这么学》一书。 Linux中的shell是一种命令行工具，它充当的作用是人与内核(硬件)之间的翻译官。大多数Linux系统默认使用的终端是Bash解释器。 1、echo 用于在终端输出字符串或变量提取后的值。 echo "字符串…...

编程日记 2024/12/4 5:00:24

在鲲鹏麒麟服务器上部署MySQL主从集群

因项目需求需要部署主从MySQL集群，继续采用上次的部署的MySQL镜像arm64v8/mysql:latest，版本信息为v8.1.0。计划部署服务器192.168.31.100和192.168.31.101 部署MySQL主节点在192.168.31.100上先创建好/data/docker/mysql/data和/data/docker/mysql/l…...

编程日记 2024/12/4 4:58:20

Siknhorn算法介绍

SiknHorn算法是一个快速求解离散优化问题的经典算法，特别适用于计算离散分布之间的**最优传输（Optimal Transport）**距离； 最优传输问题介绍计算两个概率分布 P 和 Q 之间的传输成本，通常表示为： 是传输…...

编程日记 2024/12/4 4:51:12

具身智能的发展趋势对就业市场的影响是什么？

具身智能对就业的核心影响是结构性重塑：短期替代大量重复性岗位、长期创造更高价值的新岗位，整体呈现 “替代 — 创造 — 转型” 的震荡再平衡过程。下面从替代、创造、结构变化、技能与分配、时间线五个方面展开。一、岗位替代：低技能、高重…...

编程新知 2026/5/24 14:50:36

4个突破性价值：Axure-cn语言包的全中文界面革命

4个突破性价值：Axure-cn语言包的全中文界面革命【免费下载链接】axure-cn Chinese language file for Axure RP. Axure RP 简体中文语言包。支持 Axure 11、10、9。不定期更新。项目地址: https://gitcode.com/gh_mirrors/ax/axure-cn 你是否曾因Axure RP的…...

编程新知 2026/5/24 14:35:48

AllData数据中台：企业数字化转型的架构深度解析与实战指南

AllData数据中台：企业数字化转型的架构深度解析与实战指南【免费下载链接】alldata 🔥🔥 AllData可定义数据中台，以数据平台为底座，以数据中台为桥梁，以机器学习平台为工厂，以大模型应用为上游…...

编程新知 2026/5/24 13:48:44

终极指南：如何使用Universal x86 Tuning Utility释放你的硬件潜能

终极指南：如何使用Universal x86 Tuning Utility释放你的硬件潜能【免费下载链接】Universal-x86-Tuning-Utility Unlock the full potential of your Intel/AMD based device. 项目地址: https://gitcode.com/gh_mirrors/un/Universal-x86-Tuning-Utility …...

编程新知 2026/5/24 13:34:26

OpenClaw用户指南通过Taotoken CLI快速写入配置并开始使用

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 OpenClaw用户指南：通过Taotoken CLI快速写入配置并开始使用对于使用OpenClaw构建智能体工作流的开发者而言&#xff0…...

编程新知 2026/5/24 12:02:32

Translumo终极指南：3分钟掌握Windows实时屏幕翻译神器

Translumo终极指南：3分钟掌握Windows实时屏幕翻译神器【免费下载链接】Translumo Advanced real-time screen translator for games, hardcoded subtitles in videos, static text and etc. 项目地址: https://gitcode.com/gh_mirrors/tr/Translumo 你是否在…...

编程新知 2026/5/24 11:56:17

Unity中Newtonsoft.Json三种安装方式深度对比

1. 为什么Unity项目里装个Json库要纠结三天？——从一次崩溃说起Newtonsoft.Json，也就是大家常说的Json.NET，在C#生态里几乎是序列化的代名词。但放到Unity里，它却是个“熟悉的陌生人”：你写惯了JsonConvert.SerializeO…...

编程新知 2026/5/24 10:24:08

如何快速解锁中兴光猫工厂模式：终极免费工具指南

如何快速解锁中兴光猫工厂模式：终极免费工具指南【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 你是否曾因中兴光猫的默认设置限制而无法优化家庭网络？是否想访…...

编程新知 2026/5/24 10:17:08

ncmdump解密技术：突破NCM音频格式加密限制的完整解决方案

ncmdump解密技术：突破NCM音频格式加密限制的完整解决方案【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 在数字音乐生态系统中，格式兼容性始终是技术爱好者面临的核心挑战之一。网易云音乐采用的NCM&#xf…...

编程新知 2026/5/24 8:54:30

别再抄网上报错的代码了！手把手教你用Python搞定波士顿房价预测（附数据集下载）

从零构建波士顿房价预测实战指南：避开99%初学者踩过的坑第一次运行波士顿房价预测代码时，我也遇到了那个经典的报错——load_boston()函数突然失效。这就像准备大展拳脚时发现工具箱被锁住，特别是当截止日期临近，那种焦虑感尤为真…...

编程新知 2026/5/24 7:53:36