当前位置: 首页 > article >正文

用Excel抓取历史天气数据避坑指南:UTF-8编码与Web.Contents函数详解

Excel抓取历史天气数据避坑指南UTF-8编码与Web.Contents函数实战解析天气预报数据对商业决策、活动策划和学术研究都至关重要。但当你需要批量获取多个城市的历史气象记录时手动复制粘贴显然不现实。Excel的Power Query功能可以自动化这一过程但中文网页特有的UTF-8编码问题常常让初学者踩坑。本文将带你深入理解编码转换机制并提供可直接复用的解决方案。1. 为什么天气数据抓取总会遇到编码问题中文天气网站普遍采用UTF-8编码存储数据这与Excel默认处理的字符集存在差异。当直接使用Web.Contents函数获取网页内容时中文字符经常显示为乱码。这种现象源于二进制数据流到文本的转换过程中缺少正确的解码指令。以天气后报网站为例其页面头部明确声明了编码格式meta http-equivContent-Type contenttext/html; charsetutf-8 /常见编码类型与Excel代码对照表编码格式Excel代码适用场景UTF-865001绝大多数中文网页UTF-161200部分API接口ASCII20127纯英文文本Windows-12521252早期西欧语言网页提示遇到乱码时首先检查网页源码中的charset声明再匹配对应的Excel编码参数。2. Web.Contents函数的深度应用Web.Contents是Power Query中获取网络数据的核心函数但它的二进制输出需要配合Text.FromBinary才能转换为可读文本。正确的参数组合是解决编码问题的关键。完整数据抓取公式模板 Table.AddColumn( Source, 天气数据, each Web.Page( Text.FromBinary( Web.Contents([URL]), 65001 // UTF-8编码参数 ) ){0}[Data] )参数解析Web.Contents([URL])获取网页二进制数据Text.FromBinary(...,65001)将二进制按UTF-8解码Web.Page(...)解析HTML文档结构{0}[Data]提取第一个表格数据多城市URL模式识别技巧观察不同城市页面的URL规律北京/weather/top/beijing.html上海/weather/top/shanghai.html在Excel中建立城市名称对照表| 城市名 | 拼音参数 | |--------|-----------| | 北京 | beijing | | 上海 | shanghai |使用Text.Combine动态生成URL http://www.tianqihoubao.com/weather/top/ [拼音参数] .html3. 实战构建自动化天气数据采集系统让我们通过一个完整案例实现30个城市历史天气的一键抓取。步骤1准备城市基础数据表| 城市编号 | 城市名称 | 拼音参数 | |----------|----------|-------------| | 1 | 北京 | beijing | | 2 | 上海 | shanghai | | ... | ... | ... |步骤2在Power Query中创建自定义函数(url as text) as table let 源 Web.Page(Text.FromBinary(Web.Contents(url),65001)), 数据 源{0}[Data] in 数据步骤3批量调用函数获取数据 Table.AddColumn( 城市表, 天气数据, each 抓取天气函数([动态URL]) )常见错误排查错误1DataSource.Error: 远程服务器返回错误: (403) 已禁止解决方案添加HTTP请求头Web.Contents(url, [Headers[#User-AgentMozilla/5.0]])错误2无法识别65001参数检查点确保使用Text.FromBinary包裹Web.Contents错误3表格结构不一致处理方法先单独测试每个URL确认数据格式统一4. 高级技巧处理动态加载的天气数据部分现代天气网站采用JavaScript动态加载数据传统方法无法直接抓取。此时需要模拟浏览器行为方案A使用Web.BrowserContents函数需Excel 365最新版 Web.Page( Web.BrowserContents( https://example.com/weather, [WaitFor.weather-table] ) )方案B调用公开天气API推荐 Json.Document( Web.Contents( https://api.weather.com/v3/..., [Query[ apiKeyYOUR_KEY, city[城市编号] ]] ) )数据清洗关键步骤重命名中文列标题为英文标识处理温度数据中的特殊符号如℃→°C统一日期格式 Table.TransformColumns( 天气表, {{日期, each DateTime.From(_), type datetime}} )过滤无效记录 Table.SelectRows( 天气表, each [最高气温] N/A )掌握这些技巧后你可以轻松构建城市级气象数据库为销售预测、物流规划等业务场景提供数据支撑。记得定期检查网站结构变化及时调整抓取策略。

相关文章:

用Excel抓取历史天气数据避坑指南:UTF-8编码与Web.Contents函数详解

Excel抓取历史天气数据避坑指南:UTF-8编码与Web.Contents函数实战解析 天气预报数据对商业决策、活动策划和学术研究都至关重要。但当你需要批量获取多个城市的历史气象记录时,手动复制粘贴显然不现实。Excel的Power Query功能可以自动化这一过程&#x…...

RabbitMQ管理界面隐藏玩法:除了看状态,还能这样排查消息堆积和死信问题

RabbitMQ管理界面高阶诊断:消息堆积与死信问题的实战排查指南 RabbitMQ的Web管理界面常被视作简单的监控工具,但鲜有人意识到它隐藏着堪比专业诊断套件的深度排查能力。当线上消息系统突然出现消费延迟、队列积压或消息神秘消失时,运维团队往…...

2026年创业者必看:友价源码如何助力6000+项目稳健起飞?

在互联网浪潮席卷的今天,每一个创业者都渴望找到一款既能承载梦想又能稳健前行的工具。然而,在源码市场中,选择往往伴随着困惑与风险。直到我遇到了友价源码,一个让无数创业者安心的名字。温州友价网络科技有限公司,这…...

如何利用Windows通知栏实现“摸鱼式“英语学习:ToastFish终极指南

如何利用Windows通知栏实现"摸鱼式"英语学习:ToastFish终极指南 【免费下载链接】ToastFish 一个利用摸鱼时间背单词的软件。 项目地址: https://gitcode.com/GitHub_Trending/to/ToastFish 你是否曾经想要在忙碌的工作间隙提升英语词汇量&#xf…...

从FBX到BVH:Blender脚本实战与常见问题解析

1. FBX与BVH格式基础解析 在三维动画制作领域,FBX和BVH是两种广泛使用的文件格式。FBX由Autodesk开发,是一种通用性极强的三维数据交换格式,能够存储模型、材质、动画等多种信息。而BVH(Biovision Hierarchy)则是一种专…...

LangChain与LangGraph:构建高效AI工作流的技术指南

1. 初识LangChain与LangGraph:AI工作流的新范式第一次接触LangChain时,我被它解决的核心问题所震撼——如何让大语言模型(LLM)真正融入实际业务场景。传统AI应用开发就像用乐高积木搭建城堡,每块积木都需要自己从头打磨。而LangChain提供的是…...

酷安UWP:在Windows电脑上体验酷安社区的终极桌面客户端

酷安UWP:在Windows电脑上体验酷安社区的终极桌面客户端 【免费下载链接】Coolapk-UWP 一个基于 UWP 平台的第三方酷安客户端 项目地址: https://gitcode.com/gh_mirrors/co/Coolapk-UWP 还在为手机刷酷安时眼睛酸痛而烦恼吗?想在更大的屏幕上舒适…...

终极指南:5分钟掌握国家自然科学基金LaTeX模板的完整使用教程

终极指南:5分钟掌握国家自然科学基金LaTeX模板的完整使用教程 【免费下载链接】NSFC-application-template-latex 国家自然科学基金申请书正文(面上项目)LaTeX 模板(非官方) 项目地址: https://gitcode.com/GitHub_T…...

从高德、百度地图下载POI数据?用这个工具5分钟搞定GCJ02/BD09到WGS84的坐标纠偏

互联网地图数据纠偏实战:5分钟实现GCJ02/BD09到WGS84的高效转换 当你从高德地图API获取的商铺位置数据导入ArcGIS后,发现所有点位都偏离实际位置数百米;或是将百度地图的行政区划边界加载到QGIS中,与卫星影像完全无法匹配——这并…...

智能仪表电源噪声大、影响计量精度?50V耐压CSM7375F33SR、LDO高纹波抑制+低压差设计,轻松过滤电源干扰,配合2.2μA超低静态电流,让电表水表的计量精度和续航双双拉满!

CSM7375系列LDO在电表/水表/智能仪表上的应用深度分析电表、水表等智能仪表对电源的要求非常严苛,CSM7375系列LDO的特性几乎是为这类场景量身打造的,下面从场景痛点、参数匹配、实际应用三个维度展开详细分析。一、智能仪表的电源核心痛点智能仪表&#…...

Git合并冲突实战:当你的dev分支和master分支修改了同一个README文件时怎么办?

Git合并冲突实战&#xff1a;当dev分支与master分支修改同一个README文件时 刚接触Git时&#xff0c;最让人头疼的莫过于合并冲突。记得我第一次遇到冲突时&#xff0c;屏幕上那些奇怪的<<<<<<<和>>>>>>>符号让我完全不知所措。但后…...

全球及中国定制线束市场现状调查及投资价值分析报告

2026-2032年全球及中国定制线束市场现状调查及投资价值分析报告定制线束是根据特定设备或系统需求设计和制造的电气连接组件&#xff0c;由导线、电缆、连接器、端子及保护材料等组成&#xff0c;用于实现电源和信号的传输与分配&#xff0c;广泛应用于汽车、工业设备、消费电子…...

Mathpix与Simpletex:数学公式识别工具实战横评

1. 数学公式识别工具的选择困境 作为一名经常需要处理数学公式的学生或研究人员&#xff0c;你一定遇到过这样的烦恼&#xff1a;手写笔记需要转为电子版、纸质试卷要整理成文档、论文参考文献中的公式需要引用。传统的手动输入LaTeX或MathType不仅效率低下&#xff0c;还容易出…...

LVDS端口悬空竟会导致误触发?一个PCB设计疏忽引发的故障排查与保护电路设计全记录

LVDS端口悬空故障解析&#xff1a;从噪声误触到防护设计的工程实践 在高速数字系统设计中&#xff0c;LVDS&#xff08;低压差分信号&#xff09;因其低功耗、高抗干扰性和优异的EMI特性&#xff0c;已成为板间互连的黄金标准。但正是这种看似完美的接口技术&#xff0c;却隐藏…...

告别理论推导!用Python+Matlab复现WMMSE算法,手把手搞定MIMO波束成形优化

实战WMMSE算法&#xff1a;Python与Matlab双版本实现MIMO波束成形优化 在无线通信系统的设计中&#xff0c;多用户MIMO波束成形技术一直是提升频谱效率的关键。然而&#xff0c;面对复杂的数学推导和算法实现&#xff0c;许多工程师和研究者在实际应用中常常感到无从下手。本文…...

从代码小白到脚本高手:拆解一个实用的Illustrator自动角线脚本(JavaScript for AI)

从代码小白到脚本高手&#xff1a;拆解Illustrator自动角线脚本的JavaScript实现 在印刷品制作流程中&#xff0c;角线标注是不可或缺的环节。传统手动绘制不仅耗时费力&#xff0c;还容易因人为疏忽导致误差。这个自动角线脚本通过JavaScript与Illustrator DOM的交互&#xff…...

OpenProject项目管理终极指南:从零开始掌握开源协作神器

OpenProject项目管理终极指南&#xff1a;从零开始掌握开源协作神器 【免费下载链接】openproject OpenProject is the leading open source project management software. 项目地址: https://gitcode.com/GitHub_Trending/op/openproject 还在为团队协作效率低下而烦恼…...

Glide缓存调优实战:根据你的App场景,选对DiskCacheStrategy和skipMemoryCache

Glide缓存调优实战&#xff1a;根据App场景定制DiskCacheStrategy与skipMemoryCache 在移动应用开发中&#xff0c;图片加载的性能直接影响用户体验。Glide作为Android平台最受欢迎的图片加载库之一&#xff0c;其缓存机制设计精妙但配置灵活&#xff0c;不同的业务场景需要不同…...

从数据日报到周报:用Hive SQL自动生成业务日期维度的完整流程

从数据日报到周报&#xff1a;用Hive SQL构建自动化业务日期维度的全流程指南 每天早上9点&#xff0c;数据团队总会收到业务部门的连环追问&#xff1a;"昨天的GMV数据出来了吗&#xff1f;""本周累计用户增长了多少&#xff1f;""和上月同期相比转化…...

哔咔漫画下载器:高性能多线程下载引擎深度解析

哔咔漫画下载器&#xff1a;高性能多线程下载引擎深度解析 【免费下载链接】picacomic-downloader 哔咔漫画 picacomic pica漫画 bika漫画 PicACG 多线程下载器&#xff0c;带图形界面 带收藏夹&#xff0c;已打包exe 下载速度飞快 项目地址: https://gitcode.com/gh_mirrors…...

SpringBoot项目里那个诡异的NoClassDefFoundError,我排查了3小时才搞明白

SpringBoot项目中那个诡异的NoClassDefFoundError&#xff1a;一次深度排查实录 那天凌晨2点&#xff0c;生产环境的报警短信把我从睡梦中惊醒——核心服务启动失败&#xff0c;日志里赫然躺着NoClassDefFoundError: Could not initialize class com.utils.EncryptHelper。这个…...

别再死磕DDPM了!用Score-Based Generative Modeling (SGM) 换个思路玩转扩散模型

从DDPM到SGM&#xff1a;探索生成模型的双轨范式革命 当开发者们还在为DDPM的噪声预测网络调参时&#xff0c;前沿研究已经开辟了另一条基于分数匹配的生成路径。本文将带您穿透数学表象&#xff0c;理解Score-Based Generative Modeling&#xff08;SGM&#xff09;如何通过概…...

从像素到电影:Photon光影着色器如何重新定义Minecraft渲染管线

从像素到电影&#xff1a;Photon光影着色器如何重新定义Minecraft渲染管线 【免费下载链接】photon A gameplay-focused shader pack for Minecraft 项目地址: https://gitcode.com/gh_mirrors/photon3/photon 在数字渲染领域&#xff0c;实现真实感与性能平衡一直是开发…...

FreeCAD - “增料放样“基础使用

创建第一个草图创建第二个草图偏置其中一个草图点击“增料放样”&#xff0c;选择其中一个草图附件&#xff0c;点击“OK”轮廓对象为上一步选择的附件&#xff0c;点击添加截面&#xff0c;选择另一草图中的轮廓点击 OK 完成操作...

Comsol介质超表面三次谐波非线性模型研究:倍频模型与转换效率计算文献赠予

Comsol介质超表面三次谐波非线性模型&#xff0c;包含功率依赖。 且倍频模型以及转换效率计算。打开COMSOL时总会被非线性光学模块的选项搞得头疼&#xff1f;今天咱们直接拿介质超表面的三次谐波模型开刀&#xff0c;聊聊如何让超薄结构产生高频光波。非线性效应这东西&#x…...

从若依RuoYi-Vue项目里“抠”出前端独立部署,保姆级分离实战教程

若依RuoYi-Vue项目前端独立部署实战&#xff1a;从一体化到模块化开发的深度拆解 在中小型团队的实际开发中&#xff0c;我们常常会遇到这样的困境&#xff1a;虽然采用了"前后端分离"的技术架构&#xff0c;但项目代码仍然耦合在一个仓库里&#xff0c;导致团队协作…...

别再死记硬背CNN结构了!用PyTorch手把手带你‘画’出第一个卷积层(附代码)

用PyTorch‘画’出你的第一个卷积层&#xff1a;从零构建CNN的视觉化实践 当你第一次听说卷积神经网络&#xff08;CNN&#xff09;时&#xff0c;是否曾被那些抽象的理论概念和复杂的结构图搞得晕头转向&#xff1f;别担心&#xff0c;今天我们不谈枯燥的数学公式&#xff0c;…...

3PEAK思瑞浦 TPR6040F33-S3TR SOT23G-3 电压基准芯片

特性 固定输出电压: -2.048V、2.5V、3V、3.3V、4.096V和5V 高初始精度和低温系数 -A级:最大0.1%&#xff0c;25ppm/C -B级:最大0.2%&#xff0c;50ppm/C 工作温度范围:-40C至125C 滴流能力:150A至15mA 适用于任何电容负载&#xff0c;稳定可靠 封装:SOT23G-3...

别再死记贝叶斯公式了!用sklearn的CategoricalNB实战Ionosphere数据集,手把手教你搞定分类

别再死记贝叶斯公式了&#xff01;用sklearn的CategoricalNB实战Ionosphere数据集&#xff0c;手把手教你搞定分类 当你第一次接触机器学习分类任务时&#xff0c;可能会被各种数学公式吓退。但今天我要告诉你一个秘密&#xff1a;实际应用中&#xff0c;你完全不需要死记硬背贝…...

干货版《算法导论》 01:从问题定义到正确性证明

✨ 算法导论 01&#xff1a;从问题定义到正确性证明&#x1f516; 开篇&#xff1a;这门课&#xff0c;到底在教什么&#xff1f;&#x1f9e9; 一、先搞懂&#xff1a;什么是「计算问题」&#xff1f;1.1 形式化定义 ⚙️1.2 图示&#xff1a;二分图模型 &#x1f4ca;1.3 为什…...