当前位置: 首页 > news >正文

『python爬虫』xpath变化导致无法找到指定元素(持续更新中~)

目录

    • xpath变化的原因
    • 1. 语言设置
    • 2. 窗口大小
    • n. 待添加~
    • 总结


欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中

xpath变化的原因

XPath 可能会出现变化的原因有很多,以下是一些常见的情况:

  • 网页结构变化:如果网页的 HTML 结构发生了变化,XPath 可能会随之而变化。例如,元素的层级关系、属性名称或值的变化都可能导致 XPath 发生改变。

  • 动态生成内容:一些网页使用 JavaScript 或 AJAX 技术来动态加载内容,这样的页面在不同时间点可能会呈现不同的 HTML 结构,导致 XPath 发生变化。

  • 响应式设计:一些网站为了适配不同的设备和屏幕尺寸,会采用响应式设计,在不同的屏幕尺寸下展示不同的 HTML 结构,这也会导致 XPath 的变化。

  • 版本更新:一些网站可能会不断进行版本更新,以改进用户体验或添加新功能,这也可能会导致 XPath 的变化。

  • 数据库内容变化:如果网页内容是从数据库中动态获取的,数据库中数据的变化也可能会导致网页结构的变化,从而影响 XPath。

  • 为应对这些变化,当编写爬虫或使用 XPath 时,建议定期检查网页结构,避免硬编码的 XPath,而是使用相对稳定的定位方式,如基于 CSS 类名或 ID 进行定位,或者使用相对路径来编写 XPath,以减少受到变化的影响。

  • 此文收集我自己遇到的奇葩具体情况,不一定所有网站都适用,用于排查一些奇葩网站.

1. 语言设置

有些网站的语言设置很奇怪.切换语言居然会改动xpath
本地你浏览器访问是你设置过的cn中文,但是用谷歌打开来的时候默认是en英文,必要时在你的url中传入 诸如"langue=cn"这种参数,保证稳定,或者你一开始就在英文模式下设计.


2. 窗口大小

有些奇葩网站有自适应,窗口大小会导致适用不同的网页模板整个样子会变化.
你用driver.get(‘url’)打开网页的时候的默认窗口大小可能不同分辨率电脑不一样,第一次打开可以先用width = driver.execute_script("return document.body.clientWidth")height = driver.execute_script("return window.innerHeight")得到默认的宽度和高度.

from selenium import webdriver
from selenium.webdriver.chrome.options import Optionschrome_options = Options()# 创建 ChromeOptions 对象
# 启动 Chrome 浏览器
driver = webdriver.Chrome(options=chrome_options)# 打开登录页面
driver.get('url')
width = driver.execute_script("return document.body.clientWidth")
height = driver.execute_script("return window.innerHeight")
print("当前窗口大小为:{}x{}".format(width, height))
driver.set_window_size(800,600)#不设置固定大小,可能会导致xpath变化

n. 待添加~


总结

大家喜欢的话,给个👍,点个关注!给大家分享更多计算机专业学生的求学之路!

版权声明:

发现你走远了@mzh原创作品,转载必须标注原文链接

Copyright 2023 mzh

Crated:2023-3-1

欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中
『未完待续』


相关文章:

『python爬虫』xpath变化导致无法找到指定元素(持续更新中~)

目录 xpath变化的原因1. 语言设置2. 窗口大小n. 待添加~总结 欢迎关注 『python爬虫』 专栏,持续更新中 欢迎关注 『python爬虫』 专栏,持续更新中 xpath变化的原因 XPath 可能会出现变化的原因有很多,以下是一些常见的情况: 网页…...

人大金仓数据库Kingbase服务SQL基础操作手册

1 kingbase服务 1.1 查看kingbase数据库服务进程 ps -ef|grep kingbase1.2 命令启动kingbase数据库服务 # /opt/Kingbase/ES/V8 为金仓安装目录 # /opt/Kingbase/ES/V8/data 为金仓数据目录 # sys_ctl是数据库服务器启停命令,通过-D选项来来指定数据库数据目录 #…...

赎金信00

题目链接 赎金信 题目描述 注意点 magazine中的每个字符只能在ransomNote中使用一次ransomNote和magazine由小写英文字母组成 解答思路 因为ransomNote和magazine由小写英文字母组成,所以使用大小为26的数组存储magazine中a~z对应出现的次数,ransom…...

如何运行github上的项目

为了讲明白这个过程,特意做了一个相当来说比较好读懂的原理图,希望和我一样初学的小伙伴也能很快上手哈😊 在Github中找到想要部署的项目,这里以BartoszJarocki/CV(线上简历📄)项目为例 先从头…...

机器学习-02-机器学习算法分类以及在各行各业的应用

总结 本系列是机器学习课程的第02篇,主要介绍机器学习算法分类以及在各行各业的应用 本门课程的目标 完成一个特定行业的算法应用全过程: 定义问题(Problem Definition) -> 数据收集(Data Collection) -> 数据分割(Data…...

Java项目学习

一、Java项目学习 1.1 瑞吉外卖(项目提供的资料没笔记) 视频资源:https://www.bilibili.com/video/BV13a411q753/?p1 本人git项目地址:https://gitee.com/xx-xuxin/reggie_take_out.git 瑞吉外卖Day01~Day06没讲的功能(全功能实现&#xf…...

npm run dev和npm run serve两个命令的区别

npm run dev和npm run serve两个命令的区别 前端开发过程中运行Vue项目的时候,有时候使用npm run serve命令可以启动项目,有时候却会报错;有时候使用npm run dev命令可以启动项目,有时候却也会报错。是什么原因造成这种情况呢&am…...

ui设计:利用即使设计设计出漂亮样式

目录 一、基本操作 二、具体介绍 6-1 填充图片 6-2 填充色 6-3 图标 右边栏基础设置 右边栏导出​编辑 一、基本操作 二、具体介绍 6-1 填充图片 选择其一图片填充 6-2 填充色 6-3 图标 右边栏基础设置 右边栏导出...

[unity]lua热更新——个人复习笔记【侵删/有不足之处欢迎斧正】

一、AssetBundle AB包是特定于平台的资产压缩包,类似于压缩文件 相对于RESOURCES下的资源,AB包更加灵活轻量化,用于减小包体大小和热更新 可以在unity2019环境中直接下载Asset Bundle Browser 可以在其中设置关联 AB包生成的文件 AB包文件…...

Springboot日常总结-@RestController和@Controller的区别

RestController和 Controlle是两种不同的控制器实现,它们的主要区别在于如何处理返回的数据和是否支持跳转到视图页面。 Controller 是一个基本的控制器注解,它允许你将一个类标记为一个Spring MVC控制器处理器。使用 Controller 的类中的方法可以直接返…...

MongoDB之客户端工具与核心概念及基本类型篇

MongoDB之客户端工具与核心概念及基本类型篇 文章目录 MongoDB之客户端工具与核心概念及基本类型篇1. MongoDB是什么?1. 关于MongoDB2. 相关客户端工具1. MongoDB Compass2. Studio 3T3. Navicat for MongoDB4. NoSQL Manager for MongoDB Professional 2.MongoDB相关概念2.1 …...

Essential C++ 编程基础

Essential C 前言1.1 如何撰写 C程序1.2 对象的定义与初始化1.3 撰写表达式1.4 条件语句和循环语句1.5 如何运用Array和Vector1.6 指针带来弹性1.7 文件的读写 前言 通过Essential C笔记的形式对C相关重点知识进行汇总,读者通读此系列文章就可以轻松的把该语言基础捡…...

07 Qt自绘组件:图片预览小组件ImageViewer

系列文章目录 01 Qt自定义风格控件的基本原则-CSDN博客 02 从QLabel聊起:自定义控件扩展-图片控件-CSDN博客 03 从QLabel聊起:自定义控件扩展-文本控件-CSDN博客 04 自定义Button组件:令人抓狂的QToolButton文本图标居中问题-CSDN博客 0…...

Groovy(第九节) Groovy 之单元测试

JUnit 利用 Java 对 Song 类进行单元测试 默认情况下 Groovy 编译的类属性是私有的,所以不能直接在 Java 中访问它们,必须像下面这样使用 setter: 编写这个测试用例余下的代码就是小菜一碟了。测试用例很好地演示了这样一点:用 Groovy 所做的一切都可以轻易地在 Java 程序…...

gprMax3.0随机介质建模

此处利用gprMax建立随机介质模型,采用matlab生成随机数组,保存为HDF5文件,此处为全代码,无需修改即可运行。在gprMax输入文件中使用#geometry_objects_read:读入自定义的随机模型 此文参考其他博主的自定义几何形状模块gprMax3.0建模时如何自定义目标的几何形状_#geomet…...

自动驾驶---行业发展及就业环境杂谈

进入21世纪以来,自动驾驶行业有着飞速的发展,自动驾驶技术(L2---L3)也逐渐落地量产到寻常百姓家。虽然最早期量产FSD的特斯拉有着深厚的技术积累,但是进入2010年以后,国内的公司也逐渐发展起来自己的自动驾…...

Matlab 矩阵基础

Matlab 基础 MATLAB 是“矩阵实验室matrix laboratory”的缩写。其他编程语言大多一次处理一个数字,MATLAB 主要用于处理整个矩阵和数组。 所有 MATLAB 变量都是多维数组,无论数据类型如何。矩阵是常用于线性代数的二维数组。 若要创建一个包含单行中…...

TikTok矩阵系统的功能展示:深入解析与源代码分享!

今天我来和大家说说TikTok矩阵系统,在当今数字化时代,社交媒体平台已成为人们获取信息、交流思想和娱乐放松的重要渠道,其中,TikTok作为一款全球知名的短视频社交平台,凭借其独特的创意内容和强大的算法推荐系统&#…...

Gradio Dataframe sort 问题

Gradio Dataframe sort 问题 1. 问题描述2. 解决办法(临时) 1. 问题描述 使用 Gradio Dataframe 显示表格数据时,默认每个列名右边会有个 sort icon,点击这个 sort icon 后,会按照该列进行升序或者降序排序。 问题点是,如果对表…...

【机器学习300问】24、模型评估的常见方法有哪些?

一、为什么要对模型进行评估? 对机器学习和神经网络的模型进行评估是至关重要的,原因如下: 得知模型的泛化能力: 模型评估的主要目的是了解模型在未见过的数据上的表现,即其泛化能力。这是因为模型的性能在训练数据上…...

如何快速掌握Steam成就管理:SteamAchievementManager终极实战指南

如何快速掌握Steam成就管理:SteamAchievementManager终极实战指南 【免费下载链接】SteamAchievementManager A manager for game achievements in Steam. 项目地址: https://gitcode.com/gh_mirrors/st/SteamAchievementManager SteamAchievementManager&am…...

Rust 并发模型中的所有权转移

Rust 并发模型中的所有权转移 在并发编程中,数据竞争和内存安全问题一直是困扰开发者的难题。Rust 语言通过独特的所有权机制,为并发编程提供了高效且安全的解决方案。所有权转移是 Rust 并发模型的核心之一,它确保数据在多线程环境下安全传…...

Obsidian 多端同步最佳实践:基于坚果云的同步插件的增量同步与版本控制方案

作为一名经常在多台 PC、Mac 和移动端之间切换的技术人员,Obsidian(简称 OB)几乎是我的外脑系统。其本地化、纯 Markdown 格式以及高度可定制性无可挑剔。但唯一的痛点,一直卡在“数据同步与一致性”上。 传统的 iCloud 方案跨平…...

从零到一:基于Spring Cloud Alibaba + Nacos + Sentinel的电商秒杀系统实战

从零到一:基于Spring Cloud Alibaba Nacos Sentinel的电商秒杀系统实战 秒杀场景一直是电商系统中最具挑战性的业务场景之一。想象一下,当某款热门商品以极低价格限量发售时,瞬间涌入的流量可能达到平时系统的数十倍甚至上百倍。这种突发的…...

2026年户外广告机选购指南:揭秘五大优质供应商的硬核实力

在信息爆炸的今天,户外广告机已成为品牌触达消费者的关键媒介。无论是繁华商圈的商业展示,还是智慧城市的政务信息发布,一块稳定、高清、耐用的屏幕至关重要。面对市场上琳琅满目的品牌,如何选择一家靠谱的供应商?本文…...

STM32F407ZET6主控工控板:全面集成PLC与IO卡控制,8路高速脉冲输出与多路光耦隔...

主控STM32F407ZET6控制板PLC工控板FX3U,FX5U,控制IO卡 STM32F407ZET6工控板,包括pcb,原理图 ,/PLC STMF32F407ZET6/FX-3U/PCB生产方案,喜欢可直接联系。 不提供。 板载资源介绍 1. 8路高速脉冲加方向输出,带光耦隔离 2. 16路低速输出,加光耦和…...

终极指南:3步免费解锁Cursor Pro完整功能,告别试用限制

终极指南:3步免费解锁Cursor Pro完整功能,告别试用限制 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reac…...

Smithbox终极指南:零基础掌握魂系列游戏修改艺术 [特殊字符]

Smithbox终极指南:零基础掌握魂系列游戏修改艺术 🎮 【免费下载链接】Smithbox Smithbox is a modding tool for Elden Ring, Armored Core VI, Sekiro, Dark Souls 3, Dark Souls 2, Dark Souls, Bloodborne and Demons Souls. 项目地址: https://git…...

Dify 2026文档解析优化全链路实战指南:从PDF/OCR/PPT多模态预处理到结构化输出的7步标准化流水线

第一章:Dify 2026文档解析优化方法论全景概览Dify 2026版本在文档解析能力上实现了范式级升级,核心聚焦于多模态语义对齐、上下文感知切片与结构化意图还原三大支柱。该方法论不再将PDF、Markdown、Word等格式视为静态字节流,而是构建统一的“…...

思源宋体TTF字体:5分钟快速上手的完整免费使用指南

思源宋体TTF字体:5分钟快速上手的完整免费使用指南 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 还在为中文排版寻找专业又免费的字体解决方案吗?思源宋体TTF…...