当前位置: 首页 > news >正文

python 的selenium自动操控浏览器教程(2)

人生苦短,我用py


文章目录

  • 人生苦短,我用py
    • 关于部分网页无法找到元素的问题1
      • 方案1
      • 方案2
    • 关于部分网页无法找到元素的问题2
      • 解决方案
    • 被网站检查出来我们使用了selenium了怎么办?
    • 如何实现前进后退
    • 当使用py删除文件时报禁止访问怎么办
    • 怎么使用py实现解压文件?
    • 怎么打开系统的图片应用向用户展示图片?
    • 怎么去下载网络资源?
    • 怎么获取当前路径?
    • 怎么使用Webderive截图?
    • JSON数据的天坑?
  • 通用代码分享
  • 如何截长图?


关于部分网页无法找到元素的问题1

问题描述
这个问题我想,大概还是基础知识不牢靠的原因

selenium中的寻找元素,只是能寻找到当前页面的一个html中的元素,如果出现嵌套的网页就无法寻找到所嵌套网站中的元素的!!对我说的就是iframe!!!这个自带黑魔法的东西

上图:
在这里插入图片描述

出现这种情况是找不到的!

方案1

我们需要先获取iframe中的src也就是嵌套网页的地址,然后再去请求就好了

# 寻找第一层框架入口
s = Driver.find_element(By.ID, "frame_content").get_attribute("src")
# 进入第一层框架入口
Driver.get(s)

方案2

当然我们页可以直接去对iframe执行点击操作,这样更快,更人性化

关于部分网页无法找到元素的问题2

问题描述
这种情况是出现打开新的网页的情况,当我们打开了新的页面时,但是我们WebDriver并不会自动跳转的!他还在原来的页面时,所以我们去寻找新页面中的元素就会找不到了!!

如图所示

在这里插入图片描述

解决方案

那怎么样让驱动也去跳转那?

那我们需要获取句柄了(我只会windows平台上的)

注意这是我们获取的时当前驱动的所有句柄,如果有两个页面的话就会有两个句柄的,于是我们取出最后也个句柄,并使用switch_to.window方法使我们的浏览器驱动跳转到我们需要的(及第二个)页面。

  # 获取当前句柄,这很重要!!url = Driver.window_handles# 跳转到我们需要的网页Driver.switch_to.window(url[1])

被网站检查出来我们使用了selenium了怎么办?

问题描述
现在自动化工具越来越火了,一些厂商就针对与自动化工具做了限制,如:如果加了无头模式

一些网站的js就会检测出来,使我们的操作失效

解决方法
直接看代码吧,这玩意不好解释

    # 创建option对象options = Options()# 设置无头模式即浏览器不弹出,只在后台运行options.add_argument("headless")# 解决部分网站的对于Selenium的js监测机制,# 以下2行options.add_experimental_option('excludeSwitches', ['enable-automation'])options.add_experimental_option('useAutomationExtension', False)# 加载浏览器驱动Webdriver = Service(driverfilename)# 加载驱动和无头driver = webdriver.Edge(service=Webdriver, options=options)# 解决部分网站的对于Selenium的js监测机制,# 以下1行driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",{'source': 'Object.defineProperty(navigator,"webdriver",{get:()=>undefind})'})

如何实现前进后退

前进及不用说了,直接请求即可了,但是怎么去实现后退那?

上代码,这么少?哈哈其实坑多着哩!这个后退只能实现一个,也就是说如果连续写多个back()就会失效的!所以说该用driver.current_url去获取网址时就多用,不要去懒省事的

                # 回到上一个页面Driver.back()# 获取当前urldriver.current_url

当使用py删除文件时报禁止访问怎么办

不要慌不要慌,这种情况多出现在删除文件夹时这时我们就需要去使用shutil这个模块了,它可以保保证删除文件夹时不出错,但是用它去删除文件时却会出错的,要牢记

import shutil
if os.path.exists(name1):shutil.rmtree(name1)
if os.path.exists(name):os.remove(name)

怎么使用py实现解压文件?

我们使用zipfile模块,去实现首先打开文件 使用extratall()就可以实现解压了

import zipfile# 文件解压with zipfile.ZipFile(name) as zf:zf.extractall()print("解压完成")

注意:解压完成是会自动删除源文件的

怎么打开系统的图片应用向用户展示图片?

注意这里好像只支持win系统

代码

def showimg(path):userPlatform = platform.system()  # 获取操作系统if userPlatform == 'Windows':  # Macos.startfile(path)else:print("暂且不支持您的操作系统")

效果展示
在这里插入图片描述

怎么去下载网络资源?

下载网络资源

        dow = requests.get(downloadurl, headers)open("drive.zip", "wb").write(dow.content)

下载网页
使用的是py自带的标准库,不需要去下载第3方库

urllib.request.urlretrieve("URL路径","保存路径")

怎么获取当前路径?

一句

os.getcwd()

怎么使用Webderive截图?

Driver.save_screenshot(path)

JSON数据的天坑?

当我们去使用xhr,窃取响应时,通常会使用post请求,但是请注意,这里post 请求中的参数

1 必须是双引号
2 就算是数字也必须加上引号
3 没有值的话就加空字符串
4 布尔值必须是小写的true/false

请注意第2条,如果不加引号,js会把它按照int32类型处理但是当创出int32的范围时就会请求失败,这就是为什么int类型的数据也要加引号的 原因

1、传统表单post请求(xhr的请求)

import requests
url = “https://tests”
data = {“key”:“value”}
res = requests.post(url=url,data=data)
print(res.text)

2、json类型的post请求
import requests
url = “https://tests”
data = ‘{“key”:“value”}’
#字符串格式
res = requests.post(url=url,data=data)
print(res.text)
**
最后的一些未解决的问题
我们使用selenium获取到的cooike不全怎么办?
怎么根据快捷方式找到源文件的位置?
恳请大佬们解答**

通用代码分享

import platform
import os
import sys
import zipfile
import shutil
import requests
from selenium import webdriver
from selenium.webdriver.edge.service import Service
from selenium.webdriver.edge.options import Options
from win32com.client import Dispatch# 初始化Drvier
def init(driverfilename, isHeadless):print("开始浏览器初始化\n")# 创建option对象options = Options()if isHeadless:# 设置无头模式即浏览器不弹出,只在后台运行options.add_argument("headless")# 解决部分网站的对于Selenium的js监测机制,# 以下2行options.add_experimental_option('excludeSwitches', ['enable-automation'])options.add_experimental_option('useAutomationExtension', False)# 加载浏览器驱动Webdriver = Service(driverfilename)# 加载驱动和无头driver = webdriver.Edge(service=Webdriver, options=options)# 解决部分网站的对于Selenium的js监测机制,# 以下1行driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",{'source': 'Object.defineProperty(navigator,"webdriver",{get:()=>undefind})'})print("浏览器初始化完成")return driver# 获取当前浏览器的版本
def getversion(filename):parser = Dispatch("Scripting.FileSystemObject")version = parser.GetFileVersion(filename)print("当前Edge浏览器版本为:" + version)return version# 获取浏览器的源路径
def getEdgePath():while True:print("""请输入您的Edge浏览器的源路径(不是快捷方式的路径)方法:1 找到桌面上的Edge浏览器,右击鼠标选择“打开文件位置”2 进入新打开的文件夹之后找到“msedge.exe”文件右击复制文件路径3 将刚刚复制的路径,复制过来即可""")path1 = input("")if path1 != "":return path1else:print("请输入Edge浏览器的源路径")# 打开路径中的文件
def showFile(path):userPlatform = platform.system()  # 获取操作系统if userPlatform == 'Windows':  # Macos.startfile(path)else:print("暂且不支持您的操作系统")# 获取是否开启后台模式
def isHeadless():while True:isHeadless = input("是(Y)否(N)开启后台模式")if (isHeadless == "Y" or isHeadless == "N"):if isHeadless == "Y":return Trueelse:return Falseelse:print("请输入正确指令")# 浏览器驱动下载
def downloadandZip(downloadurl, headers, name):try:print("正在下载驱动")dow = requests.get(downloadurl, headers)open("drive.zip", "wb").write(dow.content)print("驱动下载完成,正在解压")# 文件解压with zipfile.ZipFile(name) as zf:zf.extractall()print("解压完成")return Trueexcept:print("浏览器驱动下载失败")# 程序终止sys.exit()# 获取下载的浏览器驱动的路径
# 同时:
# 1 删除无关文件
# 2 检测浏览器驱动是否受损
def startDownloadandZipexc(downloadurl, headers):name = "drive.zip"temp1 = "Driver_Notes"downloadandZip(downloadurl, headers, name)# 删除无关文件print("正在删除无关文件")drivername = "msedgedriver.exe"if os.path.exists(temp1):shutil.rmtree(temp1)if os.path.exists(name):os.remove(name)print("无关文件删除成功")if os.path.exists(drivername):return os.getcwd() + "\msedgedriver.exe"else:while True:t = input("浏览器驱动受损或被删除,是(Y)否(N)重新下载")if t == "Y" or t == "N":if t == "Y":# 驱动下载downloadandZip(downloadurl, headers, name)return os.getcwd() + "\msedgedriver.exe"else:print("正在退出")return False# 入口
if __name__ == "__main__":headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400'}print("欢迎使用xxx系统\n")# 获取浏览器的源路径path1 = getEdgePath()# 格式化路径path2 = path1.replace("\\", "//").replace("\"", "")# 获取浏览器版本oldversion = getversion(path2)# 浏览器驱动下载地址downloadurl = "https://msedgedriver.azureedge.net/" + oldversion + "/edgedriver_win64.zip"# 获取浏览器驱动的地址driverfilepath = startDownloadandZipexc(downloadurl, headers)if driverfilepath != False:print("浏览器驱动器路径为:" + driverfilepath + "不必要,请勿删除!!!")# 是否开启无头模式isHeadless = isHeadless()# 初始化DriverDriver = init(driverfilepath, isHeadless)

如何截长图?

效果
在这里插入图片描述

不过请注意要实现截长图浏览器必须开启无头模式!!!!
不过请注意要实现截长图浏览器必须开启无头模式!!!!
不过请注意要实现截长图浏览器必须开启无头模式!!!!

driver.get("https://blog.csdn.net/yutu75/article/details/115524985")# 用js获取页面的宽高,如果有其他需要用js的部分也可以用这个方法width = driver.execute_script("return document.documentElement.scrollWidth")height = driver.execute_script("return document.documentElement.scrollHeight")# 获取页面宽度及其宽度print(width, height)# 将浏览器的宽高设置成刚刚获取的宽高driver.set_window_size(width, height)time.sleep(1)# 截图并关掉浏览器driver.get_screenshot_as_file("xx.png")driver.quit()

相关文章:

python 的selenium自动操控浏览器教程(2)

人生苦短,我用py 文章目录人生苦短,我用py关于部分网页无法找到元素的问题1方案1方案2关于部分网页无法找到元素的问题2解决方案被网站检查出来我们使用了selenium了怎么办?如何实现前进后退当使用py删除文件时报禁止访问怎么办怎么使用py实现…...

【Deformable Convolution】可变形卷积记录

every blog every motto: You can do more than you think. https://blog.csdn.net/weixin_39190382?typeblog 0. 前言 可变形卷积记录 1. 正文 预印版: Deformable Convolutional Networks v1 Deformable ConvNets v2: More Deformable, Better Results 发表版…...

Oracle-Mysql 函数转换

Oracle-Mysql 函数转换limit <> ROWNUMcast <> TO_NUMBERcast as signedcast as unsignedregexp a_\\d <> REGEXP_LIKEschema() <> SELECT USER FROM DUALinformation_schema.COLUMNS表 <> ALL_TAB_COLUMNS表unix_timestampfrom_unixtime <&g…...

【Kafka】一.认识Kafka

kafka是一个分布式消息队列。由 Scala 开发的高性能跨语言分布式消息队列&#xff0c;单机吞吐量可以到达 10w 级&#xff0c;消息延迟在 ms 级。具有高性能、持久化、多副本备份、横向扩展能力。 生产者往队列里写消息&#xff0c;消费者从队列里取消息进行业务逻辑。 一般在…...

Linux软件管理YUM

目录 yum配置文件 创建仓库 yum查询功能 yum安装与升级功能 yum删除功能 yum仓库产生的问题和解决之道 yum与dnf 网络源 YUM就是通过分析RPM的标头数据后&#xff0c;根据各软件的相关性制作出属性依赖时的解决方案&#xff0c;然后可以自动处理软件的依赖属性问题&…...

【自学MYSQL】MySQL Windows安装

MySQL Windows安装 MySQL Windows下载 首先&#xff0c;我们打开 MySQL 的官网&#xff0c;网址如下&#xff1a; https://dev.mysql.com/downloads/mysql/在官网的主页&#xff0c;我们首先根据我们的操作系统&#xff0c;选择对应的系统&#xff0c;这里我们选择 Windows&…...

Linux c编程之常用技巧

一、说明 在Linux C的实际编程应用中,有很多有用的实践技巧,编程中掌握这些知识,会对编程有事半功倍的效果。 二、常用技巧 2.1 if 变量条件的写法 main.c: #include <stdio.h>int main(int argc, char *argv[]) {int a =...

21- 朴素贝叶斯 (NLP自然语言算法) (算法)

朴素贝叶斯要点 概率图模型算法往往应用于NLP自然语言处理领域。根据文本内容判定 分类 。 概率密度公式&#xff1a; 高斯朴素贝叶斯算法: from sklearn.naive_bayes import GaussianNB model GaussianNB() model.fit(X_train,y_train) 伯努利分布朴素贝叶斯算法 fro…...

设计模式第七讲-外观模式、适配器模式、模板方法模式详解

一. 外观模式 1. 背景 在现实生活中&#xff0c;常常存在办事较复杂的例子&#xff0c;如办房产证或注册一家公司&#xff0c;有时要同多个部门联系&#xff0c;这时要是有一个综合部门能解决一切手续问题就好了。 软件设计也是这样&#xff0c;当一个系统的功能越来越强&…...

flutter-第1章-配置环境

flutter-第1章-配置环境 本文针对Windows系统。 一、安装Android Studio 从Android Studio官网下载最新版本&#xff0c;一直默认安装就行。 安装完成要下载SDK&#xff0c;可能会需要科学上网。 打开AS&#xff0c;随便创建一个新项目。 点击右上角的SDK Manager 找到SDK…...

“消息驱动、事件驱动、流 ”的消息模型

文章目录背景消息驱动 Message-Driven事件驱动 Event-Driven流 Streaming事件规范标准简介&#xff1a; 本文旨在帮助大家对近期消息领域的高频词“消息驱动&#xff08;Message-Driven&#xff09;&#xff0c;事件驱动&#xff08;Event-Driven&#xff09;和流&#xff08;S…...

量化股票配对交易可以用Python语言实现吗?

量化股票配对交易可以用Python语言实现吗&#xff1f;Python 是一种流行的编程语言&#xff0c;可用于所有类型的领域&#xff0c;包括数据科学。有大量软件包可以帮助您实现目标&#xff0c;许多公司使用 Python 来开发与金融界相关的以数据为中心的应用程序和科学计算。 最重…...

机器学习洞察 | 一文带你“讲透” JAX

在上篇文章中&#xff0c;我们详细分享了 JAX 这一新兴的机器学习模型的发展和优势&#xff0c;本文我们将通过 Amazon SageMaker 示例展示如何部署并使用 JAX。JAX 的工作机制JAX 的完整工作机制可以用下面这幅图详细解释:图片来源&#xff1a;“Intro to JAX” video on YouT…...

OpenFaaS介绍

FaaS 云计算时代出现了大量XaaS形式的概念&#xff0c;从IaaS(Infrastructure as a Service)、PaaS(Platform as a Service)、SaaS(Software as a Service)到容器云引领的CaaS(Containers as a Service)&#xff0c;再到火热的微服务架构&#xff0c;它们都在试着将各种软、硬…...

【算法设计与分析】STL容器、递归算法、分治法、蛮力法、回溯法、分支限界法、贪心法、动态规划;各类算法代码汇总

文章目录前言一、STL容器二、递归算法三、分治法四、蛮力法五、回溯法六、分支限界法七、贪心法八、动态规划前言 本篇共为8类算法(STL容器、递归算法、分治法、蛮力法、回溯法、分支限界法、贪心法、动态规划)&#xff0c;则各取每类算法中的几例经典示例进行展示。 一、STL容…...

vue初识

第一次接触vue&#xff0c;前端的html,css,jquery,js学习也有段时间了&#xff0c;就照着B站的视频简单看了一些&#xff0c;了解了一些简单的用法&#xff0c;这边做一个记录。 官网 工具&#xff1a;使用VSCode以及Live Server插件&#xff08;能够实时预览&#xff09; 第…...

火山引擎入选《2022 爱分析 · DataOps 厂商全景报告》,旗下 DataLeap 产品能力获认可

更多技术交流、求职机会&#xff0c;欢迎关注字节跳动数据平台微信公众号&#xff0c;回复【1】进入官方交流群 2 月 9 日&#xff0c;国内领先的数字化市场研究与咨询机构爱分析发布了《2022 爱分析DataOps 厂商全景报告》&#xff08;以下简称报告&#xff09;&#xff0c;报…...

java-spring_bean的生命周期

生命周期&#xff1a;从创建到消亡的完整过程初始化容器 1. 创建对象&#xff08;内存分配 &#xff09; 2. 执行构造方法 3. 执行属性注入&#xff08;set操作&#xff09; 4. 执行bean初始化方法 使用bean 执行业务操作 关闭/销毁容器 1.执行bean销毁方法 bean销毁时机 容…...

微服务相关概念

一、谈谈你对微服务的理解&#xff0c;微服务有哪些优缺点&#xff1f;微服务是由Martin Fowler大师提出的。微服务是一种架构风格&#xff0c;通过将大型的单体应用划分为比较小的服务单元&#xff0c;从而降低整个系统的复杂度。优点&#xff1a;1、服务部署更灵活&#xff1…...

论文解读:(TransA)TransA: An Adaptive Approach for Knowledge Graph Embedding

简介 先前的知识表示方法&#xff1a;TransE、TransH、TransR、TransD、TranSparse等。的损失函数仅单纯的考虑hrh rhr和ttt在某个语义空间的欧氏距离&#xff0c;认为只要欧式距离最小&#xff0c;就认为h和th和th和t的关系为r。显然这种度量指标过于简单&#xff0c;虽然先…...

【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15

缘由根据当天日期输出明天的日期(需对闰年做判定)。日期类型结构体如下&#xff1a; struct data{ int year; int month; int day;};-编程语言-CSDN问答 struct mdata{ int year; int month; int day; }mdata; int 天数(int year, int month) {switch (month){case 1: case 3:…...

python打卡day49

知识点回顾&#xff1a; 通道注意力模块复习空间注意力模块CBAM的定义 作业&#xff1a;尝试对今天的模型检查参数数目&#xff0c;并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...

RabbitMQ入门4.1.0版本(基于java、SpringBoot操作)

RabbitMQ 一、RabbitMQ概述 RabbitMQ RabbitMQ最初由LShift和CohesiveFT于2007年开发&#xff0c;后来由Pivotal Software Inc.&#xff08;现为VMware子公司&#xff09;接管。RabbitMQ 是一个开源的消息代理和队列服务器&#xff0c;用 Erlang 语言编写。广泛应用于各种分布…...

Go语言多线程问题

打印零与奇偶数&#xff08;leetcode 1116&#xff09; 方法1&#xff1a;使用互斥锁和条件变量 package mainimport ("fmt""sync" )type ZeroEvenOdd struct {n intzeroMutex sync.MutexevenMutex sync.MutexoddMutex sync.Mutexcurrent int…...

【Android】Android 开发 ADB 常用指令

查看当前连接的设备 adb devices 连接设备 adb connect 设备IP 断开已连接的设备 adb disconnect 设备IP 安装应用 adb install 安装包的路径 卸载应用 adb uninstall 应用包名 查看已安装的应用包名 adb shell pm list packages 查看已安装的第三方应用包名 adb shell pm list…...

Vue 模板语句的数据来源

&#x1f9e9; Vue 模板语句的数据来源&#xff1a;全方位解析 Vue 模板&#xff08;<template> 部分&#xff09;中的表达式、指令绑定&#xff08;如 v-bind, v-on&#xff09;和插值&#xff08;{{ }}&#xff09;都在一个特定的作用域内求值。这个作用域由当前 组件…...

xmind转换为markdown

文章目录 解锁思维导图新姿势&#xff1a;将XMind转为结构化Markdown 一、认识Xmind结构二、核心转换流程详解1.解压XMind文件&#xff08;ZIP处理&#xff09;2.解析JSON数据结构3&#xff1a;递归转换树形结构4&#xff1a;Markdown层级生成逻辑 三、完整代码 解锁思维导图新…...

CMS内容管理系统的设计与实现:多站点模式的实现

在一套内容管理系统中&#xff0c;其实有很多站点&#xff0c;比如企业门户网站&#xff0c;产品手册&#xff0c;知识帮助手册等&#xff0c;因此会需要多个站点&#xff0c;甚至PC、mobile、ipad各有一个站点。 每个站点关联的有站点所在目录及所属的域名。 一、站点表设计…...

HTML中各种标签的作用

一、HTML文件主要标签结构及说明 1. <&#xff01;DOCTYPE html> 作用&#xff1a;声明文档类型&#xff0c;告知浏览器这是 HTML5 文档。 必须&#xff1a;是。 2. <html lang“zh”>. </html> 作用&#xff1a;包裹整个网页内容&#xff0c;lang"z…...

Spring事务传播机制有哪些?

导语&#xff1a; Spring事务传播机制是后端面试中的必考知识点&#xff0c;特别容易出现在“项目细节挖掘”阶段。面试官通过它来判断你是否真正理解事务控制的本质与异常传播机制。本文将从实战与源码角度出发&#xff0c;全面剖析Spring事务传播机制&#xff0c;帮助你答得有…...