21.9 Python 使用Selenium库
Selenium是一个自动化测试框架,主要用于Web应用程序的自动化测试。它可以模拟用户在浏览器中的操作,如打开网页、点击链接、填写表单等,并且可以在代码中实现条件判断、异常处理等功能。Selenium最初是用于测试Web应用程序的,但也可以用于其他用途,如爬取网站数据、自动化提交表单等。Selenium支持多种编程语言,如Java、Python、C#等,同时也支持多种浏览器,如Chrome、Firefox、Safari等。
该工具在使用时需要安装两个模块,首先读者需要自行安装selenium
包,并且需下载与对应浏览器匹配的驱动程序。
- 安装PIP包:pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple
- 安装驱动程序:https://chromedriver.storage.googleapis.com/index.html
我们以Google
浏览器为例,此处本人的版本为112.0.5615.121(32 位)
根据该版本下载对应的驱动程序,并将驱动程序放入到Google
浏览器根目录下,如下图所示,此时的驱动就已经安装成功了;
21.9.1 模拟打开页面
当需要使用浏览器模拟时,首先我们要调用webdriver.Chrome(executable_path=WebPath)
函数并传入驱动程序路径,此时即可打开驱动程序与谷歌浏览器链接,接着就可以通过各类函数操控浏览器行为。
from selenium import webdriver
from selenium.webdriver.common.by import ByWebPath = "C:/Users/admin/AppData/Local/Google/Chrome/Application/chromedriver.exe"if __name__ == "__main__":driver = webdriver.Chrome(executable_path=WebPath)# 设置窗口大小为1275*765driver.set_window_size(1275, 765)# 设置窗体为全屏driver.maximize_window()# 获得窗口大小get_size = driver.get_window_size()print("获取窗口大小: {}".format(get_size))# 获取当前窗体句柄handle = driver.current_window_handleprint("当前句柄: {}".format(handle))# 打开链接并得到页面源代码url = "https://www.baidu.com"driver.get(url)url_source = str(driver.page_source)# print("页面源代码: {}".format(url_source))# 定位a标签并点击,跳转到贴吧click_url = driver.find_element(By.XPATH, '//*[@id="s-top-left"]/a[4]')click_url.click()# 打开页面后输出所有窗体句柄all_handles = driver.window_handlesprint("当前所有窗体句柄: {}".format(all_handles))input("输入回车结束")driver.quit()
上述代码片段中,首先通过set_window_size()
函数将浏览器页面设置为1275*765
接着再调用maximize_window()
设置为全屏,通过得到当前窗体句柄,并通过get()
函数让浏览器打开一个页面,最后通过xpath
语法定位到//*[@id="s-top-left"]/a[4]
标签(贴吧)上,并点击鼠标左键,打开页面后并输出所有窗体,如下图所示;
21.9.2 切换窗体句柄
如上代码执行后虽然打开了百度百科,但是窗体的句柄其实还是停留在了百度首页上,定位的元素还是在百度上,此时我们就需要切换窗体句柄,也就是将当前句柄切换到百度贴吧页面上,此时才可读取该页面的完整源代码信息。
我们通过使用all_handles[-1]
的方式切换到最后一个窗体上,也就是对应的百度贴吧页面,接着再执行switch_to.window(new_handle_tieba)
函数实现窗口句柄的切换功能,代码如下所示;
from selenium import webdriver
from selenium.webdriver.common.by import ByWebPath = "C:/Users/admin/AppData/Local/Google/Chrome/Application/chromedriver.exe"if __name__ == "__main__":driver = webdriver.Chrome(executable_path=WebPath)# 设置窗口大小为1275*765driver.set_window_size(1275, 765)# 打开链接并得到页面源代码url = "https://www.baidu.com"driver.get(url)# 定位a标签并点击,跳转到贴吧click_url = driver.find_element(By.XPATH, '//*[@id="s-top-left"]/a[4]')click_url.click()# 打开页面后输出所有窗体句柄all_handles = driver.window_handlesprint("当前所有窗体句柄: {}".format(all_handles))# 从所有句柄的集合中,获取最后那个,也就是最新的new_handle_tieba = all_handles[-1]# 执行切换操作driver.switch_to.window(new_handle_tieba)# 切换后查看现在的句柄now_handles = driver.current_window_handleprint("贴吧窗体句柄: {}".format(now_handles))# 得到贴吧源代码url_source = str(driver.page_source)print(url_source)input("输入回车结束")driver.quit()
运行后读者可自行查询当前句柄所在位置,如下图所示;
21.9.3 前进后退刷新
在控制页面是我们可能需要使用页面前进后退与刷新功能,前进时可以调用driver.forward()
函数实现,后退调用driver.back()
函数,而刷新则可调用driver.refresh()
函数,功能如下案例所示;
from selenium import webdriver
from selenium.webdriver.common.by import ByWebPath = "C:/Users/admin/AppData/Local/Google/Chrome/Application/chromedriver.exe"if __name__ == "__main__":driver = webdriver.Chrome(executable_path=WebPath)# 设置窗口大小为1275*765driver.set_window_size(1275, 765)# 打开链接driver.get(url="https://www.baidu.com")driver.get(url="https://www.lyshark.com")# 后退上一页,等待3秒driver.implicitly_wait(3)driver.back()# 前进下一页,等待3秒driver.implicitly_wait(3)driver.forward()# 刷新页面,等待3秒driver.implicitly_wait(3)driver.refresh()# 获取当前页面句柄,并切换过去handle = driver.current_window_handledriver.switch_to.window(handle)# 得到源代码url_source = str(driver.page_source)print(url_source)# 关闭当前窗口driver.close()input("输入回车结束")driver.quit()
运行后读者可自行观察输出效果,如下图所示;
21.9.4 自动页面采集
如下是一个综合案例,在案例中我们通过使用三种解析库实现了对百度页面中特定关键字的采集,当运行后读者可自行判断是否存在安全验证,如果存在可自行手动绕过检测,并输入y
此时即可实现关键字的采集,当采集完成后自动柏村委html
格式文件。
import re,argparse,requests
from selenium import webdriver
from bs4 import BeautifulSoup
from queue import QueueWebPath = "C:/Users/admin/AppData/Local/Google/Chrome/Application/chromedriver.exe"if __name__ == "__main__":parser = argparse.ArgumentParser()parser.add_argument("--search",dest="search",help="输入要搜索的语法,inurl:lyshark")args = parser.parse_args()if args.search:driver = webdriver.Chrome(executable_path=WebPath)driver.set_window_size(1024,768)queue = Queue()# 生成链接for item in range(0,1000,10):queue.put('https://www.baidu.com/s?wd={}&pn={}'.format(str(args.search),str(item)))# 每次吐出一个for item in queue.queue:driver.get(item)ret = str(driver.page_source)# 是否有验证if driver.title == "百度安全验证":print("请用户完成验证,并输入y: ")is_true = input()if is_true != "y":driver.close()soup = BeautifulSoup(ret,'html.parser')urls = soup.find_all(name='a',attrs={'data-click':re.compile(('.')),'class':None})for item in urls:try:get_url = requests.get(url=item['href'],headers=head,timeout=5)print(get_url)if get_url.status_code == 200:title = re.findall('<title>(.+)</title>', get_url.text)print("[+] 抓取URL: {} 抓取标题: {}".format(get_url.url,title))with open("save.html","a+") as fp:fp.write("<a href={}>{}</a><br>".format(get_url.url,title))except Exception:passelse:parser.print_help()
运行上述代码,读者可观察输出效果,此时会自动抓取特定页面中的链接,并存储到本地;
相关文章:

21.9 Python 使用Selenium库
Selenium是一个自动化测试框架,主要用于Web应用程序的自动化测试。它可以模拟用户在浏览器中的操作,如打开网页、点击链接、填写表单等,并且可以在代码中实现条件判断、异常处理等功能。Selenium最初是用于测试Web应用程序的,但也…...

C++初阶2
目录 一,auto关键字 1-1,auto的使用 1-2,基于范围auto的for循环 二,nullptr的运用 三,C类的初步学习 3-1,类的引用 3-2,类的访问权限 3-3,类的使用 1,类中函数的…...

网络安全(黑客)—小白自学
1.网络安全是什么 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 2.网络安全市场 一、是市场需求量高; 二、则是发展相对成熟…...

在win10下,使用torchviz对深度学习网络模型进行可视化
目录 1. 安装 graphviz 和 torchviz 2.安装 graphviz.exe 3.实例测试 4.如果你的电脑还是无法画图,并且出现了下面的报错: 5.参考文章: 1. 安装 graphviz 和 torchviz 首先打开 Anaconda prompt 进入自己的 pytorch 环境(图中 pt 是我自…...

【自然语言处理】【长文本处理】RMT:能处理长度超过一百万token的Transformer
相关博客 【自然语言处理】【长文本处理】RMT:能处理长度超过一百万token的Transformer 【自然语言处理】【大模型】MPT模型结构源码解析(单机版) 【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版) 【自然语言处理】【大模型】BLOOM模型结构源码解析(…...

交叉编译工具链(以STM32MP1为例)
1.什么是交叉编译工具链? 在一个系统上进行编译,在另一个系统上进行执行 2.STM32MP1交叉编译工具链 3.交叉编译器内容 4.两种工具链模式 5.两种链接模式 6.工具使用 注意:OpenSTLinux已经提供了编译框架,不需要命令行手工编译 …...

使用 Pyro 和 PyTorch 的贝叶斯神经网络
一、说明 构建图像分类器已成为新的“hello world”。还记得当你第一次接触 Python 时,你的打印“hello world”感觉很神奇吗?几个月前,当我按照PyTorch 官方教程并为自己构建了一个运行良好的简单分类器时,我也有同样的感觉。 我…...

How to install the console system of i-search rpa on Centos 7
How to install the console system of i-search rpa on Centos 7 1、 准备1.1 、查看磁盘分区状态1.2、上传文件1.2.1、添加上传目录1.2.2、上传安装包1.2.3、解压安装包1.2.4、查看安装包结构 1.3、安装依赖包1.3.1、基础依赖包1.3.2 相关依赖 1.4、关闭防火墙1.5、解除SeLin…...

sql--索引使用 ---覆盖索引
覆盖索引 Select 后接 * 走id索引才是最优,使用二级索引则需要回表(性能稍差) 前缀索引 Create index 索引名 on 表名( 字段名( n ) ) n数字 n代表提取这个字符串的n个构建索引 ??那么 n 为几性能是最好的呢&…...
系统平台同一网络下不同设备及进程的话题通讯--DDS数据分发服务中间件
系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 TODO:写完再整理 文章目录 系列文章目录前言(1)中间件的介绍(2)DDS介绍(3)发布者(4)订阅者(5)idl文件(定义msg结构体)(6)QoS(Quality of Service)策略(7)DDS测试工具介绍(…...

轻量级 IDE 文本编辑器 Geany 发布 2.0
Geany 是功能强大、稳定、轻量的开发者专用文本编辑器,支持 Linux、Windows 和 macOS,内置支持 50 多种编程语言。 2005 年Geany 发布首个版本 0.1。上周四刚好是 Geany 诞生 18 周年纪念日,官方发布了 2.0 正式版以表庆祝。 下载地址&#…...
好用工具分享 | tmux 终端会话分离工具
目录 1 tmux的安装 2 tmux的基本操作 2.1 启动与退出 2.2 分离会话 2.3 查看会话 2.4 重接会话 2.5 杀死会话 2.6 切换会话 tmux是一个 terminal multiplexer(终端复用器),它可以启动一系列终端会话。 我们使用命令行时,…...

计算机网络重点概念整理-第三章 数据链路层【期末复习|考研复习】
计算机网络复习系列文章传送门: 第一章 计算机网络概述 第二章 物理层 第三章 数据链路层 第四章 网络层 第五章 传输层 第六章 应用层 第七章 网络安全 计算机网络整理-简称&缩写 文章目录 前言三、数据链路层3.1 数据链路层的基础概念3.2 帧3.2.1 帧的概念3.2…...
迅速的更改conda 环境的名称!
快速的做法是,复制之前创建的环境 重新命名 然后再删除旧的环境即可!!! 因为之前已经装过环境了,只是名字不叫A而是B,所以现在把B(old_name)改成A(new_name)。 具体方法如下: 1. 复制出来一份…...

基本微信小程序的外卖点餐订餐平台
项目介绍 餐饮行业是一个传统的行业。根据当前发展现状,网络信息时代的全面普及,餐饮行业也在发生着变化,单就点餐这一方面,利用手机点单正在逐步进入人们的生活。传统的点餐方式,不仅会耗费大量的人力、时间…...

十大排序算法(C语言)
参考文献 https://zhuanlan.zhihu.com/p/449501682 https://blog.csdn.net/mwj327720862/article/details/80498455?ops_request_misc%257B%2522request%255Fid%2522%253A%2522169837129516800222848165%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&…...

iTransformer: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING
#论文题目:ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING #论文地址:https://arxiv.org/abs/2310.06625 #论文源码开源地址:https://github.com/thuml/Time-Series-Library #论文所属会议:Mach…...
QT C++ AES字符串加密实现
使用方法:在.h中引入类库。然后在cpp中直接引入使用即可 类库的下载地址https://download.csdn.net/download/u012372365/88478671 具体代码: #include <QCoreApplication> #include <QTest> #ifdef __cplusplus #include "unit_tes…...
关于mysql json字段创建索引
前言: 创建索引的方式分为两种,CREATE index 和 ALTER TABLE; 被创建索引的关键字类型又分两种,数字(UNSIGNED)和字符串(char(128)) 一、给json对象属性param_value(假…...

“探索Linux世界:从CentOS安装到常见命令使用“
目录 引言一、安装CentOS二、Linux的常见命令文件夹和目录操作命令文件编辑命令vi或vim编辑器命令模式编辑模式末行模式 总结 引言 在计算机领域,Linux作为一种强大而灵活的操作系统,在服务器、嵌入式设备和个人电脑等领域广泛应用。本文将引导您了解并…...

利用最小二乘法找圆心和半径
#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …...
Python爬虫实战:研究MechanicalSoup库相关技术
一、MechanicalSoup 库概述 1.1 库简介 MechanicalSoup 是一个 Python 库,专为自动化交互网站而设计。它结合了 requests 的 HTTP 请求能力和 BeautifulSoup 的 HTML 解析能力,提供了直观的 API,让我们可以像人类用户一样浏览网页、填写表单和提交请求。 1.2 主要功能特点…...

从深圳崛起的“机器之眼”:赴港乐动机器人的万亿赛道赶考路
进入2025年以来,尽管围绕人形机器人、具身智能等机器人赛道的质疑声不断,但全球市场热度依然高涨,入局者持续增加。 以国内市场为例,天眼查专业版数据显示,截至5月底,我国现存在业、存续状态的机器人相关企…...

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力
引言: 在人工智能快速发展的浪潮中,快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型(LLM)。该模型代表着该领域的重大突破,通过独特方式融合思考与非思考…...

Python实现prophet 理论及参数优化
文章目录 Prophet理论及模型参数介绍Python代码完整实现prophet 添加外部数据进行模型优化 之前初步学习prophet的时候,写过一篇简单实现,后期随着对该模型的深入研究,本次记录涉及到prophet 的公式以及参数调优,从公式可以更直观…...

srs linux
下载编译运行 git clone https:///ossrs/srs.git ./configure --h265on make 编译完成后即可启动SRS # 启动 ./objs/srs -c conf/srs.conf # 查看日志 tail -n 30 -f ./objs/srs.log 开放端口 默认RTMP接收推流端口是1935,SRS管理页面端口是8080,可…...

ardupilot 开发环境eclipse 中import 缺少C++
目录 文章目录 目录摘要1.修复过程摘要 本节主要解决ardupilot 开发环境eclipse 中import 缺少C++,无法导入ardupilot代码,会引起查看不方便的问题。如下图所示 1.修复过程 0.安装ubuntu 软件中自带的eclipse 1.打开eclipse—Help—install new software 2.在 Work with中…...

学校时钟系统,标准考场时钟系统,AI亮相2025高考,赛思时钟系统为教育公平筑起“精准防线”
2025年#高考 将在近日拉开帷幕,#AI 监考一度冲上热搜。当AI深度融入高考,#时间同步 不再是辅助功能,而是决定AI监考系统成败的“生命线”。 AI亮相2025高考,40种异常行为0.5秒精准识别 2025年高考即将拉开帷幕,江西、…...

佰力博科技与您探讨热释电测量的几种方法
热释电的测量主要涉及热释电系数的测定,这是表征热释电材料性能的重要参数。热释电系数的测量方法主要包括静态法、动态法和积分电荷法。其中,积分电荷法最为常用,其原理是通过测量在电容器上积累的热释电电荷,从而确定热释电系数…...

【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变(硬件篇)
本项目是基于 STM32F103C8T6 微控制器的 SPWM(正弦脉宽调制)电源模块,能够生成可调频率和幅值的正弦波交流电源输出。该项目适用于逆变器、UPS电源、变频器等应用场景。 供电电源 输入电压采集 上图为本设计的电源电路,图中 D1 为二极管, 其目的是防止正负极电源反接, …...