当前位置：首页 > news >正文

Selenium库快速查找网页元素及执行浏览器模拟操作

news 2026/4/21 7:40:28

Selenium 是一个自动化测试工具，主要用于模拟用户在网页上的行为，进行自动化测试。它支持多种浏览器，并且可以在多种操作系统上运行。以下是 Selenium 库的一些主要特点和用途：

网页自动化测试： Selenium 可以模拟用户在网页上的各种操作，如点击、输入文本、选择下拉框等，从而进行网页自动化测试。这对于确保网站在不同浏览器和操作系统下的兼容性非常重要。
网页数据提取： Selenium 可以用于抓取网页上的数据，例如爬取网页上的文本、链接、图片等内容，从而进行数据分析或其他处理。
UI 自动化测试： 通过模拟用户在网页上的操作，Selenium 可以对网页的用户界面进行自动化测试，验证网页的交互功能是否正常。
跨浏览器测试： Selenium 支持多种浏览器，包括 Chrome、Firefox、Edge、Safari 等，可以在这些不同的浏览器上进行测试，确保网页在各种浏览器下的表现一致性。
跨平台测试： Selenium 可以在不同的操作系统上运行，包括 Windows、Mac、Linux 等，这使得可以在不同平台上进行测试，并确保网页在不同操作系统下的兼容性。

总之，Selenium 是一个强大的自动化测试工具，可以帮助开发人员和测试人员自动化进行网页测试、数据提取和 UI 测试等任务，从而提高开发效率和软件质量。

Selenium库提供了一系列`find_element_by_*`方法，用于查找网页上的元素，返回第一个匹配的元素；
>>>>>>find_elements_by_*`方法查找多个匹配的元素，返回一个元素列表。
这些方法根据不同的定位策略来查找元素。
以下是常用的`find_element_by_*`方法：
1. **find_element_by_id(id)**：根据元素的id属性查找元素。
2. **find_element_by_name(name)**：根据元素的name属性查找元素。
3. **find_element_by_xpath(xpath)**：根据XPath表达式查找元素。
4. **find_element_by_link_text(link_text)**：根据链接文本查找`<a>`元素。
5. **find_element_by_partial_link_text(partial_link_text)**：根据部分链接文本查找`<a>`元素。
6. **find_element_by_tag_name(tag_name)**：根据标签名查找元素。
7. **find_element_by_class_name(class_name)**：根据class属性查找元素。
8. **find_element_by_css_selector(css_selector)**：根据CSS选择器查找元素。
这些方法返回第一个匹配的元素。如果找不到匹配的元素，将抛出NoSuchElementException异常。
示例代码：
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.example.com")
# 根据id查找元素element_by_id = driver.find_element_by_id("my_element_id")
# 根据name查找元素element_by_name = driver.find_element_by_name("my_element_name")
# 根据XPath表达式查找元素element_by_xpath = driver.find_element_by_xpath("//div[@id='my_div']")
# 根据链接文本查找元素element_by_link_text = driver.find_element_by_link_text("click here")
# 根据部分链接文本查找元素element_by_partial_link_text = driver.find_element_by_partial_link_text("click")
# 根据标签名查找元素element_by_tag_name = driver.find_element_by_tag_name("div")
# 根据class属性查找元素element_by_class_name = driver.find_element_by_class_name("my_class")
# 根据CSS选择器查找元素element_by_css_selector = driver.find_element_by_css_selector("#my_element_id")
这些方法使您能够根据不同的属性和选择器来定位网页上的元素，从而进行元素操作和交互。
-------------------
`driver.find_elements(By.`是Selenium中使用By类进行元素查找的方法之一。
这些方法返回一个元素列表，您可以对列表中的每个元素执行操作，例如遍历、获取属性、点击等。
>>>>driver.find_element(By是Selenium中使用By类进行元素查找的方法之一。通过这种方式，查找单个元素。
通过这种方式，您可以根据不同的定位策略来查找元素。以下是一些常见的定位策略：
1. **By.ID**：根据元素的id属性来查找元素。
2. **By.NAME**：根据元素的name属性来查找元素。
3. **By.CLASS_NAME**：根据元素的class属性来查找元素。
4. **By.TAG_NAME**：根据元素的标签名来查找元素。
5. **By.LINK_TEXT**：根据元素的链接文本来查找`<a>`元素。
6. **By.PARTIAL_LINK_TEXT**：根据元素的部分链接文本来查找`<a>`元素。
7. **By.XPATH**：根据XPath表达式来查找元素。
8. **By.CSS_SELECTOR**：根据CSS选择器来查找元素。
您可以使用`driver.find_elements(By.`结合上述定位策略来查找多个元素。例如：
from selenium.webdriver.common.by import By
# 根据id查找多个元素elements_by_id = driver.find_elements(By.ID, "element_id")
# 根据name查找多个元素elements_by_name = driver.find_elements(By.NAME, "element_name")
# 根据class查找多个元素elements_by_class_name = driver.find_elements(By.CLASS_NAME, "element_class")
# 根据标签名查找多个元素elements_by_tag_name = driver.find_elements(By.TAG_NAME, "tag_name")
# 根据链接文本查找多个链接元素elements_by_link_text = driver.find_elements(By.LINK_TEXT, "link_text")
# 根据部分链接文本查找多个链接元素elements_by_partial_link_text = driver.find_elements(By.PARTIAL_LINK_TEXT, "partial_link_text")
# 根据XPath表达式查找多个元素elements_by_xpath = driver.find_elements(By.XPATH, "//xpath_expression")
# 根据CSS选择器查找多个元素elements_by_css_selector = driver.find_elements(By.CSS_SELECTOR, "css_selector")
--------------------
页面上的元素对象具有许多方法和属性，可以用于与元素进行交互和获取元素的信息。以下是一些常见的方法和属性：
**方法：**
1. **click()**：点击元素。
2. **send_keys(keys)**：向元素发送键盘输入。
3. **clear()**：清除输入框中的文本。
4. **get_attribute(name)**：获取元素的指定属性值。
5. **is_displayed()**：检查元素是否可见。
6. **is_enabled()**：检查元素是否可用。
7. **is_selected()**：检查元素是否被选中（适用于复选框和单选框）。
8. **submit()**：提交表单。
9. **location**：获取元素在页面中的坐标位置。
10. **size**：获取元素的大小。
11. **screenshot(filename)**：将元素的屏幕截图保存为文件。
12. **value_of_css_property(property_name)**：获取元素的CSS属性值。
**属性：**
1. **text**：获取元素的文本内容。
2. **tag_name**：获取元素的标签名。
3. **id**：获取元素的id属性值。
4. **name**：获取元素的name属性值。
5. **class_name**：获取元素的class属性值。
6. **location_once_scrolled_into_view**：获取元素滚动到视图中的位置（只读属性）。
这些方法和属性使您能够获取元素的信息，执行各种操作，以及进行状态检查，从而实现自动化测试或网页操作任务。
---------------
get_attribute(name) 方法用于获取指定属性的值。该方法允许您检索元素的任何属性，并返回该属性的值。
### 参数：- **name**：要获取的属性的名称。
### 返回值：- 返回指定属性的值，如果属性不存在，则返回 `None`。
### 注意事项：
- 如果元素没有指定的属性，`get_attribute()` 方法将返回 `None`。
- 对于一些特殊属性，例如 `checked`、`selected` 等，返回的值可能是布尔类型。
- 对于一些动态生成的属性，例如 `data-*` 属性，您也可以使用该方法获取它们的值。
以下是一些常见的(name) 属性名称种类：
1. **id**：元素的唯一标识符。
2. **name**：元素的名称。
3. **class** 或 **className**：元素的类名。
4. **value**：元素的值，常用于输入框、下拉列表等。
5. **href**：链接元素的目标 URL。
6. **src**：图像、音频、视频等媒体元素的源 URL。
7. **type**：输入元素的类型，例如文本框、复选框、按钮等。
8. **checked**：复选框或单选框的选中状态。
9. **selected**：下拉列表中选定选项的状态。
10. **disabled**：元素的禁用状态。
11. **title**：元素的标题。
12. **alt**：图像元素的替代文本。
13. **data-* **：自定义数据属性，例如 `data-role`、`data-id` 等。
14. **aria-* **：可访问性属性，例如 `aria-label`、`aria-hidden` 等。
15. **style**：元素的样式属性。
16. **outerHTML**：元素的外部 HTML，包括元素本身及其所有子元素的 HTML 内容。可以用于调试、验证页面结构等用途。
### 示例：
假设有一个 `<input>` 元素如下：
```html
<input id="username" type="text" value="john_doe" data-role="user">
使用 `get_attribute()` 方法来获取不同属性的值：
element = driver.find_element(By.ID, "username")
# 获取id属性的值
id_value = element.get_attribute("id")
print("ID:", id_value) # 输出：ID: username
# 获取value属性的值
value = element.get_attribute("value")
print("Value:", value) # 输出：Value: john_doe
# 获取data-role属性的值
data_role = element.get_attribute("data-role")
print("Data Role:", data_role) # 输出：Data Role: user
# 不存在的属性值
non_existent = element.get_attribute("non-existent")
print("Non Existent Attribute:", non_existent) # 输出：Non Existent Attribute: None
### 总结：
`get_attribute()` 方法允许您以编程方式检索元素的任何属性，并根据需要使用这些属性值进行后续操作。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutExceptiondriver = webdriver.Chrome()try:# 打开网页driver.get("https://www.hao123.com/")# 获取页面中所有input元素input_elements = driver.find_elements(By.TAG_NAME, "input")# 输出所有的input元素for input_element in input_elements:print(input_element.get_attribute("outerHTML"))# 等待文本框出现在页面上search_input = WebDriverWait(driver, 10).until(EC.visibility_of_element_located((By.CSS_SELECTOR, 'input[data-hook="searchInput"]')))# 输入搜索词search_input.send_keys("Selenium库")# 等待搜索按钮出现在页面上try:search_button = WebDriverWait(driver, 10).until(EC.visibility_of_element_located((By.CSS_SELECTOR, 'input[data-hook="searchSubmit"]')))# 点击搜索按钮search_button.click()except TimeoutException:print("找不到搜索按钮或搜索按钮不可见。")# 在这里可以添加其他恢复措施，比如重新加载页面，或者跳过当前步骤继续执行等。# 等待搜索结果列表的第一个元素出现try:WebDriverWait(driver, 10).until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, "input[id='kw']"), "Selenium库"))except TimeoutException as e:print(e)finally:# 关闭浏览器driver.quit()

from selenium import webdriver
from selenium.webdriver.common.by import Bydriver = webdriver.Chrome()
driver.get('https://forum.sublimetext.com/')table = driver.find_element(By.CSS_SELECTOR, 'table.topic-list')
table_html = table.get_attribute('outerHTML')
print(table_html)# 将网页内容保存到本地文件
with open('seleniumBy.CSS_SELECTOR.html', 'w', encoding='utf-8') as f:f.write(table_html)driver.quit()

Selenium库快速查找网页元素及执行浏览器模拟操作

相关文章：

Selenium库快速查找网页元素及执行浏览器模拟操作

2024年（第十届）全国大学生统计建模大赛选题参考（一）

EI级 | Matlab实现GCN基于图卷积神经网络的数据多特征分类预测

贪心算法介绍

前端常用数据结构

java设计模式之——单例模式

深入理解计算机系统学习笔记

Linux-进程信号

Linux服务器安装jdk

基于 HBase Phoenix 构建实时数仓（2）—— HBase 完全分布式安装

equals()与==的区别

什么是数据采集与监视控制系统（SCADA）？

基于SpringBoot+Vue+ElementUI+Mybatis前后端分离管理系统超详细教程（五）——多条件搜索并分页展示

鸿蒙实战开发Camera组件：【相机】

政安晨：【深度学习处理实践】（三）—— 处理时间序列的数据准备

PCL不同格式点云读取速度(Binary和ASCII )

Neo4J图数据库入门示例

牛客每日一题之二维前缀和

动态规划 Leetcode 70 爬楼梯

（未解决）macOS matplotlib 中文是方框

告别手动写提示词：AI头像生成器帮你快速设计专属头像

Arm AArch64寄存器体系与性能优化实战

fre:ac音频转换器终极指南：5大核心功能带你轻松玩转音频格式转换

LightOnOCR-2-1B与VSCode开发环境配置指南

vLLM-v0.17.1模型服务API设计精髓：从入门到精通

为什么要学习AI大模型？掌握AI大模型：抢占未来职场制高点，成为高薪抢手人才！

GBase 8a之聚合函数：计算峰度功能的实现

在Replit上构建你的首个全栈应用：从零到部署的免费实践

egergergeeert FLUX模型优势：长文本理解能力在多对象提示词中验证

RT-Thread系统下LwIP Socket性能调优：从1M到5M，我的TCP服务器带宽提升实战记录