当前位置：首页 > news >正文

动态渲染页面爬取

news 2026/5/25 13:51:19

我们可以直接使用模拟浏览器运行的方式来实现，这样就可以做到在浏览器中看到是什么样，抓取的源码就是什么样，也就是可见即可爬。这样我们就不用再去管网页内部的 JavaScript 用了什么算法渲染页面，不用管网页后台的 Ajax 接口到底有哪些参数。

要使用 selenium 必须先安装 chromedriver 驱动驱动版本要和 chrome 版本一致:

首先禁止chorme 自动更新 host 文件配置 127.0.0.1 update.googleapis.com
下载一个历史版本的 chrome https://google-chrome.cn.uptodown.com/windows/download/1025823664
并下载对应的驱动 https://edgedl.me.gvt1.com/edgedl/chrome/chrome-for-testing/119.0.6045.105/win64/chromedriver-win64.zip # 119.0.6045.105 是可以修改成对应的版本号
这个可以拿到最新的驱动版本 https://blog.csdn.net/qq_42771102/article/details/142853514

Selenium介绍

Selenium 是一个强大的开源自动化测试工具，主要用于Web应用程序的测试。它支持多种浏览器（如Chrome, Firefox, Safari, Edge等）和操作系统（包括Windows, macOS, Linux等）。Selenium提供了一个名为WebDriver的API，允许开发者通过编写代码来控制浏览器行为，从而实现网页加载、表单填写、按钮点击等操作的自动化。

Selenium 主要用途：

Web应用测试：Selenium最广泛的应用场景是用于自动化Web应用的功能测试。它可以模拟用户与网站或Web应用之间的交互过程，比如登录、导航到不同页面、提交表单等。
跨浏览器兼容性测试：由于Selenium支持多款主流浏览器，因此非常适合用来检查Web应用在不同浏览器环境下的表现是否一致。
持续集成(CI)环境：结合Jenkins、Travis CI等持续集成工具使用时，Selenium可以帮助团队自动运行测试用例，并及时反馈结果，提高软件开发效率。
爬虫技术：虽然不是其设计初衷，但有些人也会利用Selenium来进行网页数据抓取，特别是当目标网站采用了JavaScript渲染内容时，传统的HTTP请求方式可能无法获取完整信息。

Selenium 组件介绍：

Selenium WebDriver：这是目前最常用的组件之一，提供了丰富的接口供编程语言调用以操控浏览器。
Selenium IDE (Integrated Development Environment)：一个浏览器插件形式存在的简易记录回放工具，适用于快速创建简单的测试脚本。
Selenium Grid：允许多台机器并行执行测试任务，提高了大规模测试的效率。
总之，Selenium是一个非常灵活且功能强大的工具集，对于任何需要进行Web自动化的人来说都是不可或缺的好帮手。无论是专业的质量保证工程师还是希望提升工作效率的前端开发者，都可以从中受益。

打开浏览器

def open_browser():browser = webdriver.Chrome()try:browser.get('https://www.baidu.com')# 使用 find_element 方法和 By.IDinput_box = browser.find_element(By.ID, 'kw')# 输入搜索内容input_box.send_keys('街拍')# 点击搜索按钮input_box.send_keys(Keys.ENTER)# 等待页面加载完成wait = WebDriverWait(browser, 10)wait.until(EC.presence_of_element_located((By.ID, 'content_left')))# 打印页面标题print(browser.current_url)  # 打印当前页面的 urlprint(browser.get_cookies())  # 打印 cookieprint(browser.page_source)  # 打印页面源代码except Exception as e:print(e)finally:input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器browser.quit()  # 确保在最后关闭浏览器

访问网页

def open_url():browser = webdriver.Chrome()try:browser.get('https://www.baidu.com')# 打印页面标题print(browser.title)  # 打印当前页面的标题except Exception as e:print(e)finally:input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器browser.quit()  # 确保在最后关闭浏览器

查找节点

Selenium 可以驱动浏览器完成各 操作 ，比如填充表单、模拟点击等  Selenium 提供了 系列查找节点的方法，我们可以用这些方法来获取想要的节点，以便下一步执行一些动作或者提取信息# find_element_by_id 方法可以根据 id 属性来查找节点# find_element_by_name 方法可以根据 name 属性来查找节点# find_element_by_xpath 方法可以根据 xpath 表达式来查找节点# find_element_by_link_text 方法可以根据链接文本来查找节点# find_element_by_partial_link_text 方法可以根据部分链接文本来查找节点# find_element_by_tag_name 方法可以根据标签名来查找节点# find_element_by_class_name 方法可以根据类名来查找节点# find_element_by_css_selector 方法可以根据 CSS 选择器来查找节点

def find_element():browser = webdriver.Chrome()try:browser.get('https://www.xiaohongshu.com/user/profile/5768f3576a6a6977158b1e24?xsec_token=&xsec_source=pc_search')# 使用class name 查找头像框avatar = browser.find_element(By.CLASS_NAME,'avatar-wrapper')# 查找里面的<img>标签img = avatar.find_element(By.TAG_NAME,'img')# 获取图片的src属性print(img.get_attribute('src'))# 将图片保存到本地img.screenshot('avatar.png')except Exception as e:print(e)finally:input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器browser.quit()  # 确保在最后关闭浏览器

查找多个节点

def find_elements():browser = webdriver.Chrome()try:browser.get('https://www.xiaohongshu.com/user/profile/5768f3576a6a6977158b1e24?xsec_token=&xsec_source=pc_search')# 使用class name 查找所有标签channels = browser.find_elements(By.TAG_NAME,'channel')for channel in channels:# 获取每个标签的文本内容print(channel.text)except Exception as e:print(e)finally:input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器browser.quit()  # 确保在最后关闭浏览器## 等待元素加载完成

动作链

def action_chains():browser = webdriver.Chrome()try:browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')browser.switch_to.frame('iframeResult')source = browser.find_element(By.CLASS_NAME,'ui-draggable')target =  browser.find_element(By.CLASS_NAME,'ui-droppable')actions = ActionChains(browser)actions.drag_and_drop(source, target)actions.perform()except Exception as e:print(e)finally:input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器browser.quit()  # 确保在最后关闭浏览器

执行某些 JavaScript 代码

def execute_js():browser = webdriver.Chrome()try:browser.get('https://www.zhihu.com/explore')browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')browser.execute_script('alert("To Bottom")')except Exception as e:print(e)finally:input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器browser.quit()  # 确保在最后关闭浏览器#获取节点信息
#get_attribute 方法可以获取节点的属性值
# print(input.id)
#print(input.text)
#print(input.location)
#print(input.tag_name)
#print(input.size)
#调用其 id、location、tag_name、size 属性来获取对应的属性值。

其他的操作

切换Frame
切换到指定的Frame，可以使用 switch_to.frame 方法，参数可以是 frame 元素的 id、name、索引、WebElement 对象。
def switch_frame():
browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
try:
logo = browser.find_elements(By.CLASS_NAME,'logo')
except NoSuchElementException:
print('NO LOGO')
browser.switch_to.parent_frame()
logo = browser.find_elements(By.CLASS_NAME,'logo')
print(logo)
input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
browser.quit()  # 确保在最后关闭浏览器前进和后退
前进和后退操作可以使用 back 和 forward 方法，前进和后退到历史记录中的某一页。
def forward_back():
browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')
browser.get('https://www.taobao.com/')
browser.get('https://www.python.org/')
browser.back()
time.sleep(1)
browser.forward()
browser.close()Cookies
可以使用 add_cookie 方法添加 cookie，并使用 get_cookies 方法获取所有 cookie。
def cookies():
browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies())
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})
print(browser.get_cookies())
browser.delete_all_cookies()
print(browser.get_cookies())选项卡管理
可以使用 window_handles 方法获取所有选项卡的句柄，并使用 switch_to.window 方法切换到指定选项卡。
def tab_management():
browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')
print(browser.window_handles)
browser.switch_to.window(browser.window_handles[1])  # 切换到第二个选项卡
browser.get('https://www.taobao.com')
time.sleep(1)
browser.switch_to.window(browser.window_handles[0])  # 切换到第一个选项卡
browser.get('https://python.org')tab_management()

动态渲染页面爬取

我们可以直接使用模拟浏览器运行的方式来实现，这样就可以做到在浏览器中看到是什么样，抓取的源码就是什么样，也就是可见即可爬。这样我们就不用再去管网页内部的 JavaScript 用了什么算法渲染页面，不用管网页后台的 Ajax 接口到底…...

编程日记 2024/11/24 20:38:09

C++适配器模式之可插入适配器的实现模式和方法

可插入适配器与Adaptee的窄接口在C适配器模式中，可插入适配器（Pluggable Adapter）是指适配器类的设计允许在运行时动态地插入不同的Adaptee对象，从而使适配器具有灵活性和可扩展性。这种设计使得适配器不仅限于适配一个特定的Ad…...

编程日记 2024/11/24 20:35:06

每日一练：【动态规划算法】斐波那契数列模型之第 N 个泰波那契数（easy）

1. 第 N 个泰波那契数（easy） 1. 题目链接：1137. 第 N 个泰波那契数 2. 题目描述 3.题目分析这题我们要求第n个泰波那契Tn的值，很明显的使用动态规划算法。 4.动态规划算法流程 1. 状态表示： 根据题目的要求及公…...

编程日记 2024/11/24 20:34:05

Hash table类算法【leetcode】

哈希表中关键码就是数组的索引下标，然后通过下标直接访问数组中的元素那么哈希表能解决什么问题呢，一般哈希表都是用来快速判断一个元素是否出现集合里。例如要查询一个名字是否在这所学校里。要枚举的话时间复杂度是O(n)，但如果使用哈希…...

编程日记 2024/11/24 20:32:02

windows实现VNC连接ubuntu22.04服务器

最近弄了一个700块钱的mini主机，刷了ubuntu22.04系统，然后想要在笔记本上通过VNC连接，这样就有了一个linux的开发环境。最后实现的过程为： 安装vnc服务器安装 VNC 服务器软件： sudo apt update sudo apt install t…...

编程日记 2024/11/24 20:31:01

中国电信星辰大模型：软件工厂与文生视频技术的深度解析

在科技日新月异的今天，人工智能（AI）技术正以惊人的速度改变着我们的生活和工作方式。作为这一领域的领军企业之一，中国电信凭借其强大的研发实力和深厚的技术积累，推出了星辰大模型，旨在为用户带来更加智能、高效、便捷的服务体验。本文将重点介绍中国电信星辰大模型中的…...

编程日记 2024/11/24 20:27:58

项目实战：基于Vue3实现一个小相册

相册的示例效果图注意看注释... 要实现图片的相册效果，图片命名可以像{img1.jpg,img2.jpg,img3.jpg}类似于这种的命名方式。 CSS部分： <style>/* 伪元素选择器，用于在具有clear_ele类的元素内部的末尾添加一个新的元素 */.clear_ele:…...

编程日记 2024/11/24 20:26:57

macOS安装nvm node

macOS安装nvm macOS安装nvm创建 nvm 工作目录配置环境变量使用 nvm查看可用的 Node.js 版本安装特定版本 macOS安装nvm brew install nvm创建 nvm 工作目录 mkdir ~/.nvm配置环境变量 vim ~/.zshrc# nvm export NVM_DIR"$HOME/.nvm" [ -s "/opt/homebrew/opt…...

编程日记 2024/11/24 20:24:55

解决整合Django与Jinja2兼容性的问题

提问解决整合Django与Jinja2时遇到了一些兼容性问题。已经按照常规步骤在我的settings.py中配置了Jinja2作为模板引擎，同时保留了Django默认的模板设置。然而尝试同时使用Django和Jinja2时，系统报错提示我没有指定模板。如果我尝试移除Django的默认模板…...

编程日记 2024/11/24 20:22:53

Elasticsearch面试内容整理-高级特性

Elasticsearch 提供了一系列高级特性，这些特性可以极大地增强其搜索、分析和管理能力，使得它在大数据场景中表现出色。以下是 Elasticsearch 的一些重要高级特性：近实时搜索（Near Real-Time Search） Elasticsearch 的一个关键特性是近实时搜索（NRT），这意味着数据写入…...

编程日记 2024/11/24 20:20:52

linux通过手工删除文件卸载oracle 11g rac的具体步骤

在linux操作系统中，有些时候我们自己学习和测试会临时搭建的oracle rac。事情完成后，我们想回收资源，需要去卸载oracle rac。为了快速卸载oracle rac，今天我们介绍下如何通过手工删除文件的方式来完成工作（操作都需要在…...

编程日记 2024/11/24 20:19:50

【ArcGISPro】根据yaml构建原始Pro的conda环境

使用场景我们不小心把原始arcgispro-py3的conda环境破坏了，我们就可以使用以下方法进行修复查找文件在arcgis目录下找到yaml文件如果没找到请复制以下内容到新的yaml文件 channels: - esri - defaults dependencies: - anyio=4.2.0=py311haa95532_0 - appdirs=1.4.4=p…...

编程日记 2024/11/24 20:15:46

刷题笔记15

问题描述小M和小F在玩飞行棋。游戏结束后，他们需要将桌上的飞行棋棋子分组整理好。现在有 N 个棋子，每个棋子上有一个数字序号。小M的目标是将这些棋子分成 M 组，每组恰好5个，并且组内棋子的序号相同。小M希望知道是否可以按照这…...

编程日记 2024/11/24 20:14:45

【LeetCode热题100】队列+宽搜

这篇博客是关于队列宽搜的几道题，主要包括N叉树的层序遍历、二叉树的锯齿形层序遍历、二叉树最大宽度、在每个数行中找最大值。 class Solution { public:vector<vector<int>> levelOrder(Node* root) {vector<vector<int>> ret;if(!root) …...

编程日记 2024/11/24 20:13:44

【阵列信号处理】相干信号和非相干信号生成

文章目录一、总结二、知识点相干（coherent）和非相干（incoherent）信号相干信号生成代码相关信号（correlated signal）相关信号生成代码正交信号定义本文记录博主的科研日记。如果对博主的其他文章感兴趣&…...

编程日记 2024/11/24 20:07:37

React 组件生命周期

React 组件生命周期 React 组件生命周期是React框架中一个核心概念，它描述了一个组件从创建到销毁的过程。理解组件生命周期对于高效开发React应用至关重要，因为它允许开发者在一个组件的不同阶段执行特定的逻辑。本文将详细介绍React组件的生命周期方法，并解释它们在组件的…...

编程日记 2024/11/24 20:06:37

Kylin Server V10 下基于Sentinel（哨兵）实现Redis高可用集群

一、什么是哨兵模式 Redis Sentinel 是一个分布式系统，为 Redis 提供高可用性解决方案。可以在一个架构中运行多个 Sentinel 进程（progress）这些进程使用流言协议（gossip protocols）来接收关于主服务器是否下线信息，并使用投票协议（agreement protocols）来决定是否执行…...

编程日记 2024/11/24 20:05:36

07-Making a Bar Chart with D3.js and SVG

课程链接 Curran的课程，通过 D3.js 的 scaleLinear, max, scaleBand, axisLeft, axisBottom，根据 .csv 文件生成一个横向柱状图。【注】如果想造csv数据，可以使用通义千问，关于LinearScale与BandScale不懂的地方也可以在通义千…...

编程日记 2024/11/24 20:02:32

硅谷甄选前端项目环境配置笔记

此教程来自于尚硅谷文章目录 **此教程来自于尚硅谷**硅谷甄选运营平台一、搭建后台管理系统模板1.1项目初始化1.1.1环境准备1.1.2初始化项目 1.2项目配置一、eslint配置1.1vue3环境代码校验插件1.2修改.eslintrc.cjs配置文件1.3.eslintignore忽略文件1.4运行脚本二、配置**pr…...

编程日记 2024/11/24 20:00:31

6.7机器学习期末复习题

空间样本空间就是属性的所有可能情况，包括了一切可能出现或不可能出现的所有样本情况版本空间&假设空间假设空间就是在样本空间的基础上，给所有属性都加了一个通配符，表示任意即可；以及加上了一个空集，表示…...

编程日记 2024/11/24 19:56:25

如何高效使用智能手机号码定位工具：开源解决方案全指南【免费下载链接】location-to-phone-number This a project to search a location of a specified phone number, and locate the map to the phone number location. 项目地址: https://gitcode.com/gh_mir…...

编程新知 2026/5/25 10:19:24

Godot与AI深度协作：重构游戏开发工作流的5步实践

1. 这不是“调用API”——Godot与AI助手协作的本质是重构工作流很多人看到“Godot集成AI助手”，第一反应是：找个HTTP客户端发个请求，把提示词塞进去，等JSON返回，再parse一下显示在UI里。我试过三次——第一次用GDScrip…...

编程新知 2026/5/25 8:19:42

Color与Linear Color

简单来说：Color 是给“人眼”看的颜色，而 Linear Color 是给“电脑（引擎）”算的纯粹数据。在虚幻引擎（以及所有现代 3D 渲染引擎）中，区分这两者是非常核心的图形学概念。下面是它们具体的区别&a…...

编程新知 2026/5/25 7:59:28

从下载到网页管理：TrueNAS SCALE最新版保姆级安装图文教程（VMware Workstation 17环境）

TrueNAS SCALE在VMware Workstation 17中的全流程部署指南对于需要在本地环境中快速搭建网络存储测试平台的用户来说，TrueNAS SCALE无疑是一个理想选择。作为TrueNAS家族的最新成员，它不仅继承了传统存储管理系统的稳定性和可靠性，还引入了…...

编程新知 2026/5/25 6:52:37

Playwright安装本质：四层架构与跨平台部署详解

1. 为什么Playwright的安装过程比你想象中更值得深挖 “零基础入门：Playwright安装图解教程”——这个标题乍看平平无奇，像极了网上随手一搜就出十几页的“保姆级教程”。但我在带新人做自动化测试的三年里，亲手帮67位完全没写过Python、连终…...

编程新知 2026/5/25 6:37:16

一次业务接口性能评估的总结

一次业务接口性能评估的总结本篇文章是我在项目中对一个业务接口做性能评估时，对一些问题的思考和相关知识点系统性回顾拾遗的一个总结。业务背景我们项目中的一个文件上传接口，主要业务功能是接收第三方渠道端上传的base64编码影像文件和相关业务数据…...

编程新知 2026/5/25 6:21:26

12周学习笔记

...

编程新知 2026/5/25 4:47:56

XC161芯片ULINK调试连接问题解决方案

1. ULINK与XC161 AC Step连接问题解析最近在调试XC161（AC Step）芯片时，遇到了一个典型问题：使用Keil ULINK USB-JTAG适配器无法建立连接，但同样的设备在Infineon XC161 Starter Kit（AB Step）上却…...

编程新知 2026/5/25 4:16:41

机器学习引导的多目标运动规划：TSP与采样搜索的深度耦合

1. 项目概述：当机器人需要“跑腿”时，我们如何为它规划最优路线？想象一下，你是一个仓库管理员，手里有一台自动导引车（AGV），今天它的任务是从仓库的充电桩出发，依次去货架…...

编程新知 2026/5/25 4:12:30

告别‘哑巴’Unity编辑器！Audio播放全流程调试与常见坑点实录

告别‘哑巴’Unity编辑器！Audio播放全流程调试与常见坑点实录在Unity开发中，音频系统看似简单，但当项目规模扩大、场景复杂度提升时，音频问题往往会成为最令人头疼的"隐形杀手"。特别是当中大型项目涉及多个场景切换、2…...

编程新知 2026/5/25 2:45:57