当前位置: 首页 > article >正文

Puppeteer 浏览器自动化操作工具

pyppeteer 是 Python 版本的 Puppeteer,而 Puppeteer 是由 Google 开发的一个 Node.js 库,用于控制 Chrome 或 Chromium 浏览器。pyppeteer 允许你通过 Python 代码自动化操作浏览器,实现网页爬取、自动化测试、生成截图或 PDF 等功能。

核心功能

  1. 网页自动化操作:模拟用户在浏览器中的各种行为(点击、输入、滚动等)。
  2. 网页内容爬取:获取动态渲染的网页内容(如 JavaScript 加载的数据)。
  3. 生成截图/PDF:将网页保存为图片或 PDF 文件。
  4. 性能分析:分析网页加载性能,生成性能报告。
  5. 自动化测试:模拟用户交互,测试网页功能。

与其他工具的对比

工具语言特点
Selenium多语言需要浏览器驱动(如 ChromeDriver),功能全面但配置复杂。
BeautifulSoupPython仅处理静态 HTML,无法解析动态内容。
ScrapyPython高效的爬虫框架,但无法处理 JavaScript 渲染的内容。
pyppeteerPython直接控制浏览器,无需额外驱动,适合处理复杂动态页面。

基本使用流程

1. 安装
pip install pyppeteer

首次运行时,pyppeteer 会自动下载 Chromium 浏览器(约 100MB)。

2. 简单示例:打开网页并截图
import asyncio
from pyppeteer import launchasync def main():# 启动浏览器browser = await launch()# 创建新页面page = await browser.newPage()# 导航到目标 URLawait page.goto('https://example.com')# 截图await page.screenshot({'path': 'example.png'})# 关闭浏览器await browser.close()# 运行异步函数
asyncio.get_event_loop().run_until_complete(main())
3. 示例:爬取动态内容
import asyncio
from pyppeteer import launchasync def main():browser = await launch()page = await browser.newPage()await page.goto('https://example.com')# 等待特定元素加载完成await page.waitForSelector('.dynamic-content')# 获取元素文本content = await page.querySelectorEval('.dynamic-content', 'el => el.textContent')print(content)await browser.close()asyncio.get_event_loop().run_until_complete(main())

高级用法

1. 模拟用户交互
# 点击按钮
await page.click('button.login')# 输入文本
await page.type('input[name="username"]', 'your_username')# 提交表单
await page.keyboard.press('Enter')
2. 处理弹窗
page.on('dialog', lambda dialog: asyncio.ensure_future(handle_dialog(dialog)))async def handle_dialog(dialog):print(dialog.message)await dialog.accept()  # 或 .dismiss()
3. 执行 JavaScript 代码
# 执行 JS 函数
result = await page.evaluate('() => window.innerWidth')
print(f"浏览器宽度: {result}px")# 获取元素属性
attr = await page.querySelectorEval('img', 'el => el.src')
4. 生成 PDF
await page.pdf({'path': 'page.pdf', 'format': 'A4'})

注意事项

  1. 异步编程pyppeteer 基于 asyncio,所有操作都是异步的,需熟悉 async/await 语法。
  2. 性能考虑:启动浏览器开销较大,建议批量处理任务。
  3. 反爬机制:频繁请求可能触发网站反爬策略,可设置随机 User-Agent 或延时。
  4. 资源释放:确保调用 browser.close() 释放浏览器资源。

应用场景

  • 网页爬虫:抓取动态渲染的内容(如单页应用)。
  • 自动化测试:模拟用户行为,测试网站功能。
  • 生成报告:将网页内容导出为 PDF 或图片。
  • 监控网站:定期检查网站内容变化。
  • 性能优化:分析页面加载时间,识别性能瓶颈。

相关工具

  • puppeteer:原版 Node.js 库,功能更全面。
  • playwright-python:Microsoft 开发的跨浏览器自动化工具,支持 Chrome、Firefox、Safari 等。
  • selenium:老牌自动化测试工具,支持更多浏览器。

如果需要更简洁的 API 或跨浏览器支持,可考虑 playwright-python

相关文章:

Puppeteer 浏览器自动化操作工具

pyppeteer 是 Python 版本的 Puppeteer,而 Puppeteer 是由 Google 开发的一个 Node.js 库,用于控制 Chrome 或 Chromium 浏览器。pyppeteer 允许你通过 Python 代码自动化操作浏览器,实现网页爬取、自动化测试、生成截图或 PDF 等功能。 核心…...

5G 网络寻呼的信令及 IE 信息分析

一、寻呼信令的触发背景 在 5G 网络中,当网络侧有下行数据要发送给处于空闲态(RRC_IDLE)或非激活态(RRC_INACTIVE)的用户设备(UE)时,就会触发寻呼流程。这是因为在这些状态下,UE 与网络之间没有建立持续的无线资源控制(RRC)连接,网络需要通过寻呼机制来通知 UE 有…...

信奥赛CSP动态规划入门-最小硬币问题

针对**“最小硬币问题”**的详细分步解析与程序实现,通过将大问题分解为小问题的方式讲解动态规划的应用: 一、问题拆解步骤 1. 明确问题定义 大问题:用面值1元和5元的硬币凑出N元,最少需要多少枚硬币? 小问题&#…...

cmd里可以使用npm,vscode里使用npm 报错

cmd里可以使用npm,vscode里使用npm 报错 报错提示原因解决方法 报错提示 npm : 无法加载文件 C:\Program Files\nodejs\npm.ps1,因为在此系 统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/ fwlink/?LinkID135170 中的 about_Executi…...

JAVA开发工具延长方案

亲测稳定的延长方案与避坑指南 真的搞不懂了,说点专业的术语竟然成了 QINQUAN。那就直接点,把这个方案带给需要的开发者。 延长工具直通车 保姆级教程 延长方案https://mp.weixin.qq.com/s/uajM2Y9Vz6TnolzcLur_bw还是让大家看看,发什么会被…...

CSS 浮动(Float)及其应用

1. 什么是浮动(Float)? 浮动元素会脱离正常的文档流(Document Flow),并向左或向右移动,直到碰到父元素的边缘或另一个浮动元素。 基本语法 .float-left {float: left; }.float-right {float:…...

CC53.【C++ Cont】一维前缀和

目录 1.定义 2.作用 3.例题:【模板】一维前缀和 分析 方法1:暴力解法 方法2:前缀和(简单的动态规划) 第一步:预处理 4.练习:P1115 最大子段和 分析 方法1:段长从1枚举到n 方法2:改进方法1 代码 提交结果 1.定义 快速求出数组中某一段的区间和,时间复杂度为(速度极…...

Python爬虫实战:研究Grab 框架相关技术

1. 引言 1.1 研究背景与意义 随着互联网的快速发展,网络上的数据量呈爆炸式增长。如何高效地获取和利用这些数据成为了当前的研究热点。网络爬虫作为一种自动获取网页内容的技术,能够按照一定的规则,自动地抓取万维网信息,在搜索引擎、数据挖掘、信息整合等领域有着广泛的…...

每日leetcode

1502. 判断能否形成等差数列 - 力扣(LeetCode) 题目 给你一个数字数组 arr 。 如果一个数列中,任意相邻两项的差总等于同一个常数,那么这个数列就称为 等差数列 。 如果可以重新排列数组形成等差数列,请返回 true …...

YouTube视频字幕转成文章算重复内容吗?

很多创作者误以为「自己说的话不算抄袭」,却不知道YouTube自动生成的字幕早已被搜索引擎存档。 去年就有案例:某美食博主将教程视频字幕转为图文,结果原创度检测仅42%,导致页面权重暴跌。 本文揭秘5个实操技巧:从删除…...

网络学习-利用reactor实现http请求(六)

一、实现HTTP请求 1、印象里面,总有人说C/C语言不能实现HTTP请求,其实不然。C/C语言完全可以实现HTTP请求。通过对select,poll,epoll等IO多路复用技术的学习以及reactor模式的学习,完全能够实现HTTP请求。 2、webserver 主要解决两个问题 …...

云原生安全:IaaS安全全解析(从基础到实践)

🔥「炎码工坊」技术弹药已装填! 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 一、基础概念:IaaS的核心价值与安全边界 1.1 什么是IaaS? 基础设施即服务(Infrastructure as a Service)是云计算的基础层,提供虚拟机、存储、网络等基础资源。用户通过…...

【IC_Design】跨时钟域的寄存器更新后锁存

目录 设计逻辑框图场景概述总结电路使用注意事项***波形图代码 设计逻辑框图 场景概述 最典型的应用场景就是——在一个时钟域(比如 CPU/总线域)更新了一个多位配置字,需要把它安全地送到另一个时钟域(比如时钟发生器、串口、视频…...

Spring AI 之提示词

提示词(Prompts)是引导人工智能(AI)模型生成特定输出的输入内容。这些提示词的设计和措辞会显著影响模型的响应。 在 Spring AI 中,与 AI 模型进行交互的最低层级上,处理提示词的方式与 Spring MVC 中管理“视图”(View)有些相似。这涉及创建包含动态内容占位符的冗长…...

亚远景-汽车软件开发的“升级之路”:ASPICE各等级说明

ASPICE(Automotive SPICE)将汽车软件开发过程的成熟度划分为六个等级,从0级到5级,每个等级代表了组织在软件开发过程中的不同能力水平。以下是各等级的详细说明: 等级0:不完整(Incomplete&#…...

Java微服务架构:Spring Cloud全栈指南,附最新Demo源码,可独立运行!

在日常java开发中你是不是经常遇到这种问题:开发中不知道要引入什么版本,创建新项目时直接从老工程拷贝引入了一堆杂乱的包,随便升级下其中一个包就导致整个微服务跑不起来! 如果你也遇到这种问题,可以认证看下本篇文…...

使用LLaMA-Factory微调ollama中的大模型(一)------家用电脑安装LLaMA-Factory工具

前提:本机已安装python,且版本大于3.9,推荐3.10 官方规定如下 我已安装 1.安装torch 查看自己电脑显卡信息 说明我没有装CUDA 使用 nvidia-smi 命令查看驱动信息 说明我NVIDIA 显卡已安装驱动,支持的 CUDA Runtime 版本为 12.6…...

支持向量机(SVM):分类与回归的数学之美

在机器学习的世界里,支持向量机(Support Vector Machine,简称 SVM)是一种极具魅力且应用广泛的算法。它不仅能有效解决分类问题,在回归任务中也有着出色的表现。下面,就让我们深入探索 SVM 如何在分类和回归…...

手撕I2C和SPI协议实现

手撕I2C和SPI协议实现 目录 I2C协议原理I2C位操作实现I2C驱动代码编写SPI协议原理SPI位操作实现SPI驱动代码编写 I2C协议原理 I2C(Inter-Integrated Circuit)是一种串行通信总线,使用两根线:SCL(时钟线&#xff09…...

人工智能+:职业价值的重构与技能升级

当“人工智能”成为产业升级的标配时,一个令人振奋的就业图景正在展开——不是简单的岗位替代,而是职业价值的重新定义。这场变革的核心在于,AI并非抢走工作机会,而是创造了人类与技术协作的全新工作范式。理解这一范式转换的逻辑…...

JVM部分内容

1.JVM内存区域划分 为什么要划分内存区域,JAVA虚拟机是仿照真实的操作系统进行设计的,JVM也就仿照了它的情况,进行了区域划分的设计。 JAVA进程也就是JAVA虚拟机会从操作系统申请内存空间给进程使用,JVM内存空间划分&#xff0c…...

paddlehub搭建ocr服务

搭建环境: Ubuntu20.041080Ti显卡 由于GPU硬件比较老,是Pascal架构,只能支持到paddle2.4.2版本,更高版本无法支持;同时,因为paddle老版本的依赖发生了变化,有些地方存在冲突,花费了…...

python-leetcode 68.有效的括号

题目: 给定一个只包括“(”),{,},[,] 的字符串 s ,判断字符串是否有效。 有效字符串需满足:左括号必须用相同类型的右括号闭合;左括号必须以正确的顺序闭合&#xff0c…...

人性的裂痕:社会工程学如何成为网络安全的隐形战场

引言 在技术高度发达的今天,网络安全防护墙看似坚不可摧,但黑客却总能找到一条“捷径”——利用人性的弱点。这种被称为“社会工程学”的攻击手段,不依赖复杂的代码漏洞,而是通过心理操纵和信息欺骗,让受害者主动交出…...

ObservableCollection序列化,和监听链表内元素变化

1.ObservableCollection序列化 情景&#xff1a;定义了A类、B类&#xff1b; A类里面有ObservableCollection<B>类型的属性&#xff0c;假设这个属性名称为BList&#xff1b; ObservableCollection<MotionIntervalSegmentation> motionIntervalSegmentation; [B…...

NLP学习路线图(四):Python编程语言

引言 自然语言处理&#xff08;Natural Language Processing, NLP&#xff09;是人工智能领域最引人注目的分支之一。从智能客服到机器翻译&#xff0c;从舆情分析到聊天机器人&#xff0c;NLP技术正在重塑人机交互的边界。本文将结合Python编程语言&#xff0c;带您走进NLP的…...

matlab实现无线通信组

无线通信组网涉及多个节点之间的通信&#xff0c;通常需要考虑节点的布局、信号传输、路径损耗、干扰等问题。在MATLAB中&#xff0c;可以通过模拟节点的位置、信号强度、路径损耗等因素来实现一个简单的无线通信组网程序。 1. 节点布局 首先&#xff0c;我们需要定义网络中的…...

基于单片机的室内采光及可燃气体泄漏报警装置设计

标题:基于单片机的室内采光及可燃气体泄漏报警装置设计 内容:1.摘要 随着人们对室内环境安全和舒适度要求的提高&#xff0c;设计一种能实时监测室内采光和可燃气体泄漏情况并及时报警的装置具有重要意义。本设计基于单片机实现室内采光及可燃气体泄漏报警功能&#xff0c;采用…...

Serverless爬虫架构揭秘:动态IP、冷启动与成本优化

一、问题背景&#xff1a;旧技术的瓶颈 在传统爬虫架构中&#xff0c;我们通常部署任务在本地机器或虚拟机中&#xff0c;搭配定时器调度任务。虽然这种方式简单&#xff0c;但存在以下明显缺陷&#xff1a; 固定IP易被封禁&#xff1a;目标网站如拼多多会通过IP频率监控限制…...

从单体到分布式:深入解析Data Mesh架构及其应用场景与价值

Data Mesh&#xff08;数据网格&#xff09;是一种新兴的数据架构范式&#xff0c;旨在解决传统集中式数据平台的可扩展性、敏捷性和治理问题。它强调领域驱动的分布式数据所有权、自助数据平台以及跨组织的协作&#xff0c;使数据成为产品&#xff0c;并通过去中心化的方式提高…...