当前位置: 首页 > article >正文

深度解析:使用 Headless 模式 ChromeDriver 进行无界面浏览器操作

爬虫代理

一、问题背景(传统爬虫的痛点)

数据采集是现代网络爬虫技术的核心任务之一。然而,传统爬虫面临多重挑战,主要包括:

  1. 反爬机制:许多网站通过检测请求头、IP地址、Cookie等信息识别爬虫,进而限制或拒绝访问。
  2. 动态加载内容:一些页面的内容是通过 JavaScript 渲染的,传统的 HTTP 请求无法直接获取这些动态数据。

为了解决这些问题,无界面浏览器(Headless Browser)技术应运而生。无界面浏览器是一种没有图形界面的浏览器,它能够在后台运行并模拟用户的浏览器行为。相比传统爬虫,它能够绕过网站的反爬机制,并高效处理动态加载的内容。

ChromeDriver 是最常用的无界面浏览器之一,基于 Google Chrome 内核,支持 JavaScript 执行、Cookie 管理等功能。尽管如此,频繁的访问仍可能导致 IP 被封禁,因此结合 代理 IP 技术 是提升爬虫稳定性和效率的关键。

本文将展示如何通过基于 Headless 模式的 ChromeDriver,并结合代理 IP 技术、Cookie 和 User-Agent 设置,实现高效的数据采集。


二、核心模块拆解

本文的技术架构由以下几个核心模块构成:

1. 无界面浏览器模块(ChromeDriver)

通过 Selenium 驱动 ChromeDriver,使用 Headless 模式模拟真实用户的浏览器行为。

2. 代理 IP 模块

结合 亿牛云爬虫代理,通过代理 IP 隐藏真实 IP 地址,避免被目标网站封禁。

3. Cookie 和 User-Agent 模块

通过设置自定义的 Cookie 和 User-Agent,伪装成真实用户,绕过网站的反爬机制。

4. 数据采集模块

采集目标网站的产品信息(如介绍、描述、价格等)并进行解析与存储。

5. 异常处理模块

捕获并处理网络异常、页面加载失败等问题,确保爬虫程序的稳定性。


三、代码实现

以下是基于 Python 和 Selenium 实现的爬虫代码示例,结合了爬虫代理并设置了 Cookie 和 User-Agent。

# 导入所需库
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time# 配置亿牛云爬虫代理 www.16yun.cn
PROXY_DOMAIN = "http://proxy.16yun.cn"
PROXY_PORT = "8010"
PROXY_USERNAME = "16YUN"
PROXY_PASSWORD = "16IP"# 设置代理认证插件路径
proxy_auth_plugin_path = "path_to_proxy_auth_plugin.zip"  # 代理认证插件路径# 配置 ChromeDriver
chrome_options = Options()
chrome_options.add_argument("--headless")  # 无界面模式
chrome_options.add_argument("--disable-gpu")  # 禁用 GPU 加速
chrome_options.add_argument("--no-sandbox")  # 禁用沙盒模式
chrome_options.add_argument("--disable-dev-shm-usage")  # 禁用共享内存
chrome_options.add_argument("--proxy-server={}".format(PROXY_DOMAIN + ":" + PROXY_PORT))  # 设置代理
chrome_options.add_extension(proxy_auth_plugin_path)  # 添加代理认证插件# 设置 User-Agent
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
chrome_options.add_argument(f"user-agent={user_agent}")# 设置 Cookie(示例)
cookie = {"name": "session_id", "value": "1234567890abcdef"}# 初始化 ChromeDriver
service = Service("path_to_chromedriver")  # ChromeDriver 路径
driver = webdriver.Chrome(service=service, options=chrome_options)try:# 访问目标网站driver.get("https://www.digikey.com")driver.add_cookie(cookie)  # 添加 Cookiedriver.refresh()  # 刷新页面以应用 Cookie# 等待页面加载time.sleep(5)# 采集产品信息product_elements = driver.find_elements(By.CSS_SELECTOR, "div.product-info")  # 示例选择器for product in product_elements:product_name = product.find_element(By.CSS_SELECTOR, "h2.product-name").textproduct_description = product.find_element(By.CSS_SELECTOR, "p.product-description").textproduct_price = product.find_element(By.CSS_SELECTOR, "span.product-price").textprint(f"产品名称: {product_name}")print(f"产品描述: {product_description}")print(f"产品价格: {product_price}")print("-" * 30)except Exception as e:print(f"发生错误: {e}")
finally:# 关闭浏览器driver.quit()

四、性能对比与行业应用案例

1. 性能对比数据

对比传统爬虫和基于 Headless 模式的 ChromeDriver 爬虫,在以下几个方面得到了显著的提升:

特性传统爬虫Headless ChromeDriver 爬虫
数据采集成功率60%95%
平均响应时间2000ms1500ms
动态内容处理能力
反爬规避能力

从数据可以看出,基于 Headless 模式的 ChromeDriver 爬虫在成功率、响应时间以及反爬规避能力上都有显著优势。

2. 行业应用案例

  • 电商行业:通过无界面浏览器采集商品信息,进行价格监控和市场分析。
  • 金融行业:采集金融数据,用于风险评估和投资决策。
  • 新闻媒体:采集新闻内容,进行内容聚合和数据分析。

五、技术演化

无界面浏览器技术的发展标志着爬虫技术的一个重要进步。从早期仅依赖简单的 HTTP 请求,到如今结合浏览器渲染和代理 IP 技术,Headless 模式的 ChromeDriver 成为爬虫技术的核心组成部分。结合代理 IP 和伪装技术,爬虫可以在绕过反爬机制的同时高效采集目标网站的数据,提升爬虫的稳定性和数据采集的质量。

相关文章:

深度解析:使用 Headless 模式 ChromeDriver 进行无界面浏览器操作

一、问题背景(传统爬虫的痛点) 数据采集是现代网络爬虫技术的核心任务之一。然而,传统爬虫面临多重挑战,主要包括: 反爬机制:许多网站通过检测请求头、IP地址、Cookie等信息识别爬虫,进而限制…...

iOS事件传递和响应

背景 对于身处中小公司且业务不怎么复杂的程序员来说,很多技术不常用,你可能看过很多遍也都大致了解,但是实际让你讲,不一定讲的清楚。你可能说,我以独当一面,应对自如了,但是技术的知识甚多&a…...

JDK最详细安装教程,零基础入门到精通,收藏这篇就够了

目录 一、下载与安装二、配置环境三、验证是否配置成功 一、下载与安装 1、下载地址 http://www.oracle.com/technetwork/java/javase/downloads/index.html 2、选择自己想要的版本下载,并且选择自己电脑对应的版本下载 3、下载完成之后,双击打开然后…...

深研究:与Dify建立研究自动化应用

许多个人和团队面临筛选各种网页或内部文档的挑战,以全面概述一个主题。那么在这里我推荐大家使用Dify,它是一个用于LLM应用程序开发的低代码,开源平台,它通过自动化工作流程的多步搜索和有效汇总来解决此问题,仅需要最小的编码。 在本文中,我们将创建“ Deepresearch”…...

新手向:SpringBoot后端查询到数据,前端404?(附联调时各传参方式注解总结-带你一文搞定联调参数)

前言: 在 Spring Boot 项目开发中,后端小伙伴可能经常遇到这样诡异的场景: 后台日志显示查询到了数据,但前端却一脸懵逼地告诉你 404 Not Found?接口明明写好了,Postman 直接访问却提示找不到&#xff1f…...

Mysql各操作系统安装全详情

" 至高无上的命运啊~ " MySQL是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的RDBMS (Relational Database Mana…...

RadASM环境,win32汇编入门教程之七

;运行效果 ;RadASM环境,win32汇编入门教程之七 ;在上一个教程里面,我们学习如何把数据显示出来。但是感觉太丑了,在这一教程里,我们来学习一下怎样让它们变漂亮点。 ;主要的内容是如何创建字体,设置字体的大小&#xf…...

STL之string类的模拟实现

目录 1. string的成员变量 2. string的成员函数 2.1 string类的c_str()和swap()函数 2.2 string类的构造 2.3 string类的拷贝构造 2.3.1传统写法: 2.3.2现代写法: 2.4string类的运算符重载 2.4.1传统写法: 2.4.2现代写法 2. 5 …...

定期自动统计大表执行情况

一、创建用户并赋权 create user dbtj identified by oracle default tablespace OGGTBS;grant connect,resource to dbtj;grant select any dictionary to dbtj;grant create job to dbtj;grant manage scheduler to dbtj; 二、创建存储表 1、连接到新建用户 conn dbtj/or…...

学习next.js的同时的一些英语单词记录

skip :跳过 optional:可选的 previous:以前的 lesson:课程 directory:目录 identical:相同的 instruction:说明 development server:开发服务器 client-side:客户…...

ok113i平台——qt+tslib支持usb触摸屏热插拔功能实现

问题:重新插拔设备,需要软件重启才能接收到触摸事件 愿因:是因为qt程序的tslib库的操作逻辑是在构造函数里面连接一次usb触摸设备,具体看如下文件内容: /home/forlinx/OK113i-linux-sdk/buildroot/buildroot-201902/dl…...

游戏引擎学习第112天

黑板:优化 今天的内容是关于优化的,主要讨论了如何在开发中提高代码的效率,尤其是当游戏的帧率出现问题时。优化并不总是要将代码做到最快,而是要确保代码足够高效,以避免性能问题。优化的过程是一个反复迭代的过程&a…...

深度学习笔记——LSTM

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍面试过程中可能遇到的LSTM知识点。 文章目录 LSTM(Long Short-Term Memory)LSTM 的核心部件LSTM 的公式和工作原理(1) 遗忘门&a…...

基于SpringBoot的“食物营养分析与推荐网站”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“食物营养分析与推荐网站”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统功能结构图 系统首页界面 系统注册…...

23种设计模式 - 工厂方法模式

模式定义 工厂方法模式(Factory Method Pattern)是一种创建型设计模式,定义用于创建对象的接口,让子类决定实例化哪个类,从而将对象创建过程延迟到子类。其核心目的是解耦对象的创建与使用,增强系统的扩展…...

【ISO 14229-1:2023 UDS诊断(ECU复位0x11服务)测试用例CAPL代码全解析①】

ISO 14229-1:2023 UDS诊断【ECU复位0x11服务】_TestCase01 作者:车端域控测试工程师 更新日期:2025年02月16日 关键词:UDS诊断协议、ECU复位服务、0x11服务、ISO 14229-1:2023 TC11-001测试用例 用例ID测试场景验证要点参考条款预期结果TC…...

Discuz! X3.5 根目录权限设置

在 Discuz! X3.5 中,根目录的权限设置是确保网站安全性和功能正常运行的关键。如果权限设置不当,可能会导致文件无法访问、安全问题(如文件被篡改)或功能异常。以下是关于 Discuz! X3.5 根目录权限设置的详细说明和建议: 1. 根目录位置 Discuz! X3.5 的根目录通常是网站的…...

建筑兔零基础自学python记录22|实战人脸识别项目——视频人脸识别(下)11

这次我们继续解读代码,我们主要来看下面两个部分; 至于人脸识别成功的要点我们在最后总结~ 具体代码学习: #定义人脸名称 def name():#预学习照片存放位置path M:/python/workspace/PythonProject/face/imagePaths[os.path.join(path,f) f…...

React之旅-02 创建项目

创建React项目,常用的方式有两种: 官方提供的脚手架,官网:https://create-react-app.dev/。如需创建名为 my-app 的项目,请运行如下命令: npx create-react-app my-app 使用Vite包,官网&…...

uniapp 滚动尺

scale组件代码&#xff08;部分class样式使用到了uview1.0的样式&#xff09; <template><view><view class"scale"><view class"pointer u-flex-col u-col-center"><u-icon name"arrow-down-fill" size"26&qu…...

Redux中间件redux-thunk和redux-saga的具体区别是什么?

Redux 中间件是增强 Redux 功能的重要工具&#xff0c;redux-thunk 和 redux-saga 是两个常用的中间件&#xff0c;它们在处理异步操作和副作用时提供了不同的方式和理念。以下是两者的具体区别&#xff1a; 1. 概念与设计理念 redux-thunk 简洁&#xff1a;redux-thunk 是一…...

Windows 启动 SSH 服务

Windows 启动 SSH 服务 一、OpenSSH Server 安装 以 Win10 系统为例 打开设置 -> 系统 -> 可选功能 在 添加的功能 查看是否安装了 OpenSSH 服务 或者 OpenSSH Server 如果没有安装&#xff0c;找到 系统->添加可选功能 -> 查看功能->搜索 OpenSSH 服务 ->…...

rust笔记1-学习资料推荐

学习Rust的Trait、生命周期和模式确实需要一些时间&#xff0c;尤其是当这些概念在其他语言中不常见时。以下是一些学习资料和建议&#xff0c;帮助你更好地理解这些概念&#xff1a; 1. 官方文档与书籍 《The Rust Programming Language》&#xff08;俗称“The Book”&…...

MySQL 的存储引擎有哪些?它们之间有什么区别? MySQL InnoDB 引擎中的聚簇索引和非聚簇索引有什么区别? MySQL 的索引类型有哪些?

MySQL 的存储引擎有哪些&#xff1f;它们之间有什么区别&#xff1f; 先来回顾以下我们业务场景下一般的数据库访问的过程应用——>server层 ——>存储引擎层——>磁盘 官网描述&#xff1a; InnoDB: MySQL 8.4 中的默认存储引擎。 InnoDB 是事务安全&#xff08;符…...

【Linux探索学习】第二十六弹——进程通信:深入理解Linux中的进程通信

Linux探索学习&#xff1a; https://blog.csdn.net/2301_80220607/category_12805278.html?spm1001.2014.3001.5482 前言&#xff1a; 在Linux操作系统中&#xff0c;进程通信&#xff08;IPC&#xff09;是操作系统的一项核心功能&#xff0c;用于在不同进程之间交换数据或…...

netcore https配置

一、生成证书 1. 安装 OpenSSL 如果尚未安装 OpenSSL&#xff0c;可以通过以下命令安装&#xff1a;Ubuntu/Debian:sudo apt update sudo apt install openssl CentOS/RHEL:sudo yum install openssl 2. 生成私钥 使用以下命令生成私钥文件&#xff08;private.key&#xff09…...

遥感影像目标检测:从CNN(Faster-RCNN)到Transformer(DETR)

我国高分辨率对地观测系统重大专项已全面启动&#xff0c;高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成&#xff0c;将成为保障国家安全的基础性和战略性资源。未来10年全球每天获取的观测数据将超过10PB&#xff0c;遥感大数据时…...

rtcwake - Linux下定时唤醒计算机

rtcwake 是一个用于通过实时时钟&#xff08;RTC&#xff09;唤醒计算机的工具。它常用于在 Linux 系统中设置计算机在指定时间自动唤醒或关闭。以下是对命令 rtcwake -m off -s ${sleep_time} 的详细解析&#xff1a; 命令解析 bash复制 rtcwake -m off -s ${sleep_time} 1…...

使用vscode调试transformers源码

简要介绍如何使用vscode调试transformers源码 以源码的方式安装transformers&#xff08;官方手册为Editable install&#xff09; 优先参考官方手册 git clone https://github.com/huggingface/transformers.git cd transformers pip install -e .以下展示transformers/exa…...

LeetCode39

LeetCode39 目录 题目描述示例思路分析代码段代码逐行讲解复杂度分析总结的知识点整合总结 题目描述 给定一个无重复元素的整数数组 candidates 和一个目标整数 target&#xff0c;找出 candidates 中所有可以使数字和为 target 的组合。candidates 中的数字可以无限制重复选…...