puppeteer代理的搭建和配置
puppeteer代理的搭建和配置
本文深入探讨了Puppeteer在网络爬虫和自动化测试中的重要角色,着重介绍了如何搭建和配置代理服务器,以优化Puppeteer的功能和性能。文章首先介绍了Puppeteer作为一个强大的Headless浏览器自动化工具的优势和应用场景,然后着重探讨了为Puppeteer配置代理服务器的必要性,以及不同代理类型的选择。接着,文章详细阐述了搭建代理服务器的步骤,包括常见的代理服务器软件选择、配置和设置。最后,通过实例和技巧分享,读者将获得在实际项目中成功使用Puppeteer代理的关键知识和经验。本文旨在为读者提供一份全面指南,使他们能够在使用Puppeteer时灵活运用代理,从而更好地应对网络数据采集和测试挑战
puppeteer代理的搭建
搭建环境:LInux + Docker
代理镜像选择tinyproxy
docker pull dannydirect/tinyproxy
启动容器
tinyproxy有两种模式,1、允许无限制的代理访问 2、允许特定 IP 地址访问代理
#允许无限制的代理访问
docker run -d --name='tinyproxy' -p 8888:8888 dannydirect/tinyproxy:latest ANY# 允许特定 IP 地址访问代理
docker run -d --name='tinyproxy' -p 8888:8888 dannydirect/tinyproxy:latest 87.115.60.124# 允许多个特定 IP 地址访问代理
docker run -d --name='tinyproxy' -p 8888:8888 dannydirect/tinyproxy:latest 10.103.0.0/24 192.168.1.0/24
没有特殊要求直接使用第一个就行了。
查看日志出现下面表示成功
除了 dannydirect/tinyproxy,还有一些常见且广泛使用的代理服务器软件。以下是一些比较流行的代理服务器:
Squid Proxy:Squid 是一个功能强大的代理服务器软件,支持 HTTP、HTTPS、FTP 等协议。它是一个高性能的缓存代理服务器,广泛用于代理、缓存和加速 Web 请求。Squid 是开源免费的,可在多种操作系统上运行。
Nginx:Nginx 是一种高性能的 Web 服务器,但它也可以配置为反向代理服务器。通过配置 Nginx,你可以将来自客户端的请求代理到后端服务器,并充当代理服务器的角色。Nginx 是免费开源的,并且在 Web 服务器和代理服务器领域非常流行。
HAProxy:HAProxy 是一个高性能的 TCP/HTTP 负载均衡器和代理服务器。它支持多种负载均衡算法和健康检查,常用于将来自客户端的请求转发到多个后端服务器。HAProxy 也是免费开源的。
Privoxy:Privoxy 是一个用于保护用户隐私和过滤网页内容的非缓存 Web 代理服务器。它允许用户控制代理服务器的行为,并可以过滤广告和其他不良内容。Privoxy 是开源免费的,并适用于多个平台。
Tinyproxy:除了 dannydirect/tinyproxy,还有其他的 Tinyproxy 变种,例如 tinyproxy/tinyproxy。Tinyproxy 是一个轻量级的、高性能的匿名 HTTP/HTTPS 代理服务器。它易于配置和使用,并支持 ACL 和用户认证等功能。
这些代理服务器都有不同的特点和用途,你可以根据自己的需求选择合适的代理服务器。如果你只是需要简单的 HTTP 代理,dannydirect/tinyproxy 或其他 Tinyproxy 变种可能已经足够满足你的需求。如果需要更复杂的功能,如负载均衡、反向代理、缓存等,可以考虑使用 Squid、Nginx 或 HAProxy 等更强大的代理服务器。
puppeteer代理配置
const proxyIp = '118.31.x.xxx';const proxyPort = '8888';const proxyUrl = `http://${proxyIp}:${proxyPort}`;const instance = await puppeteer.launch({args: [`--proxy-server=${proxyUrl}`]});
代理的配置非常简单,就是在浏览器启动是添加参数。
测试
使用配置了代理的puppeteer去使用
await page.goto("https://www.amazon.com/", {waitUntil: 'domcontentloaded', timeout: 60000});
可以看到正常使用

相关文章:
puppeteer代理的搭建和配置
puppeteer代理的搭建和配置 本文深入探讨了Puppeteer在网络爬虫和自动化测试中的重要角色,着重介绍了如何搭建和配置代理服务器,以优化Puppeteer的功能和性能。文章首先介绍了Puppeteer作为一个强大的Headless浏览器自动化工具的优势和应用场景…...
【简单认识MySQL的MHA高可用配置】
文章目录 一、简介1、概述2、MHA 的组成3.MHA 的特点4、MHA工作原理 二、搭建MHA高可用数据库群集1.主从复制2.MHA配置 三、故障模拟四、故障修复步骤: 一、简介 1、概述 MHA(Master High Availability)是一套优秀的MySQL高可用…...
【云原生】一文学会Docker存储所有特性
目录 1.Volumes 1.Volumes使用场景 2.持久将资源存放 3. 只读挂载 2.Bind mount Bind mounts使用场景 3.tmpfs mounts使用场景 4.Bind mounts和Volumes行为上的差异 5.docker file将存储内置到镜像中 6.volumes管理 1.查看存储卷 2.删除存储卷 3.查看存储卷的详细信息…...
Android Ble蓝牙App(一)扫描
Ble蓝牙App(一)扫描 前言正文一、基本配置二、扫描准备三、扫描页面① 增加UI布局② 点击监听③ 扫描处理④ 广播处理 四、权限处理五、扫描结果① 列表适配器② 扫描结果处理③ 接收结果 六、源码 前言 关于低功耗的蓝牙介绍我已经做过很多了࿰…...
mac pd安装ubuntu并配置远程连接
背景 一个安静的下午,我又想去折腾点什么了。准备学习一下k8s的,但是没有服务器。把我给折腾的,在抱怨了:为什么M系列芯片的资源怎么这么少。 好在伙伴说,你可以尝试一下ubantu。于是,我只好在我的mac上安…...
1.3 eureka+ribbon,完成服务注册与调用,负载均衡源码追踪
本篇继先前发布的1.2 eureka注册中心,完成服务注册的内容。 目录 环境搭建 采用eurekaribbon的方式,对多个user服务发送请求,并实现负载均衡 负载均衡原理 负载均衡源码追踪 负载均衡策略 如何选择负载均衡策略? 饥饿加载…...
mysql修改字段长度是否锁表
Varchar对于小于等于255字节以内的长度可以使用一个byte 存储。大于255个字节的长度则需要使用2个byte存储 1, 如果是255长度之内的扩展,或者255之外的扩展,则不锁表,采用in-place方式执行 2, 如果从varchar长度从(0,2…...
SpringCloud集成OpenTelemetry的实现
SpringCloud项目做链路追踪,比较常见的会集成SleuthZipKin来完成,但这次的需求要集成开源框架OpenTelemetry,这里整理下实现过程。相关文章: 【SpringCloud集成SleuthZipkin进行链路追踪】 【OpenTelemetry框架Trace部分整理】 …...
Python爬取IP归属地信息及各个地区天气信息
一、实现样式 二、核心点 1、语言:Python、HTML,CSS 2、python web框架 Flask 3、三方库:requests、xpath 4、爬取网站:https://ip138.com/ 5、文档结构 三、代码 ipquery.py import requests from lxml import etree # 请求…...
RedLock + Redisson
目录 2.9 RedLock2.9.1 上述实现的分布式锁在集群状态下失效的原因2.9.2 解决方式-RedLock 2.10 redisson中的分布式锁2.10.0 redisson简介以及简单使用简单使用redisson中的锁Redisson常用配置 2.10.1 Redisson可重入锁实现原理2.10.2 公平锁(Fair Lock)…...
计算机视觉:卷积层的参数量是多少?
本文重点 卷积核的参数量是卷积神经网络中一个重要的概念,它决定了网络的复杂度和计算量。在深度学习中,卷积操作是一种常用的操作,用于提取图像、语音等数据中的特征。卷积神经网络的优势点在于稀疏连接和权值共享,这使得卷积核的参数相较于传统的神经网络要少很多。 举例…...
Docker 容器基础操作
Docker容器基础操作 容器(container)是Docker镜像的运行实例,类似于可执行文件与进程的关系,Docker是容器引擎,相当于系统平台。 容器的生命周期 容器的基础操作(以 tomcat8.0 为例) # 拉取tomcat8.0镜像 [root@tudou tudou]# docker pull tomcat:8.0 8.0: Pulling f…...
【Vue3+Ts+Vite】配置滚动条样式
一、先看效果 二、直接上代码 <template><div class"main-container"><h1 v-for"index in 50" :key"index">这是home页面</h1></div> </template> <style lang"scss" scoped> .main-conta…...
react map使用方法详解
在React中,map()方法是用于数组的常见方法之一,它可以用于处理数组并返回一个新的数组。在React中,经常使用map()方法来遍历数组,生成对应的组件列表或进行数据转换操作。 下面是map()方法在React中的使用方法详解: …...
PoseiSwap:通过 RWA 的全新叙事,反哺 Nautilus Chain 生态
PoseiSwap 是 Nautilus Chain 上的首个 DEX,作为目前行业内模块化区块链叙事的早期奉行者,PoseiSwap 也得到了较高的市场关注。基于 Nautilus Chain,PoseiSwap 打造了一个全新的 Rollup 应用层,并通过零知识证明来建立全新的订单簿…...
PHP8的常量-PHP8知识详解
常量和变量是构成PHP程序的基础,在PHP8中常量的这一节中,主要讲到了定义常量和预定义常量两大知识点。 一、定义常量 定义常量也叫声明常量。在PHP8中,常量就是一个标识符(名字),一旦定义(声明&…...
印花税的本质和底层逻辑是什么?印花税降低是利好股市吗?
内容由LLM协助生成: 印花税是一种对特定交易或证券交易征收的税费,由政府机构收取。其本质和底层逻辑可以归结为以下几点: 资金来源:印花税是国家财政收入的一部分,用于满足政府的财政需求和公共支出。政府通过征收印花…...
pytorch+GPU跑模型时 nvrtc: error: failed to open nvrtc-builtins64_117.dll
1.先检查自己cuda版本: print(torch.version.cuda) #查看cuda版本 print(torch.cuda.is_available()) # 查看cuda是否可用 print(torch.cuda.device_count()) # 查看可行的cuda数目如果版本高于11建议先降版本,然后再试下。 2.重新安装nvrtc-builtin…...
SQL-每日一题【626.换座位】
题目 表: Seat 编写SQL查询来交换每两个连续的学生的座位号。如果学生的数量是奇数,则最后一个学生的id不交换。 按 id 升序 返回结果表。 查询结果格式如下所示。 示例 1: 解题思路 前置知识 MySQL 的 MOD() 函数是取模运算的函数,它返回两个数相除…...
Swagger之Hello World !
目录 ■1.前言・Swagger介绍 ■2.例子,如果基于Spring Boot项目,实现Swagger---非常简单 2.1.已有的SpringBoot项目 2.2.修改POM文件 2.3.添加Config文件…...
索尼IMX811如何重塑工业视觉与专业影像的边界
突破像素极限,定义成像新高度在影像技术飞速发展的今天,高分辨率始终是专业领域不懈追求的目标。索尼半导体解决方案公司重磅推出的IMX811中画幅CMOS图像传感器,以2.47亿有效像素的惊人规格,为行业带来了颠覆性的突破。这款传感器…...
CRMEB 让您的在线商城更智能:最新商品模块更新亮点一览!
为了让广大电商商家更好地管理商品、提升用户的购物体验和满意度,近日,CRMEB标准版商城系统再度发力,对商品模块进行了全面升级,新增一系列功能,期待帮助企业商家更好地管理商品,提升用户购物体验ÿ…...
逻辑流中,判断操作符NULLOREMPTY的限制
问题描述: 逻辑流中,判断操作符NULLOREMPTY的限制 解决方案: NULLOREMPTY与NOTNULLOREMPTY都只能判断值是null或者空字符串,判断空对象不生效。建议如果是{}空对象,请使用java表达式去写判断条件。 比如下图:Busin…...
深入理解Android中startActivity的完整流程:聚焦IPC机制与Binder原理
引言 在Android开发中,startActivity() 方法是启动新Activity的核心API,它贯穿了应用的生命周期管理。理解其内部流程,不仅有助于优化性能、避免常见错误,还能提升开发者在面试中的竞争力。本文将以“一次完整的 startActivity 到底经历了什么”为主题,深入探讨整个流程,…...
Chrome无痕模式下BiDi协议断连原因与解决方案
1. 这个问题不是“能不能用”,而是“为什么一开无痕就断连”如果你在用 Selenium 4.11 集成 Chrome DevTools Protocol(CDP)或更新的 BiDi(Browser Interaction)协议做自动化时,突然发现:本地调…...
实用购机指南:屏幕出色、流畅耐用续航拉满的手机
一、前言2026 年上半年,智能手机市场迎来新一轮旗舰迭代,用户购机核心需求已从单一参数比拼,转向流畅不卡顿、性能强劲、屏幕护眼优质、续航持久耐用的全能体验,同时兼顾影像创作与美学设计。为帮消费者精准筛选高适配机型&#x…...
专业做绝对值编码器的服务商
在工业自动化领域,绝对值编码器是不可或缺的关键组件。它能够直接输出轴或直线运动的“绝对位置”,断电后位置信息不会丢失,每次上电都能立刻知道当前的精确坐标,这使得其在各种精密应用中具有无可替代的优势。本文将通过具体数据…...
第一学期结果
关注 1.从安涛老师前三期视频中了解了方向2.从b站了解了555的内部结构3.仿真。4.低通滤波器的基本原理:一、核心定义只允许低频信号顺利通过,阻挡、衰减高频信号的电路。 你电路里作用:滤掉方波里的高频谐波,留下低频基波…...
别再手动开两个终端了!群晖Docker部署MCSM面板后,配置Systemd服务实现开机自启动详解
群晖Docker部署MCSM面板的终极运维方案:Systemd服务配置全指南 在家庭服务器和小型私有云环境中,Minecraft服务器的管理一直是个既有趣又充满挑战的话题。MCSM面板作为一款开源的Minecraft服务器管理工具,凭借其友好的Web界面和丰富的功能&am…...
ROS Noetic下,5分钟搞定Hector SLAM建图(附避坑指南与完整launch文件)
ROS Noetic下Hector SLAM极速建图实战:从零到地图生成的避坑全指南 刚接触ROS和SLAM的开发者往往被复杂的配置和概念淹没,而Hector SLAM作为最轻量级的激光建图方案,却能在5分钟内让你看到实实在在的建图效果。本文将采用逆向教学法——先带你…...
