当前位置: 首页 > news >正文

【Python小知识】如何解决代理IP在多线程环境下的并发问题?

前言

在多线程环境下,使用代理IP可能会出现并发问题。具体而言,多个线程可能同时使用同一个代理IP,导致代理IP被封禁或无法访问。为了解决这个问题,我们需要使用一个代理IP池来管理可用的代理IP,并在多线程环境下动态地选择代理IP。本文将介绍如何使用Python和代理IP池来解决代理IP并发问题。

安装依赖项

在使用代理IP池之前,我们需要安装一些依赖项。具体而言,我们需要安装requests、bs4和threading。可以通过以下命令来安装这些库:

python
!pip install requests bs4 threading

下载代理IP列表

首先,我们需要从代理IP网站那里下载一个代理IP列表。在本文中,我们将使用免费的代理IP网站站大爷。可以通过以下代码来下载代理IP列表:

python
import requests
from bs4 import BeautifulSoupdef get_proxy_list():url = 'https://www.zdaye.com/nn/'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}response = requests.get(url, headers=headers)soup = BeautifulSoup(response.text, 'html.parser')table = soup.find_all('table')[0]rows = table.find_all('tr')[1:]proxies = []for row in rows:columns = row.find_all('td')ip = columns[1].textport = columns[2].textprotocol = columns[5].text.lower()proxies.append((protocol, ip, port))return proxies

在上面的代码中,我们首先定义了一个get_proxy_list()函数。在这个函数中,我们使用requests和BeautifulSoup库来从代理IP列表网站中获取代理IP列表。然后,我们从列表中提取IP地址、端口和协议,并将它们存储在一个元组列表中。

创建代理IP池

接下来,我们需要创建一个代理IP池。代理IP池是一个包含可用代理IP的列表。我们可以使用Python中的列表和锁来实现代理IP池。

python
import threadingproxies = get_proxy_list()proxy_pool = []
proxy_lock = threading.Lock()for protocol, ip, port in proxies:proxy = f"{protocol}://{ip}:{port}"proxy_pool.append(proxy)

在上面的代码中,我们首先从get_proxy_list()函数中获取代理IP列表。然后,我们定义了一个proxy_pool列表和一个proxy_lock锁。在循环中,我们将格式化的代理IP添加到proxy_pool列表中。

动态选择代理IP

使用代理IP池的关键是动态选择代理IP。在每个线程中,我们需要从代理IP池中选择一个可用的代理IP来进行网络请求。如果没有可用的代理IP,我们可以等待一段时间,直到有可用的代理IP为止。

python
import time
import requestsdef fetch_url(url):while True:with proxy_lock:if not proxy_pool:time.sleep(1)continueproxy = proxy_pool.pop()try:response = requests.get(url, proxies={'http': proxy, 'https': proxy})return responseexcept:passfinally:with proxy_lock:proxy_pool.append(proxy)

在上面的代码中,我们定义了一个fetch_url()函数来进行网络请求。在这个函数中,我们使用一个无限循环来动态选择代理IP。首先,我们使用proxy_lock锁从proxy_pool列表中获取一个可用的代理IP。如果没有可用的代理IP,我们就等待一秒钟并继续循环。然后,我们使用requests库来发送网络请求,并在请求失败时捕获异常。最后,我们使用proxy_lock锁将代理IP放回proxy_pool列表中。

 示例代码

下面是一个完整的示例代码,演示如何使用代理IP池来进行网络爬取。在这个示例中,我们将使用一个线程池来并发地进行网络请求。

python
import threading
import time
import requests
from concurrent.futures import ThreadPoolExecutordef get_proxy_list():url = 'https://www.zdaye.com/nn/'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}response = requests.get(url, headers=headers)soup = BeautifulSoup(response.text, 'html.parser')table = soup.find_all('table')[0]rows = table.find_all('tr')[1:]proxies = []for row in rows:columns = row.find_all('td')ip = columns[1].textport = columns[2].textprotocol = columns[5].text.lower()proxies.append((protocol, ip, port))return proxiesproxies = get_proxy_list()proxy_pool = []
proxy_lock = threading.Lock()for protocol, ip, port in proxies:proxy = f"{protocol}://{ip}:{port}"proxy_pool.append(proxy)def fetch_url(url):while True:with proxy_lock:if not proxy_pool:time.sleep(1)continueproxy = proxy_pool.pop()try:response = requests.get(url, proxies={'http': proxy, 'https': proxy})return responseexcept:passfinally:with proxy_lock:proxy_pool.append(proxy)def main():urls = ['https://www.baidu.com','https://www.google.com','https://www.microsoft.com','https://www.apple.com','https://www.amazon.com']with ThreadPoolExecutor(max_workers=5) as executor:for url, response in zip(urls, executor.map(fetch_url, urls)):print(url, response.status_code)if __name__ == '__main__':main()

在上面的代码中,我们首先定义了一个get_proxy_list()函数来获取代理IP列表。然后,我们定义了一个proxy_pool列表和一个proxy_lock锁,并在循环中将可用的代理IP添加到proxy_pool列表中。接下来,我们定义了一个fetch_url()函数来进行网络请求。在这个函数中,我们使用一个无限循环来动态选择代理IP,并使用requests库来发送网络请求。最后,我们使用一个线程池来并发地进行网络请求。

总结

在本文中,我们介绍了如何使用Python和代理IP池来解决代理IP在多线程环境下的并发问题。具体而言,我们使用一个代理IP池来管理可用的代理IP,并在多线程环境下动态地选择代理IP。通过这种方式,我们可以避免代理IP被限制或无法访问的情况,并实现高效的网络爬取。

相关文章:

【Python小知识】如何解决代理IP在多线程环境下的并发问题?

前言 在多线程环境下,使用代理IP可能会出现并发问题。具体而言,多个线程可能同时使用同一个代理IP,导致代理IP被封禁或无法访问。为了解决这个问题,我们需要使用一个代理IP池来管理可用的代理IP,并在多线程环境下动态…...

redis常见面试汇总

目录 Redis 适合的场景 Redis 不适合的场景 3、Redis 有哪些常见的功能? 什么是缓存穿透?怎么解决? 什么是缓存雪崩?该如何解决? 参考文献: Redis 适合的场景 缓存:减轻 MySQL 的查询压力…...

子数组的解释与专题

子数组:指在一个数组中,选择一些连续的元素组成的新数组。 例题一:6900. 统计完全子数组的数目 给你一个由 正 整数组成的数组 nums 。 如果数组中的某个子数组满足下述条件,则称之为 完全子数组 : 子数组中 不同 …...

PHP: 开发入门macOS系统下的安装和配置

安装Homebrew 安装 ~~友情提示:这个命令对网络有要求,可能需要翻墙或者用你的手机热点试试,或者把DNS换成(114.114.114.114 和 8.8.8.8) /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebr…...

在CentOS下安装docker

1)在Cent OS安装docker先有一个Cent OS 7.6系统 这个很重要,不同版本按照的时候是不一样的。 2)查看CentOS版本 cat /etc/redhat-releas 3)用root账户登录进去配置国内yum源 wget -O /etc/yum.repos.d/CentOS-Base.repo http:…...

[JavaWeb]SQL介绍-DQL查询数据

SQL介绍-DQL查询数据 一.基础查询二.条件查询三.排序查询1.聚合函数2.分组查询 四.分页查询 DQL查询基础的语法结构如下: SELECT字段列表 FROM表名列表 WHERE条件列表 GROUP BY分组字段 HAVING分组后条件 ORDER BY排序字段 LIMIT分页限定一.基础查询 说明语法查询…...

[containerd] 在Windows上使用IDEA远程调试containerd, ctr, containerd-shim

文章目录 1. containerd安装2. 源码编译3. 验证编译的二进制文件是否含有调试需要的信息3.1. objdump工具验证3.2. file工具验证3.3. dlv工具验证 4. debug 1. containerd安装 [Ubuntu 22.04] 安装containerd 2. 源码编译 主要步骤如下: 1、从github下载containe…...

Verilog语法学习——LV4_移位运算与乘法

LV4_移位运算与乘法 题目来源于牛客网 [牛客网在线编程_Verilog篇_Verilog快速入门 (nowcoder.com)](https://www.nowcoder.com/exam/oj?page1&tabVerilog篇&topicId301) 题目 题目描述: 已知d为一个8位数,请在每个时钟周期分别输出该数乘1/…...

打卡力扣题目九

#左耳听风 ARST 打卡活动重启# 目录 一、问题 二、解题方法一 三、解题方法二 四、两种方法的区别 关于 ARTS 的释义 —— 每周完成一个 ARTS: ● Algorithm: 每周至少做一个 LeetCode 的算法题 ● Review: 阅读并点评至少一篇英文技术文章 ● Tips: 学习至少一个…...

Python零基础入门(九)——函数,类和对象

系列文章目录 个人简介:机电专业在读研究生,CSDN内容合伙人,博主个人首页 Python入门专栏:《Python入门》欢迎阅读,一起进步!🌟🌟🌟 码字不易,如果觉得文章不…...

在linux上面部署activemq

1、下载 网址:ActiveMQ 注意:新版本5.17起 要求jdk11, 5.16兼容jdk8, 所以,确保已经安装 java11 或以上的版本 这里安装较新版:5.18.2,已经安装了java17 如何安装jdk17,请详见我的另一篇文章:linux…...

mysql的sql语句优化方法面试题总结

mysql的sql语句优化方法面试题总结 不要写一些没有意义的查询,如需要生成一个空表结构: select col1,col2 into #t from t where 10 这类代码不会返回任何结果集,但是会消耗系统资源的,应改成这样: create table #t…...

小程序 获取用户头像、昵称、手机号的组件封装(最新版)

在父组件引入该组件 <!-- 授权信息 --><auth-mes showModal"{{showModal}}" idautnMes bind:onConfirm"onConfirm"></auth-mes> 子组件详细代码为: authMes.wxml <!-- components/authMes/authMes.wxml --> <van-popup show…...

【Linux】简易shell外壳的制作

#include <stdio.h> #include <unistd.h> #include <string.h> #include <stdlib.h> #include <sys/types.h> #include <sys/wait.h>#define NUM 1024 #define SIZE 32 #define SEP " "// 保存完整的命令行字符串 char cmd_line…...

TenserRT(四)在 PYTORCH 中支持更多 ONNX 算子

第四章&#xff1a;在 PyTorch 中支持更多 ONNX 算子 — mmdeploy 0.12.0 文档 PyTorch扩充。 PyTorch转换成ONNX&#xff1a; PyTorch有实现。PyTorch可以转化成一个或者多个ONNX算子。ONNX有相应算子。 如果即没有PyTorch实现&#xff0c;且缺少PyTorch与ONNX的映射关系&…...

前端高级面试题-浏览器

1 事件机制 事件触发三阶段 document 往事件触发处传播&#xff0c;遇到注册的捕获事件会触发 传播到事件触发处时触发注册的事件 从事件触发处往 document 传播&#xff0c;遇到注册的冒泡事件会触发 事件触发⼀般来说会按照上⾯的顺序进⾏&#xff0c;但是也有特例&#x…...

Mongodb 多文档聚合操作处理方法三(聚合管道)

聚合 聚合操作处理多个文档并返回计算结果。您可以使用聚合操作来&#xff1a; 将多个文档中的值分组在一起。 对分组数据执行操作以返回单个结果。 分析数据随时间的变化。 要执行聚合操作&#xff0c;您可以使用&#xff1a; 聚合管道 单一目的聚合方法 Map-reduce 函…...

Zabbix分布式监控配置和使用

目录 1 Zabbix监控的配置流程2 添加主机组3 添加模板4 添加主机5 配置图形6 配置大屏7 新建监控项7.1 简介7.2 添加监控项7.3 查看数据7.4 图表 8 新建触发器8.1 概述8.2 添加触发器8.3 显示触发器状态 1 Zabbix监控的配置流程 在Zabbix-Web管理界面中添加一个主机&#xff0c;…...

XCTF_very_easy_sql

简单的进行sql注入测试后发现不简单尝试一下按照提示 结合这句提示应该是内部访问&#xff0c;所以采用的手段应该是ssrf顺便看看包 唯一值得关注的是set-cookie说回ssrf唯一能使用的方式应该是Gopher协议找到了一个POST的python脚本 import urllib.parsepayload ""…...

[React]useMemoizedFn和useCallback对比

useMemoizedFn文档地址&#xff1a;https://ahooks.js.org/zh-CN/hooks/use-memoized-fn hooks组件内什么时候会更新自定义函数 在 React 中&#xff0c;自定义的 Hooks 内部的函数在以下常见的几种情况下会被重新赋值&#xff0c;导致更新引用&#xff1a; 组件重新渲染&…...

NiceGUI实战:打造动态路由导航栏的3个关键技巧

1. 为什么需要动态路由导航栏&#xff1f; 如果你用过NiceGUI开发Web应用&#xff0c;肯定遇到过这样的尴尬&#xff1a;想做个导航菜单&#xff0c;却发现官方压根没提供现成组件。这就像装修房子时发现建材市场不卖门把手——虽然不影响主体结构&#xff0c;但用起来总感觉少…...

避开Verilog数据转换的坑:ASCII码转16进制时,大小写处理你真的做对了吗?

Verilog字符转换实战&#xff1a;如何正确处理ASCII与十六进制的大小写问题 在数字系统设计中&#xff0c;数据格式转换是最基础却又最容易出错的环节之一。最近在review团队一位新成员的UART通信模块代码时&#xff0c;发现一个典型的"大小写陷阱"——当十六进制数据…...

原神帧率解锁终极指南:3步轻松突破60FPS限制,享受极致流畅体验

原神帧率解锁终极指南&#xff1a;3步轻松突破60FPS限制&#xff0c;享受极致流畅体验 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 还在为原神60帧限制而苦恼吗&#xff1f;高端显卡却…...

PID调参翻车实录:STM32驱动编码电机时,P值过大为何电机啸叫还振荡?

PID调参实战&#xff1a;STM32编码电机啸叫与振荡问题深度解析 当你在深夜实验室里第一次听到电机发出刺耳的啸叫声&#xff0c;同时观察到示波器上速度曲线像过山车一样上下震荡时&#xff0c;那种既困惑又兴奋的感觉&#xff0c;相信每个做过电机控制的工程师都深有体会。这不…...

EVA-02模型辅助软件测试:自动化生成测试用例与边界条件描述

EVA-02模型辅助软件测试&#xff1a;自动化生成测试用例与边界条件描述 如果你是一名软件测试工程师&#xff0c;下面这个场景你一定不陌生&#xff1a;产品经理递过来一份几十页的需求文档&#xff0c;你需要在几天内&#xff0c;把它拆解成成百上千条逻辑清晰、覆盖全面的测…...

8人SolidWorks研发共享一台服务器——性能算力共享智能按需分配

8人SolidWorks研发团队可借助云飞云智能共享云桌面&#xff0c;通过以下方式实现一台服务器的性能算力共享与智能按需分配。一、核心硬件配置CPU&#xff1a;选择多核高主频处理器&#xff0c;如Intel Core i9 14900K&#xff08;24核32线程&#xff09;或AMD锐龙9 9950X&#…...

一站式融合赋能,企业级私有化视频会议系统EasyDSS助力企业培训全流程闭环管理

传统企业培训往往面临诸多痛点&#xff0c;线下培训受地域、时间限制&#xff0c;直播培训错过即无&#xff0c;核心内容无法有效沉淀&#xff0c;会议、直播、点播多平台切换&#xff0c;操作繁琐效率低&#xff0c;EasyDSS企业级私有化视频会议系统&#xff0c;打破单一功能局…...

GyroFlow:用陀螺仪数据重塑视频稳定技术

GyroFlow&#xff1a;用陀螺仪数据重塑视频稳定技术 【免费下载链接】gyroflow Video stabilization using gyroscope data 项目地址: https://gitcode.com/GitHub_Trending/gy/gyroflow 在数字影像创作领域&#xff0c;画面稳定性直接决定作品专业度。无论是运动相机拍…...

Bootstrap 下拉菜单:全面解析与应用指南

Bootstrap 下拉菜单&#xff1a;全面解析与应用指南 引言 Bootstrap 是一个流行的前端框架&#xff0c;它提供了丰富的组件和工具来帮助开发者快速构建响应式、美观的网页。其中&#xff0c;下拉菜单是 Bootstrap 中一个常用且重要的组件&#xff0c;它能够帮助用户在有限的空间…...

通义千问1.5-1.8B-Chat-GPTQ-Int4场景应用:网络安全威胁情报的智能分析与报告生成

通义千问1.5-1.8B-Chat-GPTQ-Int4场景应用&#xff1a;网络安全威胁情报的智能分析与报告生成 1. 引言&#xff1a;当安全分析师遇上信息洪流 想象一下&#xff0c;你是一名网络安全分析师。凌晨三点&#xff0c;刺耳的告警声把你从睡梦中惊醒。屏幕上&#xff0c;来自防火墙…...