当前位置: 首页 > news >正文

Python爬虫:制作一个属于自己的IP代理模块

前言

在Python爬虫过程中,为了避免被网站的反爬虫机制干扰,我们需要使用IP代理。所谓IP代理,就是通过修改网络请求中的IP地址,来达到隐藏真实IP地址的效果。本文将教你如何制作一个自己的IP代理模块,让你的爬虫更加稳定、安全。

1. 理解IP代理的原理

在网络请求中,我们通常会使用requests库的get()或者post()方法来发送GET或者POST请求。其中,get()方法使用的是HTTP协议,在发送请求的同时,会将本机IP地址作为请求的来源地址附加到HTTP报文头中。而post()方法则使用的是HTTPS协议,在发送请求的时候,会先建立一条TLS连接,然后再发送请求。在TCP协议层面,它的报文头中也会包含本机IP地址等信息。

在这种情况下,如果我们在短时间内频繁发送请求,很容易被网站的反爬虫机制锁定IP地址,从而导致爬虫无法正常运行。为了避免这种情况的发生,我们可以使用IP代理,利用代理服务器的IP地址来代替本机IP地址,从而达到伪装的效果。

2. 实现代理IP池

要使用IP代理,首先我们需要获取到可用的代理IP地址。这里我们可以使用一些免费的代理IP网站来获取可用的代理IP地址,比如国内的代理66、快代理等。

我们可以使用requests库来获取代理IP地址列表:

import requests# 获取代理IP地址列表
def get_ip_list(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}web_data = requests.get(url, headers=headers)ip_list = web_data.text.split('\r\n')return ip_list

接下来,我们需要使用这些代理IP地址来构建一个IP池。IP池可以看作是一个存放可用代理IP地址的列表,当我们发送网络请求的时候,就可以从池中随机选取一个IP地址来使用。如果该IP地址无法使用(比如请求超时或者返回状态码不是200),就应该从IP池中将该IP地址删除,并选取下一个IP地址作为代理。

import random# 构造IP池
def get_random_ip(ip_list):proxy_list = []for ip in ip_list:proxy_list.append('http://' + ip)proxy_ip = random.choice(proxy_list)proxies = {'http': proxy_ip}return proxies

3. 使用代理IP发送网络请求

有了可用的代理IP池之后,我们就可以开始使用代理IP来发送网络请求了。这里我们还是使用requests库来发送请求,只是在发送请求之前,我们需要先从IP池中随机选取一个IP地址,并设置requests库的proxies参数。

# 使用代理IP发送网络请求
def use_proxy(url, ip_list):while True:proxies = get_random_ip(ip_list)print('Use proxy:', proxies)try:response = requests.get(url, proxies=proxies, timeout=3)if response.status_code == 200:return response.textexcept Exception:pass

在这个例子中,我们设置了请求超时时间为3秒钟,如果在请求超时时间内没有得到正确的返回结果,就会跳过当前代理IP地址,从IP池中选取下一个IP地址来尝试。

4. 添加IP代理模块

将上述代码整合起来,我们可以得到一个完整的IP代理模块。这个模块包括以下几个部分:

  • 从代理IP网站获取代理IP地址列表
  • 构造IP池
  • 使用代理IP发送网络请求
import requests
import random# 获取代理IP地址列表
def get_ip_list(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}web_data = requests.get(url, headers=headers)ip_list = web_data.text.split('\r\n')return ip_list# 构造IP池
def get_random_ip(ip_list):proxy_list = []for ip in ip_list:proxy_list.append('http://' + ip)proxy_ip = random.choice(proxy_list)proxies = {'http': proxy_ip}return proxies# 使用代理IP发送网络请求
def use_proxy(url, ip_list):while True:proxies = get_random_ip(ip_list)print('Use proxy:', proxies)try:response = requests.get(url, proxies=proxies, timeout=3)if response.status_code == 200:return response.textexcept Exception:pass

使用这个模块非常简单,只需要传入代理IP的URL地址和目标网站的URL地址就可以了:

ip_url = 'http://www.zdaye.com/nn/'
target_url = 'http://httpbin.org/ip'
ip_list = get_ip_list(ip_url)
content = use_proxy(target_url, ip_list)
print(content)

 总结

通过上述步骤,我们就成功地制作了一个属于自己的IP代理模块。使用这个模块,我们可以轻松地获取可用的代理IP地址,并在发送网络请求的时候使用代理IP地址,从而避免因为频繁请求而被反爬虫机制锁定IP地址的情况发生。当然,这个模块只是一个简单的示例,如果要在实际应用中使用的话,还需要根据不同的爬虫需求进行相应的改进和优化。

相关文章:

Python爬虫:制作一个属于自己的IP代理模块

前言 在Python爬虫过程中,为了避免被网站的反爬虫机制干扰,我们需要使用IP代理。所谓IP代理,就是通过修改网络请求中的IP地址,来达到隐藏真实IP地址的效果。本文将教你如何制作一个自己的IP代理模块,让你的爬虫更加稳…...

解决QT中文乱码

选中文本带有中文字符的文件,然后按如下点击 弹出对话框,选择当前操作系统的编码格式,选择Save with Encoding 中文字符前用u8进行标识...

GPIO基本原理

名词解释 高低电平:GPIO引脚电平范围:0V~3.3V(部分引脚可容忍5V)数据0就是0V,代表低电平;数据1就是3.3V,代表高电平; STM32是32位的单片机,所以内部寄存器也都是32位的…...

算法通过村第十五关-超大规模|青铜笔记|海量找数

文章目录 前言用4KB内存寻找重复数总结 前言 提示:并不是所有黑暗的地方,都需要光明。 --珍妮特温特森《句子不是唯一的水果》 在大部分算法中,默认给点给的数据量都是很小的,例如只有几个或者十几个元素,但是如果遇到…...

TCP、IP和HTTP的区别和联系

TCP(Transmission Control Protocol) TCP是一种面向连接的协议,负责数据的可靠性传输。它提供了错误检测和纠正、数据分段和重新组装、流量控制和拥塞控制等功能,最终确保数据可靠滴从一个端点传输到另一个端点。 TCP建立连接、传…...

【4】c++11新特性(稳定性和兼容性)—>final关键字

c中增加了final关键字来限制某个类不能被继承&#xff0c;或者某个虚函数不能被重写。如果使用final修饰函数&#xff0c;只能修饰虚函数&#xff0c;并且放在类或者函数的后面。 修饰函数 #include <iostream> using namespace std;class Base { public:virtual void t…...

23基于MATLAB的小波降噪,默认阈值消噪,强制消噪,给定软阈值消噪方法,数据直接替换后就可以跑。

基于MATLAB的小波降噪&#xff0c;默认阈值消噪&#xff0c;强制消噪&#xff0c;给定软阈值消噪方法&#xff0c;数据直接替换后就可以跑。 https://www.xiaohongshu.com/explore/652d57c600000...

蓝桥杯 常用STL (C++) 未完待续

动态数组 有些时候想开一个数组&#xff0c;但是却不知道应该开多大长度的数组合适&#xff0c;因为我们需要用到的数组可能会根据情况变动。 这时候我们就需要用到动态数组。所谓动态数组&#xff0c;也就是不定长数组&#xff0c;数组的长度是可以根据我们的需要动态改变的。…...

class id

在HTML和CSS中&#xff0c;"class" 和 "id" 是用于标识和定制元素的两种重要属性。 Class&#xff08;类&#xff09;: "class" 属性用于标识一个或多个HTML元素&#xff0c;允许你为它们应用相同的样式规则。可以将相同的类应用于多个不同元素。…...

Qt (QInputDialog 、QMessageBox、QMessageBox)对话框实战

目录 一、QInputDialog 类(输入对话框) 二、QMessageBox 类(消息框) 三、QMessageBox 类(自定义消息框) 一、QInputDialog 类(输入对话框) QInputDialog 是一个提供输入对话框的 Qt 类。它允许用户输入文本&#xff0c;并提供给用户选择可用选项的选项列表。QInputDialog 可…...

Java 解析 cURL(bash) 命令

解析 cURL&#xff08;bash&#xff09; 命令 1. 主要用于解析从浏览器复制来的 cURL(bash)2. 废话不多说&#xff0c;都在&#x1f37b;代码里了。参考资料 1. 主要用于解析从浏览器复制来的 cURL(bash) curl https://eva2.csdn.net/v3/06981375190026432f77c01bfca33e32/lts/…...

JDK21的虚拟线程是什么?和平台线程什么关系?

虚拟线程&#xff08;Virtual Thread&#xff09;是 JDK 而不是 OS 实现的轻量级线程(Lightweight Process&#xff0c;LWP&#xff09;&#xff0c;由 JVM 调度。许多虚拟线程共享同一个操作系统线程&#xff0c;虚拟线程的数量可以远大于操作系统线程的数量。 在引入虚拟线程…...

Unity DOTS Component概述

最近DOTS终于发布了正式的版本, 我们来分享以下DOTS里面地几个关键概念&#xff0c;方便大家上手学习掌握Unity DOTS开发。 Unity DOTS 中Entity作为实体不直接去存放数据&#xff0c;而是将数据以一个个的组件为载体来存放起来。每个Entity会得到一些不同的ComponentData的组…...

element ui 下拉框 选择月份和天数

一、背景 目前做的管理系统项目&#xff0c;期望实现功能为&#xff1a;设置出账周期和出账日&#xff0c;考虑使用element ui下拉框实现功能 二、所用技术 vue2element ui 三、实现效果 四、具体代码 <template><popup-frame :title"批量设置出账日" …...

用Java包com.sun.net.httpserver下面的类实现一个简单的http服务器demo

java的com.sun.net.httpserver包下的类提供了一个高层级的http服务器API&#xff0c;可以用来构建内嵌的http服务器。支持http和https。这些API提供了一个RFC 2616 (HTTP 1.1)和RFC 2818 (HTTP over TLS)的部分实现。 https://docs.oracle.com/en/java/javase/19/docs/api/jdk.…...

unity 浏览器插件【embedded browser(原zfbrowser)】简单教程,使unity支持web h5页面,附软件下载链接

一 简介 这是个在项目中使用了很久的浏览器插件。 很负责任的说这是在pc平台上最好用的浏览器插件 商业付费价格78刀&#xff0c;相比3d webview等插件动不动就178、368的价格就显得很良心 最新版下载链接&#xff08;请勿商用&#xff09; 1.1 功能概述 基本和普通浏览器无…...

LeetCode算法位运算—只出现一次的数字

目录 136. 只出现一次的数字 - 力扣&#xff08;LeetCode&#xff09; 解题思路&#xff1a; 代码&#xff1a; 运行结果&#xff1a; 补充 异或的重要性质 136. 只出现一次的数字 - 力扣&#xff08;LeetCode&#xff09; 给你一个 非空 整数数组 nums &#xff0c;除了某…...

vcpkg manifest 的使用

最近项目上要使用 CMakeLists 管理&#xff0c;由于 Windows 版本有依赖到 vcpkg 提供的库&#xff0c;所以需要使用 vcpkg manifest 来统一设置库的版本&#xff0c;方便后续维护 推荐一个文章&#xff0c;介绍的可以说是非常全面了 VCPKG 特性 - Versioning 不过里面也有一些…...

选择什么电容笔比较好?平板手写笔推荐

由于苹果Pencil的热销&#xff0c;让华国内市场上&#xff0c;也出现了不少的平替式电容笔&#xff0c;这些产品&#xff0c;有好有坏&#xff0c;价格也很公道。不过&#xff0c;也有很多产品的价格都很平价。我是一个拥有多年经验的数码发烧友&#xff0c;在前几年就开始用上…...

pdf转二维码怎么做?pdf二维码制作简单技巧

pdf是一种很常见的文件储存格式&#xff0c;一般通知、发票、简历都会保存为这种格式来使用&#xff0c;那么需要将pdf格式文件做成二维码&#xff0c;该用什么方式来制作呢&#xff1f;下面给大家分享一个pdf转二维码的在线工具&#xff0c;可以通过上传文件一键生成二维码&am…...

LAV Filters终极指南:深度解析开源DirectShow解码器的架构原理与实战配置

LAV Filters终极指南&#xff1a;深度解析开源DirectShow解码器的架构原理与实战配置 【免费下载链接】LAVFilters LAV Filters - Open-Source DirectShow Media Splitter and Decoders 项目地址: https://gitcode.com/gh_mirrors/la/LAVFilters LAV Filters是一套基于F…...

5分钟快速上手Py-ART:气象雷达数据分析的终极Python工具包

5分钟快速上手Py-ART&#xff1a;气象雷达数据分析的终极Python工具包 【免费下载链接】pyart The Python-ARM Radar Toolkit. A data model driven interactive toolkit for working with weather radar data. 项目地址: https://gitcode.com/gh_mirrors/py/pyart Py-…...

别再乱删C盘文件了!手把手教你用任务管理器和命令行精准清理流氓软件残留

别再乱删C盘文件了&#xff01;手把手教你用任务管理器和命令行精准清理流氓软件残留 每次打开电脑看到C盘飘红的存储空间&#xff0c;不少用户的第一反应就是打开资源管理器&#xff0c;对着那些看不懂的文件夹和文件按下删除键。这种简单粗暴的操作轻则导致软件异常&#xf…...

基于CMS8S6990评估板实现高精度电压电流测量:从血氧仪到通用测量工具的移植实践

1. 项目缘起与核心思路最近终于拿到了中微半导体&#xff08;CMSemicon&#xff09;正版的CMS8S6990血氧仪开发板。这块板子给我的第一印象就是“精致”&#xff0c;尺寸不大&#xff0c;但该有的接口和功能一应俱全&#xff0c;颇有点“麻雀虽小&#xff0c;五脏俱全”的味道。…...

联发科MT6873核心板:5G安卓设备开发实战与硬件设计指南

1. 项目概述&#xff1a;MT6873核心板&#xff0c;一款为智能终端注入5G灵魂的“心脏”在智能硬件开发领域&#xff0c;选对一颗“心脏”——也就是核心板或主控模块&#xff0c;往往决定了整个产品的性能上限、功能边界和市场竞争力。今天要深入聊的&#xff0c;就是联发科&am…...

嵌入式MCU流数据统计:Welford在线算法与定点数优化实践

1. 项目概述与核心挑战在嵌入式开发领域&#xff0c;尤其是面对那些主频几十兆赫兹、内存仅以KB计的低算力MCU时&#xff0c;我们常常需要处理来自传感器的连续数据流。计算这些数据的均值和方差&#xff0c;听起来像是统计学入门课的第一章&#xff0c;简单到让人几乎要忽略其…...

不止于测试:用GStreamer打造你的树莓派低成本视频监控/图传系统

树莓派视频监控实战&#xff1a;用GStreamer构建低成本图传系统 树莓派搭配普通USB摄像头能做什么&#xff1f;大多数人可能只想到简单的视频采集测试。但如果你掌握GStreamer这个多媒体框架的进阶用法&#xff0c;就能将它变成一套功能完整的视频监控或无线图传系统。本文将彻…...

告别CentOS!Debian 11 + VMware 保姆级教程:搞定那些只支持国产系统的Linux客户端(以aTrust为例)

Debian 11 VMware 全栈解决方案&#xff1a;无缝运行国产Linux客户端软件 在开源世界的版图中&#xff0c;CentOS曾经是企业级Linux的代名词&#xff0c;但随着Red Hat战略调整和CentOS Stream的转型&#xff0c;许多传统解决方案正在面临前所未有的兼容性挑战。特别是在需要对…...

别再死记硬背了!用打王者荣耀掉帧的例子,5分钟搞懂视频编码里的I/P/B帧

游戏卡顿背后的秘密&#xff1a;用王者荣耀掉帧理解视频编码中的I/P/B帧 当你正沉浸在王者荣耀的激烈团战中&#xff0c;手指在屏幕上飞速滑动&#xff0c;准备释放关键技能时&#xff0c;画面突然卡顿——右上角的FPS数值从60骤降到20。这种令人抓狂的体验背后&#xff0c;隐藏…...

不熬夜、不焦虑、不踩坑:用百考通AI 无痛搞定本科毕业论文

它不替你思考&#xff0c;但能帮你扫清写作路上 80% 的障碍 又到一年毕业季&#xff0c;凌晨三点的宿舍里&#xff0c;总有一盏灯还亮着。电脑屏幕上是只写了标题的 Word 文档&#xff0c;旁边散落着被退回三次的开题报告&#xff0c;知网页面开了十几个标签却找不到想要的方向…...