当前位置: 首页 > news >正文

第七课:Python反爬攻防战:Headers/IP代理与验证码

在爬虫开发过程中,反爬虫机制成为了我们必须面对的挑战。本文将深入探讨Python爬虫中常见的反爬机制,并详细解析如何通过随机User-Agent生成、代理IP池搭建以及验证码识别来应对这些反爬策略。文章将包含完整的示例代码,帮助读者更好地理解和应用这些技术。

一、常见反爬机制解析

1.1 基于Headers的反爬

许多网站通过检查请求头(Headers)中的User-Agent字段来判断请求是否来自爬虫。如果User-Agent字段不符合预期,网站可能会拒绝服务或返回错误页面。

1.2 基于IP的反爬

为了限制爬虫对网站的访问频率,网站通常会记录访问者的IP地址。当某个IP地址在短时间内发送大量请求时,网站可能会暂时或永久封禁该IP地址。

1.3 基于验证码的反爬

验证码是网站用来区分人类用户和自动化脚本的一种有效手段。当检测到异常访问模式时,网站可能会要求访问者输入验证码以验证其身份。

二、随机User-Agent生成

为了绕过基于Headers的反爬机制,我们可以使用随机User-Agent来模拟不同浏览器的访问请求。Python中的fake_useragent库可以帮助我们轻松实现这一点。

安装命令

pip install fake-useragent

示例代码

import requests
from fake_useragent import UserAgent# 生成一个随机的User-Agent
ua = UserAgent()
random_user_agent = ua.random# 设置请求头
headers = {'User-Agent': random_user_agent
}# 发送请求
response = requests.get('https://www.example.com', headers=headers)
print(response.text)

三、代理IP池搭建实战

为了绕过基于IP的反爬机制,我们可以使用代理IP来隐藏真实的IP地址。搭建一个代理IP池,并随机选择代理IP进行请求,可以大大降低被封禁的风险。

示例代码

3.1 爬取代理IP

首先,我们需要从一些提供免费代理IP的网站爬取代理IP信息。

import requests
from bs4 import BeautifulSoupdef get_proxy_ips():# 替换为实际代理IP网站url = "https://www.example-proxy-website.com"headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}proxy_ips = []try:response = requests.get(url, headers=headers)if response.status_code == 200:soup = BeautifulSoup(response.text, 'html.parser')# 假设代理IP信息在一个表格中,通过查找表格行(tr)来获取数据rows = soup.find_all('tr')# 跳过表头行for row in rows[1:]:cols = row.find_all('td')ip = cols[0].textport = cols[1].textproxy = f"{ip}:{port}"proxy_ips.append(proxy)return proxy_ipsexcept requests.RequestException as e:print(f"请求错误: {e}")return []proxy_ips = get_proxy_ips()
print(proxy_ips)
3.2 验证代理IP

爬取到的代理IP不一定都能正常使用,因此我们需要进行可用性验证。

def check_proxy(proxy):test_url = "https://www.baidu.com"# 可以代理的字典数据proxies = {"http": f"http://{proxy}","https": f"https://{proxy}"}try:# 测试代理地址response = requests.get(test_url, proxies=proxies, timeout=5)if response.status_code == 200:return Truereturn Falseexcept requests.RequestException:return Falsevalid_proxy_ips = []
for proxy in proxy_ips:if check_proxy(proxy):valid_proxy_ips.append(proxy)# 输出可以进行代理的正确地址
print(valid_proxy_ips)
3.3 使用代理IP进行请求

最后,我们可以使用验证通过的代理IP来发送请求。

import random# 随机选择一个可用的代理IP
proxy = random.choice(valid_proxy_ips)
proxies = {"http": f"http://{proxy}","https": f"https://{proxy}"
}# 设置请求头
headers = {'User-Agent': random_user_agent
}# 发送请求
response = requests.get('https://www.example.com', headers=headers, proxies=proxies)
print(response.text)

四、验证码识别基础方案

验证码识别是绕过基于验证码反爬机制的关键。虽然验证码识别技术相对复杂,但我们可以使用一些开源的OCR(文字识别)库来实现基本的验证码识别。

示例代码

4.1 安装必要的库

从Tesseract-OCR官网下载并安装Tesseract-OCR

首先,我们需要安装Pillow和pytesseract库。Pillow用于图像处理,pytesseract是Tesseract-OCR的Python接口。

pip install pillow pytesseract

注意:你还需要从Tesseract-OCR官网下载并安装Tesseract-OCR,并设置环境变量TESSDATA_PREFIX指向包含tessdata的目录。

4.2 验证码识别

假设我们已经下载了一张验证码图片captcha.jpg,我们可以使用以下代码进行识别。

from PIL import Image
import pytesseract# 打开验证码图片
image = Image.open('captcha.jpg')# 进行OCR识别
text = pytesseract.image_to_string(image, lang='eng')print('识别结果:', text)

识别完成以后,根据前边学习的内容,把图片中的内容填写到输入框即可

总结

本文通过详细解析常见的反爬机制,并提供了随机User-Agent生成、代理IP池搭建以及验证码识别的基础方案,帮助读者更好地理解和应对Python爬虫中的反爬挑战。希望这些技术和示例代码能对大家的爬虫开发有所帮助。

关注我!!🫵 持续为你带来Python相关内容。

相关文章:

第七课:Python反爬攻防战:Headers/IP代理与验证码

在爬虫开发过程中,反爬虫机制成为了我们必须面对的挑战。本文将深入探讨Python爬虫中常见的反爬机制,并详细解析如何通过随机User-Agent生成、代理IP池搭建以及验证码识别来应对这些反爬策略。文章将包含完整的示例代码,帮助读者更好地理解和…...

Golang学习笔记_47——访问者模式

Golang学习笔记_44——命令模式 Golang学习笔记_45——备忘录模式 Golang学习笔记_46——状态模式 文章目录 一、核心概念1. 定义2. 解决的问题3. 核心角色4. 类图 二、特点分析三、适用场景1. 编译器实现2. 财务系统3. UI组件系统 四、Go语言实现示例完整实现代码执行结果 五、…...

软件高级架构师 - 软件工程

补充中 测试 测试类型 静态测试 动态测试 测试阶段 单元测试中,包含性能测试,如下: 集成测试中,包含以下: 维护 遗留系统处置 高水平低价值:采取集成 对于这类系统,采取 集成 的方式&…...

IDEA 基础配置: maven配置 | 服务窗口配置

文章目录 IDEA版本与MAVEN版本对应关系maven配置镜像源插件idea打开服务工具窗口IDEA中的一些常见问题及其解决方案IDEA版本与MAVEN版本对应关系 查找发布时间在IDEA版本之前的dea2021可以使用maven3.8以及以前的版本 比如我是idea2021.2.2 ,需要将 maven 退到 apache-maven-3.…...

Qt之QGraphicsView图像操作

QGraphicsView图像操作:旋转、放大、缩小、移动、图层切换 1 摘要 GraphicsView框架结构主要包含三个主要的类QGraphicsScene(场景)、QGraphicsView(视图)、QGraphicsItem(图元)。QGraphicsScene本身不可见,是一个存储图元的容器,必须通过与之相连的QGraphicsView视图来显…...

人工智能之数学基础:对线性代数中逆矩阵的思考?

本文重点 逆矩阵是线性代数中的一个重要概念,它在线性方程组、矩阵方程、动态系统、密码学、经济学和金融学以及计算机图形学等领域都有广泛的应用。通过了解逆矩阵的定义、性质、计算方法和应用,我们可以更好地理解和应用线性代数知识,解决各种实际问题。 关于逆矩阵的思…...

嵌入式开发之串行数据处理

前题 前面几篇文章写了关于嵌入式软件开发时,关于串行数据处理的一些相关内容,有兴趣的可以看看《嵌入式开发:软件架构、驱动开发与串行数据处理》、《嵌入式软件开发之生产关系模型》和《嵌入式开发之Modbus-RTU协议解析》相关的内容。从业十…...

机器学习(六)

一,决策树: 简介: 决策树是一种通过构建类似树状的结构(颠倒的树),从根节点开始逐步对数据进行划分,最终在叶子节点做出预测结果的模型。 结构组成: 根节点:初始的数据集…...

结合unittest和pytest进行虚拟数据库测试

使用 pytest 和 MagicMock 模拟数据库操作,并测试假设的 create_user 函数,将用户添加到数据库中。 代码实现 from datetime import date from typing import List, Optional from unittest.mock import MagicMock from pydantic import BaseModel, Fi…...

Spring Boot 监听器(Listeners)详细教程

Spring Boot 监听器(Listeners)详细教程 目录 Spring Boot 监听器概述监听器核心概念最佳使用场景实现步骤高级配置详细使用场景总结 1. Spring Boot 监听器概述 Spring Boot 监听器(Listeners)基于 Spring Framework 的事件机制…...

工具介绍《githack》以及Git 命令行

一、Githack 工具介绍 Githack 是一个用于检测和利用网站 .git 目录泄露漏洞的安全工具。当网站错误配置导致 .git 目录可公开访问时,攻击者可通过该工具下载 .git 中的版本控制文件,并重建完整的项目源代码。 核心用途 检测 .git 目录泄露漏洞。从泄…...

【hello git】git rebase、git merge、git stash、git cherry-pick

目录 一、git merge:保留了原有分支的提交结构 二、git rebase:提交分支更加整洁 三、git stash 四、git cherry-pick 共同点:将 一个分支的提交 合并到 到另一个上分支上去 一、git merge:保留了原有分支的提交结构 现有一个模型…...

MR的环形缓冲区(底层)

MapReduce的大致流程: 1、HDFS读取数据; 2、按照规则进行分片,形成若干个spilt; 3、进行Map 4、打上分区标签(patition) 5、数据入环形缓冲区(KVbuffer) 6、原地排序&#xff…...

下载Hugging Face模型的几种方式

1.网页下载 直接访问Hugging Face模型页面,点击“File and versions”选项卡,选择所需的文件进行下载。 2.使用huggingface-cli 首先,安装huggingface_hub: pip install huggingface_hub 然后,使用以下命令下载模型&#xff1…...

Java 第十一章 GUI编程(2)

目录 GUI 事件处理 基本思路 添加事件监听器 对话框 实例 GUI 事件处理 对于采用了图形用户界面的程序来说,事件控制是非常重要的;到目前为止, 我们编写的图形用户界面程序都仅仅只是完成了界面,而没有任何实际的功能&…...

Redis数据结构深度解析:从String到Stream的奇幻之旅(一)

Redis系列文章 《半小时掌握Redis核心操作:从零开始的实战指南》-CSDN博客 Redis数据结构深度解析:从String到Stream的奇幻之旅(一)-CSDN博客 Redis数据结构深度解析:从String到Stream的奇幻之旅(二&…...

7V 至 30V 的超宽 VIN 输入范围,转换效率高达 96%的WD5030

WD5030 具备 7V 至 30V 的超宽 VIN 输入范围,这一特性使其能够适应多种不同电压等级的供电环境,无论是在工业设备中常见的较高电压输入,还是在一些便携式设备经过初步升压后的电压,WD5030 都能轻松应对,极大地拓展了应…...

【Git原理与使用一】Git概念与基本操作

文章目录 1. Git 的概念2. Git 的安装3. Git 的认识3.1 创建本地仓库3.2 配置Git3.3 认识工作区、暂存区、版本库 4. Git 的基本操作4.1、认识几个指令1)git add 添加命令2)git commit 提交命令3)git log 查看日志命令4)git cat-f…...

kettle工具使用从入门到精通(一)

安装 可以从链接: 官网(下载链接在Pentaho.pdf文件里)或者网络上查找对应的版本安装 Kettle (PDI) 版本与 JDK 版本对应关系 Kettle (PDI) 版本支持的 JDK 版本备注PDI 9.x 及以上JDK 11 或更高版本推荐使用 OpenJDK 或 Oracle JDK 11。PDI 8.xJDK 8 …...

Java 实现 Oracle 的 MONTHS_BETWEEN 函数

介绍 因为系统迁移, 有一些函数要转成 Java 版本, Oracle 的 官方介绍 - MONTHS_BETWEEN MONTHS_BETWEEN returns number of months between dates date1 and date2. The month and the last day of the month are defined by the parameter NLS_CALENDAR. If date1 is late…...

智慧城市中的时空AI:从路网数据到拥堵预测的完整项目拆解

智慧城市中的时空AI:从路网数据到拥堵预测的完整项目拆解 在省会城市早高峰的主干道上,交通信号灯与车流形成一场看不见的博弈。传统基于固定配时的信号控制系统,往往在突发拥堵面前显得力不从心。而某市"交通大脑"的落地案例显示&…...

ExplorerPatcher:Windows资源管理器崩溃修复与体验增强的终极解决方案

ExplorerPatcher:Windows资源管理器崩溃修复与体验增强的终极解决方案 【免费下载链接】ExplorerPatcher 提升Windows操作系统下的工作环境 项目地址: https://gitcode.com/GitHub_Trending/ex/ExplorerPatcher 你是否经历过Windows 11资源管理器频繁崩溃的困…...

MedGemma 1.5垂直场景:中医馆本地部署中药配伍禁忌推理助手

MedGemma 1.5垂直场景:中医馆本地部署中药配伍禁忌推理助手 1. 引言:当传统中医遇上现代AI 想象一下,一位经验丰富的老中医,在开方时,除了依靠毕生所学和师徒传承的记忆,还能随时向一位精通古今医典、永不…...

LightGBM实战:极速梯度提升框架的多变量时序预测深度解析

LightGBM实战:极速梯度提升框架的多变量时序预测深度解析 【免费下载链接】LightGBM microsoft/LightGBM: LightGBM 是微软开发的一款梯度提升机(Gradient Boosting Machine, GBM)框架,具有高效、分布式和并行化等特点&#xff0c…...

【Python异步I/O终极指南】:20年CTO亲授asyncio高并发实战心法,避开97%开发者踩过的12个致命陷阱

第一章:Python异步I/O的本质与演进脉络Python异步I/O并非简单的“多线程替代方案”,其本质是**在单线程内通过事件循环(event loop)协同调度I/O等待任务,避免CPU空转,实现高并发吞吐**。它依赖操作系统底层…...

别再当黑匣子用了!手把手教你用FastMCP的tool()、resource()和prompt()装饰器,从源码理解到实战避坑

FastMCP装饰器深度解析:从tool()到prompt()的实战进阶指南 1. 为什么需要理解装饰器内部机制? 在Python开发领域,装饰器(Decorator)是一种强大的元编程工具,而FastMCP框架中的tool()、resource()和prompt()装饰器更是将这一理念发…...

如何高效解决Calibre中文路径翻译问题:完整实用指南

如何高效解决Calibre中文路径翻译问题:完整实用指南 【免费下载链接】calibre-do-not-translate-my-path Switch my calibre library from ascii path to plain Unicode path. 将我的书库从拼音目录切换至非纯英文(中文)命名 项目地址: htt…...

从固定到自适应:手把手教你改进Savitzky-Golay滤波器,告别边界效应和参数调优烦恼

从固定到自适应:手把手教你改进Savitzky-Golay滤波器,告别边界效应和参数调优烦恼 信号处理领域的从业者常常面临一个两难选择:如何在去除噪声的同时,尽可能保留信号的关键特征?传统Savitzky-Golay滤波器虽然在一定程度…...

Mirage Flow与Python爬虫结合:智能数据采集与分析实战

Mirage Flow与Python爬虫结合:智能数据采集与分析实战 1. 引言 你有没有遇到过这样的情况:需要从大量网站采集数据,但传统爬虫要么被封IP,要么无法处理复杂的页面结构,要么采集回来的数据杂乱无章需要大量清洗&#…...

从仿真到AI数据集:一条龙搞定COMSOL+MATLAB+Python数据处理流水线

从仿真到AI数据集:COMSOLMATLABPython全流程自动化实践 在物理仿真与机器学习融合的研究中,最耗时的往往不是算法设计,而是高质量数据集的构建。想象一下这样的场景:你需要在数百组参数组合下运行电磁场仿真,每次仿真生…...