当前位置: 首页 > news >正文

程序人生 - 爬虫者,教育也!

作为一个站长,你是不是对爬虫不胜其烦?爬虫天天来爬,速度又快,频率又高,服务器的大量资源被白白浪费。

看这篇文章的你有福了,我们今天一起来报复一下爬虫,直接把爬虫的服务器给干死机。

本文有一个前提:你已经知道某个请求是爬虫发来的了,你不满足于单单屏蔽对方,而是想搞死对方。

很多人的爬虫是使用 Requests 来写的,如果你阅读过 Requests 的文档,那么你可能在文档中的Binary Response Content[1] 这一小节,看到这样一句话

  • The gzip and deflate transfer-encodings are automatically decoded for you.(Request)
  • 会自动为你把 gzip 和 deflate 转码后的数据进行解码

网站服务器可能会使用gzip压缩一些大资源,这些资源在网络上传输的时候,是压缩后的二进制格式。客户端收到返回以后,如果发现返回的Headers里面有一个字段叫做Content-Encoding,其中的值包含gzip,那么客户端就会先使用gzip对数据进行解压,解压完成以后再把它呈现到客户端上面。浏览器自动就会做这个事情,用户是感知不到这个事情发生的。而requestsScrapy这种网络请求库或者爬虫框架,也会帮你做这个事情,因此你不需要手动对网站返回的数据解压缩。

这个功能原本是一个方便开发者的功能,但我们可以利用这个功能来做报复爬虫的事情。

我们首先写一个客户端,来测试一下返回 gzip 压缩数据的方法。

我首先在硬盘上创建一个文本文件 text.txt,里面有两行内容,如下图所示

然后,我是用 gzip 命令把它压缩成一个.gz文件

cat text.txt | gzip > data.gz

接下来,我们使用 FastAPI 写一个HTTP服务器 server.py

from fastapi import FastAPI, Response
from fastapi.responses import FileResponseapp = FastAPI()@app.get('/')
def index():resp = FileResponse('data.gz')return resp

然后使用命令 uvicorn server:app 启动这个服务。

接下来,我们使用requests来请求这个接口,会发现返回的数据是乱码,如下图所示

返回的数据是乱码,这是因为服务器没有告诉客户端,这个数据是gzip压缩的,因此客户端只有原样展示。由于压缩后的数据是二进制内容,强行转成字符串就会变成乱码。

现在,我们稍微修改一下server.py的代码,通过Headers告诉客户端,这个数据是经过gzip压缩的了。

from fastapi import FastAPI, Response
from fastapi.responses import FileResponseapp = FastAPI()@app.get('/')
def index():resp = FileResponse('data.gz')resp.headers['Content-Encoding'] = 'gzip'  # 说明这是gzip压缩的数据return resp

修改以后,重新启动服务器,再次使用 requests 请求,发现已经可以正常显示数据了

这个功能已经展示完了,那么我们怎么利用它呢?这就不得不提到压缩文件的原理了。

文件之所以能压缩,是因为里面有大量重复的元素,这些元素可以通过一种更简单的方式来表示。压缩的算法有很多种,其中最常见的一种方式,我们用一个例子来解释。假设有一个字符串,它长成下面这样

1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111
1111111111111111

我们可以用5个字符来表示:192个1。这就相当于把192个字符压缩成了5个字符,压缩率高达97.4%。

如果我们可以把一个1GB的文件压缩成1MB,那么对服务器来说,仅仅是返回了1MB的二进制数据,不会造成任何影响。但是对客户端或者爬虫来说,它拿到这个1MB的数据以后,就会在内存中把它还原成1GB的内容。这样一瞬间爬虫占用的内存就增大了1GB。如果我们再进一步增大这个原始数据,那么很容易就可以把爬虫所在的服务器内存全部沾满,轻者服务器直接杀死爬虫进程,重则爬虫服务器直接死机。

你别以为这个压缩比听起来很夸张,其实我们使用很简单的一行命令就可以生成这样的压缩文件。

如果你用的是Linux,那么请执行命令

dd if=/dev/zero bs=1M count=1000 | gzip > boom.gz

如果你的电脑是macOS,那么请执行命令

dd if=/dev/zero bs=1048576 count=1000 | gzip > boom.gz

执行过程如下图所示

生成的这个boom.gz文件只有995KB。但是如果我们使用gzip -d boom.gz对这个文件解压缩,就会发现生成了一个1GB的boom文件,如下图所示

只要大家把命令里面的 count=1000 改成一个更大的数字,就能得到更大的文件。

我现在把 count 改成 10,给大家做一个演示(不敢用1GB的数据来做测试,害怕我的Jupyter崩溃)。生成的boom.gz文件只有10KB

服务器返回一个10KB的二进制数据,没有任何问题。

现在我们用requests去请求这个接口,然后查看一下resp这个对象占用的内存大小

可以看到,由于requests自动会对返回的数据解压缩,因此最终获得的resp对象竟然有10MB这么大。

如果大家想使用这个方法,一定要先确定这个请求是爬虫发的,再使用。否则被你干死的不是爬虫而是真实用户就麻烦了。

本文的写作过程中,参考了文章网站 gzip 炸弹 – 王春伟的技术博客[2],特别感谢原作者。

参考文献

[1] Binary Response Content: https://2.python-requests.org/en/master/user/quickstart/#binary-response-content

[2] 网站gzip炸弹 – 王春伟的技术博客: http://da.dadaaierer.com/?p=577

相关文章:

程序人生 - 爬虫者,教育也!

作为一个站长,你是不是对爬虫不胜其烦?爬虫天天来爬,速度又快,频率又高,服务器的大量资源被白白浪费。 看这篇文章的你有福了,我们今天一起来报复一下爬虫,直接把爬虫的服务器给干死机。 本文有…...

OKLink2月安全月报| 2起典型漏洞攻击案例分析

在本月初我们发布的2024年2月安全月报中提到,2月全网累计造成损失约1.03亿美元。其中钓鱼诈骗事件损失占比11.76%。 OKLink提醒大家,在参与Web3项目时,应当仔细调研项目的真实性、可靠性,提升对钓鱼网站和风险项目的甄别能力&…...

可视化表单流程编辑器为啥好用?

想要提升办公率、提高数据资源的利用率,可以采用可视化表单流程编辑器的优势特点,实现心中愿望。伴随着社会的进步和发展,提质增效的办公效果一直都是很多职场办公团队的发展需求,作为低代码技术平台服务商,流辰信息团…...

【代码】Android|获取存储权限并创建、存储文件

版本:Android 11及以上,gradle 7.0以上,Android SDK > 29 获取存储权限 获取存储权限参考:Android 11 外部存储权限适配指南及方案,这篇文章直接翻到最下面,用XXPermissions框架。它漏了这个框架的使用方…...

每日一练 | 华为认证真题练习Day196

1、在如图所示的网络中,三台交换机运行RSTP,配置情况如图所示 根据图中配置情况判断根交换机为 A. SWA B. SWB C. SWC D. 无法确定 2、如图所示,在RT1路由器上配置OSPF多进程,其中RT1的进程100通过骨干区域和RT2建立OSPF邻居&…...

如何在Linux本地搭建Tale网站并实现无公网ip远程访问

文章目录 前言1. Tale网站搭建1.1 检查本地环境1.2 部署Tale个人博客系统1.3 启动Tale服务1.4 访问博客地址 2. Linux安装Cpolar内网穿透3. 创建Tale博客公网地址4. 使用公网地址访问Tale 前言 今天给大家带来一款基于 Java 语言的轻量级博客开源项目——Tale,Tale…...

论哪个行业官网颜值普遍较高,装修设计第二,无人敢称第一。

装饰设计公司官网普遍颜值较高的原因主要包括以下几点: 1. 美学要求: 装饰设计公司本身就是从事美学和艺术的行业,他们对于视觉效果和美感有着较高的要求,因此他们的官网在设计上往往会更加注重颜值。 2. 品牌形象&#xff1a…...

Elastic Stack--08--SpringData框架

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 SpringData[官网: https://spring.io/projects/spring-data](https://spring.io/projects/spring-data) Spring Data Elasticsearch 介绍 1.SpringData-…...

华为OD机试 - 模拟数据序列化传输(Java JS Python C C++)

题目描述 模拟一套简化的序列化传输方式,请实现下面的数据编码与解码过程 编码前数据格式为 [位置,类型,值],多个数据的时候用逗号分隔,位置仅支持数字,不考虑重复等场景;类型仅支持:Integer / String / Compose(Compose的数据类型表示该存储的数据也需要编码)编码后数…...

使用Tokeniser估算GPT和LLM服务的查询成本

将LLM集成到项目所花费的成本主要是我们通过API获取LLM返回结果的成本,而这些成本通常是根据处理的令牌数量计算的。我们如何预估我们的令牌数量呢?Tokeniser包可以有效地计算文本输入中的令牌来估算这些成本。本文将介绍如何使用Tokeniser有效地预测和管…...

2-Docker-应用-多容器部署Django+Vue项目(nginx+uwsgi+mysql)

摘要: 本文详细介绍了如何使用Docker部署一个多容器DjangoVue项目,包括nginx、uwsgi和mysql。文章内容涵盖了基础知识回顾、需求分析、设计方案、实现步骤、技巧与实践、性能优化与测试、常见问题与解答以及结论与展望。 阅读时长:约60分钟…...

Vue 中的 key:列表渲染的秘诀

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…...

Linux系统架构----nginx的服务基础

一.Nginx的概述 Nginx是一个高性能的HTTP和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务。Nginx稳定性高,而且系统资源消耗少Nginx相对于Apache主要处理静态请求,而apache主要处理动态请求Nginx是一款轻量级的Web 服务器/反向代理服务…...

项目管理工具及模板(甘特图、OKR周报、任务管理、头脑风暴等)

项目管理常用模板大全: 1. 项目组OKR周报 2. 项目组传统周报工作法 3. 项目甘特图 4. 团队名单 5. 招聘跟进表 6. 出勤统计 7. 年度工作日历 8. 项目工作年计划 9. 版本排期 10. 项目组任务管理 11. 项目规划模板 12. 产品分析报告 13. 头脑风暴 信息化项目建设全套…...

MySQL--索引底层数据结构详解

索引是什么? 索引是帮助MySQL高效获取数据的排好序的数据结构,因此可知索引是数据结构。 概念很抽象,但是类比生活中的例子就很容易理解,比如一本厚厚的书,我们想取找某一小节,我们可以根据目录去快速找到…...

如何解决爬虫程序访问速度受限问题

目录 前言 一、代理IP的获取 1. 自建代理IP池 2. 购买付费代理IP 3. 使用免费代理IP网站 二、代理IP的验证 三、使用代理IP进行爬取 四、常见问题和解决方法 1. 代理IP不可用 2. 代理IP速度慢 3. 代理IP被封禁 总结 前言 解决爬虫程序访问速度受限问题的一种常用方…...

如何考上东南大学计算机学院?

东南大学招生学院是计算机科学与工程学院、苏州联合研究生院,复试公平,不歧视双非考生,985院校中性价比较高,但近年热度在逐年上涨,需要警惕。 建议报考计算机科学与工程学院081200计算机科学与技术专业目标分数为380…...

双指针算法练习

27. 移除元素 题目 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。 不要使用额外的数组空间,你必须仅使用 O(1) 额外空间并 原地 修改输入数组。 元素的顺序可以改变。你不需要考虑…...

桌面终端管理(实用+收藏篇)

桌面终端管理软件是管理和保护企业电脑数据安全的工具。 它能够帮助管理员更有效地控制和监督员工电脑的日常使用,软件的功能包括软件管理、硬件监控、远程管理、数据加密和防泄密、行为审计以及安全防护等。 桌面终端管理的核心要义 桌面终端管理不仅仅是对硬件设…...

day1-C++

1>提示并输入一个字符串&#xff0c;统计该字符中大写、小写字母个数、数字个数、空格个数以及其他字符个数要求使用C风格字符串完成。 代码&#xff1a; #include <iostream> #include <string.h> using namespace std;int main() {string str ;int low 0, …...

购物团截图自动马赛克地址,手机号码

订单截图隐私信息自动脱敏工具一、工具概述 本工具是基于 Python OCR 技术开发的电商订单截图隐私自动脱敏工具&#xff0c;针对淘宝、京东、拼多多等主流电商平台订单截图&#xff0c;自动识别并对收货地址、手机号码等敏感信息进行马赛克打码&#xff0c;实现隐私保护。 工具…...

Honey Select 2 HF Patch整合方案:插件优化工具使用指南

Honey Select 2 HF Patch整合方案&#xff1a;插件优化工具使用指南 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch Honey Select 2 HF Patch是一款专为《Honey…...

DDD难落地?就让AI干吧! - cleanddd-skills介绍衔

AI训练存储选型的演进路线 第一阶段&#xff1a;单机直连时代 早期的深度学习数据集较小&#xff0c;模型训练通常在单台服务器或单张GPU卡上完成。此时直接将数据存储在训练机器的本地NVMe SSD/HDD上。 其优势在于IO延迟最低&#xff0c;吞吐量极高&#xff0c;也就是“数据离…...

智能车浅谈——电机控制篇

文章目录前言运动控制系统被控对象执行机构控制器反馈环节M法测速&#xff1a;T法测速小结直流调速系统桥式可逆PWM变换器&#xff08;1&#xff09;正向运行&#xff08;2&#xff09;反向运行总结智能车系列文章汇总前言 之前借用自动控制原理对智能车的方向控制做了一个简单…...

算法工程师的随身匕首:PyTorch 极简入门与实战

PyTorch 快速入门指南 一、PyTorch 是什么&#xff1f; PyTorch 是一个基于 Python 的深度学习框架&#xff0c;由 Facebook AI Research 开发。它以动态计算图和直观的接口著称&#xff0c;是研究和生产中最受欢迎的框架之一。 二、环境安装 # 基础安装&#xff08;CPU版本&am…...

如何用GHelper替代Armoury Crate:华硕笔记本轻量级控制工具完整指南

如何用GHelper替代Armoury Crate&#xff1a;华硕笔记本轻量级控制工具完整指南 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, T…...

std::shared_ptr 复习

一、std::shared_ptr 概述 std::shared_ptr 是 C11 引入的智能指针&#xff0c;它共享对所管理对象的所有权&#xff0c;即多个 shared_ptr 可以指向同一个对象。当最后一个 shared_ptr 离开作用域或被重置时&#xff0c;它会自动释放所管理的对象。 核心特性 共享所有权&#…...

终极指南:如何快速掌握 Tooltipster 提示框插件的完整教程

终极指南&#xff1a;如何快速掌握 Tooltipster 提示框插件的完整教程 【免费下载链接】tooltipster A jQuery tooltip plugin 项目地址: https://gitcode.com/gh_mirrors/to/tooltipster Tooltipster 是一个灵活且功能强大的 jQuery 提示框插件&#xff0c;专为现代 We…...

多语言提示词设计:中文语境下的提示工程终极指南

多语言提示词设计&#xff1a;中文语境下的提示工程终极指南 【免费下载链接】courses Anthropics educational courses 项目地址: https://gitcode.com/GitHub_Trending/cours/courses 在全球化AI应用时代&#xff0c;多语言提示词设计已成为开发者必备技能。GitHub推荐…...

CosyVoice2-0.5B入门教程:3步搭建你的专属AI语音克隆系统

CosyVoice2-0.5B入门教程&#xff1a;3步搭建你的专属AI语音克隆系统 1. 快速了解CosyVoice2-0.5B CosyVoice2-0.5B是阿里开源的一款强大的语音克隆与合成系统&#xff0c;它能让你用短短几秒钟的语音样本&#xff0c;克隆出几乎一模一样的声音。想象一下&#xff0c;你可以让…...