Python爬虫之requests模块(一)
Python爬虫之requests模块(一)
学完urllib之后对爬虫应该有一定的了解了,随后就来学习鼎鼎有名的requests模块吧。
一、requests简介。
1、什么是request模块?
requests其实就是py原生的一个基于网络请求的模块,模拟浏览器发起请求,是不是和urllib很像。没错,其实requests和urllib是有很多相似之处的,但是requests更加的便捷、简单。
2、为什么要使用requests模块?
一个技术的出现,肯定是有所图的,回想一下urllib的使用。
第一:是不是如果url携带中文,是不是每次都要对url进行编码?(使用quote函数),如果一个url中,有很多组参数都带中文,那岂不是需要对url进行数次的编码?
第二:基于post请求,需要手动的处理post请求的参数(urlencode函数)
第三:urllib处理cookie和代理的操作比较繁琐。
但是对于requests来说,则会自动处理url编码、自动处理post请求参数,还简化了cookie和代理操作等等
3、requests模块如何被使用?
其实和其他所有模块一样,需要先使用pip安装,随后import调用
pip install requests
具体使用流程和urllib几乎类似:
- 指定url
- 使用requests模块发起请求
- 获取响应数据
- 进行持久化存储
二、基于requests模块发起get请求
1、requests模块处理不带参数的get请求
- 需求爬取搜狗首页页面数据
import requests
#1、指定url
url = "https://www.sogou.com/"#2、发起一个get请求,直接调用requests的get方法,url参数为指定爬取的url
#get方法会返回请求成功后的响应对象
response = requests.get(url=url)#3、获取响应中的数据值,text属性作用是获取响应对象中字符串形式的页面数据
page_data = response.text# print(page_data)
#4、持久化存储
with open("sougou_req.html","w",encoding="utf-8") as f:f.write(page_data)
其实和urllib很类似。但是可以看到响应对象的属性,有一个text。
其实关于响应对象的常用属性还是挺多的,如下常见的:
requests对象中其他重要的属性:
response.content #content属性和text类似,只不过返回的是响应对象中二进制(byte)类型的数据
response.status_code #status_code很简单明了,就是返回响应状态码,比如200、404、502等...
response.headers #返回响应头信息,字典形式展示
response.url # 获取请求当中指定的url
2、requests模块处理携带参数的get请求
- 需求:指定一个词条,获取搜狗搜索结果所对应的页面数据
第一种方式:
import requests#指定URL,query后面是请求参数,词条是孙燕姿,编码格式是utf-8
url = "https://www.sogou.com/web?query=孙燕姿&ie=utf8"#发送请求,requests即使请求url携带参数,也同样可以直接使用get函数对其发起请求
response = requests.get(url=url)#获取响应页面数据
page_data = response.text#持久化存储
with open('sunyanzi_re.html', 'w', encoding='utf-8') as f:f.write(page_data)
第二种方式:
import requests#指定URL,query后面是请求参数,参数先不写
url = "https://www.sogou.com/web"#get方法其实还有一个params的参数,可以将参数使用字典的方式直接赋值
#将参数封装到字典中
params = {"query": "孙燕姿","ie": "utf-8"
}
#使用get的params赋值
response = requests.get(url, params=params)#查看响应状态码
print(response.status_code)
这里使用status_code返回请求的状态码,成功则为200。
3、requests模块get请求自定义请求头信息
requests模块自定义请求头信息和urllib类似:
import requests#自定义请求头信息
url = "https://www.sogou.com/web"#将参数封装到字典中
params = {"query": "孙燕姿","ie": "utf-8"
}#自定义请求头信息
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36 Edg/129.0.0.0"
}#使用get的headers自定义请求头信息,将请求头信息赋值给headers
response = requests.get(url, params=params,headers=headers)#获取页面响应数据
data_page = response.text#持久化存储
with open("ff.html","w",encoding="utf-8") as f:f.write(data_page)
三、基于requests模块发起post请求
- 需求:登陆豆瓣,获取登录成功后的页面数据
首先这里需要获取到登陆时的URL

查看数据表单,确认用户数据。(这里我发现豆瓣密码居然是明文传输的。)
import requests#指定POST请求的URL
url = "https://accounts.douban.com/j/mobile/login/basic"#封装post请求的data参数,data参数是账号密码信息,在浏览器中复制数据表单!
data = {"remember": "true","name": "**","password": "**","ticket": "tr0kBmbIbu****vjIlOi6F7Q**","randstr": "**","tc_app_id": "204**"
}#伪装UA
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36 Edg/129.0.0.0"
}#发起post请求,调用post方法,第二个参数是data参数,第三个参数为自定义请求头信息
response = requests.post(url=url,data=data,headers=headers)#获取响应对象中的页面数据
data_page = response.text#持久化保存
with open("douban_re.html","w",encoding="utf-8") as f:f.write(data_page)
四、quests模块的ajax的get请求
AJAX即“Asynchronous Javascript And XML”(异步JavaScript和XML),是指一种创建交互式网页应用的网页开发技术。
ajax是一种浏览器通过js异步发起请求,局部更新页面的技术。
Ajax请求的局部更新,浏览器地址栏不会发生变化
局部更新不会舍弃原来页面的内容
- 需求:抓取豆瓣电影上的详情数据
当然,首先还是得获取到一个ajax的请求。这里通过开发者工具抓取到get方式的URL

这里注意到URL是携带参数的,可以点开GET左边的箭头打开复制下面的参数。

import requests#url携带参数,需要封装字典或者抽取到params中
#url = "https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&start=20&limit=20"
url = "https://movie.douban.com/j/chart/top_list"#抽取参数,start表示从20开始获取,获取20个电影
params = {"type": "5","interval_id": "100:90","action": "","start": "20","limit": "20"
}#自定义请求头信息
heards = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:130.0) Gecko/20100101 Firefox/130.0"
}#发起请求,ajax依旧是get方法
response = requests.get(url=url,params=params,headers=heards)data_page = response.text
print(data_page)
五、quests模块的ajax的post请求
- 需求:爬取肯德基城市餐厅位置数据
打开kfc官网
http://www.kfc.com.cn/kfccda/index.aspx
点击查询按钮,就可以看到一个异步的ajax请求
这里选择北京,点击查询并且抓取XHR就能抓取到这个ajax请求。
同样表单数据可以看到参数
import requests#指定url
url = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname"#处理URL
data = {"cname": "北京","pid": "","pageIndex": "1","pageSize": "10"
}#伪装UA
heards = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36 Edg/129.0.0.0"
}#发起基于ajax的post请求
response = requests.post(url=url,params=data,headers=heards)kfc = response.text
print(kfc)
拿到结果可以验证一下,这就是基于ajax的post请求。
六、初步总结
使用requests模块基于ajax的post和get请求和普通的get和post请求没有什么差别,唯一的不同是必须要基于抓包工具抓取异步请求的url。
相关文章:
Python爬虫之requests模块(一)
Python爬虫之requests模块(一) 学完urllib之后对爬虫应该有一定的了解了,随后就来学习鼎鼎有名的requests模块吧。 一、requests简介。 1、什么是request模块? requests其实就是py原生的一个基于网络请求的模块,模拟…...
当微服务中调度返回大数据量时如何处理
FeignClient 和 Dubbo 可能不是最佳选择。以下是一些适合处理大数据量的技术和方法: 消息队列 简介:消息队列是一种异步通信方式,用于在不同系统之间传递消息。常见的消息队列包括 RabbitMQ、Kafka、ActiveMQ 等。 优点:消息队列…...
【项目经验分享】深度学习点云算法毕业设计项目案例定制
以下是深度学习与点云算法相关的毕业设计项目案例,涵盖了点云数据的分类、分割、重建、配准、目标检测等多个领域,适用于智能驾驶、机器人导航、3D建模等多个应用场景: 案例截图: 基于PointNet的3D点云分类与分割PointNet在大规…...
【Redis 源码】2项目结构说明
1 文件目录结构 deps 这个目录主要包含 Redis 所依赖的第三方代码库。 Jemalloc,内存分配器,默认情况下选择该内存分配器来代替 Linux 系统的 libc-malloc,libc-malloc 性能不高,且碎片化严重。hiredis,这是官方 C 语…...
RP2040 C SDK GPIO和IRQ 唤醒功能使用
RP2040 C SDK GPIO和中断功能使用 SIO介绍 手册27页: The Single-cycle IO block (SIO) contains several peripherals that require low-latency, deterministic access from the processors. It is accessed via each processor’s IOPORT: this is an auxiliary…...
@Transactional导致数据库连接数不够
在Spring中进行事务管理非常简单,只需要在方法上加上注解Transactional,Spring就可以自动帮我们进行事务的开启、提交、回滚操作。甚至很多人心里已经将Spring事务Transactional划上了等号,只要有数据库相关操作就直接给方法加上Transactiona…...
python3中的string 和bytes有什么区别
在Python中,string(字符串)和bytes(字节序列)是两种不同的数据类型,分别用于表示文本和二进制数据。它们的主要区别在于存储的数据类型、编码方式以及使用场景。 1. 存储数据类型 string (字符串,str):用来表示文本数据。string是一个Unicode字符串,其中的每个字符是…...
C~排序算法
在C/C中,有多种排序算法可供选择,每种算法都有其特定的应用场景和特点。下面介绍几种常用的排序算法,包括冒泡排序、选择排序、插入排序、快速排序、归并排序和堆排序,并给出相应的示例代码和解释。 冒泡排序(Bubble …...
基于github创建个人主页
基于github创建个人主页 站在巨人的肩膀上,首先选一个创建主页的仓库进行fork,具体可以参照这篇文章https://blog.csdn.net/qd1813100174/article/details/128604858主要总结下需要修改的地方: 1)仓库名字要和github的名字一致&a…...
apt update时出现证书相关问题,可以关闭apt验证
vi /etc/apt/apt.conf.d/99disable-signature-verification 添加以下内容: Acquire::AllowInsecureRepositories "true"; Acquire::AllowDowngradeToInsecureRepositories "true"; Acquire::AllowUnauthenticated "true"; 参考链…...
进阶数据库系列(十三):PostgreSQL 分区分表
概述 在组件开发迭代的过程中,随着使用时间的增加,数据库中的数据量也不断增加,因此数据库查询越来越慢。 通常加速数据库的方法很多,如添加特定的索引,将日志目录换到单独的磁盘分区,调整数据库引擎的参…...
翻译:Recent Event Camera Innovations: A Survey
摘要 基于事件的视觉受到人类视觉系统的启发,提供了变革性的功能,例如低延迟、高动态范围和降低功耗。本文对事件相机进行了全面的调查,并追溯了事件相机的发展历程。它介绍了事件相机的基本原理,将其与传统的帧相机进行了比较&am…...
车载诊断技术:汽车健康的守护者
一、车载诊断技术的发展历程 从最初简单的硬件设备到如今智能化、网络化的系统,车载诊断技术不断演进,为汽车安全和性能提供保障。 早期的汽车诊断检测技术处于比较原始的状态,主要依靠操作经验和主观评价。随着汽车工业的发展,车载诊断技术也经历了不同的阶段。20 世纪初…...
“天翼云息壤杯”高校AI大赛开启:国云的一场“造林”计划
文 | 智能相对论 作者 | 叶远风 2024年年初《政府工作报告》中明确提到了“人工智能”行动,人工智能的发展被提到前所未有的高度。 如何落实AI在数字经济发展中引擎作用,是业界当下面临的课题。 9月25日,“2024年中国国际信息通信展览会”…...
【怎样基于Okhttp3来实现各种各样的远程调用,表单、JSON、文件、文件流等待】
HTTP客户端工具 okhttp3 form/json/multipart 提供表达、json、混合表单、混合表单文件流传输等HTTP请求调用支持自定义配置默认客户端,参数列表如下: okhtt3.config.connectTimeout 连接超时,TimeUnit.SECONDSokhtt3.config.readTimeOut 读…...
excel统计分析(3): 一元线性回归分析
简介 用途:研究两个具有线性关系的变量之间的关系。 一元线性回归分析模型: ab参数由公式可得: 判定系数R2:评估回归模型的拟合效果。值越接近1,说明拟合效果越好;值越接近0,说明拟合效果越…...
搜索引擎onesearch3实现解释和升级到Elasticsearch v8系列(一)-概述
简介 此前的专栏介绍onesearch1.0和2.0,详情参看4 参考资料,本文解释onesearch 3.0,从Elasticsearch6升级到Elasticsearch8代码实现 ,Elasticsearch8 废弃了high rest client,使用新的ElasticsearchClient,…...
ArcGIS Pro高级地图可视化—双变量符号地图
ArcGIS Pro高级地图可视化 ——双变量符号地图 1 背景 “我不是双变量,但我很好奇。”出自2013 年南卡罗来纳州格林维尔举行的 NACIS 会议上,双变量地图随着这句俏皮的话便跳跃在人们的视角下,在讨论二元映射之后,它不仅恰逢其…...
rust属性宏
1. #[repr(xxx)] repr全称是 “representation”,即表示、展现的意思。在#[repr(u32)]中,u32表示无符号 32 位整数。这意味着被这个属性修饰的类型将以 32 位无符号整数的形式在内存中存储和布局。例如,如果有一个枚举类型被#[repr(u32)]修饰: #[repr(u32)] enum MyEnum {…...
《pyqt+open3d》open3d可视化界面集成到qt中
《pyqtopen3d》open3d可视化界面集成到qt中 一、效果显示二、代码三、资源下载 一、效果显示 二、代码 参考链接 main.py import sys import open3d as o3d from PyQt5.QtWidgets import QApplication, QMainWindow, QWidget from PyQt5.QtGui import QWindow from PyQt5.Qt…...
简易版抽奖活动的设计技术方案
1.前言 本技术方案旨在设计一套完整且可靠的抽奖活动逻辑,确保抽奖活动能够公平、公正、公开地进行,同时满足高并发访问、数据安全存储与高效处理等需求,为用户提供流畅的抽奖体验,助力业务顺利开展。本方案将涵盖抽奖活动的整体架构设计、核心流程逻辑、关键功能实现以及…...
线程与协程
1. 线程与协程 1.1. “函数调用级别”的切换、上下文切换 1. 函数调用级别的切换 “函数调用级别的切换”是指:像函数调用/返回一样轻量地完成任务切换。 举例说明: 当你在程序中写一个函数调用: funcA() 然后 funcA 执行完后返回&…...
iPhone密码忘记了办?iPhoneUnlocker,iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版分享
平时用 iPhone 的时候,难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵,或者买了二手 iPhone 却被原来的 iCloud 账号锁住,这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...
DIY|Mac 搭建 ESP-IDF 开发环境及编译小智 AI
前一阵子在百度 AI 开发者大会上,看到基于小智 AI DIY 玩具的演示,感觉有点意思,想着自己也来试试。 如果只是想烧录现成的固件,乐鑫官方除了提供了 Windows 版本的 Flash 下载工具 之外,还提供了基于网页版的 ESP LA…...
(转)什么是DockerCompose?它有什么作用?
一、什么是DockerCompose? DockerCompose可以基于Compose文件帮我们快速的部署分布式应用,而无需手动一个个创建和运行容器。 Compose文件是一个文本文件,通过指令定义集群中的每个容器如何运行。 DockerCompose就是把DockerFile转换成指令去运行。 …...
HarmonyOS运动开发:如何用mpchart绘制运动配速图表
##鸿蒙核心技术##运动开发##Sensor Service Kit(传感器服务)# 前言 在运动类应用中,运动数据的可视化是提升用户体验的重要环节。通过直观的图表展示运动过程中的关键数据,如配速、距离、卡路里消耗等,用户可以更清晰…...
初探Service服务发现机制
1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。 主要功能:服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源…...
Go 语言并发编程基础:无缓冲与有缓冲通道
在上一章节中,我们了解了 Channel 的基本用法。本章将重点分析 Go 中通道的两种类型 —— 无缓冲通道与有缓冲通道,它们在并发编程中各具特点和应用场景。 一、通道的基本分类 类型定义形式特点无缓冲通道make(chan T)发送和接收都必须准备好࿰…...
JavaScript基础-API 和 Web API
在学习JavaScript的过程中,理解API(应用程序接口)和Web API的概念及其应用是非常重要的。这些工具极大地扩展了JavaScript的功能,使得开发者能够创建出功能丰富、交互性强的Web应用程序。本文将深入探讨JavaScript中的API与Web AP…...
2025年渗透测试面试题总结-腾讯[实习]科恩实验室-安全工程师(题目+回答)
安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 腾讯[实习]科恩实验室-安全工程师 一、网络与协议 1. TCP三次握手 2. SYN扫描原理 3. HTTPS证书机制 二…...




