python康复日记-request库的使用,爬虫自动化测试
一,request的简单应用
#1请求地址
URL='https://example.com/login'
#2参数表单
form_data = {'username': 'admin','password': 'secret'
}
#3返回的响应对象response
response = requests.post(URL,data=form_data,timeout=5
)
#4处理返回结果,这里直接打印返回网页的正文。通常需要json转化,和encode编码下
print(reponse.content)
1,请求头需要设置,有些网站会限制访问
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36','Referer': 'https://www.99csw.com/','Accept-Language': 'zh-CN,zh;q=0.9'}try:# 发送HTTP请求response = requests.get(url, headers=headers, timeout=15)
2,response的属性
发送request请求后,返回的reponse对象里有我们要的信息,需要处理。常用的3个标粗了。
| 属性/方法 | 类型/返回类型 | 说明 |
|---|---|---|
status_code | int | HTTP 状态码(如 200、404、500) |
headers | CaseInsensitiveDict | 响应头字典(不区分大小写) |
text | str | 解码后的文本内容(自动根据 encoding 解码) |
content | bytes | 原始字节内容(未解码的二进制数据) |
json() | dict/list | 解析 JSON 响应内容(非 JSON 内容会抛异常) |
url | str | 最终请求的 URL(含重定向后的地址) |
encoding | str | 响应内容的编码格式(可手动修改) |
apparent_encoding | str | 通过内容分析出的编码格式(自动检测) |
raw | HTTPResponse | 原始响应流对象(需配合 stream=True 使用) |
cookies | RequestsCookieJar | 服务器返回的 Cookies |
elapsed | datetime.timedelta | 请求耗时(从发送到响应完成的时间) |
history | list[Response] | 重定向历史记录列表 |
reason | str | 状态码的文本描述(如 200 → "OK",404 → "Not Found") |
request | PreparedRequest | 关联的请求对象(含请求头、方法、URL 等信息) |
rep = reponse.content.decode('utf8'),content获取的正文是二进制,注意编码。
正文处理通常需要 json格式化 和 re正则模块 的匹配。
#对返回content正文中,span标签的获取,标题内容获取
pattern1 = re.compile(r'<span class="title">([^&]*?)</span>')
titles = pattern1.findall(resp.text)
3,session会话保持,处理cookie,保持会话。
Session 对象存储特定用户会话所需的属性及配置信息。可以带上cookie含帐号密码。
成功登陆之后,直接获取返回响应的cookie
def login():login_url = 'http://www.xxx.com/login'headers = {"Accept": "application/json, text/javascript, */*; q=0.01"}body = {"usercode": "liuzz05@****.com","password": "123456"}try:res = requests.post(url=login_url, headers=headers, data=body)cookies = res.cookiescookie = requests.utils.dict_from_cookiejar(cookies)return cookieexcept Exception as err:print('获取cookie失败:\n{0}'.format(err))
如果没有,先登录,从浏览器工具栏取cookie,找信息。
F12检查请求。cookie里有大串字母,password,token等字样说明这个可能是带密码账号的cookie,要具体情况定。
直接使用cookie,或者把cookie放在header参数中,依据具体网站请求头格式而定
把cookie转化为字典格式,手动扣cookie的键值对。本地文件写入分析,拼接
def get_data():cookie = login()res = requests.get(url=get_data_url, cookies=cookie)print(res.text)
def get_data():cookie = login()headers = {"cookie": cookie}res = requests.get(url=get_data_url, headers=headers)print(res.text)
一个完整的登录案例。
def auto_login():s = requests.Session()r = s.get(login_url)bs = BeautifulSoup(r.text,'html.parser')image = bs.find("img", {"id": "vcJpeg"})['src']lt_data = bs.find("input", {"name": "lt"})['value']csr_data = bs.find("input", {"name": "csrftoken"})['value']sec_data = bs.find("input", {"name": "sec"})['value']#print(lt_data,",",csr_data,",",sec_data)rootdir="http://172.16.5.12:10086"ir = s.get(rootdir+image)if ir.status_code == 200:with open('valid.jpg', 'wb') as f:f.write(ir.content);f.close();validateCode = get_code(Image.open('valid.jpg')) # 通过本地图片解析验证码print(validateCode)postdata={'csrftoken': csr_data,'username': uosp_username,'password': base64.b64encode(uosp_passwd.encode('utf-8')),'institute': '00010000','validateCode': validateCode,'lt': lt_data,'sec': sec_data,'dn': '','ip': '144.4.44.44','_eventId':'submit',}print(postdata)form_data={"action":"GetINCInfoByID","id":"INC000287932",}s.post(login_url,data = postdata)s.post(incident_url,data = form_data)s.post(servicelogin_url)cookies_dict = requests.utils.dict_from_cookiejar(s.cookies) # 登录后页面的cookie转化为dict#print("cookies is that ",cookies_dict)if ('.ASPXUSERDEMO' in cookies_dict): # 如果登录成功,cookie中会有.ASPXUSERDEMO字段值cookies = open('login_cookies', 'w')cookies.write(str(cookies_dict)) # 将cookie信息写入本地文件,其他模块直接访问文件可以绕过登录cookies.close()return selse:return None
相关文章:
python康复日记-request库的使用,爬虫自动化测试
一,request的简单应用 #1请求地址 URLhttps://example.com/login #2参数表单 form_data {username: admin,password: secret } #3返回的响应对象response response requests.post(URL,dataform_data,timeout5 ) #4处理返回结果,这里直接打印返回网页的…...
光谱范围与颜色感知的关系
光谱范围与颜色感知是光学、生理学及技术应用交叉的核心课题,两者通过波长分布、人眼响应及技术处理共同决定人类对色彩的认知。以下是其关系的系统解析: 1.基础原理:光谱范围与可见光 光谱范围定义: 电磁波谱中能被特定…...
OpenCV vs MediaPipe:哪种方案更适合实时手势识别?
引言 手势识别是计算机视觉的重要应用,在人机交互(HCI)、增强现实(AR)、虚拟现实(VR)、智能家居控制、游戏等领域有广泛的应用。实现实时手势识别的技术方案主要有基于传统计算机视觉的方法&am…...
el-select下拉框,搜索时,若是匹配后的数据有且只有一条,则当失去焦点时,默认选中该条数据
1、使用指令 当所需功能只能通过直接的 DOM 操作来实现时,才应该使用自定义指令。可使用方法2封装成共用函数,但用指令他人复用时比较便捷。 <el-tablev-loading"tableLoading"border:data"tableList"default-expand-allrow-key…...
网络地址转换技术(2)
NAT的配置方法: (一)静态NAT的配置方法 进入接口视图配置NAT转换规则 Nat static global 公网地址 inside 私网地址 内网终端PC2(192.168.20.2/24)与公网路由器AR1的G0/0/1(11.22.33.1/24)做…...
Python正则表达式(一)
目录 一、正则表达式的基本概念 1、基本概念 2、正则表达式的特殊字符 二、范围符号和量词 1、范围符号 2、匹配汉字 3、量词 三、正则表达式函数 1、使用正则表达式: 2、re.match()函数 3、re.search()函数 4、findall()函数 5、re.finditer()函数 6…...
【TI MSPM0】PWM学习
一、样例展示 #include "ti_msp_dl_config.h"int main(void) {SYSCFG_DL_init();DL_TimerG_startCounter(PWM_0_INST);while (1) {__WFI();} } TimerG0输出一对边缘对齐的PWM信号 TimerG0会输出一对62.5Hz的边缘对齐的PWM信号在PA12和PA13引脚上,PA12被…...
MySQL: 创建两个关联的表,用联表sql创建一个新表
MySQL: 创建两个关联的表 建表思路 USERS 表:包含用户的基本信息,像 ID、NAME、EMAIL 等。v_card 表:存有虚拟卡的相关信息,如 type 和 amount。关联字段:USERS 表的 V_CARD 字段和 v_card 表的 v_card 字段用于建立…...
更改 vscode ! + table 默认生成的 html 初始化模板
vscode ! 快速成的 html 代码默认为: <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>D…...
使用LVS的 NAT 模式实现 3 台RS的轮询访问
节点规划 1、配置RS RS的网络配置为NAT模式,三台RS的网关配置为192.168.10.8 1.1配置RS1 1.1.1修改主机名和IP地址 [rootlocalhost ~]# hostnamectl hostname rs1 [rootlocalhost ~]# nmcli c modify ens160 ipv4.method manual ipv4.addresses 192.168.10.7/24…...
R 基础语法
R 基础语法 引言 R 是一种针对统计计算和图形表示而设计的编程语言和环境。它广泛应用于统计学、生物信息学、数据挖掘等领域。本文将为您介绍 R 语言的基础语法,帮助您快速上手。 R 的基本结构 R 语言的基本结构包括:变量、数据类型、运算符、控制结构、函数等。 变量 …...
MySQL实战(尚硅谷)
要求 代码 # 准备数据 CREATE DATABASE IF NOT EXISTS company;USE company;CREATE TABLE IF NOT EXISTS employees(employee_id INT PRIMARY KEY,first_name VARCHAR(50),last_name VARCHAR(50),department_id INT );DESC employees;CREATE TABLE IF NOT EXISTS departments…...
华为p10 plus 鸿蒙2.0降级emui9.1.0.228
需要用到的工具 HiSuite Proxy V3 华为手机助手11.0.0.530_ove或者11.0.0.630_ove应该都可以。 官方的通道已关闭,所以要用代理,127.0.0.1端口7777 https://www.firmfinder.ml/ https://professorjtj.github.io/v2/ https://hisubway.online/articl…...
C# Modbus RTU学习记录
继C# Modbus TCP/IP学习记录后,尝试串口通信。 操作步骤: 1.使用Visual Studio安装Nuget包NModbus.Serial。 2.使用Modbus Slave应用程序,工具栏Connection项,单击Connect,弹窗Connection Setup,修改Con…...
AI+Xmind自动生成测试用例(思维导图格式)
一、操作步骤: 步骤1:创建自动生成测试用例智能体 方式:使用通义千问/豆包智能体生成,以下两个是我已经训练好的智能体,直接打开使用即可 通义智能体: https://lxblog.com/qianwen/share?shareId=b0cd664d-5001-42f0-b494-adc98934aba5&type=agentCard 豆包智能…...
单片机 - 位运算详解(``、`|`、`~`、`^`、`>>`、`<<`)
单片机中的位运算详解(&、|、~、^、>>、<<) 位运算是单片机编程(C/C)中经常使用的技巧,用于高效地操作寄存器、I/O 端口和数据。以下是各位运算符的详细解析,并结合单片机实际应用举例。 …...
chrome插件开发之API解析-chrome.tabs.query
chrome.tabs.query 是 Chrome 扩展开发中用于查询浏览器标签页信息的 API。它允许你根据指定的条件获取当前浏览器中所有匹配的标签页。这个 API 返回一个 Promise,解析后会得到一个包含匹配标签页信息的数组。 常见用途 获取当前活动标签页:可以获取当…...
(二)手眼标定——概述+原理+常用方法汇总+代码实战(C++)
一、手眼标定简述 手眼标定的目的:让机械臂和相机关联,相机充当机械臂的”眼睛“,最终实现指哪打哪 相机的使用前提首先需要进行相机标定,可以参考博文:(一)相机标定——四大坐标系的介绍、对…...
3D点云的深度学习网络分类(按照作用分类)
1. 3D目标检测(Object Detection) 用于在点云中识别和定位目标,输出3D边界框(Bounding Box)。 🔹 方法类别: 单阶段(Single-stage):直接预测3D目标位置&am…...
【Linux网络-NAT、代理服务、内网穿透】
一、NAT技术 1.NAT技术背景 之前我们讨论了,IPV4协议中,IP地址数量不充足的问题 NAT技术当前解决IP地址不够用的主要手段,是路由器的一个重要功能 NAT(网络地址转换,Network Address Translation)是一种…...
Windows 和 Linux 操作系统架构对比以及交叉编译
操作系统与架构兼容性详解 1. 可执行文件格式:PE vs ELF Windows: PE (Portable Executable) 格式 详细解释: PE 格式是 Windows 下的可执行文件标准 包含多个区段(Sections),如代码段、数据段、资源段 文件头包含…...
heapq库的使用——python代码
Python中heapq库的基础使用方法和示例代码,包含详细注释说明: 1. 基本功能 heapq 实现的是最小堆(父节点值 ≤ 子节点值),核心操作包括: 插入元素:heappush(heap, item)弹出最小值:…...
新手村:逻辑回归-理解02:逻辑回归中的伯努利分布
新手村:逻辑回归-理解02:逻辑回归中的伯努利分布 伯努利分布在逻辑回归中的潜在含义及其与后续推导的因果关系 1. 伯努利分布作为逻辑回归的理论基础 ⭐️ 逻辑回归的核心目标是: 建模二分类问题中 目标变量 y y y 的概率分布。 伯努利分布(…...
golang Error的一些坑
golang Error的一些坑 golang error的设计可能是被人吐槽最多的golang设计了。 最经典的err!nil只影响代码风格设计,而有一些坑会导致我们的程序发生一些与我们预期不符的问题,开发过程中需要注意。 errors.Is判断error是否Wrap不符合预期 …...
【干货,实战经验】nginx缓存问题
文章目录 案例背景出现的问题:定位到问题解决方式修改配置修改后的nginx配置 案例背景 有2个服务器A 和B,A是一个动态ip经常变公网ip,B是一个云服务器,公网ip固定. 于是我通过ddns ,找了个域名C,动态解析A服务器上的公…...
分布式理论:CAPBASE理论
1 CAP理论 1.1 简介 CAP也就是Consistency(一致性)、Availability(可用性)、Partition Tolenrance(分区容错性)这三个单词首字母组合。 在理论计算机科学中,CAP定理(CAP theorem&…...
大数据学习(86)-Zookeeper去中心化调度
🍋🍋大数据学习🍋🍋 🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。 💖如果觉得博主的文章还不错的话,请点赞👍收藏⭐️留言📝支持一…...
uniapp再次封装uni-nav-bar导航栏组件
<!-- components/custom-nav-bar/custom-nav-bar.vue --> <template><view class"custom-nav" :style"{ backgroundColor: bgColor }"><!-- 状态栏占位 --><view class"status-bar" :style"{ height: statusBar…...
ngx_http_index_t
定义在 src\http\modules\ngx_http_index_module.c typedef struct {ngx_str_t name;ngx_array_t *lengths;ngx_array_t *values; } ngx_http_index_t; 该结构体用于 存储和解析 index 指令中单个索引文件的信息 ,支持静态…...
深入解析Flink Kafka Connector的分布式流数据采集架构与底层实现
目录 1. Flink Kafka连接器的分布式流采集架构 1.1 架构组成 1.2 分布式流模型 2. 数据分区分配策略 3. 为什么重写序列化和偏移量管理 3.1 与Flink分布式架构集成 3.2 与Flink检查点机制集成同时承接多级并行架构 3.3 OffsetsInitializer与细粒度偏移量控制 3.4 与Fl…...
