爬虫入门01
1. 请求头中最常见的一些重要内容
- User-Agent : 请求载体的身份标识(⽤啥发送的请求)
- Referer: 防盗链(这次请求是从哪个⻚⾯来的? 反爬会⽤到)
- cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
2. 响应头中一些重要内容
- cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
- 各种神奇的莫名其妙的字符串(这个需要经验了, ⼀般都是token
字样, 防⽌各种攻击和反爬)
数据解析的四种方式
- re解析
- bs4解析(beautifulsoup)
- xpath解析
- pyquery解析
这四种方式可以混合使用,完全以结果做导向,只要能拿到想要的数据。
正则表达式
- 元字符:具有固定含义的特殊符号,常用元字符
- . 匹配除换⾏符以外的任意字符, 未来在python的re模块
中是⼀个坑. - \w 匹配字⺟或数字或下划线
- \s 匹配任意的空⽩符
\d 匹配数字 - \n 匹配⼀个换⾏符
- \t 匹配⼀个制表符
- ^ 匹配字符串的开始
- $ 匹配字符串的结尾
- \W 匹配⾮字⺟或数字或下划线
- \D 匹配⾮数字
- \S 匹配⾮空⽩符
- a|b 匹配字符a或字符b
- () 匹配括号内的表达式,也表示⼀个组
- […] 匹配字符组中的字符
- [^…] 匹配除了字符组中字符的所有字符
- . 匹配除换⾏符以外的任意字符, 未来在python的re模块
- 量词:控制前面的元字符出现的次数
- 重复零次或更多次
-
- 重复⼀次或更多次
- ? 重复零次或⼀次
- {n} 重复n次
- {n,} 重复n次或更多次
- {n,m} 重复n到m次
- 贪婪匹配和惰性匹配
- .* 贪婪匹配, 尽可能多的去匹配结果
- .*? 惰性匹配, 尽可能少的去匹配结果 -> 回溯
这两个要着重的说⼀下. 因为我们写爬⾍⽤的最多的就是这个惰性匹
配.
正则预加载
- 提前编写好正则对象
import re# 提前把正则对象加载完毕
obj = re.compile(r"\d+")
# 直接把加载好的正则进行使用
ret = obj.finditer("abc123def456qqq789")
for item in ret:print(item.group())
分组提取数据
# 分组提取
a = """
<div class='⻄游记'><span id='10010'>中国联通</span></div>
<div class='⻄游记'><span id='10086'>中国移动</span></div>
"""
obj = re.compile(r"<span id='(?P<id>\d+)'>(?P<name>.*?)</span>")
ret = obj.finditer(a)
for item in ret:print(item.group("id"), item.group("name"))
python中如何让"."匹配换行符、re.S
obj = re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</span>', re.S)
app逆向四个阶段
- 快速了解app逆向到底干的什么
- java基础
- 安卓开发
- 逆向+案例
安卓设备
- 真机
- 模拟器
# win: 逍遥、夜神、雷电、网易mumu
# max: 网页mum
win安装时需要开启vt。
- 安装网页mumu模拟器后,先开启root权限
相关文章:
爬虫入门01
1. 请求头中最常见的一些重要内容 User-Agent : 请求载体的身份标识(⽤啥发送的请求)Referer: 防盗链(这次请求是从哪个⻚⾯来的? 反爬会⽤到)cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token) 2. 响应头中一些重要内容 cookie: 本地字符串数据信息(⽤户登录信息, 反…...
解读GIS软件:从ArcGIS到山海鲸可视化的全方位介绍
在现代社会,地理信息系统(GIS)的应用已经渗透到了各个领域,为我们提供了丰富的地理数据分析和可视化工具。下面介绍几款常见的GIS工具软件,一起来了解它们的特点和优势。 1. ArcGIS: ArcGIS由Esri公司开发,…...
嵌入式通用硬件模块设计——串口音频播放模块
模块功能展示: 串口音频控制模块 一、简介 方案为串口音频播放芯片功放芯片,口音频播放芯片IC为my1690-16s,功放为PAM8406。 1、my1690-16s 迈优科技的一款由串口控制的插卡MP3播放控制芯片,支持串口控制播放指定音频、音量调节…...
【PLSQL】PLSQL基础
文章目录 一:记录类型1.语法2.代码实例 二:字符转换三:%TYPE和%ROWTYPE1.%TYPE2.%ROWTYPE 四:循环1.LOOP2.WHILE(推荐)3.数字式循环 五:游标1.游标定义及读取2.游标属性3.NO_DATA_FOUND和%NOTFO…...
【C++笔记】C++内存管理
【C笔记】C内存管理 一、C中动态内存申请的方式二、new和delete的实现原理2.1、operator new和operator delete函数 一、C中动态内存申请的方式 在C语言中我们需要动态申请空间的时候我们通常都是用malloc函数,但是malloc函数对自定义类型是没什么问题的࿰…...
十四五双碳双控时代下的“低碳认证”
目录 前言 十四五双碳双控时代下的“低碳认证” 一、关于“低碳认证” 二、低碳认证优势 三、环境产品认证EPD 四、EPD相关运营机构 五、碳中和相关机构 六、EPD的认证流程 七、低碳产品认证认证流程和要求 八、相关机构认证证书样例 九、证书附件表 前言 通过本篇文…...
Android——基本控件(下)(十九)
1. 菜单:Menu 1.1 知识点 (1)掌握Android中菜单的使用; (2)掌握选项菜单(OptionsMenu)的使用; (3)掌握上下文菜单(ContextMenu&am…...
聚类分析 | MATLAB实现基于DBSCAD密度聚类算法可视化
聚类分析 | MATLAB实现基于LP拉普拉斯映射的聚类可视化 目录 聚类分析 | MATLAB实现基于LP拉普拉斯映射的聚类可视化效果一览基本介绍程序设计参考资料 效果一览 基本介绍 基于DBSCAD密度聚类算法可视化,MATLAB程序。 使用带有KD树加速的dbscan_with_kdtree函数进行…...
reactantd(12)动态表单的默认值问题
最近遇到一个需求是有一个表单可以输入各种信息,然后还需要有一个编辑功能,点击编辑的时候需要把当前数据填入到表单里面。在网上查了很多种方法,然后我的思路是使用initialValues搭配setState()使用。默认值都为空,然后点击单条数…...
无涯教程-Python机器学习 - Stochastic Gradient Boosting函数
它也称为梯度提升机。在下面的Python食谱中,我们将通过使用pima Indians糖尿病数据集上的 sklearn 的 GradientBoostingClassifier 类来创建随机梯度Boostingensemble模型进行分类。 首先,导入所需的软件包,如下所示: from pandas import read_csv from sklearn.model_select…...
SOLIDWORKS中多实体文件到装配体的转换技巧
我们在做机械等工程设计中,有时为了节省时间,需要把多实体的“零件”,直接转换为装配体,不再另外装配,这样能大大简化设计的操作时间,复杂程度。 在这里,我们首先要了解,SOLIDWORKS文…...
Transformer (Attention Is All You Need) 论文精读笔记
Transformer(Attention Is All You Need) Attention Is All You Need 参考:跟李沐学AI-Transformer论文逐段精读【论文精读】 摘要(Abstract) 首先摘要说明:目前,主流的序列转录(序列转录:给…...
Git企业开发控制理论和实操-从入门到深入(二)|Git的基本操作
前言 那么这里博主先安利一些干货满满的专栏了! 首先是博主的高质量博客的汇总,这个专栏里面的博客,都是博主最最用心写的一部分,干货满满,希望对大家有帮助。 高质量博客汇总https://blog.csdn.net/yu_cblog/cate…...
Positive Technologies 专家帮助修复 Western Digital 网络存储设备中的一个危险漏洞
Positive Technologies 专家帮助修复 Western Digital 网络存储设备中的一个危险漏洞 经过验证的攻击者可利用该漏洞在受攻击的设备上注入恶意软件并远程访问文件 Western Digital 感谢 Positive Technologies 专家 Nikita Abramov 发现 Western Digital NAS 固件中的一个漏洞…...
【springboot】springboot定时任务:
文章目录 一、文档:二、案例: 一、文档: 【cron表达式在线生成器】https://cron.qqe2.com/ 二、案例: EnableScheduling //开启任务调度package com.sky.task;import com.sky.entity.Orders; import com.sky.mapper.OrderMapper; …...
腾讯云学生服务器申请、学生认证入口及学生机价格表
腾讯云学生服务器申请、学生认证入口及学生机价格表,学生机申请流程,腾讯云学生服务器优惠活动:轻量应用服务器2核2G学生价30元3个月、58元6个月、112元一年,轻量应用服务器4核8G配置191.1元3个月、352.8元6个月、646.8元一年&…...
pip安装mysqlclient依赖报错 /bin/sh: 1: mysql_config: not found如何解决
报错信息: Collecting mysqlclient2.1.0Downloading https://mirrors.aliyun.com/pypi/packages/de/79/d02be3cb942afda6c99ca207858847572e38146eb73a7c4bfe3bdf154626/mysqlclient-2.1.0.tar.gz (87 kB)|███████████████████████████…...
基于paddleocr的版面分析
前处理: DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction (1)几何矫正 给定一张存在几何和光照畸变的文档图像,我们首先用一个包含六个卷积模块的特征提取器对其进行特征提取…...
网工内推 | IT网工,华为、华三认证优先,15k*13薪
01 广东善能科技发展股份有限公司 招聘岗位:IT网络工程师 职责描述: 1、负责公司项目售后技术支持工作; 2、负责项目交付实施,配置调试、运维等; 3、参加合作厂商产品技术知识培训; 4、参加合作厂商工程师…...
leetcode 739. 每日温度
2023.8.28 本题用暴力双层for循环解会超时,所以使用单调栈来解决,本质上是用空间换时间。维护一个单调递减栈,存储的是数组的下标。 代码如下: class Solution { public:vector<int> dailyTemperatures(vector<int>&…...
用OB_Template实现笔记高效管理与知识沉淀:从入门到精通
用OB_Template实现笔记高效管理与知识沉淀:从入门到精通 【免费下载链接】OB_Template OB_Templates is a Obsidian reference for note templates focused on new users of the application using only core plugins. 项目地址: https://gitcode.com/gh_mirrors/…...
Redis非主键索引查询实践,网友推荐:高效数据检索新方案
最近,关于使用Redis进行非主键查询的话题在开发者社区中引起了新的讨论。2024年7月,有技术博主分享了一套基于Redis Sorted Set和Hash的组合索引方案,声称在处理千万级用户数据的场景下,查询延迟降低了近70%。同年早些时候&#x…...
Conda镜像源配置的3个高级玩法与1个常见大坑:不止是换URL那么简单
Conda镜像源配置的3个高级玩法与1个常见大坑:不止是换URL那么简单 当你在团队协作中遇到TensorFlow版本冲突,或是Docker构建时因网络问题卡在Solving environment步骤,基础镜像源切换早已不够用。真正的高手会在.condarc里埋下这些彩蛋&#…...
Youtu-VL-4B-Instruct多模态模型部署教程:预防磁盘空间不足的5个实用技巧
Youtu-VL-4B-Instruct多模态模型部署教程:预防磁盘空间不足的5个实用技巧 1. 引言:多模态模型部署的磁盘挑战 部署大型多模态模型时,磁盘空间管理往往是第一个需要面对的挑战。Youtu-VL-4B-Instruct作为腾讯优图实验室开发的视觉语言模型&a…...
YOLO12新手入门:40MB轻量模型,低配置也能流畅运行
YOLO12新手入门:40MB轻量模型,低配置也能流畅运行 1. YOLO12简介与核心优势 1.1 什么是YOLO12 YOLO12是2025年最新发布的目标检测模型,由美国纽约州立大学布法罗分校和中国科学院大学联合研发。这个模型最大的特点是引入了革命性的注意力为…...
5分钟实战指南:免费解锁海尔智能家居完整接入HomeAssistant方案
5分钟实战指南:免费解锁海尔智能家居完整接入HomeAssistant方案 【免费下载链接】haier 项目地址: https://gitcode.com/gh_mirrors/ha/haier 还在为海尔设备无法与其他智能家居系统联动而烦恼吗?想要打破品牌壁垒,实现全屋智能统一控…...
AI皮衣设计新体验:The Leather Archive时尚杂志风界面实测
AI皮衣设计新体验:The Leather Archive时尚杂志风界面实测 1. 引言:当AI遇见时尚杂志 走进任何一家高端时尚杂志的编辑部,你会看到精心设计的版面、充满艺术感的排版和令人惊艳的视觉呈现。现在,这种专业级的时尚杂志体验被带入…...
translategemma-12b-it部署案例:基于Ollama的轻量级多模态翻译服务搭建
translategemma-12b-it部署案例:基于Ollama的轻量级多模态翻译服务搭建 想象一下,你正在处理一份满是英文的产品说明书,或者收到了一张包含外文菜单的图片。传统方法可能需要你手动打字、复制粘贴,或者使用多个工具来回切换。现在…...
LFM2.5-1.2B-Thinking多模态扩展展示:结合视觉模型的图文理解能力
LFM2.5-1.2B-Thinking多模态扩展展示:结合视觉模型的图文理解能力 1. 多模态能力惊艳亮相 LFM2.5-1.2B-Thinking最近在多模态领域展现出了令人惊喜的表现。这个原本专注于文本推理的模型,通过与视觉模型的结合,实现了从纯文本到图文理解的跨…...
ssm+java2026年毕设随心淘网管理系统【源码+论文】
本系统(程序源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容一、选题背景关于电商会员管理系统的研究,现有研究主要以大型综合电商平台(如淘宝、京东)的整体架构设计…...
