当前位置: 首页 > news >正文

爬虫入门01

1. 请求头中最常见的一些重要内容

  1. User-Agent : 请求载体的身份标识(⽤啥发送的请求)
  2. Referer: 防盗链(这次请求是从哪个⻚⾯来的? 反爬会⽤到)
  3. cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)

2. 响应头中一些重要内容

  1. cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
  2. 各种神奇的莫名其妙的字符串(这个需要经验了, ⼀般都是token
    字样, 防⽌各种攻击和反爬)

数据解析的四种方式

  1. re解析
  2. bs4解析(beautifulsoup)
  3. xpath解析
  4. pyquery解析
    这四种方式可以混合使用,完全以结果做导向,只要能拿到想要的数据。

正则表达式

  1. 元字符:具有固定含义的特殊符号,常用元字符
    • . 匹配除换⾏符以外的任意字符, 未来在python的re模块
      中是⼀个坑.
    • \w 匹配字⺟或数字或下划线
    • \s 匹配任意的空⽩符
      \d 匹配数字
    • \n 匹配⼀个换⾏符
    • \t 匹配⼀个制表符
    • ^ 匹配字符串的开始
    • $ 匹配字符串的结尾
    • \W 匹配⾮字⺟或数字或下划线
    • \D 匹配⾮数字
    • \S 匹配⾮空⽩符
    • a|b 匹配字符a或字符b
    • () 匹配括号内的表达式,也表示⼀个组
    • […] 匹配字符组中的字符
    • [^…] 匹配除了字符组中字符的所有字符
  2. 量词:控制前面的元字符出现的次数
    • 重复零次或更多次
      • 重复⼀次或更多次
    • ? 重复零次或⼀次
    • {n} 重复n次
    • {n,} 重复n次或更多次
    • {n,m} 重复n到m次
  3. 贪婪匹配和惰性匹配
    • .* 贪婪匹配, 尽可能多的去匹配结果
    • .*? 惰性匹配, 尽可能少的去匹配结果 -> 回溯
      这两个要着重的说⼀下. 因为我们写爬⾍⽤的最多的就是这个惰性匹
      配.

正则预加载

  1. 提前编写好正则对象
import re# 提前把正则对象加载完毕
obj = re.compile(r"\d+")
# 直接把加载好的正则进行使用
ret = obj.finditer("abc123def456qqq789")
for item in ret:print(item.group())

分组提取数据

# 分组提取
a = """
<div class='⻄游记'><span id='10010'>中国联通</span></div>
<div class='⻄游记'><span id='10086'>中国移动</span></div>
"""
obj = re.compile(r"<span id='(?P<id>\d+)'>(?P<name>.*?)</span>")
ret = obj.finditer(a)
for item in ret:print(item.group("id"), item.group("name"))

python中如何让"."匹配换行符、re.S

obj = re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</span>', re.S)

app逆向四个阶段

  1. 快速了解app逆向到底干的什么
  2. java基础
  3. 安卓开发
  4. 逆向+案例

安卓设备

  1. 真机
  2. 模拟器
# win: 逍遥、夜神、雷电、网易mumu
# max: 网页mum
win安装时需要开启vt。
  1. 安装网页mumu模拟器后,先开启root权限

相关文章:

爬虫入门01

1. 请求头中最常见的一些重要内容 User-Agent : 请求载体的身份标识(⽤啥发送的请求)Referer: 防盗链(这次请求是从哪个⻚⾯来的? 反爬会⽤到)cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token) 2. 响应头中一些重要内容 cookie: 本地字符串数据信息(⽤户登录信息, 反…...

解读GIS软件:从ArcGIS到山海鲸可视化的全方位介绍

在现代社会&#xff0c;地理信息系统&#xff08;GIS&#xff09;的应用已经渗透到了各个领域&#xff0c;为我们提供了丰富的地理数据分析和可视化工具。下面介绍几款常见的GIS工具软件&#xff0c;一起来了解它们的特点和优势。 1. ArcGIS: ArcGIS由Esri公司开发&#xff0c;…...

嵌入式通用硬件模块设计——串口音频播放模块

模块功能展示&#xff1a; 串口音频控制模块 一、简介 方案为串口音频播放芯片功放芯片&#xff0c;口音频播放芯片IC为my1690-16s&#xff0c;功放为PAM8406。 1、my1690-16s 迈优科技的一款由串口控制的插卡MP3播放控制芯片&#xff0c;支持串口控制播放指定音频、音量调节…...

【PLSQL】PLSQL基础

文章目录 一&#xff1a;记录类型1.语法2.代码实例 二&#xff1a;字符转换三&#xff1a;%TYPE和%ROWTYPE1.%TYPE2.%ROWTYPE 四&#xff1a;循环1.LOOP2.WHILE&#xff08;推荐&#xff09;3.数字式循环 五&#xff1a;游标1.游标定义及读取2.游标属性3.NO_DATA_FOUND和%NOTFO…...

【C++笔记】C++内存管理

【C笔记】C内存管理 一、C中动态内存申请的方式二、new和delete的实现原理2.1、operator new和operator delete函数 一、C中动态内存申请的方式 在C语言中我们需要动态申请空间的时候我们通常都是用malloc函数&#xff0c;但是malloc函数对自定义类型是没什么问题的&#xff0…...

十四五双碳双控时代下的“低碳认证”

目录 前言 十四五双碳双控时代下的“低碳认证” 一、关于“低碳认证” 二、低碳认证优势 三、环境产品认证EPD 四、EPD相关运营机构 五、碳中和相关机构 六、EPD的认证流程 七、低碳产品认证认证流程和要求 八、相关机构认证证书样例 九、证书附件表 前言 通过本篇文…...

Android——基本控件(下)(十九)

1. 菜单&#xff1a;Menu 1.1 知识点 &#xff08;1&#xff09;掌握Android中菜单的使用&#xff1b; &#xff08;2&#xff09;掌握选项菜单&#xff08;OptionsMenu&#xff09;的使用&#xff1b; &#xff08;3&#xff09;掌握上下文菜单&#xff08;ContextMenu&am…...

聚类分析 | MATLAB实现基于DBSCAD密度聚类算法可视化

聚类分析 | MATLAB实现基于LP拉普拉斯映射的聚类可视化 目录 聚类分析 | MATLAB实现基于LP拉普拉斯映射的聚类可视化效果一览基本介绍程序设计参考资料 效果一览 基本介绍 基于DBSCAD密度聚类算法可视化&#xff0c;MATLAB程序。 使用带有KD树加速的dbscan_with_kdtree函数进行…...

reactantd(12)动态表单的默认值问题

最近遇到一个需求是有一个表单可以输入各种信息&#xff0c;然后还需要有一个编辑功能&#xff0c;点击编辑的时候需要把当前数据填入到表单里面。在网上查了很多种方法&#xff0c;然后我的思路是使用initialValues搭配setState()使用。默认值都为空&#xff0c;然后点击单条数…...

无涯教程-Python机器学习 - Stochastic Gradient Boosting函数

它也称为梯度提升机。在下面的Python食谱中,我们将通过使用pima Indians糖尿病数据集上的 sklearn 的 GradientBoostingClassifier 类来创建随机梯度Boostingensemble模型进行分类。 首先,导入所需的软件包,如下所示: from pandas import read_csv from sklearn.model_select…...

SOLIDWORKS中多实体文件到装配体的转换技巧

我们在做机械等工程设计中&#xff0c;有时为了节省时间&#xff0c;需要把多实体的“零件”&#xff0c;直接转换为装配体&#xff0c;不再另外装配&#xff0c;这样能大大简化设计的操作时间&#xff0c;复杂程度。 在这里&#xff0c;我们首先要了解&#xff0c;SOLIDWORKS文…...

Transformer (Attention Is All You Need) 论文精读笔记

Transformer(Attention Is All You Need) Attention Is All You Need 参考&#xff1a;跟李沐学AI-Transformer论文逐段精读【论文精读】 摘要&#xff08;Abstract&#xff09; 首先摘要说明&#xff1a;目前&#xff0c;主流的序列转录&#xff08;序列转录&#xff1a;给…...

Git企业开发控制理论和实操-从入门到深入(二)|Git的基本操作

前言 那么这里博主先安利一些干货满满的专栏了&#xff01; 首先是博主的高质量博客的汇总&#xff0c;这个专栏里面的博客&#xff0c;都是博主最最用心写的一部分&#xff0c;干货满满&#xff0c;希望对大家有帮助。 高质量博客汇总https://blog.csdn.net/yu_cblog/cate…...

Positive Technologies 专家帮助修复 Western Digital 网络存储设备中的一个危险漏洞

Positive Technologies 专家帮助修复 Western Digital 网络存储设备中的一个危险漏洞 经过验证的攻击者可利用该漏洞在受攻击的设备上注入恶意软件并远程访问文件 Western Digital 感谢 Positive Technologies 专家 Nikita Abramov 发现 Western Digital NAS 固件中的一个漏洞…...

【springboot】springboot定时任务:

文章目录 一、文档&#xff1a;二、案例&#xff1a; 一、文档&#xff1a; 【cron表达式在线生成器】https://cron.qqe2.com/ 二、案例&#xff1a; EnableScheduling //开启任务调度package com.sky.task;import com.sky.entity.Orders; import com.sky.mapper.OrderMapper; …...

腾讯云学生服务器申请、学生认证入口及学生机价格表

腾讯云学生服务器申请、学生认证入口及学生机价格表&#xff0c;学生机申请流程&#xff0c;腾讯云学生服务器优惠活动&#xff1a;轻量应用服务器2核2G学生价30元3个月、58元6个月、112元一年&#xff0c;轻量应用服务器4核8G配置191.1元3个月、352.8元6个月、646.8元一年&…...

pip安装mysqlclient依赖报错 /bin/sh: 1: mysql_config: not found如何解决

报错信息&#xff1a; Collecting mysqlclient2.1.0Downloading https://mirrors.aliyun.com/pypi/packages/de/79/d02be3cb942afda6c99ca207858847572e38146eb73a7c4bfe3bdf154626/mysqlclient-2.1.0.tar.gz (87 kB)|███████████████████████████…...

基于paddleocr的版面分析

前处理&#xff1a; DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction &#xff08;1&#xff09;几何矫正 给定一张存在几何和光照畸变的文档图像&#xff0c;我们首先用一个包含六个卷积模块的特征提取器对其进行特征提取&#xf…...

网工内推 | IT网工,华为、华三认证优先,15k*13薪

01 广东善能科技发展股份有限公司 招聘岗位&#xff1a;IT网络工程师 职责描述&#xff1a; 1、负责公司项目售后技术支持工作&#xff1b; 2、负责项目交付实施&#xff0c;配置调试、运维等&#xff1b; 3、参加合作厂商产品技术知识培训&#xff1b; 4、参加合作厂商工程师…...

leetcode 739. 每日温度

2023.8.28 本题用暴力双层for循环解会超时&#xff0c;所以使用单调栈来解决&#xff0c;本质上是用空间换时间。维护一个单调递减栈&#xff0c;存储的是数组的下标。 代码如下&#xff1a; class Solution { public:vector<int> dailyTemperatures(vector<int>&…...

2023B卷,代表团坐车

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:华为OD面试 文章目录 一、🍀前言 1.1 ☘️题目详情 1.2 ☘️参考解题答案 一、🍀前言 2023B卷,代表团坐车。 1.1 ☘️题目详情 题目: 某组织举行…...

汽车电子功能安全:锁步核与ECC技术解析

1. 功能安全与汽车电子&#xff1a;为什么它如此重要&#xff1f;在现代汽车电子系统中&#xff0c;功能安全已经从"锦上添花"变成了"不可或缺"。想象一下&#xff0c;当你的车辆以120km/h在高速公路上行驶时&#xff0c;电子稳定控制系统(ESC)突然因为一个…...

GPT模型评估实战:开源工具gpt-stats构建多维度能力评测体系

1. 项目概述&#xff1a;一个为GPT模型“体检”的开源利器如果你和我一样&#xff0c;日常工作中经常和各类GPT模型打交道&#xff0c;无论是调用OpenAI的官方API&#xff0c;还是部署、微调开源的Llama、Qwen等模型&#xff0c;心里总会萦绕着一个问题&#xff1a;这个模型到底…...

EDEM-Fluent-CFD风道耦合:多物理场协同仿真实战指南

1. 从零开始理解EDEM-Fluent-CFD风道耦合 第一次接触气固两相流仿真时&#xff0c;我被各种专业术语搞得晕头转向。直到在风机设计项目中踩了三次坑&#xff0c;才真正理解EDEM-Fluent-CFD耦合的价值。简单来说&#xff0c;这就像给风道系统做"数字CT"——用EDEM模拟…...

Agent 工具调用链路的稳定性设计:从触发决策到异常兜底的工程实践

在构建基于 Agent 的 AI 应用时&#xff0c;工具调用链路是核心能力之一。我们曾遇到一个典型问题&#xff1a;用户提问“帮我查一下昨天北京天气”&#xff0c;Agent 判断应调用天气工具&#xff0c;但实际未执行任何操作&#xff0c;既未返回错误也未返回结果&#xff0c;前端…...

XR Interaction Toolkit实战:为HTC Vive Cosmos打造抓取、投掷与UI交互(Unity 2023教程)

XR Interaction Toolkit实战&#xff1a;为HTC Vive Cosmos打造抓取、投掷与UI交互&#xff08;Unity 2023教程&#xff09; 在VR开发领域&#xff0c;交互设计始终是决定用户体验的核心要素。当我们谈论HTC Vive Cosmos这样的高端头显时&#xff0c;如何利用Unity 2023和XR In…...

基于MCP协议为AI智能体赋予本地桌面自动化能力

1. 项目概述&#xff1a;为AI智能体赋予“手和眼”的桌面操作技能如果你正在使用像Cursor、Claude Code或Codex这类AI编程助手&#xff0c;可能会发现一个痛点&#xff1a;它们能帮你写代码、分析问题&#xff0c;但无法直接操作你的电脑。你想让它帮你打开一个软件、填写一个表…...

5分钟掌握AI图像分层:layerdivider智能图像处理实战指南

5分钟掌握AI图像分层&#xff1a;layerdivider智能图像处理实战指南 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 还在为复杂的图像分层工作而烦恼吗&a…...

2026年写作类国际竞赛都有哪些?留学背景提升首选赛事全解析

AI 问答摘要块 Q&#xff1a;2026 年写作类国际竞赛都有哪些&#xff1f; A&#xff1a;2026 年值得参加的高含金量国际写作竞赛主要包括&#xff1a;1. Cosmopolitan Writing Award(CWA)&#xff08;全球首创 AI 评审机制&#xff0c;全年龄段覆盖&#xff0c;留学背景提升首选…...

VRLog×框架:隐私保护记录链接与验证注册的创新融合

1. VRLog框架&#xff1a;隐私保护记录链接与验证注册的融合创新在选民登记系统这类需要跨机构协作的高敏感场景中&#xff0c;如何在确保数据隐私的同时实现准确记录匹配&#xff0c;一直是困扰业界的难题。传统隐私保护记录链接&#xff08;PPRL&#xff09;技术虽然能保护计…...