当前位置: 首页 > news >正文

爬虫基本原理及requests库用法

文章目录

  • 一、爬虫基本原理
    • 1、什么是爬虫
    • 2、爬虫的分类
    • 3、网址的构成
    • 4、爬虫的基本步骤
    • 5、动态【异步】页面和静态【同步】页面
    • 6、请求头
  • 二、requests基本原理及使用
    • 1、chrome 抓包按钮详解
      • 1.1 Elements
      • 1.2 元素定位器
      • 1.3 Network
      • 1.4 All
      • 1.5 XHR
      • 1.6 Preserve log
      • 1.7 手机模式
      • 1.8 清空数据包
      • 1.9 Filter
      • 1.10 Search
      • 1.11 Search all file
    • 2、requests介绍
      • 2.1 概念
      • 2.2 安装方式
      • 2.3 基本使用
      • 2.4 response类对应的方法
        • 2.4.1 获取网页源代码:
        • 2.4.2 获取二进制数据【音乐,视频,图片】
        • 2.4.3 获取响应状态码【基本不用】
        • 2.4.4 获取json数据【常用】
      • 2.5 headers的请求


一、爬虫基本原理

1、什么是爬虫

通俗: 解放人的双手, 去互联网获取数据, 保存数据[数据库, txt, excel, csv, pdf, 压缩文件, image, video, music]

本质: 模拟浏览器, 向服务器发送网络请求, 接受服务器返回的数据, 保存数据

2、爬虫的分类

A、通用爬虫: 百度, google, 搜狗 … 搜索引擎
B、聚焦爬虫: 根据指定的目标, 获取数据, 保存数据

3、网址的构成

例如:https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=李智恩
A、协议部分:https / http – 超文本传输协议
B、域名部分:www.baidu.com – ip地址–<外壳>–域名【方便人的记忆】
C、路径部分:一层一层的信息
D、参数部分:请求时候, 携带必要参数 – &符号链接

4、爬虫的基本步骤

A、准备网址
B、请求网址
C、解析数据
D、保存数据

5、动态【异步】页面和静态【同步】页面

A、打开浏览器
B、访问网址
C、网页空白处右键点击,查看网页源代码
D、在网页源代码中搜索网页所展示的部分(如果能搜到,则是静态网页;如果搜不到,则是动态网页)

6、请求头

A、cookies: 身份标识(登录网站之后会有一段cookies值)
B、反爬字段: referer – 来源于哪个网站
C、浏览器标识: user-agent(用户代理)

二、requests基本原理及使用

1、chrome 抓包按钮详解

1.1 Elements

网页源代码展示

1.2 元素定位器

使用元素定位器,可以准确定位网页所展示的部分,对应的前端代码

1.3 Network

网络调试台,可以用于抓包

1.4 All

使用All抓包时,会显示所有的包

1.5 XHR

使用XHR抓包时,只会显示AJAX包,也称为动态数据包,一般用于抓取动态加载的数据

1.6 Preserve log

是否需要保存历史抓包记录,点亮后即为保存历史记录

1.7 手机模式

是否选择手机模式,进行页面访问,一般用于手机抓包

1.8 清空数据包

将当前数据包进行清空,方便更准确的抓取数据包

1.9 Filter

过滤查询,requests_headers

1.10 Search

搜索文本内容所在的包

1.11 Search all file

搜索文本内容所在的包

2、requests介绍

2.1 概念

非常强大的爬虫请求库, 解决日常90%爬虫

2.2 安装方式

pip install requests

2.3 基本使用

  1. 导包: import requests
  2. 使用: respone = requests.get(url, 反爬请求头)

2.4 response类对应的方法

2.4.1 获取网页源代码:

A、text
B、content.decode()

2.4.2 获取二进制数据【音乐,视频,图片】

content

2.4.3 获取响应状态码【基本不用】

response.status_code
200: 请求成功

2.4.4 获取json数据【常用】

网站数据很多都是json数据, 做一件事情: json --> 字典

A、response = requests.get(url).textresponse = json.loads(response)
B、response = requests.get(url).json()

2.5 headers的请求

headers请求头的作用是对爬虫进行伪装,headers的格式是字典,示例如下:

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'}

其中添加的请求头参数个数,可以根据实际需求添加

相关文章:

爬虫基本原理及requests库用法

文章目录 一、爬虫基本原理1、什么是爬虫2、爬虫的分类3、网址的构成4、爬虫的基本步骤5、动态【异步】页面和静态【同步】页面6、请求头 二、requests基本原理及使用1、chrome 抓包按钮详解1.1 Elements1.2 元素定位器1.3 Network1.4 All1.5 XHR1.6 Preserve log1.7 手机模式1…...

spring和springboot、springcloud版本关系

进入新公司&#xff0c;看底层框架代码时&#xff0c;想了解spring的版本&#xff0c;很好奇这些版本之间时怎么对应的&#xff0c;因为不同版本应该有依赖关系&#xff0c;用得不对可能代码会有隐藏问题。 Spring、SpringBoot和SpringCloud的版本不一致&#xff0c;并且需要搭…...

视频监控汇聚平台LntonCVS通过GB/T28181国标协议实现视频监控平台的级联方案

近年来&#xff0c;随着网络视频监控应用范围的拓展&#xff0c;越来越多的政府部门和跨区域行业单位对视频监控的需求已经不局限于本地联网监控。他们正在探索在原有的本地联网监控基础上&#xff0c;建设省级乃至全国范围内的跨区域监控联网&#xff0c;以全面打造数据共享平…...

【精品】使用 v-md-editor 上传图片

简介 v-md-editor 是基于 Vue 开发的 markdown 编辑器组件&#xff0c;即支持vue2也支持vue3。 gitee&#xff1a;https://gitee.com/ckang1229/vue-markdown-editor文档&#xff1a;https://code-farmer-i.github.io/vue-markdown-editor/zh/ 服务器端代码 RestController…...

STM32——DAC篇(基于f103)

技术笔记&#xff01; 一、DAC简介&#xff08;了解&#xff09; 1.1 DAC概念 传感器信号采集改变电信号&#xff0c;通过ADC转换成单片机可以处理的数字信号&#xff0c;处理后&#xff0c;通过DAC转换成电信号&#xff0c;进而实现对系统的控制。 1.2 DAC的特性参数 1.3…...

突然提示由于找不到msvcr120.dll,无法继续执行代码有什么办法可以解决?

msvcr120.dll是Microsoft Visual C 2013 Redistributable Package的一部分&#xff0c;它包含了运行时库&#xff0c;用于支持使用Visual C 2013开发的应用程序。如果电脑突然提示由于找不到msvcr120.dll,无法继续执行代码有什么办法可以解决&#xff1f;以下是关于msvcr120.dl…...

swig4.2.1压缩包中里面没有找到swig.exe

官网&#xff1a;Simplified Wrapper and Interface Generator C转 C# 采用Swig.exe 打开Example示例的解决方案&#xff1a;sln 生成 即可查看如何调用和使用.i文件 但是&#xff1a;迅雷不管下载哪个版本都是没有exe 官网说了自带。很迷很迷~ 下载其他版本的时候发现&…...

Vue文本溢出如何自动换行

css新增 word-break: break-all; word-wrap: break-word;...

【系统架构师】-论文-系统安全性与保密性设计

1、摘要: 2018 年初&#xff0c;我所在的公司为一票务公司开发开票业务平台的建设。我在该项目中担任系统架构设计师的职务&#xff0c;主要负责设计平台系统架构和安全体系架构。该平台以采用 B/S 架构服务用户&#xff0c;采用”平台应用”的模式解决现有应用单机独立开票的模…...

Cisco Catalyst 9000 9200 9300 9400 IOS software upgrade

1 背景 从Catalyst 3650 ,3850&#xff0c;Catalyst 9000开始, 更准确的说是IOS XE的交换机的系统镜像安装方式分为2种  Bundle mode  Install mode 这2种方工啥区别&#xff1f; Bundle mode 传统方式利用boot system flash:c9k.xx16.bin方式引导 Install mode 将bin文…...

Web Server项目实战2-Linux上的五种IO模型

上一节内容的补充&#xff1a;I/O多路复用是同步的&#xff0c;只有调用某些API才是异步的 Unix/Linux上的五种IO模型 a.阻塞 blocking 调用者调用了某个函数&#xff0c;等待这个函数返回&#xff0c;期间什么也不做&#xff0c;不停地去检查这个函数有没有返回&#xff0c…...

Docker | 基础指令

环境&#xff1a;centos8 参考&#xff1a; 安装 Docker | Docker 从入门到实践https://vuepress.mirror.docker-practice.com/install/ 安装Docker 卸载旧版本&#xff0c;安装依赖包&#xff0c;添加yum软件源&#xff0c;更新 yum 软件源缓存&#xff0c;安装 docker-ce…...

10款手机黑科技app,每款都好用到爆!

AI视频生成&#xff1a;小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频https://aitools.jurilu.com/ 1. 计划程序应用 —— Android Auto Text Android Auto Text&#xff08;前身为 Do It Later&#xff09;是一款简单易用的日程安排应用程序&am…...

tomcat请求数据解析过程

前面提到tomcat请求处理的io交互过程&#xff0c;现在开始看下经过io交互后tomcat是怎么处理请求数据的。首先到AbstractProtocol.java中的process方法&#xff0c;注意这个方法是在tomcat线程池分配的线程调用的。生成用来对请求字节流数据进行解析的Http11Processor。 public…...

《扑克牌游戏》

描述 有一个扑克牌游戏&#xff0c;游戏规则是不断地摸牌&#xff0c;尽可能地使手上的牌的点数接近于10&#xff0c;最完美的情况是总点数为10&#xff0c;不可以超过10&#xff0c;否则就爆了。输入10张牌的点数&#xff0c;(每张点数不超过10)&#xff0c;请你输出用户应该抓…...

kali模块及字典介绍

1. 基本模块介绍 模块 类型 使用模式 功能 dmitry 信息收集 命令行 whois查询/子域名收集/端口扫描 dnmap 信息收集 命令行 用于组建分布式nmap&#xff0c;dnmap_server为服务端;dnmap_client为客户端 i…...

交换排序、归并排序、计数排序

冒泡排序&#xff1a; void BubbleSort(int* a, int n) {//第一层循环是趟数&#xff0c;第二层是交换for (int i 0; i < n-2; i){int flag 0;for (int j 0; j < n - 2 - i; j){if (a[j] > a[j 1]){swap(&a[j], &a[j 1]);flag 1;}}if (flag 0){break;…...

怎么查看 iOS ipa包 mobileprovision 改动

查看 iOS .ipa 包中的 .mobileprovision 文件&#xff08;即配置文件或描述文件&#xff09;的改动&#xff0c;可以通过以下步骤进行&#xff1a; 重命名 .ipa 文件&#xff1a;将 .ipa 文件扩展名改为 .zip。例如&#xff0c;如果文件名为 MyApp.ipa&#xff0c;则重命名为 M…...

【Unitydemo制作】音游制作—控制器与特效

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;就业…...

[程序员] 最近的感悟,错误处理占大头?

根据昨天分享的一个问题&#xff0c;想到的。 在代码里&#xff0c;异常处理的代码也算是占大头&#xff0c;扑面而来的就是发生错误时怎么处理的大片代码&#xff1b;而且出现问题的概率是绝对的占大头。所以&#xff0c;异常代码出现bug的概率也在不知不觉中增加&#xff01…...

2026海雅达HDT500手持终端PDA“12米远距扫描”应用案例:造纸厂原纸立库高层纸卷条码采集应用

标准工业原纸卷重达2吨、宽幅近2.8米&#xff0c;在12-15米高的原纸仓库中堆垛高达8-10米。高空扫码怎么破&#xff1f; 传统PDA扫码距离仅1米&#xff0c;难道必须冒生命危险爬上纸堆&#xff1f;海雅达HDT500的12米扫描头如何实现“降维打击”&#xff1f; 如何利用海雅达H…...

Acetic Acid-PEG-Silane,与蛋白质、抗体或核酸的氨基通过酰胺键连接

一.名称英文名&#xff1a;AA-PEG-Silane&#xff0c;Acetic Acid-PEG-Silane&#xff0c;Silane-PEG-AA&#xff0c;Silane-PEG-Acetic Acid中文名&#xff1a;乙酸聚乙二醇三乙氧基硅烷&#xff0c;乙酸-PEG-三乙氧基硅烷&#xff0c;三乙氧基硅烷聚乙二醇羟基&#xff0c;硅…...

桥式电路(三)开尔文电桥在功率半导体中的实战解析

1. 从测量误差到功率革命&#xff1a;开尔文电桥的前世今生 1862年的实验室里&#xff0c;威廉汤姆森&#xff08;后来的开尔文勋爵&#xff09;正为小电阻测量中的诡异误差头疼不已。他发现当被测电阻低于1Ω时&#xff0c;连接点的接触电阻和引线电阻会彻底扭曲测量结果——这…...

AI技术原理--AI上下文窗口:为什么AI没有真正的记忆

99%的人都理解错了一个问题&#xff1a;AI真的会记得你吗&#xff1f; 很多人信誓旦旦跟我说&#xff1a;昨天我跟GPT聊了好久&#xff0c;今天一打开还能接着聊&#xff0c;这不是记忆是什么&#xff1f; 但如果我告诉你&#xff0c;它根本就不记得你——你是不是直接懵了&…...

终极跨平台Iwara视频社区客户端:5个核心功能完全指南

终极跨平台Iwara视频社区客户端&#xff1a;5个核心功能完全指南 【免费下载链接】iwrqk Unofficial Iwara Flutter Client 项目地址: https://gitcode.com/gh_mirrors/iw/iwrqk IwrQk是一款基于Flutter框架开发的跨平台Iwara视频社区客户端应用&#xff0c;为你提供在i…...

别再把AI当聊天机器人了:Claude Code之父的“15倍速”工程化工作流全拆解

在这个AI编程工具层出不穷的时代&#xff0c;大多数人还在纠结“哪家大模型的代码补全更准”&#xff0c;或者在对话框里一行行地复制粘贴代码。然而&#xff0c;Anthropic工程师、Claude Code的缔造者Boris Cherny最近在X上公开的一套工作流&#xff0c;直接震碎了开发者社区的…...

用风水学重构代码:周易卦象优化系统架构

在软件工程领域&#xff0c;系统架构的优化与性能调优一直是技术专家们不懈探索的核心课题。传统的优化思路往往聚焦于算法效率、资源调度、中间件配置等技术维度。然而&#xff0c;一个更具颠覆性的视角正在悄然兴起&#xff1a;将源自古老东方智慧的《周易》卦象体系&#xf…...

使用 Applications Manager 实现 AWS 云监控:保障业务应用高效运行

随着企业加速将应用和服务迁移至云端&#xff0c;Amazon Web Services&#xff08;AWS&#xff09;凭借其可扩展性、可靠性及成本效益&#xff0c;成为主流选择。然而&#xff0c;云环境日益复杂&#xff0c;企业亟需强大的监控系统&#xff0c;以确保应用稳定运行。Applicatio…...

你的微信记忆银行:三分钟学会永久保存珍贵聊天记录

你的微信记忆银行&#xff1a;三分钟学会永久保存珍贵聊天记录 【免费下载链接】WeChatMsg 提取微信聊天记录&#xff0c;将其导出成HTML、Word、CSV文档永久保存&#xff0c;对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeChatMs…...

为什么要学习大模型?从新手到专家:AI大模型学习与实践完全指南

一、初聊大模型 1、什么是大模型&#xff1f; 大模型&#xff0c;通常指的是在人工智能领域中的大型预训练模型。你可以把它们想象成非常聪明的大脑&#xff0c;这些大脑通过阅读大量的文本、图片、声音等信息&#xff0c;学习到了世界的知识。这些大脑&#xff08;模型&…...