当前位置：首页 > news >正文

爬虫基础1

news 2025/12/29 11:15:25

一、爬虫的基本概念

1.什么是爬虫？

请求网站并提取数据的自动化程序

2.爬虫的分类

2.1 通用爬虫（大而全）

功能强大，采集面广，通常用于搜索引擎：百度，360，谷歌

2.2 聚焦爬虫，主题爬虫（小而精）

功能相对单一（只针对特定的网站的特定内容进行爬取）

2.3增量式爬虫（只采集更新后的内容）

爬取更新后的内容，新闻，漫画，视频…（区分新老数据）

3.ROOT协议

什么是robots协议？

3.1 Robots协议的全称是"网络爬虫排除标准" (Robots Exclusion Protocol)，简称为Robots协议。

3.2 Robots协议的一个很重要作用就是网站告知爬虫哪些页面可以抓取，哪些不

行。君子协定:指代的是口头上的协议，如果爬取了，可能会出现法律纠纷(商用).

二、爬虫的基本流程

1.发起请求

通过HTTP库向目标站点发起请求，即发起一个Request，请求可以包含额外的headers信息，等待服务器响应。

2.获取响应内容

如果服务器能正常响应，会得到一个Response，Response的内容便是索要获取的页面内容，类型可能有HTML，Json字符串，二进制数据（如图片视频）等类型

3.解析内容

得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析，可能是Json，可以直接转为Json对象解析，可能是二进制数据，可能做保存或进一步处理

4.保存数据

保存形式多样，可以保存为文本，也可保存至数据库或者保存特定格式的文件

三、Request和Response

1．浏览器就发送消息给该网址所在的服务器,这个过程叫做HTTP Request。

2．服务器收到浏览器发送的消息后，能够根据浏览器发送消息的内容,做相应处理,然

后把消息回传给浏览器。这个过程叫做HTTP Response。

3．浏览器收到服务器的Response信息后，会对信息进行相应处理,然后展示。

4.Request

4.1 主要有GET、POST两种类型

4.2 URL全称统一资源定位符，如一个网页文档、一张图片、一个视频等都可

以用URL唯一来确定。

4.3 包含请求时的头部信息,如User-Agent、Host、Cookies等信息。

4.4 请求时额外携带的数据如表单提交时的表单数据。

5.Reponse

5.1 响应状态

有多种响应状态，如200代表成功、301跳转、404找不到页面、502服务器错误

5.2 响应头

如内容类型、内容长度、服务器信息、设置Cookie等等。

5.3 响应体

最主要的部分,包含了请求资源的内容, 如网页HTML、图片二进制数据等。

注意：在监测的时候用Ctrl+F调出搜索框

四、Requests模块

作用：发送网络请求，或得响应数据

开源地址：https://github.com/kennethreitz/requestshttps://github.com/kennethreitz/requests

安装： pip install requests -i https://pypi.douban.com/simple/

中文文档 API： http://docs.python-requests.org/zh_CN/latest/index.htmlhttp://docs.python-requests.org/zh_CN/latest/index.html

官方文档： Requests: 让 HTTP 服务人类 — Requests 2.18.1 文档https://requests.readthedocs.io/projects/cn/zh-cn/latest/

1.Requests请求

只能得到一个包的数据

url = 'https://www.baidu.com/'
response = requests.get(url)
print(response)#返回的是一个响应体对象print(response.text)#获取响应体内容print(response.status_code)#响应状态码

Get请求

url = 'https://httpbin.org/get'#url = 'https://httpbin.org/get?age=18&&name=zhangsan'data = {'name':'zhangsan','age':19}response = requests.get(url,params=data)#params携带get请求的参数进行传参print(response.text)

Post请求

rl = 'https://httpbin.org/post'data = {'name':'zhangsan','age':19}response = requests.post(url,data=data)#data:携带post请求需要的表单数据，在form里面形成print(response.text)

自己理解：

对于Get来说，主要在网址输入时即输入URL的时候用到，而POST则是在网页里面，比如翻译时的单词输入等

获取Json数据

url = 'https://httpbin.org/get'result = requests.get(url)result_data = result.json()print(result_data)print(type(result_data))

会发现Py里面的Json数据就是字典类型

获取二进制据数据

url = 'https://b.bdstatic.com/searchbox/icms/searchbox/img/ci_boy.png'result = requests.get(url)#print(result.text) #二进制数据转文本会显示乱码，strprint(result.content)#会发现是以b开头的bite类型二进制数据,bytesdata = result.contentwith open('TuPian.png','wb') as f:  #wb是写入二进制f.write(data)

初步伪装小爬虫——添加headers

浏览器用户身份的标识，缺少的话服务器会认为你不是一个正常的浏览器用户，而是一个爬虫程序

User-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0

import requestsimport fake_useragentua = fake_useragent.UserAgent()ua_fake = ua.chromeurl = 'https://www.jianshu.com/'headers = {#'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0''User-Agent':ua_fake}result = requests.get(url,headers = headers)print(result.text)

会话维持

例如爬取简书的收藏的时候，如果不登陆就无法爬取，可以在headers里面增加cookie内容即可，但要注意的是cookie有对应的时间

import requestsimport fake_useragentua = fake_useragent.UserAgent()ua_fake = ua.chromeurl = 'https://www.jianshu.com/'headers = {#'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0''User-Agent':ua_fake,'cookie':''}result = requests.get(url,headers = headers)print(result.text)

代理

import requestsp = {'http':'120.41.143.139:21037','https':'120.41.143.139:21037',
}url = 'https://www.jianshu.com/'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0'}result = requests.get(url,headers = headers,proxies=p)print(result.text)

注意的是这里的ip无效,后面继续展开

五、正则表达式

1.正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特殊字符以及这些特殊字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种逻辑过滤

2.非Python独有

3.Python里面是使用re模块来实现的，不需要额外进行安装，是内置模块

常见匹配模式

re.match()方法的使用

import re#content = 'Hello 123 456789 World_This is a Regex Demo'#re.match('正则表达式','目标字符串')#result = re.match('Hello\s\d\d\d\s\d{6}\s\w{10}',content)#print(result.group())#result = re.match('H.*Demo',content)#result = re.match('Hello\s(\d{3})\s(\d{6})',content)#print(result.group(1))  #这里0表示最先出现的括号，1表示第二次出现的括号#print(result.group(1,2))    #这是一个元组，后面处理较麻烦#content = 'Hello 123456789 World_This is a Regex Demo'#result = re.match('He.*(\d+).*Demo',content)#因为贪婪模式的存在，在He之后，Demo之前至少有一个数字字符，即9#print(result.group(1)) #打印的为9#加上？后，即为非贪婪#result = re.match('He.*?(\d+).*Demo',content)#print(result.group(1))#content = """Hello 123456789#World_This# is a Regex#  Demo"""#result = re.match('He.*?(\d+).*Demo',content,re.S)#re.S忽略换行符#print(result.group())#\转义符,如果对\转义，则需要两个\\，也可以直接写r,再接一个\#content = 'price is $9.99'#result = re.match('price\sis\s\$9.99',content) #$这个在正则表达式有自己的含义#print(result.group())

search方法

search全文检索，返回满足表达式的第一个

#result = re.search('<a\s\href="/3.mp3"\ssinger="(.*)">(.*)</a>',html)#print(result.group(1))

Findall方法

用一个大列表返回满足所有的正则表达式结果

#result = re.findall('<a\s\href="(.*)"\ssinger="(.*)">(.*)</a>',html)#for i in result:#   print(i)

Re.sub()

#re.sub('要替换的目标的正则表达式','想要将前面匹配到的数据替换成什么','目标字符串')#sub_html = re.sub('<i.*</i>','',html)#result = re.findall('<a\s\href="(.*)"\ssinger="(.*)">(.*)</a>',sub_html)#for i in result:#   print(i)

爬虫基础1

一、爬虫的基本概念 1.什么是爬虫？ 请求网站并提取数据的自动化程序 2.爬虫的分类 2.1 通用爬虫（大而全） 功能强大，采集面广，通常用于搜索引擎：百度，360，谷歌 2.2 聚焦爬虫&#x…...

编程日记 2024/5/25 0:11:42

vlan综合实验

1、实验拓扑 2、实验要求 1、pc1和pc3所在接口为access;属于vlan 2; pc2/pc4/pc5/pc6处于同一网段；其中pc2可以访问pc4/pc5/pc6； pc4可以访问pc6；pc5不能访问pc6； 2、pc1/pc3与pc2/pc4/pc5/pc6不在同一网段; 3、所有pc通过DHC…...

编程日记 2024/5/25 0:10:41

如何使用ffmpeg 实现10种特效

相关特效的名字特效id 特效名 1 向上移动 2 向左移动 3 向下移动 4 颤抖 5 摇摆 6 雨刷 7 弹入 8 弹簧 9 轻微跳动 10 跳动特效展示(同时汇总相关命令) pad背景显示 pad背景透明相关命令(一会再讲这些命令，先往下看) # 合成特效语音 ffmpeg -y -loglevel erro…...

编程日记 2024/5/25 0:09:40

C语言如果变量全部在全局内存空间会怎么样

结论先行应该根据内存使用的生命周期，选择合适的内存空间应该尽量使用连续内存如果不想在设计封装性上付出太多代价，全部放入全局空间也比较可取空间类型特点全局空间生命周期最久，空间连续，变量分配紧致，但存在浪…...

编程日记 2024/5/25 0:08:39

【YOLO改进】换遍MMPretrain主干网络之ConvNeXt-Tiny（基于MMYOLO）

ConvNeXt-Tiny ConvNeXt-Tiny 是一种改进的卷积神经网络架构，其设计目的是在保持传统卷积神经网络优势的同时，借鉴了一些Transformer架构的成功经验。 ConvNeXt-Tiny 的优点架构优化： ConvNeXt-Tiny 对经典ResNet架构进行了多种优化&#…...

编程日记 2024/5/25 0:06:37

【数据库】MySQL

文章目录概述DDL数据库操作查询使用创建删除表操作创建约束MySqL数据类型数值类型字符串类型日期类型查询修改删除 DMLinsertupdatedelete DQL基本查询条件查询分组查询分组查询排序查询分页查询多表设计一对多一对一多对多设计步骤多表查询概述内连接外连接子查询标量子…...

编程日记 2024/5/25 0:05:35

JVM运行时内存:垃圾回收器(Serial ParNew Parallel )详解

文章目录 1. 查看默认GC2. Serial GC : 串行回收3. ParNew GC：并行回收4. Parallel GC：吞吐量优先 1. 查看默认GC -XX:PrintCommandLineFlags：查看命令行相关参数（包含使用的垃圾收集器）使用命令行指令：ji…...

编程日记 2024/5/25 0:04:32

The Missing Semester of Your CS Education(计算机教育中缺失的一课)

Shell 工具和脚本(Shell Tools and Scripting) 一、shell脚本 1.1、变量赋值在bash中为变量赋值的语法是foobar，访问变量中存储的数值，其语法为 $foo。需要注意的是，foo bar （使用空格隔开）是不能正确工作的&…...

编程日记 2024/5/25 0:03:31

如何为ChatGPT编写有效的提示词：软件开发者的指南

作为一名软件开发者，特别是使用Vue进行开发的开发者，与ChatGPT等AI助手高效互动，可以极大地提升你的开发效率。本文将深入探讨如何编写有效的提示词，以便从ChatGPT中获取有用的信息和帮助。 1. 明确目标在编写提示词之前&#…...

编程日记 2024/5/25 0:02:30

angular插值语法与属性绑定

在 Angular 中，您提供的两种写法都是用来设置 HTML 元素的 title 属性，但它们的工作方式有所不同： 插值语法 (Interpolation) <h1 title"{{ name }}">我的名字</h1> 属性绑定 (Property Binding) <h1 [title]&q…...

编程日记 2024/5/25 0:01:29

Python ❀ 使用代码解决今天中午吃什么的重大生存问题

1. 环境安装安装Python代码环境参考文档 2. 代码块 import random# 准备一下你想吃的东西 hot ["兰州拉面", "爆肚面", "黄焖鸡", "麻辣香锅", "米线", "麻食", "羊肉泡馍", "肚丝/羊血汤&qu…...

编程日记 2024/5/25 0:00:28

做抖音小店需要清楚的5个核心点！

大家好，我是喷火龙。不管你是在做抖音小店，还是在做其他的电商平台，如果已经做了一段时间了，但还是没有拿到什么结果，我所指的结果不是什么大结果，而是连温饱都解决不了，甚至说还在亏钱。有…...

编程日记 2024/5/24 23:58:26

文件流下载优化：由表单提交方式修改为Ajax请求

如果想直接看怎么写的可以跳转到解决方法节！ 需求描述目前我们系统导出文件时，都是通过表单提交后，接收文件流自动下载。但由于在表单提交时没有相关调用前和调用后的回调函数，所以我们存在的问题，假如导出数据需…...

编程日记 2024/5/24 23:57:25

基础3 探索JAVA图形编程桌面：逻辑图形组件实现

在一个宽敞明亮的培训教室里，阳光透过窗户柔和地洒在地上，教室里摆放着整齐的桌椅。卧龙站在讲台上，面带微笑，手里拿着激光笔，他的眼神中充满了热情和期待。他的声音清晰而洪亮，传遍了整个教室：…...

编程日记 2024/5/24 23:55:22

前后端部署笔记

windows版： 如果傻呗公司让用win电脑部署，类似于我们使用笔记本做局域网服务器，社内使用。 1.安装win版的nginx、mysql、node、jdk等 2.nginx开机自启参考Nginx配置及开机自启动（Windows环境）_nginx开机自启动 wind…...

编程日记 2024/5/24 23:53:19

设计模式9——适配器模式

写文章的初心主要是用来帮助自己快速的回忆这个模式该怎么用，主要是下面的UML图可以起到大作用，在你学习过一遍以后可能会遗忘，忘记了不要紧，只要看一眼UML图就能想起来了。同时也请大家多多指教。适配器模式（Adapte…...

编程日记 2024/5/24 23:52:18

一文了解基于ITIL的运维管理体系框架

本文来自腾讯蓝鲸智云社区用户：CanWay ITIL（Information Technology Infrastructure Library）是全球最广泛使用的 IT 服务管理方法，旨在帮助组织充分利用其技术基础设施和云服务来实现增长和转型。优化IT运维，作为企业…...

编程日记 2024/5/24 23:51:16

Web前端开发技术-格式化文本 Web页面初步设计

目录 Web页面初步设计标题字标记基本语法： 语法说明： 添加空格与特殊符号基本语法： 语法说明: 特殊字符对应的代码: 代码解释： 格式化文本标记文本修饰标记计算机输出标记字体font标记基本语法： 属…...

编程日记 2024/5/24 23:49:15

Windows下部署Seata1.5.2，解决Seata无法启动问题

目录 1. 版本说明 2. Windows下部署Seata1.5.2 2.1 创建回滚日志表undo_log 2.2 创建Seata服务端需要的四张表 2.3 在nacos创建seata命名空间，添加seataServer.yml配置 2.4 修改本地D:/tool/seata-server-1.5.2/seata/conf/applicaltion.yml文件 2.5 启动Seat…...

编程日记 2024/5/24 23:48:13

我加入了C++交流社区

最近，我决定加入了一个C交流社区，这是一个专注于C编程语言的在线平台。加入这个社区的初衷是为了提升我的编程技能，与其他对C感兴趣的人交流经验和知识。加入这个社区后，我发现了许多有趣的讨论和资源。每天都有各种各样的话题&…...

编程日记 2024/5/24 23:47:12

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

Linux_k8s篇欢迎来到Linux的世界，看笔记好好学多敲多打，每个人都是大神！ 题目：KubeSphere 容器平台高可用：环境搭建与可视化操作指南版本号: 1.0,0 作者: 老王要学习日期: 2025.06.05 适用环境: Ubuntu22 文档说…...

编程新知 2025/12/26 17:45:11

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.算法仿真参数 5.算法理论概述 6.参考文献 7.完整程序 1.程序功能描述通过动态调整节点通信的能量开销，平衡网络负载，延长WSN生命周期。具体通过建立基于距离的能量消耗模型&am…...

编程新知 2025/12/24 22:02:15

循环冗余码校验CRC码算法步骤+详细实例计算

通信过程：（白话解释） 我们将原始待发送的消息称为 M M M，依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)（意思就是 G （ x ) G（x) G（x) 是已知的）&#xff0…...

编程新知 2025/12/23 19:39:34

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

编程新知 2025/12/21 1:00:15

HTML前端开发：JavaScript 常用事件详解

作为前端开发的核心，JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例： 1. onclick - 点击事件当元素被单击时触发（左键点击） button.onclick function() {alert("按钮被点击了！&…...

编程新知 2025/11/10 10:45:11

自然语言处理——Transformer

自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，但是它有一个很大的缺陷——很难并行化。我们可以考虑用CNN来替代RNN，但是…...

编程新知 2025/12/11 16:21:02

Android 之 kotlin 语言学习笔记三（Kotlin-Java 互操作）

参考官方文档：https://developer.android.google.cn/kotlin/interop?hlzh-cn 一、Java（供 Kotlin 使用） 1、不得使用硬关键字不要使用 Kotlin 的任何硬关键字作为方法的名称或字段。允许使用 Kotlin 的软关键字、修饰符关键字和特殊标识…...

编程新知 2025/12/21 2:48:42

处理vxe-table 表尾数据是单独一个接口，表格tableData数据更新后，需要点击两下，表尾才是正确的

修改bug思路： 分别把 tabledata 和表尾相关数据 console.log() 发现更新数据先后顺序不对 settimeout延迟查询表格接口 ——测试可行升级↑：async await 等接口返回后再开始下一个接口查询 ________________________________________________________…...

编程新知 2025/12/19 21:46:02

解决：Android studio 编译后报错\app\src\main\cpp\CMakeLists.txt‘ to exist

现象： android studio报错： [CXX1409] D:\GitLab\xxxxx\app.cxx\Debug\3f3w4y1i\arm64-v8a\android_gradle_build.json : expected buildFiles file ‘D:\GitLab\xxxxx\app\src\main\cpp\CMakeLists.txt’ to exist 解决： 不要动CMakeLists.…...

编程新知 2025/12/15 0:46:42

uniapp 实现腾讯云IM群文件上传下载功能

UniApp 集成腾讯云IM实现群文件上传下载功能全攻略一、功能背景与技术选型在团队协作场景中，群文件共享是核心需求之一。本文将介绍如何基于腾讯云IMCOS，在uniapp中实现： 群内文件上传/下载文件元数据管理下载进度追踪跨平台文件预览二…...

编程新知 2025/9/14 20:44:53