一、初始爬虫
1.爬虫的相关概念
1.1 什么是爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地爬取互联网信息的程序。
原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。
1.2 如何获取爬虫程序
-
下载其他公司开发的通用爬虫(八爪鱼)
-
开发人员自己编写
1.3 区别
通用爬虫:可以提取大多数网站的数据,但是对于网站中某些特殊数据的提取范式没有实现
自定义爬虫:可以针对某一种网站自行开发符号要求的爬虫
1.4 开发语言
只要能够发送HTTP(S)请求的任何编程语言都是可以完成爬虫程序的,例如:C++、java、php、JavaScript等待,但是论爬虫开发效率一般都指的是python语言。
1.5 爬虫分类
根据抓取网站的数量不同,大致将爬虫分为两种:
- 通用爬虫:通常指搜索引擎的爬虫,例如:https://www.baidu.com
- 聚焦爬虫:针对特定网站的爬虫
2.爬虫流程
聚焦爬虫代码执行流程:

流程说明:
- 向起始地址发送请求,并获取响应
- 对响应结果进行数据提取
- 如果获取的数据是新的网站地址则继续发送请求并获取响应
- 如果获取的数据为页面需要的数据则完成数据保存
3.HTTP与HTTPS协议
目前大部分网站时基于HTTP与HTTPS进行网络交互的,在爬虫程序中也是发送网络协议来获取对应的网站信息,所以还是有必要了解网络协议。
3.1 HTTP与HTTPS相关概念
- HTTP
- 超文本传输协议
- 默认端口号:80
- HTTPS
- HTTP+SSL(安全套接字层),即带有安全套接字层的超文本传输协议
- 默认端口号:443
HTTPS比HTTP更安全,但是性能更低
HTTP协议的重要信息
我们想要给浏览器发送信息并显示,就必须要带上HTTP协议。HTTP协议中有一部分数据对爬虫程序来说非常重要。分别时请求头与响应头。
常见的请求头参数:
- Host(主机和端口号)
- Connection(链接类型)
- Upgrade-Insecure-Requests(升级为HTTPS请求)
- User-Agent(浏览器名称)
- Accept(传输文件类型)
- Referer(页面跳转处)
- Accept-Encoding(文件编解码格式)
- Cookie(Cookie信息)
- x-requested-with:XMLHttpRequest(表示该请求是Ajax异步请求)
响应头参数:
- Set-Cookie(对方服务器设置cookie到用户浏览器的缓存)
响应状态码:
- 200:成功
- 302:临时转移至新的url(一般会用GET,例如原本是POST则新的请求则是GET)
- 307:临时转移至新的url(原本是POST则新的请求依然是POST)
- 403:无请求权限
- 404:找不到该页面
- 500:服务器内部错误
- 503:服务不可用,一般是被反爬
3.2 浏览器发送HTTP请求过程

- 客户端发送网站域名到DNS服务器
- DNS服务器返回IP地址到客户端
- 客户端根据返回的IP地址访问网站后端服务器并请求网站资源
- 网站后端服务器返回对应页面资源
3.3 robots协议
网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,但它仅仅是互联网中的约定而已,可以不用遵守。
3.4 谷歌浏览器插件
- XPath Helper
- Web Scraper
- Toggle JavaScript
- User-Agent Switcher for Chrome
- EditThisCookie
- SwitchSharp
插件下载地址:
- https://extfans.com/
- https://chrome.zzzmh.cn/#/index
3.5 请求测试软件
PostMan : https://www.postman.com/downloads
ApiPost : https://www.apipost.cn/download.html
4.编码
字符是各种文字和符号的总称,包括国家文字、标点符号、图形符号、数字等等。
字符集是多个字符的集合,字符集包括:ASCII、GB2312、Unicode等等。UTF-8是Unicode的实现方式之一。
Python3中的字符串:
- str: unicode的呈现
- bytes:字节类型,互联网上的数据都以二进制的方式传输的
str 与 bytes 类型的互相转换
- str 使用 encode 方法转换为 bytes
str_code='abc'
print(type(str_code))byte_code=str_code.encode()
print(type(byte_code))
- bytes 使用 decode 方法转换为str
byte_code=b'abc'
print(type(byte_code))str_code=byte_code.decode()
print(type(str_code))
注意:编码方式必须和解码方式一样,否则就会出现乱码问题。例如使用utf-8编码,那么就必须使用utf-8解码。
相关文章:
一、初始爬虫
1.爬虫的相关概念 1.1 什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地爬取互联网信息的程序。 原则上,只要是浏览器…...
《A++ 敏捷开发》- 16 评审与结对编程
客户:我们的客户以银行为主,他们很注重质量,所以一直很注重评审。他们对需求评审、代码走查等也很赞同,也能找到缺陷,对提升质量有作用。但他们最困惑的是通过设计评审很难发现缺陷。 我:你听说过敏捷的结对…...
jar、war、pom
1. <packaging>jar</packaging> 定义与用途 用途:默认打包类型,生成 JAR 文件(Java Archive),适用于普通 Java 应用或库。 场景: 开发工具类库(如 commons-lang.jar)。…...
WSL2安装过程记录
WSL2安装过程记录 1 先决条件2 安装WSL3 安装Linux4 图形化界面 因为命令安装的时候会直接将linux发行版安装到C盘,对于系统盘容量小和介意不能自定义安装位置的用户来说,非常不友好,所以我这里采用手动安装的方式, 命令安装可以参…...
HTML列表,表格和表单
列表 在 HTML 中,列表(List)是常见的一种布局方式。列表分为两种类型:有序列表(Ordered List)和无序列表(Unordered List)。 无序列表 无序列表(Unordered List&#…...
Mysql进阶篇
存储引擎 Mysql体系结构 1). 连接层 最上层是一些客户端和链接服务,包含本地sock 通信和大多数基于客户端/服务端工具实现的类似于TCP/IP的通信。主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程池的概念,为通过认证安全…...
Spring-JAVA
针对你的问题(211本科、Java开发方向),以下是中级Java开发工程师的晋升时间、薪资水平及技术要求的详细说明,结合国内一线/二线城市现状(数据基于2023年行业调研): 一、晋升中级开发工程师的时间…...
sql的索引与性能优化相关
之前面试的时候,由于在简历上提到优化sql代码,老是会被问到sql索引和性能优化问题,用这个帖子学习记录一下。 1.为什么要用索引 ------------------------------------------------------------------------------------------------------…...
【Git版本控制器】第四弹——分支管理,合并冲突,--no-ff,git stash
🎁个人主页:我们的五年 🔍系列专栏:Linux网络编程 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 相关笔记: https://blog.csdn.net/djd…...
Elasticsearch除了用作查找以外,还能可以做什么?
前言 Elasticsearch用于实时数据分析、日志存储、业务智能等。还有日志与监控、多租户和安全性。以及应用场景包括日志分析、公共数据采集、全文搜索、事件数据、数据可视化。处理错误拼写和支持变体,不过这些可能还是属于搜索优化。企业搜索、日志管理、应用监控、…...
Gradio全解11——使用transformers.agents构建Gradio UI(6)
大模型WebUI:Gradio全解11——使用transformers.agents构建Gradio UI(6) 前言本篇摘要11. 使用transformers.agents构建Gradio UI11.6 通过agents构建Gradio UI11.6.1 ChatMessage数据类1. 数据结构2. 例程11.6.2 构建Gradio UI示例1. 代码及运行2. 代码解读参考文献前言 本…...
自定义实现简版状态机
状态机(State Machine)是一种用于描述系统行为的数学模型,广泛应用于计算机科学、工程和自动化等领域。它通过定义系统的状态、事件和转移来模拟系统的动态行为。 基本概念 状态(State):系统在某一时刻的特…...
算法常见八股问题整理
1.极大似然估计和交叉熵有什么关系 在分类问题中,当我们使用softmax函数作为输出层时,最大化对数似然函数实际上等价于最小化交叉熵损失函数。具体来说,在多分类情况下,最大化该样本的对数似然等价于最小化该样本的交叉熵损失。 交…...
关于GeoPandas库
geopandas buildings gpd.read_file(shapefile_path) GeoDataFrame 对象有一个属性叫做 sindex 空间索引通常是基于 R-树 或其变体构建的,这些数据结构专为空间查询优化,可以显著提高查询效率,尤其是在处理大型数据集时。 buildings_sin…...
【漫话机器学习系列】103.学习曲线(Learning Curve)
学习曲线(Learning Curve)详解 1. 什么是学习曲线? 学习曲线(Learning Curve)是机器学习和深度学习领域中用于评估模型性能随训练过程变化的图示。它通常用于分析模型的学习能力、是否存在过拟合或欠拟合等问题。 从…...
电商运营中私域流量的转化与变现:以开源AI智能名片2+1链动模式S2B2C商城小程序为例
摘要 电商运营的核心目标在于高效地将产品推向市场,实现私域流量的转化和变现。本文以“罗辑思维”的电商实践为背景,探讨了私域流量变现的重要性,并深入分析了开源AI智能名片21链动模式S2B2C商城小程序在电商运营中的应用与价值。通过该模式…...
Python常见面试题的详解19
1. 如何使用Django 中间件 Django 中间件宛如一个灵活且强大的插件系统,它为开发者提供了在请求处理流程的不同关键节点插入自定义代码的能力。这些节点包括请求抵达视图之前、视图完成处理之后以及响应即将返回给客户端之前。借助中间件,我们可以实现诸…...
Python 数据类型转换
目录 整数(int)与浮点数(float)之间的转换 (1)int():将浮点数或字符串转换为整数 (2)float():将整数或字符串转换为浮点数 字符串(str…...
进程概念、PCB及进程查看
文章目录 一.进程的概念进程控制块(PCB) 二.进程查看通过指令查看进程通过proc目录查看进程的cwd和exe获取进程pid和ppid通过fork()创建子进程 一.进程的概念 进程是一个运行起来的程序,而程序是存放在磁盘的,cpu要想执行程序的指…...
PyEcharts 数据可视化:从入门到实战
一、PyEcharts 简介 PyEcharts 是基于百度开源可视化库 ECharts 的 Python 数据可视化工具,支持生成交互式的 HTML 格式图表。相较于 Matplotlib 等静态图表库,PyEcharts 具有以下优势: 丰富的图表类型(30)动态交互功…...
【路由器配置-ACL访问控制列表】
路由器配置-ACL访问控制列表一、概念二、配置1、定义ACL2、接口使用ACL一、概念 1.ACL访问控制列表,是路由器 / 交换机上的一组规则,用来匹配数据包,决定 “允许(permit)” 还是 “拒绝(deny)”…...
Golang怎么做代码热更新_Golang热更新教程【精通】
Go程序无法真正热更新,所谓“热更新”实为外部工具触发的平滑重启或模块重载;fsnotify监听go run仅适用于本地开发,存在进程丢失、请求中断、路径敏感、启动慢、信号与环境变量无法透传等问题。Go 程序根本不能“热更新”,别被名字…...
别再只改颜色了!用ECharts GL给你的3D地图加上背景图和地表纹理(Vue3实战)
别再只改颜色了!用ECharts GL给你的3D地图加上背景图和地表纹理(Vue3实战) 当3D地图成为数据可视化的标配,许多开发者仍停留在基础配色调整阶段。实际上,通过ECharts GL的材质系统与环境配置,完全可以让地图…...
别只用来抓包了!Burp Suite的Filter、Comparer和Decoder模块,帮你高效分析漏洞与调试API
深度挖掘Burp Suite三大隐藏利器:Filter、Comparer与Decoder的高阶应用 Burp Suite作为安全测试领域的瑞士军刀,其核心模块Proxy和Intruder早已被广泛使用。但真正的高手往往更善于利用那些被多数人忽视的辅助模块——Filter、Comparer和Decoder。这些工…...
手把手教你用STM32CubeMX配置SPI2,5分钟搞定RC522门禁卡读写
STM32CubeMX实战:5分钟完成RC522门禁卡系统开发 在物联网和智能硬件快速发展的今天,门禁系统作为安防领域的重要组成部分,正经历着从传统向智能化的转变。而RFID技术凭借其非接触式识别的特性,成为门禁系统的核心技术之一。本文将…...
别再纠结Java private方法怎么测了!用JUnit反射实战,5分钟搞定分支覆盖
破解Java私有方法测试难题:JUnit反射实战指南 在项目冲刺阶段,测试覆盖率报告上那个刺眼的红色数字总是格外醒目——98%的覆盖率卡在一个私有方法上,整个团队都在等待这个指标达标才能发布。作为经历过多次类似场景的老兵,我完全理…...
为什么越来越多的大厂抛弃MCP,转向CLI?
一、MCP的底层原理在理解MCP的问题之前,我们先看看它的工作原理。MCP(Model Context Protocol)是一个客户端-服务器架构的协议,专门用来把外部工具(如文件系统、数据库、GitHub API)“包装”成AI模型可以调…...
GESP2023年9月认证C++三级( 第一部分选择题(9-15))
🏰 第9题 哪个说法不正确?题目:关于数组的说法,不正确的是( )A. 可以定义0个元素的数组 B. 不能定义-1个元素的数组 C. 数组下标越界访问会产生编译错误 D. 程序运行时数组越界,程序仍可能正常结…...
Docker 27监控配置不生效?揭秘被官方文档隐瞒的27个资源配置优先级陷阱(含systemd-unit深度适配方案)
第一章:Docker 27资源监控配置失效现象与根本归因自 Docker v27.0.0 发布以来,大量用户反馈通过 --memory、--cpus 或 cgroupv2 配置的容器资源限制在运行时未生效,docker stats 显示 CPU 使用率持续超限、内存使用突破设定上限,且…...
有限状态机(FSM)原理与应用实例解析
1. 有限状态机基础概念解析有限状态机(Finite State Machine,FSM)是描述离散动态系统的数学模型,它通过有限的状态集合和状态之间的转移来刻画系统行为。想象一下自动售货机的工作原理——它根据投币金额和用户选择,在…...
