一、初始爬虫
1.爬虫的相关概念
1.1 什么是爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地爬取互联网信息的程序。
原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。
1.2 如何获取爬虫程序
-
下载其他公司开发的通用爬虫(八爪鱼)
-
开发人员自己编写
1.3 区别
通用爬虫:可以提取大多数网站的数据,但是对于网站中某些特殊数据的提取范式没有实现
自定义爬虫:可以针对某一种网站自行开发符号要求的爬虫
1.4 开发语言
只要能够发送HTTP(S)请求的任何编程语言都是可以完成爬虫程序的,例如:C++、java、php、JavaScript等待,但是论爬虫开发效率一般都指的是python语言。
1.5 爬虫分类
根据抓取网站的数量不同,大致将爬虫分为两种:
- 通用爬虫:通常指搜索引擎的爬虫,例如:https://www.baidu.com
- 聚焦爬虫:针对特定网站的爬虫
2.爬虫流程
聚焦爬虫代码执行流程:

流程说明:
- 向起始地址发送请求,并获取响应
- 对响应结果进行数据提取
- 如果获取的数据是新的网站地址则继续发送请求并获取响应
- 如果获取的数据为页面需要的数据则完成数据保存
3.HTTP与HTTPS协议
目前大部分网站时基于HTTP与HTTPS进行网络交互的,在爬虫程序中也是发送网络协议来获取对应的网站信息,所以还是有必要了解网络协议。
3.1 HTTP与HTTPS相关概念
- HTTP
- 超文本传输协议
- 默认端口号:80
- HTTPS
- HTTP+SSL(安全套接字层),即带有安全套接字层的超文本传输协议
- 默认端口号:443
HTTPS比HTTP更安全,但是性能更低
HTTP协议的重要信息
我们想要给浏览器发送信息并显示,就必须要带上HTTP协议。HTTP协议中有一部分数据对爬虫程序来说非常重要。分别时请求头与响应头。
常见的请求头参数:
- Host(主机和端口号)
- Connection(链接类型)
- Upgrade-Insecure-Requests(升级为HTTPS请求)
- User-Agent(浏览器名称)
- Accept(传输文件类型)
- Referer(页面跳转处)
- Accept-Encoding(文件编解码格式)
- Cookie(Cookie信息)
- x-requested-with:XMLHttpRequest(表示该请求是Ajax异步请求)
响应头参数:
- Set-Cookie(对方服务器设置cookie到用户浏览器的缓存)
响应状态码:
- 200:成功
- 302:临时转移至新的url(一般会用GET,例如原本是POST则新的请求则是GET)
- 307:临时转移至新的url(原本是POST则新的请求依然是POST)
- 403:无请求权限
- 404:找不到该页面
- 500:服务器内部错误
- 503:服务不可用,一般是被反爬
3.2 浏览器发送HTTP请求过程

- 客户端发送网站域名到DNS服务器
- DNS服务器返回IP地址到客户端
- 客户端根据返回的IP地址访问网站后端服务器并请求网站资源
- 网站后端服务器返回对应页面资源
3.3 robots协议
网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,但它仅仅是互联网中的约定而已,可以不用遵守。
3.4 谷歌浏览器插件
- XPath Helper
- Web Scraper
- Toggle JavaScript
- User-Agent Switcher for Chrome
- EditThisCookie
- SwitchSharp
插件下载地址:
- https://extfans.com/
- https://chrome.zzzmh.cn/#/index
3.5 请求测试软件
PostMan : https://www.postman.com/downloads
ApiPost : https://www.apipost.cn/download.html
4.编码
字符是各种文字和符号的总称,包括国家文字、标点符号、图形符号、数字等等。
字符集是多个字符的集合,字符集包括:ASCII、GB2312、Unicode等等。UTF-8是Unicode的实现方式之一。
Python3中的字符串:
- str: unicode的呈现
- bytes:字节类型,互联网上的数据都以二进制的方式传输的
str 与 bytes 类型的互相转换
- str 使用 encode 方法转换为 bytes
str_code='abc'
print(type(str_code))byte_code=str_code.encode()
print(type(byte_code))
- bytes 使用 decode 方法转换为str
byte_code=b'abc'
print(type(byte_code))str_code=byte_code.decode()
print(type(str_code))
注意:编码方式必须和解码方式一样,否则就会出现乱码问题。例如使用utf-8编码,那么就必须使用utf-8解码。
相关文章:
一、初始爬虫
1.爬虫的相关概念 1.1 什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地爬取互联网信息的程序。 原则上,只要是浏览器…...
《A++ 敏捷开发》- 16 评审与结对编程
客户:我们的客户以银行为主,他们很注重质量,所以一直很注重评审。他们对需求评审、代码走查等也很赞同,也能找到缺陷,对提升质量有作用。但他们最困惑的是通过设计评审很难发现缺陷。 我:你听说过敏捷的结对…...
jar、war、pom
1. <packaging>jar</packaging> 定义与用途 用途:默认打包类型,生成 JAR 文件(Java Archive),适用于普通 Java 应用或库。 场景: 开发工具类库(如 commons-lang.jar)。…...
WSL2安装过程记录
WSL2安装过程记录 1 先决条件2 安装WSL3 安装Linux4 图形化界面 因为命令安装的时候会直接将linux发行版安装到C盘,对于系统盘容量小和介意不能自定义安装位置的用户来说,非常不友好,所以我这里采用手动安装的方式, 命令安装可以参…...
HTML列表,表格和表单
列表 在 HTML 中,列表(List)是常见的一种布局方式。列表分为两种类型:有序列表(Ordered List)和无序列表(Unordered List)。 无序列表 无序列表(Unordered List&#…...
Mysql进阶篇
存储引擎 Mysql体系结构 1). 连接层 最上层是一些客户端和链接服务,包含本地sock 通信和大多数基于客户端/服务端工具实现的类似于TCP/IP的通信。主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程池的概念,为通过认证安全…...
Spring-JAVA
针对你的问题(211本科、Java开发方向),以下是中级Java开发工程师的晋升时间、薪资水平及技术要求的详细说明,结合国内一线/二线城市现状(数据基于2023年行业调研): 一、晋升中级开发工程师的时间…...
sql的索引与性能优化相关
之前面试的时候,由于在简历上提到优化sql代码,老是会被问到sql索引和性能优化问题,用这个帖子学习记录一下。 1.为什么要用索引 ------------------------------------------------------------------------------------------------------…...
【Git版本控制器】第四弹——分支管理,合并冲突,--no-ff,git stash
🎁个人主页:我们的五年 🔍系列专栏:Linux网络编程 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 相关笔记: https://blog.csdn.net/djd…...
Elasticsearch除了用作查找以外,还能可以做什么?
前言 Elasticsearch用于实时数据分析、日志存储、业务智能等。还有日志与监控、多租户和安全性。以及应用场景包括日志分析、公共数据采集、全文搜索、事件数据、数据可视化。处理错误拼写和支持变体,不过这些可能还是属于搜索优化。企业搜索、日志管理、应用监控、…...
Gradio全解11——使用transformers.agents构建Gradio UI(6)
大模型WebUI:Gradio全解11——使用transformers.agents构建Gradio UI(6) 前言本篇摘要11. 使用transformers.agents构建Gradio UI11.6 通过agents构建Gradio UI11.6.1 ChatMessage数据类1. 数据结构2. 例程11.6.2 构建Gradio UI示例1. 代码及运行2. 代码解读参考文献前言 本…...
自定义实现简版状态机
状态机(State Machine)是一种用于描述系统行为的数学模型,广泛应用于计算机科学、工程和自动化等领域。它通过定义系统的状态、事件和转移来模拟系统的动态行为。 基本概念 状态(State):系统在某一时刻的特…...
算法常见八股问题整理
1.极大似然估计和交叉熵有什么关系 在分类问题中,当我们使用softmax函数作为输出层时,最大化对数似然函数实际上等价于最小化交叉熵损失函数。具体来说,在多分类情况下,最大化该样本的对数似然等价于最小化该样本的交叉熵损失。 交…...
关于GeoPandas库
geopandas buildings gpd.read_file(shapefile_path) GeoDataFrame 对象有一个属性叫做 sindex 空间索引通常是基于 R-树 或其变体构建的,这些数据结构专为空间查询优化,可以显著提高查询效率,尤其是在处理大型数据集时。 buildings_sin…...
【漫话机器学习系列】103.学习曲线(Learning Curve)
学习曲线(Learning Curve)详解 1. 什么是学习曲线? 学习曲线(Learning Curve)是机器学习和深度学习领域中用于评估模型性能随训练过程变化的图示。它通常用于分析模型的学习能力、是否存在过拟合或欠拟合等问题。 从…...
电商运营中私域流量的转化与变现:以开源AI智能名片2+1链动模式S2B2C商城小程序为例
摘要 电商运营的核心目标在于高效地将产品推向市场,实现私域流量的转化和变现。本文以“罗辑思维”的电商实践为背景,探讨了私域流量变现的重要性,并深入分析了开源AI智能名片21链动模式S2B2C商城小程序在电商运营中的应用与价值。通过该模式…...
Python常见面试题的详解19
1. 如何使用Django 中间件 Django 中间件宛如一个灵活且强大的插件系统,它为开发者提供了在请求处理流程的不同关键节点插入自定义代码的能力。这些节点包括请求抵达视图之前、视图完成处理之后以及响应即将返回给客户端之前。借助中间件,我们可以实现诸…...
Python 数据类型转换
目录 整数(int)与浮点数(float)之间的转换 (1)int():将浮点数或字符串转换为整数 (2)float():将整数或字符串转换为浮点数 字符串(str…...
进程概念、PCB及进程查看
文章目录 一.进程的概念进程控制块(PCB) 二.进程查看通过指令查看进程通过proc目录查看进程的cwd和exe获取进程pid和ppid通过fork()创建子进程 一.进程的概念 进程是一个运行起来的程序,而程序是存放在磁盘的,cpu要想执行程序的指…...
PyEcharts 数据可视化:从入门到实战
一、PyEcharts 简介 PyEcharts 是基于百度开源可视化库 ECharts 的 Python 数据可视化工具,支持生成交互式的 HTML 格式图表。相较于 Matplotlib 等静态图表库,PyEcharts 具有以下优势: 丰富的图表类型(30)动态交互功…...
从乐天到沃达丰:拆解Open RAN真实部署中,O-RU供应商们都在解决哪些具体问题?
从乐天到沃达丰:拆解Open RAN真实部署中O-RU供应商的技术突围战 当日本乐天移动在2020年宣布全球首个全虚拟化Open RAN网络商用部署时,业界目光不约而同聚焦到那些支撑起这个"颠覆性实验"的O-RU(开放式射频单元)供应商身…...
RocketMQ控制台查不到生产组?别慌,这可能是Producer的‘隐身术’
RocketMQ生产组"隐身"现象全解析:从生命周期到持久化配置 第一次使用RocketMQ控制台时,很多开发者都会遇到这样的困惑:明明用示例代码成功发送了消息,却在控制台的"生产者"列表里找不到对应的生产组信息。这就…...
python bcrypt
# 聊聊Python里的加密库:PyCryptodome 今天想和大家分享一个在Python加密领域里经常被用到的库,叫PyCryptodome。如果你在项目里处理过密码、加密文件或者设计过安全通信,很可能已经和它打过交道了。这个库表面上看起来只是一个工具集&#x…...
企业网实战:如何为不同部门(市场/研发)划分隔离的无线网络?华为AC+AP多SSID配置指南
企业无线网络隔离实战:基于华为ACAP的多SSID部门隔离方案 当市场部的同事在会议室播放产品演示视频时,研发部的代码仓库正在被持续集成工具频繁访问——这两种截然不同的网络使用场景如果共享同一个无线网络,不仅可能因带宽争抢导致体验下降&…...
Debian 11上Qt程序中文输入失效?手把手教你编译fcitx5-qt插件(Qt6/Qt5通用)
Debian 11上Qt程序中文输入失效的终极解决方案:从原理到实践 刚在Debian 11上完成Qt应用的开发,却发现无法通过fcitx输入中文?这可能是Linux桌面开发中最令人抓狂的问题之一。作为开发者,我们期望的是流畅的编码体验,而…...
Inspirit Capital将收购Kaplan Languages Group
专注于企业分拆业务投资的Inspirit Capital欣然宣布,计划从Kaplan手中收购全球领先的语言教育平台KLG Kaplan Languages Group (“KLG”)。本次出售的所有条件均已达成,预计交易将于5月1日完成。 KLG旗下拥有Kaplan International Languages、Alpadia L…...
从无人机避障到VR手柄:聊聊双目立体视觉中‘极线校正’为什么是性能瓶颈的救星
从无人机避障到VR手柄:双目立体视觉中极线校正的技术突围 当你的无人机在树林间灵巧穿行,或是VR手柄在虚拟世界中精准定位时,背后都藏着一项关键技术——极线校正。这项看似晦涩的算法优化,实则是让实时三维感知成为可能的"隐…...
SAP OOALV隐藏按钮避坑指南:别再用`no_toolbar`了,这才是正确姿势
SAP OOALV工具栏控制实战:从粗暴隐藏到精准定制 刚接触SAP OOALV开发时,面对满屏的标准工具栏按钮,很多ABAP开发者第一反应就是直接关闭整个工具栏——这就像因为不喜欢客厅里的一盏灯而把整个电闸拉掉。is_layout-no_toolbar X确实能一键清…...
3步完成Windows平台ADB和Fastboot驱动一键安装完整指南
3步完成Windows平台ADB和Fastboot驱动一键安装完整指南 【免费下载链接】Latest-adb-fastboot-installer-for-windows A Simple Android Driver installer tool for windows (Always installs the latest version) 项目地址: https://gitcode.com/gh_mirrors/la/Latest-adb-f…...
告别日志洪水:深度优化rsyslog与journald配置,根治容器化环境内存泄漏
告别日志洪水:深度优化rsyslog与journald配置,根治容器化环境内存泄漏 当你在凌晨三点被监控告警惊醒,发现Kubernetes节点因为OOM被逐出集群时,那种绝望感就像面对一场突如其来的洪水。而这场洪水的源头,往往来自两个默…...
