Python 爬虫(4)HTTP协议
文章目录
- 一、HTTP协议
- 1、HTTP特点
- 2、HTTP工作原理
- 3、HTTP与HTTPS的区别
前言:
HTTP(HyperText Transfer Protocol,超文本传输协议)是互联网上应用最为广泛的一种网络协议,用于在客户端和服务器之间传输超文本(如HTML文件)。HTTP协议是Web的基础,它定义了客户端如何请求资源以及服务器如何响应这些请求。
一、HTTP协议
1、HTTP特点
HTTP协议具有以下特点:
- 简单快速:客户端向服务器发送请求时,只需指明请求方法、资源路径等必要信息,服务器能够快速理解并处理请求,返回相应的结果。例如,使用GET方法请求一个HTML页面,服务器直接返回该页面的内容。
- 灵活可扩展:HTTP协议允许传输各种类型的数据,如文本、图片、音频、视频等,通过在请求头和响应头中设置不同的字段来标识数据类型和相关信息。同时,协议自身也易于扩展,能够适应不断发展的网络应用需求,例如新增请求方法或状态码等。
- 无连接:在HTTP 1.0版本中,每次请求 - 响应完成后,连接就会被关闭。这意味着服务器在处理完一个请求后,不会保留与客户端的连接状态,下次客户端再次请求时需要重新建立连接。不过,HTTP 1.1版本默认支持持久连接,多个请求可以在同一个连接上进行,提高了性能。
- 无状态:服务器不会记住客户端的请求状态,每个请求都是独立的。也就是说,服务器无法区分连续的多个请求是否来自同一个客户端,也不记得客户端之前的请求信息。这种特性使得HTTP协议简单高效,但在实现一些需要记录用户状态的功能(如用户登录、购物车等)时,需要借助其他技术(如Cookie、Session等)来弥补。
- 基于请求 - 响应模型:客户端发起请求,服务器根据请求进行处理并返回响应。客户端和服务器之间的交互是单向的,由客户端主动发起请求,服务器被动响应请求,服务器不会主动向客户端发送数据,除非客户端先发起请求。
- 支持缓存:HTTP协议允许在客户端、服务器或中间代理服务器上设置缓存机制。通过合理设置缓存,可以避免重复请求相同的资源,提高访问速度和性能,减少网络带宽占用。例如,浏览器可以缓存网页的静态资源,下次访问相同页面时直接从本地缓存中获取,而无需再次从服务器下载。
- 明文传输:HTTP协议以明文形式传输数据,包括请求和响应的内容。这使得数据在传输过程中容易被监听、窃取和篡改,存在一定的安全风险。为了解决这个问题,衍生出了HTTPS协议,通过SSL/TLS对数据进行加密传输。
2、HTTP工作原理
HTTP协议基于请求-响应模型,工作原理可以概括为以下几个步骤:
- 建立连接:客户端(通常是浏览器)通过TCP/IP协议与服务器建立连接。默认情况下,HTTP使用80端口。
- 发送请求:客户端向服务器发送一个HTTP请求。请求由请求行、请求头和请求体组成。
- 请求行:包含请求方法(如GET、POST)、请求的资源路径(URL)和HTTP版本。
- 请求头:包含一些附加信息,如客户端类型、接受的内容类型等。
- 请求体:在POST或PUT请求中,包含发送给服务器的数据。
- 处理请求:服务器接收到请求后,根据请求的内容进行处理。服务器可能会读取数据库、执行脚本或访问文件系统来生成响应。
- 发送响应:服务器将处理结果封装成HTTP响应,发送回客户端。响应由状态行、响应头和响应体组成。
- 状态行:包含HTTP版本、状态码(如200表示成功,404表示未找到)和状态消息。
- 响应头:包含一些附加信息,如服务器类型、内容类型等。
- 响应体:包含实际返回的数据,如HTML页面或JSON数据。
- 关闭连接:在HTTP/1.0中,每次请求-响应后连接会关闭。在HTTP/1.1中,默认使用持久连接,可以在同一个连接上发送多个请求和响应。
3、HTTP与HTTPS的区别
HTTPS(HyperText Transfer Protocol Secure)是HTTP的安全版本,它在HTTP的基础上加入了SSL/TLS协议,提供了数据加密、身份验证和数据完整性保护。以下是HTTP与HTTPS的主要区别:
- 安全性:
- HTTP:数据以明文传输,容易被窃听和篡改。
- HTTPS:通过SSL/TLS加密传输数据,确保数据在传输过程中不被窃听和篡改。
- 端口:
- HTTP:默认使用80端口。
- HTTPS:默认使用443端口。
- 证书:
- HTTP:不需要证书。
- HTTPS:需要从受信任的证书颁发机构(CA)获取SSL/TLS证书,用于验证服务器身份。
- 性能:
- HTTP:由于没有加密和解密过程,性能较高。
- HTTPS:由于加密和解密过程,性能稍低,但随着硬件和协议的优化,差距逐渐缩小。
相关文章:
Python 爬虫(4)HTTP协议
文章目录 一、HTTP协议1、HTTP特点2、HTTP工作原理3、HTTP与HTTPS的区别 前言: HTTP(HyperText Transfer Protocol,超文本传输协议)是互联网上应用最为广泛的一种网络协议,用于在客户端和服务器之间传输超文本…...
Simple-BEV的bilinear_sample 作为view_transformer的解析,核心是3D-2D关联点生成
文件路径models/view_transformers 父类 是class BiLinearSample(nn.Module)基于https://github.com/aharley/simple_bev。 函数解析 函数bev_coord_to_feature_coord的功能 将鸟瞰图3D坐标通过多相机(针孔/鱼眼)内外参投影到图像特征平面࿰…...
Midscene.js自然语言驱动的网页自动化全指南
一、概述 网页自动化在数据抓取、UI 测试和业务流程优化中发挥着重要作用。然而,传统工具如 Selenium 和 Puppeteer 要求用户具备编程技能,编写复杂的选择器和脚本维护成本高昂。Midscene.js 通过自然语言接口革新了这一领域,用户只需描述任…...
同一个局域网的话 如何访问另一台电脑的ip
在局域网内访问另一台电脑,可以通过以下几种常见的方法来实现: 直接通过IP地址访问: 首先,确保两台电脑都连接在同一个局域网内。获取目标电脑的IP地址,这可以通过在目标电脑上打开命令提示符(Windows系…...
基于SpringBoot的名著阅读网站
作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…...
Excel(实战):INDEX函数和MATCH函数、INDEX函数实战题
目录 经典用法两者嵌套查值题目解题分析 INDEX巧妙用法让数组公式,自动填充所有、有数据的行/列INDEX函数和SEQUENCE函数 经典用法两者嵌套查值 题目 根据左表查询这三个人的所有数据 解题分析 INDEX函数的参数:第1个参数是选定查找范围,…...
希尔排序中的Hibbard序列
一 定义 Hibbard序列的每个元素由以下公式生成: h_k = 2^k - 1 其中k从1开始递增,序列为:1, 3, 7, 15, 31, 63, … 二 生成方式 起始条件:k=1,对应h_1=2^1-1=1 递推公式:每次k增加1,计算 h_{k+1}=2^{k+1}-1 示例:前5项…...
uniapp超简单ios截屏和上传app store构建版本方法
假如使用windows开发ios的应用,上架的时候,你会发现,上架需要ios应用多种尺寸的ios设备的截图,和需要xcode等工具将打包好的ipa文件上传到app store的构建版本。 大部分情况下,我们的公司都没有这么多款ios设备来…...
Netty源码—5.Pipeline和Handler一
大纲 1.Pipeline和Handler的作用和构成 2.ChannelHandler的分类 3.几个特殊的ChannelHandler 4.ChannelHandler的生命周期 5.ChannelPipeline的事件处理 6.关于ChannelPipeline的问题整理 7.ChannelPipeline主要包括三部分内容 8.ChannelPipeline的初始化 9.ChannelPi…...
Netlify 的深度解析及使用指南
以下是关于 Netlify 的深度解析及使用指南,结合其核心功能与用户需求,提供一站式解决方案: 一、Netlify 核心优势 全托管静态网站服务Netlify 提供从代码托管、自动化构建到全球 CDN 加速的全流程服务,支持 HTML/CSS/JS 静态资源及…...
MySQL小练习
目录 一、单表查询 二、多表查询 一、单表查询 素材: 表名:worker-- 表中字段均为中文,比如 部门号 工资 职工号 参加工作 等 CREATE TABLE worker ( 部门号 int(11) NOT NULL, 职工号 int(11) NOT NULL, 工作时间 date NOT NULL, 工资 float…...
Apache Hive:基于Hadoop的分布式数据仓库
Apache Hive 是一个基于 Apache Hadoop 构建的开源分布式数据仓库系统,支持使用 SQL 执行 PB 级大规模数据分析与查询。 主要功能 Apache Hive 提供的主要功能如下。 HiveServer2 HiveServer2 服务用于支持接收客户端连接和查询请求。 HiveServer2 支持多客户端…...
推荐算法分析
一、性能分析指标 1. 准确性指标(Accuracy Metrics) 衡量推荐系统预测评分的准确性,包括: ✅ RMSE(均方根误差, Root Mean Squared Error) 解释:衡量预测评分 (\hat{r}_i) 和真实评分 (r_i)…...
vllm 离线推理Qwen2.5-VL-Instruct,API部署,支持max_pixels
使用这里的最新镜像: https://www.dong-blog.fun/post/1799 启动环境 docker run -it --rm --gpus "device=1,2" \ --net host \ -v ./zizhi_merge_2025-1/:/Qwen2.5-VL-Instruct \ -v ./test:/test \...
检波、限幅、钳位电路
检波电路: 类似调制收音机信号:输入的基波和载波叠加成调制信号(信号需要长距离里传输,频率要高,M级别的频率,所以要把低频信号叠在高频信号,才能把低频信号长距离传输,最后到达接收…...
学习threejs,使用TextGeometry文本几何体
👨⚕️ 主页: gis分享者 👨⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.TextGeometry1.1.1 ☘…...
Go红队开发—CLI框架(一)
CLI开发框架 命令行工具开发,主要是介绍开发用到的包,集成了一个框架,只要学会了基本每个人都能开发安全工具了。 该文章先学flags包,是比较经典的一个包,相比后面要学习的集成框架这个比较自由比较细化点࿰…...
解决点击按钮页面自动刷新
在React中,当你点击按钮时,如果按钮的type属性没有明确指定,它的默认值是submit。这意味着如果这个按钮被放置在一个<form>表单中,点击它会触发表单的提交行为,导致页面刷新。 在你的代码中,展开/折叠…...
高效团队开发的工具与方法 引言
引言 在现代软件开发领域,团队协作的效率和质量直接决定了项目的成败。随着项目规模的扩大和技术复杂度的增加,如何实现高效团队开发成为每个开发团队必须面对的挑战。高效团队开发不仅仅是个人技术能力的简单叠加,更需要借助合适的工具和方…...
【Java全栈进阶架构师实战:从设计模式到SpringCloudAlibaba,打造高可用系统】
🌟 分享一个教程,助刚踏入IT行业、工作几年的老油条、或热爱学习的工作党们更上一层楼的! 🌟 适合人群:初中级Java开发者、求职面试备战者、技术提升党! 📚 内容亮点: 1️⃣ …...
[蓝桥杯 2023 省 A] 异或和之和
题目来自洛谷网站: 暴力思路: 先进性预处理,找到每个点位置的前缀异或和,在枚举区间。 暴力代码: #include<bits/stdc.h> #define int long long using namespace std; const int N 1e520;int n; int arr[N…...
TDengine 3.3.2.0 集群报错 Post “http://buildkitsandbox:6041/rest/sql“
修复: vi /etc/hosts将buildkitsandbox映射为本机节点...
vue数据重置
前言 大家在开发后台管理系统的过程中,一定会遇到一个表格的条件查询重置功能吧,如果说查询条件少,重置起来还算是比较简单,如果元素特别多呢,那玩意写起来可遭老罪喽,那今天就给大家整一个如何快速重置数…...
22、web前端开发之html5(三)
六. 离线存储与缓存 在网络环境不稳定或需要优化资源加载速度的场景下,离线存储与缓存技术显得尤为重要。HTML5引入了多种离线存储和缓存机制,帮助开发者提升用户体验。本节将详细介绍Application Cache、localStorage、sessionStorage以及IndexedDB等技…...
git revert 用法实战:撤销一个 commit 或 merge
git revert 1 区别 • 常规的 commit (使用 git commit 提交的 commit) • merge commit 2 首先构建场景 master上的代码 dev开发分支上,添加一个a标签,并commit这次提交 切到master上,再次进行改动和提交 将de…...
修形还是需要再研究一下
最近有不少小伙伴问到修形和蜗杆砂轮的问题,之前虽然研究过一段时间,但是由于时间问题放下了,最近想再捡起来。 之前计算的砂轮齿形是一整段的,但是似乎这种对于有些小伙伴来说不太容易接受,希望按照修形的区域进行分…...
AI本地部署之dify
快捷目录 Windows 系统一、环境准备:首先windows 需要准备docker 环1. 安装Docker desktop2. 安装Docker3. 配置Docker 镜像路径4. 配置Docker 下载镜像源5. 重启Docker服务二、Dify 下载和安装1. Dify下载2. Dify 配置3. Dify 安装附件知识:4. Dify创建账号三、下载Ollama d…...
安恒春招一面
《网安面试指南》https://mp.weixin.qq.com/s/RIVYDmxI9g_TgGrpbdDKtA?token1860256701&langzh_CN 5000篇网安资料库https://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247486065&idx2&snb30ade8200e842743339d428f414475e&chksmc0e4732df793fa3bf39…...
GPIO八种模式的应用场景总结
以下是 GPIO不同模式及其适用应用场景的详细总结: GPIO模式分类及适用场景 GPIO模式电气特性典型应用场景关键注意事项浮空输入引脚电平由外部信号决定,无内部上拉/下拉电阻• 按键检测(外接物理上拉/下拉)• 数字信号输入&#…...
Python应用指南:利用高德地图API获取POI数据(关键词版)
都说“为一杯奶茶愿意赴一座城”,曾经不知有多少年轻人为了一口茶颜悦色不惜跨越千里来到长沙打卡,而如今也有不少年轻人被传说中的“奶茶界的海底捞”所吸引,千里迢迢来到安徽只为尝一口卡旺卡奶茶。要说起来这卡旺卡奶茶,尽管这…...
