Python爬虫——1爬虫基础(一步一步慢慢来)
一、爬虫是什么? (spider)
Python 爬虫是利用编程语言 Python 来获取互联网上的数据的技术。它可以自动化地访问网页、提取信息并进行数据处理。以下是Python爬虫的基础知识和步骤:
主要特点和功能:
-
自动化浏览:爬虫程序能够自动访问和浏览互联网上的各种网页,而无需人工干预。
-
信息抓取:爬虫根据预定的规则和算法,从网页的HTML源码中提取所需的数据。这些数据可以是文本、图片、视频、超链接等。
-
广泛应用:爬虫在搜索引擎索引网页、价格比较网站、新闻聚合、社交媒体分析等领域广泛应用。它们可以帮助自动化地收集和分析大量的数据。
工作原理:
-
发送请求:爬虫首先向目标网站发送HTTP请求,请求特定的网页内容。
-
获取响应:网站接收请求后,返回相应的HTML或XML等格式的页面数据。
-
解析页面:爬虫利用解析器(如Beautiful Soup)分析和解释页面的结构和内容,以便定位和提取所需数据。
-
存储数据:提取到的数据通常会被存储到文件、数据库或其他数据存储系统中,以备后续分析和使用。
应用举例:
-
搜索引擎:爬虫帮助搜索引擎建立和更新网页索引,使得用户可以通过关键词搜索快速找到相关网页。
-
价格比较:电商网站使用爬虫收集竞争对手的价格信息,帮助制定价格策略。
-
新闻聚合:爬虫从多个新闻网站抓取新闻内容,形成一个汇总的新闻平台。
二、基础知识
1.URL:
URL(统一资源定位符)是用于标识和定位互联网上资源的地址。它是通过一种标准化的格式来描述网络资源的位置和访问方式。URL通常由多个部分组成,包括协议、域名或IP地址、路径、查询参数和片段等,具体格式如下:
scheme://host:port/path?query#fragment
https://mp.csdn.net/mp_blog/creation/editor?spm=1001.2014.3001.4503#本网站
-
协议(Scheme):指定访问资源所使用的协议或者服务类型。常见的协议包括:
http:超文本传输协议,用于传输网页数据。https:安全超文本传输协议,使用SSL加密传输网页数据,更安全。ftp:文件传输协议,用于在网络上传输文件。
-
主机(Host):指定资源所在的主机名或者IP地址。例如,
www.example.com或者192.168.1.1。 -
端口(Port,可选):指定访问资源时使用的端口号。大部分情况下,如果未指定,默认使用协议默认的端口(如HTTP默认端口为80,HTTPS默认端口为443)。
-
路径(Path,可选):指定服务器上资源的具体路径或者文件名。例如,
/index.html。 -
查询参数(Query,可选):传递给服务器的额外参数,通常以键值对的形式存在,多个参数之间使用
&分隔。例如,?page=2&category=python。 -
片段(Fragment,可选):标识资源中的一个片段或位置,通常用于直接定位到网页的某个部分。例如,
#section2。
URL被广泛用于网页浏览、API调用、文件下载等场景,是互联网上资源定位的标准方式。浏览器和各种网络应用程序通过解析和使用URL来访问并获取所需的网络资源。
三、前端代码
我们使用爬虫的时候会需要我们解析前端代码,我们使用爬虫时了解前端代码是必须的。
<!DOCTYPE html> 声明为 HTML5 文档
<html>..</html> 是网页的根元素
<head>..</head> 元素包含了文档的元(meta)数据,如 <meta charset="utf-8"> 定义网页编码格式为 utf-8。
<title>..<title> 元素描述了文档的标题
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<ul>..</ul> 定义无序列表
<ol>..</ol>定义有序列表
<li>..</li>表示列表项
<img src="" alt="">表示图片
<h1>..</h1>表示标题
<a href="">..</a>表示超链接
四、合适的库:
Python 中有许多强大的库可用于爬虫,其中最流行和常用的是 requests 和 Beautiful Soup(或 bs4)。
requests:用于发送HTTP请求,获取网页内容。
Beautiful Soup:用于解析HTML或XML文档,提取数据。-
pip install requests pip install Beautiful Soup执行以上命令载入库(win+r,输入cmd,输入执行)
相关文章:
Python爬虫——1爬虫基础(一步一步慢慢来)
一、爬虫是什么? (spider) Python 爬虫是利用编程语言 Python 来获取互联网上的数据的技术。它可以自动化地访问网页、提取信息并进行数据处理。以下是Python爬虫的基础知识和步骤: 主要特点和功能: 自动化浏览&#…...
【js自学打卡9】抛出异常 / 幂计算 / 发布订阅 / map小知识点
1. 抛出异常的写法 抛出一个简单的字符串错误 throw Error2; // 抛出一个字符串抛出一个Error对象 throw new Error(出错了!);抛出一个自定义错误对象 function UserError(message) {this.message message;this.name "UserError"; } throw new User…...
ArcGIS Pro SDK (九)几何 7 多点
ArcGIS Pro SDK (九)几何 7 多点 文章目录 ArcGIS Pro SDK (九)几何 7 多点1 构造多点 - 从映射点的枚举2 构造多点 - 使用 MultipointBuilderEx3 修改多点的点4 从多点检索点、2D 坐标、3D 坐标 环境:Visual Studio 2…...
服务器注意事项
1. 远程服务器不允许关机,只能重启; 2. 重启服务器应关闭服务; 3. 不要在服务器访问高峰运行高负载命令; 4. 远程配置防火墙是不要把自己踢出服务器; 5. 制定合理的密码规范并定期更新; 6. 合理分配权…...
学生信息管理系统设计
学生信息管理系统的设计是一个综合性的项目,涉及到数据的存储、检索、更新和删除等基本操作,同时也需要考虑系统的易用性、安全性和扩展性。以下是一些关键步骤和要素,用于指导设计这样一个系统: 1. 需求分析 目标用户ÿ…...
Python求均值,方差,标准差
参考链接:变异系数(Coefficient of Variation,COV)和协方差(Covariance, Cov)-CSDN博客 参考链接:pandas中std和numpy的np.std区别_numpy pandas std-CSDN博客 在计算蛋白质谱数据中的每个蛋白对应的变异…...
DDei在线设计器-HTML渲染
Html渲染 HtmlViewer插件通过将一个外部DIV附着在图形控件上,从而改变原有图形的显示方式。允许使用者自己定义HTML通过HTML元素。本示例演示了通过Html来扩展渲染图形,从而获得更加丰富的图形展现。 通常情况下,我们创建的图形控件ÿ…...
【React Hooks原理 - useSyncExternalStore】
概述 在React项目中说到状态管理,我们第一时间想到的就是使用useState、useReducer这种Hooks来进行状态管理。但是这种是针对React内部的状态,如果有时候我们需要订阅外部的状态并影响React组件的更新的话,那通过这种内部状态管理API显然不能…...
C++STL初阶(7):list的运用与初步了解
在了解了vector之后,我们只需要简单学习List与vector不一样的接口即可 1.list的基本接口 1.1 iterator list中,与vector最大的区别就是迭代器由随机迭代器变成双向迭代器 string和vector中的迭代器都是随机迭代器,支持-等,而LIS…...
el-menu弹出菜单样式不生效
1. 使用 ruoyi 项目时出现的问题。 <template><el-menu:default-active"activeMenu":collapse"false":unique-opened"true"class"container":collapse-transition"true"mode"horizontal"><sideba…...
Springboot 3.x - Reactive programming (2)
三、WebFlux Blocking Web vs. Reactive Web Blocking Web (Servlet) and Reactive Web (WebFlux) have significant differences in several aspects. 1. Front Controller Servlet-Blocking Web: Uses DispatcherServlet as the front controller to handle all HTTP req…...
WPF+Mvvm 项目入门完整教程(一)
WPF+Mvvm 入门完整教程一 创建项目MvvmLight框架安装完善整个项目的目录结构创建自定义的字体资源下载更新和使用字体资源创建项目 打开VS2022,点击创建新项目,选择**WPF应用(.NET Framework)** 创建一个名称为 CommonProject_DeskTop 的项目,如下图所示:MvvmLight框架安装…...
[解决方法]git上传的项目markdown文件的图片无法显示
应该有不少初学者会遇到这种情况 以下是本人摸索出的解决方法 我使用的是typora,首先设置typora的图片设置 文件>偏好设置>图像 如下: 选择这个就会在此文件的同级目录下创建一个assets文件夹来存放此markdown文件的所有图片 然后勾选优先使用相…...
【React】使用 antd 加载组件实现 iframe 的加载效果
文章目录 代码实现: import { Spin } from antd; import { useState } from react;export default function () {const [loading, setLoading] useState(true);return (<div style{{ position: relative, height: 100% }}><Spinstyle{{ position: absolu…...
Python爬虫(1) --基础知识
爬虫 爬虫是什么? spider 是一种模仿浏览器上网过程的一种程序,可以获取一些网页的数据 基础知识 URL 统一资源定位符 uniform resource locator http: 超文本传输协议 HyperText Transfer Protocol 默认端口 80 https: 安全的超文本传输协议 security…...
云原生系列 - Jenkins
Jenkins Jenkins,原名 Hudson,2011 年改为现在的名字。它是一个开源的实现持续集成的软件工具。 官方网站(英文):https://www.jenkins.io/ 官方网站(中文):https://www.jenkins.io…...
django踩坑(四):终端输入脚本可正常执行,而加入crontab中无任何输出
使用crontab执行python脚本时,有时会遇到脚本无法执行的问题。这是因为crontab在执行任务时使用的环境变量与我们在终端中使用的环境变量不同。具体来说,crontab使用的环境变量是非交互式(non-interactive)环境变量,而终端则使用交互式(inter…...
计算机网络入门 -- 常用网络协议
计算机网络入门 – 常用网络协议 1.分类 1.1 模型回顾 计算机网络细分可以划为七层模型,分别是物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。而上三层可以划为应用层中。 1.2 分类 1.2.1 应用层 为用户的应用进程提供网络通信服务࿰…...
【LabVIEW作业篇 - 4】:属性节点赋值和直接节点赋值的区别体现
文章目录 属性节点赋值和直接节点赋值的区别体现 属性节点赋值和直接节点赋值的区别体现 创建5个圆形指示灯,然后循环点亮,先给圆形指示灯赋值假变量,然后再进行循环。 运行结果,观察结果,发现刚开始运行时࿰…...
【数据库系列】Parquet 文件介绍
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…...
当多线雷达遇上RTK:一个能跑工业现场的SLAM方案
多传感器融合建图及定位的工程化落地方案,多线雷达rtk;室内室外导航都适用。 包含部署文档和代码注释;包含工程落地角度的优化。 不含运动控制。 室外场景用RTK信号稳如老狗,一进厂房立马抓瞎;多线雷达在室内横扫千军…...
Anaconda+AKShare保姆级教程:5分钟搞定Python量化环境(附常见报错解决方案)
AnacondaAKShare极速配置指南:零基础搭建Python量化环境全攻略 刚接触量化投资的新手们,往往在第一步——环境搭建上就卡壳了。明明跟着教程一步步操作,却总是遇到各种报错提示,让人望而生畏。本文将手把手带你用Anaconda和AKSha…...
开源像素艺术大模型教程:Pixel Dream Workshop Windows/Mac双平台部署
开源像素艺术大模型教程:Pixel Dream Workshop Windows/Mac双平台部署 1. 像素幻梦创意工坊简介 Pixel Dream Workshop(像素幻梦创意工坊)是一款基于FLUX.1-dev扩散模型的像素艺术生成工具。它采用独特的16-bit像素风格界面设计,…...
Dlib零基础避坑指南:Windows Python环境一键部署实战
Dlib零基础避坑指南:Windows Python环境一键部署实战 【免费下载链接】Dlib_Windows_Python3.x Dlib compiled binary (.whl) for Python 3.7-3.11 and Windows x64 项目地址: https://gitcode.com/gh_mirrors/dl/Dlib_Windows_Python3.x 副标题:…...
Qwen3.5-4B-Claude推理模型在算法面试辅导中的实战:分步推导+代码示例生成
Qwen3.5-4B-Claude推理模型在算法面试辅导中的实战:分步推导代码示例生成 1. 模型介绍与核心能力 Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF是一个专门针对推理任务优化的AI模型,它基于Qwen3.5-4B架构,通过蒸馏训练强化了结构化…...
别再只调库了!拆解一个智能家居语音项目,聊聊STM32裸机开发中多任务处理的几种实用思路
裸机开发的艺术:STM32智能家居项目中多任务处理的五种高阶策略 从智能家居项目看裸机开发的挑战与机遇 在嵌入式开发领域,RTOS(实时操作系统)的普及让许多开发者形成了思维定式——面对多任务需求时,第一反应往往是移植…...
WebSocket代理避坑指南:Nginx中proxy_set_header的3个关键配置项
WebSocket代理实战:Nginx中proxy_set_header的3个黄金法则 当在线聊天室的用户突然集体掉线,或是实时协作文档频繁失去同步时,问题往往藏在那些容易被忽视的HTTP头信息里。WebSocket作为现代实时应用的血管,其代理配置的精细程度直…...
OpCore-Simplify智能构建:OpenCore EFI自动化生成的效率提升实践
OpCore-Simplify智能构建:OpenCore EFI自动化生成的效率提升实践 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 用户场景:黑苹…...
旧手机秒变4K摄像头:Iriun Webcam保姆级配置指南(附USB连接技巧)
旧手机秒变4K摄像头:Iriun Webcam保姆级配置指南(附USB连接技巧) 你是否曾为台式机缺少高清摄像头而烦恼?又或者手头闲置的安卓手机不知如何利用?将旧手机改造成专业级4K摄像头,不仅成本低廉,还…...
3分钟快速上手!Balena Etcher终极镜像烧录工具完全指南
3分钟快速上手!Balena Etcher终极镜像烧录工具完全指南 【免费下载链接】etcher Flash OS images to SD cards & USB drives, safely and easily. 项目地址: https://gitcode.com/GitHub_Trending/et/etcher Balena Etcher是一款革命性的跨平台镜像烧录工…...
