当前位置: 首页 > article >正文

Python爬虫开发基础案例:构建可复用的名言采集系统

一、项目背景与技术选型

1.1 爬虫技术应用场景

网络爬虫作为数据采集的核心技术,在舆情监控、价格比对、学术研究等领域发挥着重要作用。本案例选择quotes.toscrape.com作为目标网站,因其具有以下典型特征:

  • 公开允许爬取的测试环境
  • 清晰的HTML结构(div.quote容器)
  • 包含分页机制与登录验证等进阶功能接口

1.2 技术栈对比分析

工具适用场景本案例选择理由
requests简单静态页面请求轻量级HTTP客户端库
BeautifulSoupHTML/XML解析支持多种解析器,API简洁易用
Scrapy大型分布式爬虫项目当前项目复杂度无需框架支持
Selenium动态渲染页面抓取目标网站为纯静态页面

二、核心代码深度解析

2.1 请求工程化实现

# 精细化请求头配置(扩展版)
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)','Accept-Language': 'zh-CN,zh;q=0.9','Referer': 'https://quotes.toscrape.com/login'  # 模拟真实访问路径
}# 带重试机制的请求方法
def safe_request(url, retry=3):for _ in range(retry):try:resp = requests.get(url, headers=headers, timeout=8)if resp.status_code == 200:return respexcept (Timeout, ConnectionError):time.sleep(2**retry)  # 指数退避策略raise Exception("请求失败")

​关键技术点​​:

  • 请求头伪装(User-Agent/Language/Referer)规避基础反爬
  • 指数退避重试机制提升稳定性(参考分布式系统设计原则)
  • 连接超时与响应状态码双重验证

2.2 数据解析进阶技巧

# 使用CSS选择器优化定位效率
quotes = soup.select('div.quote')# 防御性解析策略
for quote in quotes:text_elem = quote.find('span', class_='text')author_elem = quote.find('small', class_='author')# 空值处理保障数据完整性text = text_elem.text if text_elem else "N/A"author = author_elem.text if author_elem else "Anonymous"# 数据清洗(去除特殊字符)clean_text = re.sub(r'[“”]', '', text)results.append(f"{clean_text} —— {author}")

​技术亮点​​:

  • CSS选择器比传统find_all更快更精准
  • 防御性编程应对网站改版风险
  • 正则表达式清洗数据

三、系统扩展与工程化改造

3.1 分页采集实现

# 自动检测分页按钮
while True:next_btn = soup.find('li', class_='next')if not next_btn:breaknext_url = urljoin(base_url, next_btn.a['href'])response = safe_request(next_url)soup = BeautifulSoup(response.text, 'lxml')# 重复解析流程...

3.2 数据存储优化

# 支持多种存储格式
def save_data(data, format='txt'):if format == 'txt':with open('quotes.txt', 'w') as f:f.write('\n'.join(data))elif format == 'csv':pd.DataFrame(data).to_csv('quotes.csv')elif format == 'sqlite':conn = sqlite3.connect('quotes.db')# 建表插入语句...


四、反爬策略应对指南

4.1 常见反爬手段及破解方案

反爬类型特征识别解决方案
User-Agent检测返回403状态码轮换UA池
IP频率限制出现验证码或连接超时使用代理IP池+请求速率控制
JavaScript渲染核心数据为空改用Selenium/Puppeteer
Cookie验证重定向到登录页面维护会话状态

4.2 伦理与法律边界

  • 严格遵守robots.txt协议(目标网站通常位于/robots.txt)
  • 单机请求频率建议≤2次/秒(参考《网络安全法》规定)
  • 敏感数据脱敏处理(GDPR合规要求)

五、性能监控与日志体系

# 日志配置
logging.basicConfig(level=logging.INFO,format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',handlers=[logging.FileHandler('spider.log'),logging.StreamHandler()]
)# 性能统计装饰器
def time_counter(func):def wrapper(*args, **kwargs):start = time.time()result = func(*args, **kwargs)logger.info(f"{func.__name__}耗时: {time.time()-start:.2f}s")return resultreturn wrapper

六、结语与学习路径

​技术演进路线建议​​:

  1. 基础阶段:Requests+BS4静态页面采集
  2. 中级阶段:Scrapy框架+分布式存储
  3. 高级阶段:反反爬体系+动态渲染破解
  4. 专家阶段:智能解析算法+大数据清洗

​推荐学习资源​​:

  • 官方文档:Requests/BeautifulSoup/Scrapy
  • 实战项目:电商比价系统、舆情监控平台
  • 法律规范:《数据安全法》《个人信息保护法》

推荐扩展阅读​​:

  • 《Python网络数据采集(第2)》
  • Scrapy官方文档中的Middleware机制
  • 浏览器开发者工具Network面板高级用法

    最新技术动态请关注作者:Python×CATIA工业智造​​
    版权声明:转载请保留原文链接及作者信息

    相关文章:

    Python爬虫开发基础案例:构建可复用的名言采集系统

    一、项目背景与技术选型 1.1 爬虫技术应用场景 网络爬虫作为数据采集的核心技术,在舆情监控、价格比对、学术研究等领域发挥着重要作用。本案例选择quotes.toscrape.com作为目标网站,因其具有以下典型特征: 公开允许爬取的测试环境清晰的H…...

    Spring Boot 中修改 HTTP 响应状态码(即 `response.status`)可以通过以下几种方式实现

    以下是不同场景下的具体方法: 方法 1:直接使用 ResponseStatus 注解 在 Controller 方法或异常类上使用 ResponseStatus 注解,直接指定返回的状态码。 场景示例:固定返回指定状态码 import org.springframework.http.HttpStatu…...

    Linux目录介绍+Redis部署(小白篇)

    目录 👑Linux基础✨【目录】 👑Redis 安装1.下载压缩包2.解压3.安装编译环境4.安装到本地5.设置开机自启 👑Linux 自启服务 👑Linux基础 虽然在大二的时候学过Linux,但是很多基础知识都忘了,想再次从基础捡…...

    软件开发MVC三层架构杂谈

    在当今的软件开发领域,MVC(Model-View-Controller)架构已成为构建复杂系统时不可或缺的设计模式。它通过将应用程序划分为模型(Model)、视图(View)和控制器(Controller)三…...

    Python 基础语法速查手册:从入门到精通

    Python 作为最受欢迎的编程语言之一,以其简洁易读的语法和强大的功能吸引了大量开发者。本文全面汇总 Python 基础语法知识,帮助初学者快速掌握核心概念,并为后续深入学习打下坚实基础。 1. Python 基础语法结构 1.1 代码结构与缩进规则 Py…...

    Spring框架--IOC技术

    一、Spring框架的介绍 1、Spring框架的概述 Spring 是一个开放源代码的设计层面框架,它解决的是业务逻辑层和其他各层的松耦合问题,因此它将面向接口的编程思想贯穿整个系统应用。Spring是于2003年兴起的一个轻量级的Java开发框架,由 Rod Jo…...

    前端vue2-完全前端生成pdf->pdf-lib,html2canvas+jspdf,原生打印,三种方式(打印带有echarts图的pdf)

    pdf-lib:优点是可以控制输出内容,缺点是麻烦 html2canvas:优点是直接把html页面转成图片之后插入pdf很方便,不用过多的代码,缺点是不好控制图片大小,容易被戒断,可以把想打印的内容藏在页面外面…...

    论文阅读笔记——Emerging Properties in Unified Multimodal Pretraining

    BAGEL 论文 商业闭源系统与学术/开源模型的差距很大,BAGEL 旨在通过开源统一架构大规模交错数据主要解决: 架构割裂:理解/生成分属两条网络,信息被压缩在少量条件 token 中,长上下文推理受限。数据贫乏:主…...

    JAVA批量发送邮件(含excel内容)

    EmailSenderHtmlV1 是读取配置文件《批量发送邮件.xlsx》,配置sheet获取 发件人邮箱 邮箱账号 口令,发送excel数据sheet获取收件人邮箱 抄送人邮箱 邮件标题 第N行开始(N>1,N0默认表头) 第M行结束(M>1,M0默认表头) 附件文件夹…...

    Linux(Ubuntu)新建文件权限继承问题

    当你在一个工作目权限为777的文件下,新建一个文件的时候,就有可能发生,新建的这个文件,权限和其他文件,或者工作目录不一致的问题,我们不可能每次新建一个文件,就要 sudo chmod -R 777 /PATH 所…...

    Java中的String的常用方法用法总结

    1.1 String (1)声明 (2)字符串常量 存储字符串数据的容器:private final char value[] 字符串常量都存储在字符串常量池(StringTable)中 字符串常量池不允许存放两个相同的字符串常量 &#xff…...

    QGIS如何打开 ARCGIS的mxd工程文件

    “SLYR”是一款由著名开源组织“北路开源”开发的一套QGIS兼容和转换ARCGIS样式、工程、设置信息的插件!其主要功能为: 最近项目需要,我使用了一些功能,发现其对中文环境及中文信息支持不太好,还有一些其它BUG&#xf…...

    基于微信小程序的智能问卷调查系统设计与实现(源码+定制+解答)基于微信生态的问卷管理与数据分析系统设计

    博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…...

    React 如何封装一个可复用的 Ant Design 组件

    文章目录 前言一、为什么需要封装组件?二、 仿antd组件的Button按钮三、封装一个可复用的表格组件 (实战)1. 明确需求2. 设计组件 API3. 实现组件代码4. 使用组件 三、封装组件的最佳实践四、进阶优化 总结 前言 作为一名前端开发工程师,在日常项目中&a…...

    CloudWeGo-Netpoll:高性能NIO网络库浅析

    一、Netpoll 简介 Netpoll 是由字节跳动开发的高性能 NIO(Non-blocking I/O)网络库,专注于 RPC 场景。在 RPC 场景中,通常有较重的处理逻辑,无法串行处理 I/O。而 Go 的标准库 net 设计了 BIO(Blocking I/…...

    Mac的显卡架构种类

    目录 一、Intel架构时期的Mac显卡(2006 年至 2020 年) 1. Intel 集成显卡(iGPU) 2. 独立显卡(dGPU)—— AMD 和 NVIDIA (1)AMD Radeon(主流独显选择) &a…...

    HTTP基本概述

    HTTP基本概述 报文格式 HTTP报文分为 请求报文 和 响应报文 一、请求报文 请求行(Request Line)请求头部(Request Headers)(空行)请求体(Request Body) ← 可选,如 P…...

    Canvas SVG BpmnJS编辑器中Canvas与SVG职能详解

    Canvas详解与常见API 一、Canvas基础 核心特性 • 像素级绘图:Canvas是基于位图的绘图技术,通过JavaScript操作像素实现图形渲染,适合动态、高性能场景(如游戏、数据可视化)。 • 即时模式:每次绘制需手动…...

    dify多实例部署,一台机器部署多个dify实例

    dify多实例部署 目的 实现在一台机器上,部署多个dify的实例。比如一个部署1.2版本,一个部署1.3版本。废话没有,直接上干货。 前提 你的电脑已经部署了一个dify实例,并成功运行。比如已经部署成功0.15.3版本。 步骤如下&#…...

    ML 48.机器学习之临床生存树(rpartSurv)

    简介机器学习中生存树(Survival Tree)的原理详解 生存树是结合决策树与生存分析的机器学习模型,主要用于处理带有时间-事件数据(包含删失数据)的预测问题。其核心目标是:通过树状结构对数据进行递归分割&am…...

    HarmonyOS 应用开发,如何引入 Golang 编译的第三方 SO 库

    本指南基于笔者临时修复的 ohos_golang_go 项目fork,解决HO 应用导入 cgo编译产物时的 crash 问题。 1. 下载 ohos_golang_go git clone https://gitcode.com/deslord/ohos_golang_go.git📌 该仓库为笔者临时修复版本,修复了 CGO 编译模式下…...

    Axure元件动作六:设置图片

    亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢!如有帮助请订阅专栏! Axure产品经理精品视频课已登录CSDN可点击学习https://edu.csdn.net/course/detail/40420 案例视频: Axure元件动作:设置图片 课程主题:设置图片 主要内容:图片悬停、鼠标按下时、选中...

    一体化雷达波明渠流量计简介

    一、技术定义与核心原理 一体化雷达波明渠流量计是基于微波技术的全自动流量监测设备,采用 24G K 波段平面雷达技术,通过非接触式测量方式实现对明渠、河道、排水管网等场景的水位、流速及流量监测。其核心原理是利用雷达发射高频电磁波,经水…...

    Pr -- 耳机没有Pr输出的声音

    问题 很久没更新视频号了,想用pr剪辑一下,结果使用Pr打开后发现耳机没有Pr输出的声音 解决方法 在编辑--首选项-音频硬件中设置音频硬件的输出为当前耳机设备...

    白皮精读:2024年国家数据基础设施建设指引【附全文阅读】

    《国家数据基础设施建设指引》提出建设覆盖数据采集至安全全链条的新型基础设施,目标到 2029 年形成横向联通、纵向贯通的格局,聚焦数据可信流通、算力协同、高速传输、安全保障四大功能,明确技术架构与重点方向,强调政府与市场协同,分阶段推进试点及规模化部署,为数字中…...

    【信息系统项目管理师】第21章:项目管理科学基础 - 23个经典题目及详解

    更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 【第1~2题】【第3题】【第4题】【第5题】【第6题】【第7题】【第8题】【第9题】【第10题】【第11题】【第12题】【第13题】【第14题】【第15题】【第16题】【第17题】【第18题】【第19题】【第20题】【第21题】…...

    Mocha-Webpack 使用教程

    Mocha-Webpack 使用教程 mocha-webpackmocha test runner with integrated webpack precompiler项目地址:https://gitcode.com/gh_mirrors/mo/mocha-webpack 项目介绍 Mocha-Webpack 是一个结合了 Mocha 和 Webpack 的测试工具,它允许开发者在使用 Webpack 打包的…...

    AI硬件革命:OpenAI“伴侣设备”——从概念到亿级市场的生态重构

    2025年5月23日,OpenAI宣布以65亿美元全股收购苹果前首席设计师Jony Ive创立的AI硬件公司io,并计划于2026年底前推出首款“AI伴侣设备”,目标出货量达1亿台。这一消息迅速成为全球AI领域的热点,标志着AI技术从云端大模型向端侧硬件…...

    穿屏技巧:Mac-Windows一套鼠标键盘控制多台设备 (sharemouse6.0-Keygen)| KM-401A

    文章目录 引言I sharemouse6.0介绍功能介绍关闭自动更新安装包II 安装系统对应的sharemouse软件Windowsmac版本III 知识扩展:SCP、FTP、SSH文件传输SCP配置SSH密钥免密登录FTP(File Transfer Protocal,文件传输协议)引言 基于USB进行同步键盘和鼠标事件,更流畅。 基于局域…...

    【写在创作纪念日】基于SpringBoot和PostGIS的各省东西南北四至极点区县可视化

    目录 前言 一、空间检索简介 1、空间表结构 2、四至空间检索 二、前后端实现 1、后端实现 2、前端集成 三、成果展示 1、东部省份 2、西部省份 3、南部省份 4、北部省份 5、中部省份 四、总结 前言 在当今数字化时代,地理信息数据的分析与可视化对于众…...