当前位置: 首页 > article >正文

Python爬虫监控程序设计思路

最近因为爬虫程序太多,想要为Python爬虫设计一个监控程序,主要功能包括一下几种:

1、监控爬虫的运行状态(是否在运行、运行时间等)

2、监控爬虫的性能(如请求频率、响应时间、错误率等)

3、资源使用情况(CPU、内存、网络等)

4、异常捕获与告警(当爬虫出现异常时能够及时通知)

在这里插入图片描述

要为Python爬虫创建一个监控程序,根据上面思路我们可以按照以下步骤实现,涵盖运行状态、性能指标、异常告警和可视化:

核心监控功能设计

  1. 运行状态监控

    • 心跳检测:定期记录爬虫存活状态
    • 进程检查:验证爬虫进程是否运行中
  2. 性能指标监控

    • 请求统计:成功/失败请求计数
    • 数据处理:已抓取/解析的项目数
    • 资源使用:CPU/内存占用
    • 时效指标:请求响应时间、运行时长
  3. 异常告警

    • 错误捕获:网络异常、解析失败等
    • 阈值告警:连续失败/资源超限
    • 通知渠道:邮件/Slack/钉钉
  4. 数据持久化

    • 存储日志:运行日志和错误日志
    • 记录指标:时间序列数据库存储

实现方案代码示例

1. 基础监控类 (monitor.py)
import time
import logging
import psutil
from prometheus_client import start_http_server, Counter, Gauge, Histogramclass SpiderMonitor:def __init__(self, spider_name):self.spider_name = spider_nameself.start_time = time.time()# 初始化监控指标self.requests_total = Counter(f'{spider_name}_requests_total', 'Total requests')self.requests_failed = Counter(f'{spider_name}_requests_failed', 'Failed requests')self.items_scraped = Counter(f'{spider_name}_items_scraped', 'Items scraped')self.memory_usage = Gauge(f'{spider_name}_memory_usage', 'Memory usage (MB)')self.request_latency = Histogram(f'{spider_name}_request_latency', 'Request latency (seconds)')# 启动指标服务器start_http_server(8000)logging.basicConfig(filename=f'{spider_name}.log', level=logging.INFO)def record_request(self, success=True, latency=0):self.requests_total.inc()if not success:self.requests_failed.inc()if latency > 0:self.request_latency.observe(latency)def record_item(self, count=1):self.items_scraped.inc(count)def update_resources(self):process = psutil.Process()self.memory_usage.set(process.memory_info().rss / 1024 / 1024)  # MBdef log_error(self, error):logging.error(f"[{time.ctime()}] ERROR: {error}")def uptime(self):return time.time() - self.start_time
2. 爬虫集成示例 (my_spider.py)
import requests
from monitor import SpiderMonitorclass MySpider:def __init__(self):self.monitor = SpiderMonitor("my_spider")self.session = requests.Session()def crawl(self, url):start = time.time()try:response = self.session.get(url, timeout=10)response.raise_for_status()# 处理数据items = self.parse(response)self.monitor.record_item(len(items))self.monitor.record_request(success=True, latency=time.time()-start)return itemsexcept Exception as e:self.monitor.record_request(success=False)self.monitor.log_error(f"URL: {url} - Error: {str(e)}")return []def parse(self, response):# 解析逻辑return [{"data": "sample"}]def run(self):while True:self.crawl("https://example.com/data")self.monitor.update_resources()time.sleep(5)if __name__ == "__main__":spider = MySpider()spider.run()
3. 独立监控进程 (monitor_daemon.py)
import time
import subprocess
import smtplib
from email.mime.text import MIMETextdef check_heartbeat(spider_name):"""检查最近15分钟是否有活动日志"""try:with open(f"{spider_name}.log") as f:logs = f.readlines()[-100:]return any(time.time() - get_log_time(line) < 900 for line in logs)except FileNotFoundError:return Falsedef get_log_time(log_line):# 从日志行提取时间戳timestamp_str = log_line.split("]")[0][1:]return time.mktime(time.strptime(timestamp_str))def send_alert(subject, message):"""发送邮件告警"""msg = MIMEText(message)msg['Subject'] = f"[SPIDER ALERT] {subject}"msg['From'] = 'monitor@example.com'msg['To'] = 'admin@example.com'with smtplib.SMTP('smtp.example.com') as server:server.send_message(msg)def monitor_daemon():spider_name = "my_spider"consecutive_failures = 0while True:if not check_heartbeat(spider_name):consecutive_failures += 1if consecutive_failures >= 3:send_alert("Spider Down", f"{spider_name} has been inactive for 45+ minutes")else:consecutive_failures = 0time.sleep(300)  # 每5分钟检查一次if __name__ == "__main__":monitor_daemon()

监控系统部署方案

  1. 指标可视化

    • 使用Prometheus收集指标(默认端口8000)
    • 配置Grafana仪表盘展示:
      • 请求成功率 = (1 - requests_failed/requests_total) * 100
      • 内存使用趋势图
      • 最近1小时错误日志
  2. 告警配置

    # Prometheus alert.rules
    groups:
    - name: spider_alertsrules:- alert: HighFailureRateexpr: rate(my_spider_requests_failed[5m]) / rate(my_spider_requests_total[5m]) > 0.1for: 10mlabels:severity: criticalannotations:description: "超过10%的请求失败"
    
  3. 进程管理

    • 使用Supervisor管理进程:
    [program:my_spider]
    command=python /path/to/my_spider.py
    autostart=true
    autorestart=true
    stderr_logfile=/var/log/spider.err.log
    

高级功能扩展

  1. 分布式监控

    • 使用Redis共享监控数据:
    import redis
    r = redis.Redis()
    r.incr('global_requests_count')
    
  2. 网页状态面板

    # 添加Flask状态页
    from flask import Flask
    app = Flask(__name__   
    @app.route('/status')
    def status():return {"uptime": monitor.uptime(),"items": monitor.items_scraped._value.get()}
    
  3. 云服务集成

    • 错误跟踪:Sentry
    • 日志管理:ELK Stack
    • 云监控:Datadog/Prometheus Cloud

监控仪表盘示例 (Grafana)

  1. 核心面板

    • 请求成功率 (百分比)
    • 每分钟请求量
    • 内存/CPU使用曲线
    • 最近错误列表
  2. 报警阈值

    • 成功率 < 95% (警告)
    • 内存 > 500MB (警告)
    • 1小时无活动 (严重)

这种监控方案提供实时性能跟踪、自动告警和可视化展示,能有效提升爬虫的稳定性和可维护性。最终我们可根据实际需求调整监控粒度和告警阈值。如有任何疑问可以留言讨论。

相关文章:

Python爬虫监控程序设计思路

最近因为爬虫程序太多&#xff0c;想要为Python爬虫设计一个监控程序&#xff0c;主要功能包括一下几种&#xff1a; 1、监控爬虫的运行状态&#xff08;是否在运行、运行时间等&#xff09; 2、监控爬虫的性能&#xff08;如请求频率、响应时间、错误率等&#xff09; 3、资…...

Edge浏览器怎样开启兼容模式

允许站点在 IE 模式下重新加载&#xff1a; 打开 Edge 浏览器&#xff0c;点击右上角的三个点图标&#xff0c;选择 “设置”&#xff08;或者按下 “Alt F” 组合键后再点击 “设置”&#xff09;。在设置页面中&#xff0c;切换到左侧的 “默认浏览器” 选项卡。在 “Intern…...

【HarmonyOS 5】Laya游戏如何鸿蒙构建发布详解

【HarmonyOS 5】Laya游戏如何鸿蒙构建发布详解 一、前言 LayaAir引擎是国内最强大的全平台引擎之一&#xff0c;当年H5小游戏火的时候&#xff0c;腾讯入股了腊鸭。我还在游戏公司的时候&#xff0c;17年曾经开发使用腊鸭的H5小游戏&#xff0c;很怀念当年和腊鸭同事一起解决…...

C++ TCP传输心跳信息

在C++ TCP程序中实现心跳机制是保持连接活跃、检测连接状态的重要手段。以下是几种常见的心跳实现方式: 1. 应用层心跳(推荐) 基本心跳实现 #include <iostream> #include <thread> #include <chrono>...

Elasticsearch | 如何将修改已有的索引字段类型并迁移数据

CodingTechWork 引言 在 Elasticsearch 中&#xff0c;一旦索引的字段类型被定义&#xff0c;就无法直接修改已有字段的类型。例如&#xff0c;如果你已经将 timestamp 字段的类型设置为 TEXT&#xff0c;并希望将其更改为 DATE 类型&#xff0c;这将需要一些额外的步骤。在这…...

c++之STL容器的学习(上)

一、泛型编程&#xff08;函数模板和类模板&#xff09; 这部分围绕泛型编程技术展开&#xff0c;C中的泛型编程主要是通过函数模板和类模板实现的&#xff0c;主要会介绍标准模板库STL的知识点。1.关于模板的理解 模板就是建立一种通用的模式&#xff0c;从而提高复用性。在生…...

Linux 环境下高效视频切帧的实用指南

Linux 环境下高效视频切帧的实用指南 在视频处理领域&#xff0c;切帧是一项基础且常用的操作&#xff0c;它能够将视频按照指定的规则提取出单帧图像&#xff0c;广泛应用于视频分析、视频缩略图生成、视频内容预览等场景。在 Linux 系统中&#xff0c;我们可以借助强大的开源…...

【鱼皮-用户中心】笔记

任务&#xff1a;完整了解做项目的思路&#xff0c;接触一些企业及的开发技术 title 企业做项目流程需求分析技术选型 计划一一、前端初始化1. **下载node.js**2. **安装yarn**3. **初始化 Ant Design Pro 脚⼿架&#xff08;关于更多可进入官网了解&#xff09;**4. **开启Umi…...

MUX-VLAN基本概述

目录 1&#xff09;技术背景&#xff1a; 2&#xff09;基本概念&#xff1a; 3&#xff09;配置&#xff1a;进vlan视图下键入 1&#xff09;技术背景&#xff1a; 在企业网络中&#xff0c;各个部门之间网络需要相互独立&#xff0c;通常使用VLAN技术可以实现这一要求。如果企…...

Cursor使用最佳实践总结

#作者&#xff1a;曹付江 文章目录 1、需求文档怎么写2. 项目文件夹选择3.技术栈的选择4.最重要&#xff1a;Cursor中的Rules&#xff08;规则&#xff09;5.对话模式与模型选择6. New Chat&#xff08;新建对话&#xff09;7.自动化测试8.前后端细调的方法9、完整Cursor项目模…...

交错推理强化学习方法提升医疗大语言模型推理能力的深度分析

核心概念解析 交错推理:灵活多变的思考方式 交错推理(Interleaved Reasoning)是一种在解决复杂问题时,不严格遵循单一、线性推理路径,而是交替、灵活应用多种推理策略的方法。这种思维方式与人类专家在处理复杂医疗问题时的思考模式更为接近,表现为一种动态、适应性强的…...

SpringBatch+Mysql+hanlp简版智能搜索

资源条件有限&#xff0c;需要支持智搜的数据量也不大&#xff0c;上es搜索有点大材小用了&#xff0c;只好写个简版mysql的智搜&#xff0c;处理全文搜素&#xff0c;支持拼音搜索&#xff0c;中文分词&#xff0c;自定义分词断词&#xff0c;地图范围搜索&#xff0c;周边搜索…...

常见 Web 安全问题

网站在提供便利的同时&#xff0c;也面临着各种安全威胁。一个小小的漏洞可能导致数据泄露、系统瘫痪&#xff0c;甚至带来不可估量的经济损失。本文介绍几种最常见的 Web 安全问题&#xff0c;包括其原理、危害以及防护策略。 一、SQL 注入&#xff08;SQL Injection&#xff…...

spring切面

概念 两个特点&#xff1a; IOC控制反转AOP主要用来处理公共的代码 例如一个案例就是添加用户&#xff0c;重复的代码包含了记录日志、事务提交和事务回滚等&#xff0c;都是重复的&#xff0c;为了简单&#xff0c;交给AOP来做。 即将复杂的需求分解出不同方面&#xff0c…...

go语言基础|slice入门

slice slice介绍 slice中文叫切片&#xff0c;是go官方提供的一个可变数组&#xff0c;是一个轻量级的数据结构&#xff0c;功能上和c的vector&#xff0c;Java的ArrayList差不多。 slice和数组是有一些区别的&#xff0c;是为了弥补数组的一些不足而诞生的数据结构。最大的…...

使用 HTML + JavaScript 实现可拖拽的任务看板系统

本文将介绍如何使用 HTML、CSS 和 JavaScript 创建一个交互式任务看板系统。该系统支持拖拽任务、添加新任务以及动态创建列,适用于任务管理和团队协作场景。 效果演示 页面结构 HTML 部分主要包含三个默认的任务列(待办、进行中、已完成)和一个用于添加新列的按钮。 <…...

LangChain核心之Runnable接口底层实现

导读&#xff1a;作为LangChain框架的核心抽象层&#xff0c;Runnable接口正在重新定义AI应用开发的标准模式。这一统一接口设计将模型调用、数据处理和API集成等功能封装为可复用的逻辑单元&#xff0c;通过简洁的管道符语法实现复杂任务的声明式编排。 对于面临AI应用架构选择…...

软件评测师 案例真题笔记

2009 软件测试质量 软件测试质量管理要素包括&#xff1a; •测试过程&#xff0c;例如技术过程、管理过程、支持过程。 •测试人员及组织。 •测试工作文档&#xff0c;例如测试计划、测试说明、测试用例、测试报告、问题报告。 软件测试质量控制的主要方法包括&#xff1a;…...

RAG架构中用到的模型学习思考

前言 RAG&#xff08;Retrieval-Augmented Generation&#xff0c;检索增强生成&#xff09;架构结合了检索和生成能力&#xff0c;通过引入外部知识库来提升大语言模型&#xff08;LLM&#xff09;的回答准确性和可靠性。以下是RAG架构中常用的模型及其总结&#xff1a; 一、…...

统信 UOS 服务器版离线部署 DeepSeek 攻略

日前&#xff0c;DeepSeek 系列模型因拥有“更低的成本、更强的性能、更好的体验”三大核心优势&#xff0c;在全球范围内备受瞩目。 本次&#xff0c;我们为大家提供了在统信 UOS 服务器版 V20&#xff08;AMD64 或 ARM64 架构&#xff09;上本地离线部署 DeepSeek-R1 模型的…...

美尔斯通携手北京康复辅具技术中心开展公益活动,科技赋能助力银龄健康管理

2025 年 5 月 30 日&#xff0c;北京美尔斯通科技发展股份有限公司携手北京市康复辅具技术中心&#xff0c;在朝阳区核桃园社区开展 “全国助残日公益服务” 系列活动。活动通过科普讲座、健康检测与科技体验&#xff0c;将听力保健与心脏健康服务送至居民家门口&#xff0c;助…...

《前端面试题:前端响应式介绍》

前端响应式设计完全指南&#xff1a;从理论到实战 掌握响应式设计是构建现代网站的核心能力&#xff0c;也是前端面试的必考内容 一、响应式设计&#xff1a;移动优先时代的必备技能 在当今多设备时代&#xff0c;用户通过手机、平板、笔记本、桌面显示器等多种设备访问网站。…...

Redis Stack常见拓展

Redis JSON RedisJSON 是 Redis Stack 提供的模块之一&#xff0c;允许你以 原生 JSON 格式 存储、检索和修改数据。相比传统 Redis Hash&#xff0c;它更适合结构化文档型数据&#xff0c;并支持嵌套结构、高效查询和部分更新。 #设置⼀个JSON数据,其中$表示JSON数据的根节点…...

Linux 驱动之设备树

Linux 驱动之设备树 参考视频地址 【北京迅为】嵌入式学习之Linux驱动&#xff08;第七期_设备树_全新升级&#xff09;_基于RK3568_哔哩哔哩_bilibili 本章总领 1.设备树基本知识 什么是设备树&#xff1f; ​ Linux之父Linus Torvalds在2011年3月17日的ARM Linux邮件列表…...

12、企业应收账款(AR)全流程解析:从发票开具到回款完成

在商业活动中&#xff0c;现金流如同企业的命脉&#xff0c;而应收管理则是维系这条命脉正常运转的重要保障。许多企业由于对应收账款缺乏有效管理&#xff0c;常常面临资金周转困难的问题。实践证明&#xff0c;建立科学的应收管理体系能够显著提升资金回笼效率&#xff0c;为…...

php 各版本下载

https://windows.php.net/downloads/releases/archives/ 参考资料&#xff1a;php5.6.40 在 win10下安装全过程 ( 图文教程、附官方下载链接 )...

【notepad++】如何设置notepad++背景颜色?

如何设置notepad背景颜色&#xff1f; 设置--语言格式设置 勾选使用全局背景色 例如选择护眼色---80&#xff0c;97&#xff0c;205&#xff1b;...

使用 C++/OpenCV 制作跳动的爱心动画

使用 C/OpenCV 制作跳动的爱心动画 本文将引导你如何使用 C 和 OpenCV 库创建一个简单但有趣的跳动爱心动画。我们将通过绘制参数方程定义的爱心形状&#xff0c;并利用正弦函数来模拟心跳的缩放效果。 目录 简介先决条件核心概念 参数方程绘制爱心动画循环模拟心跳效果 代码…...

Go Modules 详解 -《Go语言实战指南》

Go Modules&#xff08;简称 go mod&#xff09;是 Go 官方推出的包依赖管理系统&#xff0c;自 Go 1.11 起引入&#xff0c;Go 1.16 起成为默认方式&#xff0c;取代了旧的 GOPATH 模式。 本章将全面讲解 Go Modules 的基本原理、使用方法以及常见问题处理。 一、Go Modules 简…...

在Oxygen编辑器中使用DeepSeek

罗马尼亚公司研制开发的Oxygen编辑器怎样与国产大模型结合&#xff0c;这是今年我在tcworld大会上给大家的分享&#xff0c;需要ppt的朋友请私信联系 - 1 - Oxygen编辑器中的人工智能助手 Oxygen编辑器是罗马尼亚的Syncro Soft公司开发的一款结构化文档编辑器。 它是用来编写…...