当前位置: 首页 > article >正文

分布式爬虫监控架构设计

1. 监控架构核心组件
1.1 日志集中管理

设计目标:聚合所有节点的运行日志,支持实时查询与异常分析。 实现方式

  • 日志采集:各节点通过 logging 模块将日志发送至中央存储(如Elasticsearch或Redis)。

  • 日志分类:区分任务日志(如URL爬取状态)、系统日志(如节点资源占用)和错误日志(如反爬拦截)。

  • 滚动策略:按时间或文件大小分割日志,避免存储爆炸。

代码示例(Python + Elasticsearch)

# 节点日志发送模块
from elasticsearch import Elasticsearch
import logging
from logging.handlers import RotatingFileHandler
import timees = Elasticsearch(hosts=["monitor-node:9200"])
logger = logging.getLogger("spider_node")
logger.setLevel(logging.DEBUG)
file_handler = RotatingFileHandler("spider.log", maxBytes=1e6, backupCount=5)
logger.addHandler(file_handler)# 自定义Handler将日志同步到Elasticsearch
class ElasticsearchHandler(logging.Handler):def emit(self, record):log_entry = {"timestamp": record.created,"message": record.msg,"level": record.levelname,"module": record.module,"process": record.process}es.index(index="spider-logs", body=log_entry)logger.addHandler(ElasticsearchHandler())# 模拟日志生成
for _ in range(10):logger.info("This is an info message")logger.error("This is an error message")time.sleep(1)
1.2 节点健康检测

心跳机制:从节点周期性向监控中心发送心跳包(如HTTP请求或Redis Key刷新)。 故障判定:若连续3个周期未收到心跳,标记节点为宕机并触发任务重新分配。

代码示例(Redis心跳检测)

# 从节点心跳发送
import redis
import time
import uuidnode_id = str(uuid.uuid4())  # 生成唯一节点ID
r = redis.Redis(host='master-node', port=6379, db=0)while True:r.setex(f"node_heartbeat:{node_id}", 60, "alive")  # 60秒有效期print(f"Node {node_id} sent heartbeat")time.sleep(30)  # 每30秒发送一次# 监控中心检测脚本
def check_nodes():alive_nodes = []for node_id in r.keys("node_heartbeat:*"):node_id = node_id.decode().split(":")[1]if r.exists(f"node_heartbeat:{node_id}"):alive_nodes.append(node_id)else:reassign_failed_tasks(node_id)  # 重新分配该节点未完成任务return alive_nodesdef reassign_failed_tasks(node_id):failed_tasks = r.lrange(f"node_tasks:{node_id}", 0, -1)if failed_tasks:r.lpush("task_queue", *failed_tasks)  # 重新加入全局队列print(f"Reassigned tasks for node {node_id}")# 模拟节点检测
check_nodes()
1.3 任务队列监控

队列状态:监控Redis或RabbitMQ中的任务队列长度、消费速率。 积压告警:当待处理任务数超过阈值时触发告警(如Slack通知)。

代码示例(RabbitMQ队列监控)

# 使用RabbitMQ API获取队列状态
import requests
import timeRABBITMQ_API_URL = "http://rabbitmq:15672/api/"
QUEUE_NAME = "task_queue"def get_queue_status():auth = ("admin", "password")response = requests.get(f"{RABBITMQ_API_URL}/queues/%2F/{QUEUE_NAME}", auth=auth)return response.json()def monitor_queue():while True:status = get_queue_status()messages = status.get("messages", 0)if messages > 1000:send_alert(f"警告:队列 {QUEUE_NAME} 积压任务数: {messages}")time.sleep(10)  # 每10秒检查一次def send_alert(message):# Slack通知示例slack_webhook_url = "https://hooks.slack.com/services/..."payload = {"text": message}requests.post(slack_webhook_url, json=payload)# 启动监控
monitor_queue()
1.4 性能指标采集

指标类型:CPU/内存占用、网络IO、任务吞吐量(如每秒处理URL数)。 工具链:Prometheus + Grafana实现指标采集与可视化。

代码示例(Prometheus Client)

# 节点暴露指标端点
from prometheus_client import start_http_server, Gauge
import psutil
import time
import random# 启动HTTP服务,暴露/metrics端点
start_http_server(8000)# 定义指标
cpu_usage = Gauge('spider_cpu_usage_percent', 'CPU使用率百分比')
memory_usage = Gauge('spider_memory_usage_mb', '内存使用量(MB)')
task_throughput = Gauge('spider_task_throughput_per_sec', '每秒处理任务数')def collect_metrics():while True:# 采集CPU使用率cpu_usage.set(psutil.cpu_percent())# 采集内存使用量memory_info = psutil.virtual_memory()memory_usage.set(memory_info.used / (1024 * 1024))  # 转换为MB# 模拟任务吞吐量采集task_throughput.set(random.randint(10, 100))time.sleep(5)  # 每5秒采集一次if __name__ == '__main__':collect_metrics()
2. 监控架构整合设计
2.1 架构图
+------------------+       +------------------+
|   爬虫节点        |       |   监控中心        |
| - 心跳发送        |<----->| - 心跳检测        |
| - 日志上报        |       | - 日志存储(ES)    |
| - 指标暴露        |       | - Prometheus     |
+------------------+       +------------------+↓                          ↑
+------------------+       +------------------+
|   消息队列        |       |   可视化面板      |
| - 任务积压监控     |------>| - Grafana       |
+------------------+       +------------------+
2.2 告警策略

分级告警

  • 紧急级:节点宕机、任务队列持续积压。

  • 警告级:CPU持续超80%、反爬触发频率过高。 通知渠道:邮件、Slack、Webhook。

2.3 容错与恢复增强

自动故障转移:当节点宕机时,监控中心通过Redis的BLPOP命令重新分配未完成任务至其他节点。 数据一致性校验:使用MongoDB的副本集或Redis事务保证去重数据一致性。

代码示例(任务重新分配)

# Redis任务重新分配逻辑
def reassign_failed_tasks(node_id):# 获取失败节点的任务failed_tasks = r.lrange(f"node_tasks:{node_id}", 0, -1)if failed_tasks:# 将任务重新加入全局队列r.lpush("task_queue", *failed_tasks)print(f"Reassigned {len(failed_tasks)} tasks from node {node_id}")

代码示例(URL去重写入)

# URL去重写入(原子操作)
def add_url_to_visited(url):with r.pipeline() as pipe:while True:try:pipe.watch("visited_urls")if not pipe.sismember("visited_urls", url):pipe.multi()pipe.sadd("visited_urls", url)pipe.execute()return Trueelse:return Falseexcept redis.WatchError:continue# 测试URL去重
urls_to_add = ["http://example.com/1", "http://example.com/2", "http://example.com/1"]
for url in urls_to_add:if add_url_to_visited(url):print(f"Added new URL: {url}")else:print(f"URL already exists: {url}")

相关文章:

分布式爬虫监控架构设计

1. 监控架构核心组件 1.1 日志集中管理 设计目标&#xff1a;聚合所有节点的运行日志&#xff0c;支持实时查询与异常分析。 实现方式&#xff1a; 日志采集&#xff1a;各节点通过 logging 模块将日志发送至中央存储&#xff08;如Elasticsearch或Redis&#xff09;。 日志…...

MySQL的参数 innodb_force_recovery 详解

MySQL的参数 innodb_force_recovery 详解 innodb_force_recovery 是 InnoDB 存储引擎的一个重要参数&#xff0c;用于在数据库崩溃恢复时控制恢复行为的级别。这个参数主要在数据库无法正常启动时使用&#xff0c;可以帮助我们从损坏的数据库中恢复数据。 一 参数概述 参数名…...

学习vue3:跨组件通信(provide+inject)

目录 一&#xff0c;关于跨组件通信概述 二&#xff0c;跨组件传值 案例1(爷传孙&#xff09; 三&#xff0c;跨组件传函数 案例2(爷传孙&#xff09; 疑问&#xff1a;孙子传给爷爷是否可行呢&#xff1f; 一&#xff0c;关于跨组件通信概述 之前我们学习了父子组件的传…...

Alibaba Sentinel 入门教程:从理论到实战

文章目录 第一部分&#xff1a;理论篇1. Sentinel 简介2. Sentinel 核心原理2.1 资源与规则2.2 Sentinel 工作主流程2.3 核心类解析 3. Sentinel 功能支持与使用流程3.1 流量控制3.2 熔断降级3.3 系统自适应保护3.4 热点参数限流3.5 黑白名单控制3.6 使用流程 4. Sentinel 架构…...

2.3 TypeScript 非空断言操作符(后缀 !)详解

在 TypeScript 中&#xff0c;当你开启了严格的空值检查&#xff08;strictNullChecks&#xff09;后&#xff0c;变量如果可能是 null 或 undefined&#xff0c;就必须在使用前进行显式的判断。为了在某些场景下简化代码&#xff0c;TypeScript 提供了非空断言操作符&#xff…...

【菜狗work前端】小程序加if判断时不及时刷新 vs Web

零、前提&#xff1a; 实现input输入数字不大于10000&#xff08;需要配合typenumber&#xff0c;maxlength5&#xff0c;这里没写&#xff09; 一、探究代码&#xff1a; <input v-model"model1" input"changeModel1" placeholder"请输入拒收件…...

01 NLP的发展历程和挑战

1.人工智能行业介绍 ANI、AGI、ASI 以下是弱人工智能&#xff08;ANI&#xff09;、强人工智能&#xff08;AGI&#xff09;和超强人工智能&#xff08;ASI&#xff09;的对比表格&#xff1a; 类型定义当前状态弱人工智能&#xff08;ANI&#xff09;专注于特定任务&#x…...

TCP 三次握手:详解与原理

无图、长文警告&#xff01;&#xff01;&#xff01;&#xff01; 文章目录 一、引言二、TCP 三次握手的过程&#xff08;一&#xff09;第一次握手&#xff1a;SYN&#xff08;同步序列号&#xff09;&#xff08;二&#xff09;第二次握手&#xff1a;SYN-ACK&#xff08;同…...

LabVIEW累加器标签通道

主要展示了 Accumulator Tag 通道的使用&#xff0c;通过三个并行运行的循环模拟不同数值的多个随机序列&#xff0c;分别以不同频率向累加器写入数值&#xff0c;右侧循环每秒读取累加器值&#xff0c;同时可切换查看每秒内每次事件的平均值&#xff0c;用于演示多线程数据交互…...

在 Unity 中,Start 方法直接设置 RectTransform 的位置,时出现问题,与预计位置不匹配。

改动之前的源代码&#xff1a;发现组件的位置&#xff0c;与设计的位置不一样&#xff0c;但是如果把这段代码&#xff0c;交给一个按钮按下回调&#xff0c;就不会出现问题。 void Start(){//初始化Text 行//读取配置文件&#xff1b;StaticDataObj obj Resources.Load<St…...

永磁同步电机控制算法--IP调节器

一、基本原理 在电机控制领域&#xff0c;现今普遍使用的是比例-积分(PI)控制器。然而&#xff0c;PI控制器有一些缺点&#xff0c;可能会在某些应用中产生一些问题&#xff0c;例如:一个非常快的响应&#xff0c;也同时具有过大的超调量。虽然设计PI控制器时&#xff0c;可以…...

Ubuntu 25.04 锁屏不能远程连接的解决方案

最近安装了一个 Ubuntu 25.04&#xff0c;偶然发现可以通过 windows 自带的 rdp 远程工具进行连接&#xff0c;内心狂喜。此外&#xff0c;还支持启动 VNC 协议&#xff0c;也就是默认支持了 rdp 和 vnc 连接。 看了以下&#xff0c;ubuntu 在用户级别下创建了一个远程桌面服务…...

Java 自动装箱和拆箱还有包装类的缓存问题

自动装箱和拆箱就是将基本数据类型和包装类之间进行自动的互相转换。JDK1.5 后&#xff0c; Java 引入了自动装箱(autoboxing)/拆箱(unboxing)。 自动装箱&#xff1a; 基本类型的数据处于需要对象的环境中时&#xff0c;会自动转为“对象”。 我们以 Integer 为例&#xff1a;…...

java-jdk8新特性Stream流

一、Stream流 是专业用于对集合或者数组进行便捷操作的。 1.1 Stream流的创建 主要分为Collection&#xff08;List与Set&#xff09;、Map、数组三种创建方式&#xff1a; //1.Collection集合的创建List<String> names new ArrayList<>();Collections.addAll(…...

大语言模型 21 - MCP 自动操作 Figma+Cursor 实现将原型转换为代码

MCP 基本介绍 官方地址&#xff1a; https://modelcontextprotocol.io/introduction “MCP 是一种开放协议&#xff0c;旨在标准化应用程序向大型语言模型&#xff08;LLM&#xff09;提供上下文的方式。可以把 MCP 想象成 AI 应用程序的 USB-C 接口。就像 USB-C 提供了一种…...

QNAP NEXTCLOUD 域名访问

我是用docker compose方式安装的&#xff0c;虽然不知道是不是这么个叫法&#xff0c;废话不多说。 背景&#xff1a;威联通container station安装了nextcloud和lucky&#xff0c;lucky进行的域名解析和反代 先在想安装的路径、数据存储路径、数据库路径等新建文件夹。再新建…...

Spring MVC深度解析:控制器与视图解析及RESTful API设计最佳实践

引言 在现代Java Web开发领域&#xff0c;Spring MVC框架凭借其优雅的设计和强大的功能&#xff0c;已成为构建企业级Web应用的首选框架。本文将深入探讨Spring MVC的核心机制——控制器与视图解析&#xff0c;并详细讲解如何设计符合RESTful风格的API。无论你是刚接触Spring …...

华为OD机试真题——信道分配(2025B卷:200分)Java/python/JavaScript/C/C++/GO最佳实现

2025 B卷 200分 题型 本专栏内全部题目均提供Java、python、JavaScript、C、C++、GO六种语言的最佳实现方式; 并且每种语言均涵盖详细的问题分析、解题思路、代码实现、代码详解、3个测试用例以及综合分析; 本文收录于专栏:《2025华为OD真题目录+全流程解析+备考攻略+经验分…...

比亚迪“双剑”电池获中汽中心权威认证,堪称“移动安全堡垒”。

在新能源汽车发展中&#xff0c;电池安全是重中之重。比亚迪的刀片电池与闪充刀片电池提前通过电池新国标全项检测&#xff0c;获中汽中心权威认证&#xff0c;堪称“移动安全堡垒”。 传统电池极端条件下易热失控&#xff0c;而刀片电池独特长条形设计&#xff0c;似刀片般&am…...

【mysql】mysql的高级函数、高级用法

mysql是最常用的数据库之一&#xff0c;常见的函数用法大家应该都很熟悉&#xff0c;本文主要例举一些相对出现频率比较少的高级用法 (注&#xff1a;需注意mysql版本&#xff0c;大部分高级特性都是mysql8才有的) 多值索引与虚拟列 主要是解决字符串索引问题&#xff0c;光说…...

了解一下C#的SortedSet

基础概念 SortedSet 是 C# 中的一个集合类型&#xff0c;位于 System.Collections.Generic 命名空间下。它是一个自动排序的集合&#xff0c;用于存储不重复的元素&#xff0c;并且会根据元素的自然顺序&#xff08;默认排序&#xff09;或自定义比较器进行排序&#xff0c;内…...

【平面波导外腔激光器专题系列】用于光纤传感的低噪声PLC外腔窄线宽激光器

----翻译自Mazin Alalusi等人的文章 摘要 高性价比的 1550 nm DWDM平面外腔 &#xff08;PLANEX&#xff09; 激光器是干涉测量、布里渊、LIDAR 和其他光传感应用的最佳选择。其线宽<3kHz、低相位/频率噪声和极低的RIN。 简介 高性能光纤分布式传感技术是在过去几年中开发…...

Pytorch里面多任务Loss是加起来还是分别backward? | Pytorch | 深度学习

当你在深度学习中进入“多任务学习(Multi-task Learning)”的领域,第一道关卡可能不是设计网络结构,也不是准备数据集,而是:多个Loss到底是加起来一起backward,还是分别backward? 这个问题看似简单,却涉及PyTorch计算图的构建逻辑、自动求导机制、内存管理、任务耦合…...

K8S Pod调度方法实例

以下是一篇面向企业用户、兼具通俗易懂和实战深度的 Kubernetes Pod 调度方法详解博文大纲与正文示例。全文采用“图文&#xff08;代码块&#xff09;并茂 问答穿插 类比”方式&#xff0c;模拟了真实终端操作及输出&#xff0c;便于读者快速上手。 一、引言 为什么要关注 P…...

【mindspore系列】- 算子源码分析

本文会介绍mindspore的算子源码结构、执行过程以及如何编写一个自定义的mindspore算子。 源码介绍 首先,我们先从https://gitee.com/mindspore/mindspore/ 官网中clone源代码下来。 clone好代码后,可以看到源码的文件夹结构如下(只列出比较重要的文件夹): docsmindspore…...

学习日记-day17-5.27

完成目标&#xff1a; 知识点&#xff1a; 1.日期相关类_Calendar日历类 常用方法:int get(int field) ->返回给定日历字段的值void set(int field, int value) :将给定的日历字段设置为指定的值void add(int field, int amount) :根据日历的规则,为给定的日历字段添加或…...

一种比较精简的协议

链接地址为&#xff1a;ctLink: 一个比较精简的支持C/C的嵌入式通信的中间协议。 本文采用的协议格式如下 *帧头 uint8_t 起始字节&#xff1a;0XAF\ *协议版本 uint8_t 使用的协议版本号&#xff1a;当前为0X01\ *负载长度 uint8_t 数据段内容长…...

网络常识:网线和光纤的区别

网络常识&#xff1a;网线和光纤的区别 一. 介绍二. 网线2.1 什么是网线&#xff1f;2.2 网线的主要类别2.3 网线的优势2.4 网线的劣势 三. 光纤3.1 什么是光纤&#xff1f;3.2 光纤的主要类别3.3 光纤的优势3.4 光纤的劣势 四. 网线 vs 光纤&#xff1a;谁更适合你&#xff1f…...

OpenCV CUDA模块图像过滤------创建一个 Scharr 滤波器函数createScharrFilter()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 该函数用于创建一个 Scharr 滤波器&#xff08;基于 CUDA 加速&#xff09;&#xff0c;用于图像的一阶导数计算。它常用于边缘检测任务中&#…...

html css js网页制作成品——HTML+CSS+js醇香咖啡屋网页设计(5页)附源码

目录 一、&#x1f468;‍&#x1f393;网站题目 二、✍️网站描述 三、&#x1f4da;网站介绍 四、&#x1f310;网站效果 五、&#x1fa93; 代码实现 &#x1f9f1;HTML 六、&#x1f947; 如何让学习不再盲目 七、&#x1f381;更多干货 一、&#x1f468;‍&#x1f…...