当前位置: 首页 > news >正文

部署Gerapy

1.Gerapy 是什么?
Gerapy 是一款基于 Python 3 的分布式爬虫管理框架,它旨在简化和优化分布式爬虫的部署、管理和监控过程。
2.作用与功能?
2.1分布式管理: Gerapy 允许用户在多台机器上部署和管理Scrapy爬虫,实现爬虫任务的分布式处理,提高数据抓取效率和系统稳定性。

2.2Web界面操作: 提供了一个直观的Web界面,用户可以通过浏览器进行项目部署、爬虫任务的启动、停止、监控以及结果查看,无需直接操作命令行,使得管理更加简便。

2.3项目部署简化: 简化了Scrapy项目的部署流程,用户可以直接通过Gerapy的界面上传项目代码,并进行打包部署,减少了手动配置服务器的工作量。

2.4实时监控与日志查看: 实时展示爬虫运行状态和日志信息,便于快速定位和解决问题。

2.5任务调度与队列管理: 利用Scrapy-Redis实现任务的分布式调度,支持优先级设定,管理爬虫任务队列。

2.6代码编辑与版本控制: 在某些版本或配置中,可能支持在线编辑爬虫代码,便于快速迭代和测试。

2.7主机与爬虫实例管理: 统一管理多台主机上的Scrapyd服务,轻松添加、移除或查看各个主机上的爬虫实例。

3.安装过程:
3.1安装gerapy

pip install gerapy

在这里插入图片描述
3.2校验gerapy 是否安装成功

gerapy

在这里插入图片描述
3.3初始化gerapy

gerapy init

在这里插入图片描述
生成的文件夹
在这里插入图片描述
3.4进入scrapyd,执行gerapy数据化的初始化,建立相关的数据库表。

F:\gerapy>cd gerapy
F:\gerapy\gerapy>gerapy migrate

在这里插入图片描述
3.5开启服务:gerapy runserver

F:\gerapy\gerapy>gerapy runserver

在这里插入图片描述
访问:http://127.0.0.1:8000/#/login 需要有账号密码
在这里插入图片描述

3.6设置账号密码并重启gerapy:

F:\gerapy\gerapy>
F:\gerapy\gerapy>gerapy createsuperuser
Username (leave blank to use 'admin'): admin
Email address: xxxxxxxxxx
Password:
Password (again):
The password is too similar to the username.
This password is too short. It must contain at least 8 characters.
This password is too common.
Bypass password validation and create user anyway? [y/N]: y
Superuser created successfully.

在这里插入图片描述
效果:
在这里插入图片描述
补充:
添加主机管理,填写对应的信息(这里需要配合 scrapyd 使用)

scrapy 配置可参考:https://blog.csdn.net/weixin_42883164/article/details/138574304

在这里插入图片描述
在这里插入图片描述
执行效果
在这里插入图片描述
任务管理
在这里插入图片描述
在这里插入图片描述

相关文章:

部署Gerapy

1.Gerapy 是什么? Gerapy 是一款基于 Python 3 的分布式爬虫管理框架,它旨在简化和优化分布式爬虫的部署、管理和监控过程。 2.作用与功能? 2.1分布式管理: Gerapy 允许用户在多台机器上部署和管理Scrapy爬虫,实现爬虫…...

Github Benefits 学生认证/学生包 新版申请指南

本教程适用于2024年之后的Github学生认证申请,因为现在的认证流程改变了很多,所以重新进行了总结这方面的指南。 目录 验证教育邮箱修改个人资料制作认证文件图片转换Base64提交验证 验证教育邮箱 进入Email settings,找到Add email address…...

基于单片机的宠物智能投喂系统研究

目录 第一章 研究背景和意义.................................................................... 4 1.1 研究背景....................................................................................... 5 1.2 研究目的.............................................…...

Linux-笔记 常用命令

(持续更新) 1、压缩: tar -vcjf test1.tar.bz2 test1 tar -vczf test1.tar.gz test1 2、解压 tar -vxjf test1.tar.bz2 tar -vxzf test2.tar.gz 3、查找 find [路径] [参数] [文件名] : find / -name test* grep [参数] 关键字 路径&a…...

MySQL中,关于日期类型的那些事儿,你知道哪些?

在MySQL数据库中,除了前面我们聊到的数字类型和字符串类型,还有一个常用的数据类型:日期类型。在我们业务表中,基本上每个业务表都有日期类型,用于记录创建时间和修改时间。比如我们的用户表,一般除了要记录…...

【Chrome实用命令笔记】

文章目录 Chrome实用命令笔记1、chrome基本介绍2. 打开开发者工具(DevTools)方法一:快捷键方法二:右键菜单方法三:浏览器设置 2. 开发者工具面板Elements面板Console面板Sources面板Network面板Performance面板Memory面…...

【数据库】数据库事务原理

事务特性 https://blog.csdn.net/zxcyxg123/article/details/132020499 MVCC MVCC(Multi-Version Concurrency Control),即多版本并发控制,是一种并发控制的方法,主要用于数据库管理系统中,以实现对数据库…...

LeetCode 106.从中序与后序遍历序列构造二叉树

LeetCode 106.从中序与后序遍历序列构造二叉树 1、题目 题目链接:106. 从中序与后序遍历序列构造二叉树 给定两个整数数组 inorder 和 postorder ,其中 inorder 是二叉树的中序遍历, postorder 是同一棵树的后序遍历,请你构造并…...

Python中的compile()函数,动态编译代码的艺术

关注公众号【一点sir】,领取编程资料。 简介 在Python编程中,compile()函数是一个强大的工具,它允许开发者将字符串形式的Python代码动态编译成字节码。这为执行动态生成或从外部源接收的代码提供了极大的灵活性。这些字节码随后可以被Pytho…...

【考研数学】汤家凤“免单“数学题被吐槽‘太难’,老汤回应「怎么还有脸笑」,网友:这些题有毒!

我看了汤家凤老师出的几道题,实际上对于考研的同学来说,确实是送分题 第一个是三角函数变换中的万能公式;第二个e^x的泰勒展开公式;第三个是第一类重要极限。只要复习过,那基本上都能正常做出来。 至于汤家凤老师说「…...

在另外一个页面,让另外一个页面弹框显示操作(调佣公共的弹框)

大概意思是,登录弹框在另外一个页面中,而当前页面不存在,在当前页面中判断如果token不存在,就弹框出登录的弹框 最后一行 window.location.href … 如果当前用户已登录,则执行后续操作(注意此处,可不要)...

如何利用IPIDEA代理IP优化数据采集效率?

一、 前言二、 IPIDEA介绍三、体验步骤四、实战训练五、结语 一、 前言 在全球化与信息化交织的当代社会,数据已成为驱动商业智慧与技术革新的核心引擎。网络,作为信息汇聚与交流的枢纽,不仅是人们获取知识的窗口,更是商业活动与技…...

Rpcx (一):详解【介绍、基础示例 demo】

一.rpcx介绍 1.1 rpc是什么 远程过程调用的通信协议。该协议允许运行于一台计算机的程序调用另一台计算机的子程序,而程序员无需额外地为这个交互作用编程。如果涉及的软件采用面向对象编程,那么远程过程调用亦可称作远程调用或远程方法调用。简单地说就是能使应用像调用本地…...

对数据进行标准化和归一化

数据的形式:保存在CSV中,第一列为姓名,第二列之后为特征。 标准化 输入文件的路径,设置保存转化后的文件路径 import pandas as pd from sklearn.preprocessing import StandardScaler# 读取CSV文件 data pd.read_csv(rC:\User…...

【从零开始学架构 架构基础】二 架构设计的复杂度来源:高性能复杂度来源

架构设计的复杂度来源其实就是架构设计要解决的问题,主要有如下几个:高性能、高可用、可扩展、低成本、安全、规模。复杂度的关键,就是新旧技术之间不是完全的替代关系,有交叉,有各自的特点,所以才需要具体…...

OpenHarmony 实战开发——3.1 Release + Linux 原厂内核Launcher起不来问题分析报告

1、关键字 Launcher 无法启动;原厂内核;Access Token ID; 2、问题描述 芯片:rk3566;rk3399 内核版本:Linux 4.19,是 RK 芯片原厂发布的 rk356x 4.19 稳定版内核 OH 版本:OpenHa…...

小猫咪邮件在线发送系统源码,支持添加附件

一款免登录发送邮件,支持发送附件,后台可添加邮箱,前台可选择发送邮箱 网站数据采取本地保存,所以使用前请给网站修改权限,否则很多功能将无法使用 安装教程: 1.上传服务器或者主机 2.登录后台,添加发送…...

Django REST framework(DRF)是什么?

Django REST framework(DRF)是什么? Django REST framework(简称DRF)是一个强大且灵活的工具包,用于构建Web API。它是基于Django(一个高级Python Web框架)构建的,提供了…...

用hMailServer+roundcubemail+宝塔安装配置一个自己的邮箱服务

用hMailServerroundcubemail安装配置一个自己的邮箱服务 1、准备工具与资料: 云服务器一台 基础配置就行 2核4G。域名一个 以下用lizipro.cn示例。hMailServer安装包roundcubemail安装包异常处理插件补丁: libmysql.zip 2、hMailServer服务安装&#…...

ctfshow 框架复现

文章目录 web 466web 467web 468web469web 470web 471web 472web 473web 474web 475web 476 web 466 Laravel5.4版本 &#xff0c;提交数据需要base64编码 代码审计学习—Laravel5.4 - 先知社区 (aliyun.com) 用第二条链子 反序列化格式 /admin/序列化串base64<?php na…...

106. 如何禁用牧场主日志的注释收集

Environment 环境 SUSE Rancher Prime - All versions SUSE Rancher Prime - 所有版本 Rancher-logging-105.3.x Procedure 程序 There could be situations where users might want to disable annotation collection with rancher-logging in order to reduce the amount o…...

GZDoom未来展望:10个开源游戏引擎的发展趋势和路线图

GZDoom未来展望&#xff1a;10个开源游戏引擎的发展趋势和路线图 【免费下载链接】gzdoom GZDoom is a feature centric port for all Doom engine games, based on ZDoom, adding an OpenGL renderer and powerful scripting capabilities 项目地址: https://gitcode.com/gh…...

TP-Link Linux驱动开发面试全记录与实战技巧

1. TP-Link软件工程师面试全记录&#xff1a;Linux驱动开发方向作为一名在嵌入式Linux领域摸爬滚打多年的工程师&#xff0c;最近参加了TP-Link的软件工程师面试&#xff0c;岗位方向是Linux驱动开发。说实话&#xff0c;去之前我对TP-Link的认知还停留在"路由器方案商&qu…...

从CNN到Mamba:为什么这个轻量级双分支结构在医学图像分类中表现更好?

从CNN到Mamba&#xff1a;轻量级双分支结构如何重塑医学图像分类范式 医学影像分析正面临前所未有的挑战——随着CT、MRI、超声等成像技术的普及&#xff0c;每天产生的医学图像数据呈指数级增长。传统CNN架构在应对高分辨率医学图像时&#xff0c;往往陷入局部特征提取的局限&…...

iOSDeviceSupport:解决设备调试兼容性问题的高效管理工具

iOSDeviceSupport&#xff1a;解决设备调试兼容性问题的高效管理工具 【免费下载链接】iOSDeviceSupport All versions of iOS Device Support 项目地址: https://gitcode.com/gh_mirrors/ios/iOSDeviceSupport 问题场景&#xff1a;当新系统遇见旧Xcode "连接失败…...

分组网络频率同步互通测试

概述随着3G/4G网络大规模的部署和应用&#xff0c;网络和业务的全IP化发展&#xff0c;分组传送技术将替代SDH/MSTP网络而成为主流的传送承载网络。这时&#xff0c;一方面新的传送网络技术会对网络的同步性能提出相应的要求&#xff0c;另一方面在通信网络由电路交换型向分组交…...

3步搭建JNPF工作流:新手也能玩转全流程类型

接触过不少刚入门低代码的开发和企业数字化人员&#xff0c;一提搭建工作流就犯怵&#xff1a;分不清流程类型适配场景&#xff0c;摸不透决策流的规则配置&#xff0c;搞不定自由流的灵活流转&#xff0c;最后要么搭出的流程适配性差&#xff0c;要么冗余臃肿跑不通。 其实基于…...

GLM-4.1V-9B-Base快速体验教程:PyCharm专业版中的调试与开发技巧

GLM-4.1V-9B-Base快速体验教程&#xff1a;PyCharm专业版中的调试与开发技巧 1. 开篇&#xff1a;为什么选择PyCharm开发GLM应用 PyCharm作为Python开发者最熟悉的IDE之一&#xff0c;其专业版提供的远程开发调试能力特别适合GLM这类大模型开发场景。想象一下&#xff0c;你可…...

KityMinder:可视化思维的协作引擎 | 高效工作者必备工具

KityMinder&#xff1a;可视化思维的协作引擎 | 高效工作者必备工具 【免费下载链接】kityminder 百度脑图 项目地址: https://gitcode.com/gh_mirrors/ki/kityminder 在信息爆炸的时代&#xff0c;如何将零散的想法系统化、复杂的项目结构化&#xff1f;作为一款开源免…...

GitHub加速完全指南:从卡顿到飞一般体验的实战方案

GitHub加速完全指南&#xff1a;从卡顿到飞一般体验的实战方案 【免费下载链接】gh-proxy github release、archive以及项目文件的加速项目 项目地址: https://gitcode.com/gh_mirrors/gh/gh-proxy 问题诊断&#xff1a;你的GitHub访问为何如此缓慢&#xff1f; 网络延…...