当前位置: 首页 > news >正文

[nodejs] 爬虫加入并发限制并发实现痞客邦网页截图

今晚想给偶像的相册截个图,避免某一天网站挂了我想看看回忆都不行,用的是js的木偶师来爬虫台湾的部落格,效果图大概是这样,很不错

问题来了.我很贪心, 我想一次性把相册全爬了,也就是并发 ,这个人的相册有19个!!我一下子要开19个谷歌浏览器那个什么进程, 然后程序就崩了, 我就想能不能加入个限制? 每次只爬3个,3个完之后再继续.
ok,思路是这样:

1.假如有一个数组9个url(模拟9个相册的url),我按并发数切割,假如并发数是3

2.得到数据结构如下

3.然后循环这个数组, 再循环里面的小数组并添加进promiseChunk数组,用await Promise.all阻塞后面的其他切割的小数组运行,同时添加进AllChunksPromise数组,用来统计所有切割小数组完成后的时间,最后再Promise.all(把第二步的数据结构扁平为一维),在后面就可以计算得到代码执行时间
得到代码如下

结果还行,就是有点慢,毕竟后台调用浏览器...我的单核服务器cpu飙到100%

最后说下cheerio和puppeteer,这两个这两天都有用,cheerio解析静态网页很快,很适合抓数据。木偶可以执行js,这就很牛了,因为他是直接打开一个浏览器运行的,就是慢,各有优缺,优缺互补最好了

源代码已经上传github:https://github.com/DoctorTan/pixnetAlbumScreenshot

相关文章:

[nodejs] 爬虫加入并发限制并发实现痞客邦网页截图

今晚想给偶像的相册截个图,避免某一天网站挂了我想看看回忆都不行,用的是js的木偶师来爬虫台湾的部落格,效果图大概是这样,很不错 问题来了.我很贪心, 我想一次性把相册全爬了,也就是并发 ,这个人的相册有19个!!我一下子要开19个谷歌浏览器那个什么进程, 然后程序就崩了, 我就想…...

GEE——Publisher Data Catalogs发布者数据目录

发布者数据目录 发布者数据目录由数据集发布者策划,供更大范围的 Google 地球引擎社区使用,并作为地球引擎资产集公开共享。这些目录并非由 Google 编制。这里是GEE团队简政放权的一个过程,也就是说这些数据集的后续更新和维护并不由GEE团队负…...

计算10的阶乘

一、不好的写法 public static void main(String[] args) {long fun fun(10);System.out.println(fun);}public static long fun(long n) {if (n 1) {return 1;}return n * fun(n - 1);}使用递归完成需求,fun1方法会执行10次,并且第一次执行未完毕&…...

6.卷积神经网络

#pic_center R 1 R_1 R1​ R 2 R^2 R2 目录 知识框架No.1 卷积层一、从全连接到卷积二、卷积层三、代码四、QA No.2 卷积层里的填充和步幅一、填充和步幅二、D2L代码注意点三、QA No.3 卷积层里的多输入和多输出通道一、多输入和多输出通道二、D2L代码注意点三、QA No.4 池化层…...

postgresql|数据库|SQL语句冲突的解决

前言: postgresql数据库是比较复杂的一个关系型数据库,而有些时候,即使是简单的插入更新操作也是有很多复杂的机制。 那么,什么是冲突?什么时候会遇到冲突(也就是冲突的常见场景)?…...

overflow溢出属性、定位、前端基础之JavaScript

overflow溢出属性 值 描述 visible 默认值。内容不会被修剪,会呈现在元素框之外。 hidden 内容会被修剪,并且其余内容是不可见的。 scroll 内容会被修剪,但是浏览器会显示滚动条以便查看其余的内容。 auto 如果内容被修剪&#xff0…...

【JS】Chapter6-Dom 获取属性操作

站在巨人的肩膀上 黑马程序员前端JavaScript入门到精通全套视频教程,javascript核心进阶ES6语法、API、js高级等基础知识和实战教程 (六)Dom 获取&属性操作 以下的变量可以将 let 改为 const: let arr [red, green] arr.pu…...

太极培训机构展示服务预约小程序的作用如何

太极是适合男女老幼的,很多地方也有相关的学校或培训机构,由于受众广且不太受地域影响,因此对培训机构来说,除了线下经营外,线上宣传、学员获取和发展也不可少。 接下来让我们看下通过【雨科】平台制作太极教培服务预…...

node使用path模块的基本使用

文章目录 一、path.resolve(常用)二、path.sep三、path.parse其他 一、path.resolve(常用) 由于node 中使用 __dirname 获取的绝对路径是/ ,而我们拼接的路径为‘/’导致路径不统一。 作用:拼接规范的绝对路径 const fs require(fs) const path require(path)// 1…...

我和云栖大会有个约会

前言 云栖大会(Alibaba Cloud Computing Conference)是中国阿里巴巴集团旗下的云计算技术盛会,旨在推动云计算技术的发展和应用。该大会自2009年首次举办以来,已成为云计算行业内规模最大、影响力最广的会议之一。 云栖大会每年…...

Linux各个发行版之间的关系

Linux各个发行版之间的关系 可以查看链接:Linux Timeline 链接中可以下载PNG或者SVG图片...

第一章 第一行Android代码

一、Android简介 1.android系统架构 linux kernel(Linux内核层):提供硬件底层驱动 libraries(系统运行库层):提供了主要的特性支持,如SQLite库、Webkit库;还包含android runtime&…...

怎样利用 AI 大模型,辅助研发管理与效能提升?

AI 大模型已经逐渐渗透到各行各业的应用场景中,在软件研发领域也不例外。在软件研发领域,从需求分析到软件设计,从软件开发到测试,以及最后发布上线,AI 在各个环节都发挥着重要作用。10 月 21 日,思码逸首席…...

聊天室的创建

要创建一个聊天室,您需要: 确定聊天室的主题和目的。 选择一个适当的聊天室平台或应用程序,如Discord、Slack、Zoom等。 注册一个账户并创建一个聊天室。 添加您的朋友或家人或需要的人到聊天室中。 设置聊天室的规则和管理机制&#xff…...

大数据信息抽取

随着互联网的广泛应用和技术的不断进步,海量数据被产生、存储和共享。这些数据中包含着宝贵的的信息和知识,二大数据信息抽取是正是为了把这些数据中关键、有用的信息提取出来。 大数据信息抽取就是指通过自动化的方式,从大数据中提取有异议…...

驱动开发11-1 编写IIC驱动-读取温湿度数据

头文件 head.h #ifndef __HEAD_H__ #define __HEAD_H__ #define GET_HUM _IOR(m, 1, int) #define GET_TEM _IOR(m, 0, int) #endif 应用程序 si7006.c #include <stdlib.h> #include <stdio.h> #include <sys/types.h> #include <sys/stat.h> #inc…...

上海中优城市万豪酒店推出全新国际IP童趣主题房,独特住宿体验中国首秀

2023年10月30日&#xff0c;中国上海 – 近日&#xff0c;上海中优城市万豪酒店正式推出由全球品牌娱乐公司孩之宝官方授权打造的小马宝莉和变形金刚主题客房&#xff0c;以创意客房、新奇体验和丰富礼遇&#xff0c;为童游家庭或年轻的动漫迷们开启沉浸式入住之旅&#xff0c;…...

zsh和bash之间互相切换

zsh->bash exec bashbash->zsh exec zsh...

Java - window系统快捷键大全

Ctrl 快捷键 介绍 Ctrl F 在当前文件进行文本查找 &#xff08;必备&#xff09; Ctrl R 在当前文件进行文本替换 &#xff08;必备&#xff09; Ctrl Z 撤销 &#xff08;必备&#xff09; Ctrl Y 删除光标所在行 或 删除选中的行 &#xff08;必备&#xff09; Ctrl X …...

深入理解数据结构(1)—用链表实现栈

栈是一种数据结构&#xff0c;链表也是一种数据结构。它们都是由基础的语法实现的。 如果一个数据结构可以用另外的数据结构来实现&#xff0c;那么可以有力的证明——“数据结构是一种思想”&#xff0c;是一种讲语法组合起来实现某种功能的手段 一、栈的特点——要实现哪些功…...

UE5第三人称相机避障实战:SpringArmComponent参数调优与常见Bug修复

UE5第三人称相机避障实战&#xff1a;SpringArmComponent参数调优与常见Bug修复 在虚幻引擎5&#xff08;UE5&#xff09;开发第三人称游戏时&#xff0c;相机系统的表现直接影响玩家的游戏体验。一个优秀的第三人称相机应该既能跟随角色流畅移动&#xff0c;又能智能避开场景障…...

【传统图像增强算法1】-直方图均衡化

一、直方图均衡化 1.1 直方图简介 在数字图像处理领域&#xff0c;直方图作为一种可视化统计工具&#xff0c;被广泛应用于图像分析的各个环节&#xff0c;其中灰度直方图是针对单通道图像的核心统计表征。 灰度直方图定量地刻画了图像内部的灰度级分布规律&#xff0c;它能够直…...

免费功能强大的大屏开发平台

整理了一些主流且功能强大的免费大屏开发平台。为了方便你比较&#xff0c;我将它们分成了三大类&#xff1a; &#x1f6e0;️ 开源/低代码框架 (适合开发者) 这类平台对开发者很友好&#xff0c;提供了高度灵活的定制和私有化部署能力。 平台技术栈/特点免费模式适合人群D…...

从零搭建QT(C++)开发环境到实战部署YOLOV5模型

1. 环境准备&#xff1a;从零搭建QT开发环境 第一次接触QT开发的朋友可能会被各种安装选项搞懵&#xff0c;我刚开始配置环境时也踩过不少坑。这里分享一个经过验证的安装方案&#xff0c;适用于大多数Linux系统&#xff08;以Ubuntu为例&#xff09;。 首先需要安装基础编译工…...

OpenClaw多模型对比:Phi-3-vision-128k-instruct与纯文本模型任务效率实测

OpenClaw多模型对比&#xff1a;Phi-3-vision-128k-instruct与纯文本模型任务效率实测 1. 测试背景与目标 最近在尝试用OpenClaw搭建个人自动化工作流时&#xff0c;遇到了一个实际需求&#xff1a;需要定期从特定网页抓取内容并生成分析报告。这个任务既包含图文信息提取&am…...

SPI扩展CAN方案:从寄存器配置到多路通信实战

1. SPI扩展CAN方案的核心价值 在工业控制领域&#xff0c;CAN总线因其高可靠性和实时性被广泛使用。但随着设备节点增加&#xff0c;主控芯片原生CAN接口往往不够用。这时通过SPI接口扩展CAN通道就成了性价比极高的解决方案。我曾在多个工业现场实测&#xff0c;用10元级的MCP2…...

PaddlePaddle-GPU环境配置:为什么你的显卡总是被识别成CPU?(附解决方案)

PaddlePaddle-GPU环境配置&#xff1a;为什么你的显卡总是被识别成CPU&#xff1f;&#xff08;附解决方案&#xff09; 刚拿到新显卡准备大展拳脚&#xff0c;却发现PaddlePaddle死活不认GPU&#xff0c;这种挫败感我太懂了。明明花大价钱买的显卡&#xff0c;结果深度学习训…...

基恩士KV8000系列程序与电芯上料机的精密控制:EtherCAT总线技术、多轴定位与智能管理功能

基恩士KV8000程序 ~ 基恩士KV8000系列程序&#xff0c;KV8000KV-C64XKV-C64T等输入输出模块&#xff0c;KV-XH16EC定位控制模块 电芯上料机 松下A6系列总线控制伺服电机&#xff0c;采用EtherCAT总线控制&#xff0c;绝对定位、相对定位&#xff0c;整台设备13个轴&#xff0c…...

Linux学习进展 计算机基本硬件结构

学习Linux系统&#xff0c;本质上是掌握“软件如何操控硬件”的逻辑——Linux作为开源操作系统&#xff0c;其内核与硬件的深度绑定的特性&#xff0c;决定了我们必须先理解计算机基本硬件结构&#xff0c;才能更清晰地明白Linux内核的调度机制、资源管理逻辑&#xff0c;以及后…...

STM32上FreeRTOS移植踩坑实录:从SysTick被占用到heap_4.c选择,我的避坑指南

STM32上FreeRTOS移植实战避坑指南&#xff1a;从时钟源选择到内存管理优化 1. 时钟源配置&#xff1a;当SysTick被FreeRTOS占用后 在STM32上移植FreeRTOS遇到的第一个"坑"往往与系统时钟源有关。许多开发者习惯使用SysTick作为系统时钟基准&#xff0c;但在启用FreeR…...