当前位置: 首页 > article >正文

使用Crawlee可破题js渲染采集数据

使用 Crawlee 实现自动化爬虫流程

在这里插入图片描述

1. Crawlee 简介

Crawlee 是一个强大的爬虫框架,用于快速构建和维护可靠的爬虫。它支持多种爬虫类型,包括基于 Cheerio 和 Playwright 的爬虫,能够高效处理静态和动态网页。

2. 项目目标

通过自动化脚本实现两个主要任务:

  1. 采集目标网站的所有链接。
  2. 从采集到的链接中提取页面数据。

3. 文件结构

项目包含以下文件:

  • collect_links.js:采集目标网站的所有链接并保存到 JSON 文件。
  • collect_data.js:从 JSON 文件读取链接并采集页面数据。
  • main.js:主控制脚本,协调两个文件的同步执行。
  • collected_links.json:存储采集到的链接。
  • collected_data.json:存储采集到的页面数据。

4. 安装依赖

在项目根目录下运行以下命令安装所需依赖:

npm install crawlee

5. 示例 1:采集链接

collect_links.js 脚本负责从目标网站采集所有链接,并将结果保存到 collected_links.json 文件中。

const { CheerioCrawler, Dataset } = require('crawlee');const startUrls = ['https://example.com']; // 替换为目标网站的起始页面
const crawler = new CheerioCrawler({async requestHandler({ request, $ }) {const links = $('a').map((i, el) => $(el).attr('href')).get();const validLinks = links.filter((link) => link && link.startsWith('http'));await Dataset.pushData({ url: request.loadedUrl, links: validLinks });await crawler.addRequests(validLinks.map((link) => ({ url: link })));}
});(async () => {await crawler.run(startUrls);await Dataset.exportData({ path: './collected_links.json', format: 'json' });console.log('所有链接已保存到 collected_links.json 文件中');
})();

6. 示例 2:采集数据

collect_data.js 脚本从 collected_links.json 文件中读取链接,并采集每个页面的标题和内容,最终将数据保存到 collected_data.json 文件中。

const fs = require('fs');
const { CheerioCrawler, Dataset } = require('crawlee');(async () => {const links = JSON.parse(fs.readFileSync('./collected_links.json', 'utf-8'));const allLinks = links.flatMap((entry) => entry.links);const crawler = new CheerioCrawler({async requestHandler({ request, $ }) {const title = $('title').text();const content = $.html();await Dataset.pushData({ url: request.loadedUrl, title, content });console.log(`已采集页面:${request.loadedUrl}`);}});await crawler.addRequests(allLinks.map((url) => ({ url })));await crawler.run();await Dataset.exportData({ path: './collected_data.json', format: 'json' });console.log('采集完成,数据已保存到 collected_data.json 文件中');
})();

7. 主控制脚本:main.js

主控制脚本负责协调两个文件的同步执行,确保采集链接和采集数据的任务能够连续运行。

const { exec } = require('child_process');
const fs = require('fs');
const path = './collected_links.json';// 运行采集链接的脚本
function runCollectLinks() {console.log('开始采集链接...');exec('node collect_links.js', (err, stdout, stderr) => {if (err) {console.error('采集链接时出错:', err);return;}console.log('采集链接完成:', stdout);console.log('开始采集数据...');runCollectData();});
}// 运行采集数据的脚本
function runCollectData() {exec('node collect_data.js', (err, stdout, stderr) => {if (err) {console.error('采集数据时出错:', err);return;}console.log('采集数据完成:', stdout);});
}// 启动整个流程
runCollectLinks();

8. 同步执行任务

通过 main.js 脚本,确保 collect_links.jscollect_data.js 按顺序同步执行。当 collect_links.js 完成后,自动触发 collect_data.js

9. 运行项目

在项目根目录下运行以下命令启动整个流程:

node main.js

10. 优点

  • 自动化流程:整个采集流程完全自动化,无需手动干预。
  • 解耦设计:采集链接和采集数据的逻辑完全分离,便于维护和扩展。
  • 实时响应:通过主控制脚本,确保在链接文件更新后立即启动数据采集。

11.文档地址

https://crawlee.dev

相关文章:

使用Crawlee可破题js渲染采集数据

使用 Crawlee 实现自动化爬虫流程 1. Crawlee 简介 Crawlee 是一个强大的爬虫框架,用于快速构建和维护可靠的爬虫。它支持多种爬虫类型,包括基于 Cheerio 和 Playwright 的爬虫,能够高效处理静态和动态网页。 2. 项目目标 通过自动化脚本实…...

短连接服务器压测-wrk

背景 由于业务需要我们从原来的 长连接 转为 短连接,提高单服同时在线人数。 老压测 在服务器编写机器人,编写一部分客户端逻辑(这里如果客户端严格使用mvc 模式,其实可以把 view 层换为 服务器测试代码层,而一般不…...

DAV_postgresql_2-user_role

数据库角色用来管理数据库访问权限,简化权限的管理 用户和角色在整个数据库集簇中是全局性的,不是针对某个单一数据库,只要有足够的权限,用户可以访问所有数据库的对象。 数据库用户可以分为两类 超级用户 -- postgres 普通…...

php 获取head参数

php 获取head参数 在PHP中,获取HTTP头部(head)参数可以通过不同的方式实现,下面为你详细介绍几种常见的方法。 1. 使用$_SERVER超全局变量 $_SERVER 是PHP中的一个超全局变量,它包含了诸如头信息、路径、脚本位置等…...

Fiddler在Windows下抓包Https

文章目录 1.Fiddler Classic 配置2.配置浏览器代理自动代理手动配置浏览器代理 3.抓取移动端 HTTPS 流量(可选)解决抓取 HTTPS 失败问题1.Fiddler证书过期了 默认情况下,Fiddler 无法直接解密 HTTPS 流量。需要开启 HTTPS 解密: 1…...

SQLite数据库从0到1

SQLite SQLite基础知识 SQLite数据库功能特性:ACID事务;支持数据库大小至2TB;足够小,大致13万行C代码4MB左右;存储在单一磁盘文件中的完整数据库。独立,无额外依赖。源码完全开源。支持多种编程语言&#…...

PMP项目管理—整合管理篇—7.结束项目或阶段

文章目录 基本信息过程4W1HITTO输入工具与技术输出 收尾过程组项目收尾(结束项目或阶段)行政收尾/管理收尾 合同收尾(结束采购) 最终报告 基本信息 项目无论何因何时终止,都必须用结束项目或阶段过程来正式关闭。通过…...

计算机网络基础简答题资料(对口高考)

1、什么是计算机网络?计算机网络的功能有哪些? 答案:计算机网络,是指将分布在不同地理位置、具有独立功能的多台计算机及其外围设备,通过通信设备和通信线路连接起来,在网络操作系统、网络管理软件及网络通…...

Java语法基础知识点1

目录 一、数组 1.1数组的初始化: 1.2数组的遍历方法: 1.3数组的常见使用方法: 二、类和对象 2.1构造方法: 2.2this关键字: 三、封装 3.1访问限定符: 3.2static关键字: 3.3代码块: 一…...

2025年跟上AI新时代:带AI人工智能的蜜罐系统T-Pot

T-Pot是一个集成式、可选分布式的、支持多架构(amd64、arm64)的蜜罐平台,它支持20多种蜜罐,并提供了使用Elastic Stack的无数可视化选项、动态实时攻击地图以及众多安全工具,以进一步提升蜜罐系统体验。源码地址&#…...

【新手入门】SQL注入之盲注

一、引言 在我们的注入语句被带入数据库查询但却什么都没有返回的情况我们该怎么办? 例如应用程序返回到一个"通用的"的页面,或者重定向一个通用页面(可能为网站首页)。这时,我们之前学习的SQL注入的办法就无法使用了。这种情况我们称之为无…...

python-leetcode-分割等和子集

416. 分割等和子集 - 力扣(LeetCode) class Solution:def canPartition(self, nums: List[int]) -> bool:total sum(nums)if total % 2 ! 0:return Falsetarget total // 2dp [False] * (target 1)dp[0] Truefor num in nums:for j in range(tar…...

【大模型+知识图谱】大模型与知识图谱融合:技术演进、实践应用与未来挑战

【大模型+知识图谱】大模型与知识图谱融合:技术演进、实践应用与未来挑战 大模型与知识图谱融合:技术演进、实践应用与未来挑战引言:为什么需要融合?一、技术融合的三重路径1.1 知识图谱增强大模型1.2 大模型赋能知识图谱1.3 协同推理框架二、工业级应用场景落地2.1 智能问…...

python 视频网站爬虫教程,爬虫入门教程(付安装包)

文章目录 前言1. 环境准备Python安装选择Python开发环境安装必要库 2. 了解目标网站3. 发送请求获取页面内容4. 解析页面内容,提取视频链接5. 下载视频6. 处理反爬机制7. 完整代码示例注意事项 前言 以下为你生成一份 Python 视频网站爬虫教程,以爬取简…...

趣讲TCP三次握手

一、TCP三次握手简介 TCP(Transmission Control Protocol,传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议。在TCP连接中,只有两方进行通信,它使用校验和、确认和重传机制来保证数据的可靠传输。…...

Python 字典与集合:从入门到精通的全面解析

Langchain系列文章目录 01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南 02-玩转 LangChain Memory 模块:四种记忆类型详解及应用场景全覆盖 03-全面掌握 LangChain:从核心链条构建到动态任务分配的实战指南 04-玩转 LangChai…...

基于coze+微信小程序实现图片上传并利用大模型解析

项目截图&#xff1a; 实现代码&#xff08;直接搬去可用&#xff09; 前提&#xff1a;需要填写你的oss配置coze的api授权配置&#xff01;&#xff01;&#xff01; <template><view class"container"><!-- 高斯模糊背景 --><view class&qu…...

java——执行linux/cmd命令

在Java中执行命令行命令可以通过Runtime.exec()或ProcessBuilder实现。以下是两种方法的详细说明和示例代码&#xff1a; 1. 使用 Runtime.exec() 适用于简单场景&#xff0c;但需手动处理输入/输出流。 try {// 执行命令&#xff08;参数以数组形式传递&#xff0c;避免空格…...

VMware Fusion 虚拟机Mac版 安装CentOS 7 系统

介绍 CentOS是Community Enterprise Operating System的缩写&#xff0c;也叫做社区企业操作系统。是企业Linux发行版领头羊Red Hat Enterprise Linux的再编译版本&#xff08;是一个再发行版本&#xff09;&#xff0c;而且在RHEL的基础上修正了不少已知的 Bug &#xff0c;相…...

java练习(44)

ps:题目来自力扣 两两交换链表中的节点 给你一个链表&#xff0c;两两交换其中相邻的节点&#xff0c;并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题&#xff08;即&#xff0c;只能进行节点交换&#xff09;。 // 定义链表节点类&#xff0c;每个节…...

Deepseek 开源周第一天:FlashMLA

Deepseek 隆重开启开源周!第一天我们迎来了FlashMLA。我很高兴带大家了解这项创新,揭秘 FlashMLA 为何能成为 AI 和 GPU 优化领域的变革者。 Deepseek 开源周的热门话题有哪些?...

DeepSeek-OpenSourceWeek-第三天-Release of DeepGEMM

DeepGEMM:这是一款专为高效的 FP8(8 位浮点)通用矩阵乘法(GEMMs)而开发的尖端库。GEMMs 是许多 AI 工作负载(尤其是深度学习)中的基本操作。 特点: 支持稠密和 MoE GEMMs:它可以处理标准的稠密矩阵乘法以及混合专家(MoE)模型中使用的矩阵乘法。MoE 是一种神经网络架…...

Bitlocker取证之PXE降级取密钥

支持到微软Surface pro系列。...

【补阙拾遗】排序之冒泡、插入、选择排序

炉烟爇尽寒灰重&#xff0c;剔出真金一寸明 冒泡排序1. 轻量化情境导入 &#x1f30c;2. 边界明确的目标声明 &#x1f3af;3. 模块化知识呈现 &#x1f9e9;&#x1f4ca; 双循环结构对比表★★★⚠️ 代码关键点注释 4. 嵌入式应用示范 &#x1f6e0;️5. 敏捷化巩固反馈 ✅ …...

跨AWS账户共享SQS队列以实现消息传递

在现代分布式系统中,不同的服务和组件通常需要进行通信和协作。Amazon Simple Queue Service (SQS)提供了一种可靠、可扩展且完全托管的消息队列服务,可以帮助您构建分布式应用程序。本文将介绍如何在一个AWS账户(账户A)中创建SQS队列,并授权另一个AWS账户(账户B)中的用户和角色…...

基于Python实现的【机器学习】小项目教程案例

以下是一个基于Python实现的【机器学习】小项目教程案例,结合的经典案例与最佳实践,涵盖数据预处理、模型训练与评估全流程,并附详细代码说明与结果分析: 案例1:鸢尾花分类(SVM算法) 数据集:Iris Dataset(含150个样本,4个特征,3个类别) 目标:根据花瓣与萼片长度…...

TDengine 中的数据库

数据库概念 时序数据库 TDengine 中数据库概念&#xff0c;等同于关系型数据库 MYSQL PostgreSQL 中的数据库&#xff0c;都是对资源进行分割管理的单位。 TDengine 数据库与关系型数据库最大区别是跨库操作&#xff0c;TDengine 数据库跨库操作除了少量几个SQL 能支持外&…...

.Net Core Visual Studio NuGet.Config 配置参考

Visual Studio 2022 NUGET NU1301 无法加载源 基础连接已关闭&#xff1a;无法建立SSL / TLS安全通道的信任关系&#xff1b;根据验证过程&#xff0c;远程证书无效&#xff0c;参考文章&#xff1a;https://blog.csdn.net/hefeng_aspnet/article/details/145780081 NuGet 行为…...

深入剖析 OpenCV:全面掌握基础操作、图像处理算法与特征匹配

深入剖析 OpenCV&#xff1a;全面掌握基础操作、图像处理算法与特征匹配 一、引言二、OpenCV 的安装&#xff08;一&#xff09;使用 pip 安装&#xff08;二&#xff09;使用 Anaconda 安装 三、OpenCV 基础操作&#xff08;一&#xff09;图像的读取、显示与保存&#xff08;…...

帧率和带宽

帧率&#xff0c;通常指的是每秒传输的帧数&#xff0c;帧就是一段数据包。 带宽则是指在单位时间内可以传输的数据量&#xff0c;通常以比特每秒来衡量 帧率在ROS2中可能指的是每秒发布的消息数量。也就是说&#xff0c;一个节点发布话题的频率。比如&#xff0c;每秒发布10次…...