Node.js数据抓取技术实战示例
Node.js常用的库有哪些呢?比如axios或者node-fetch用来发送HTTP请求,cheerio用来解析HTML,如果是动态网页的话可能需要puppeteer这样的无头浏览器。这些工具的组合应该能满足大部分需求。
然后,可能遇到的难点在哪里?比如反爬虫机制,比如验证码、IP封锁,或者需要处理JavaScript渲染的内容。这时候可能需要使用puppeteer来模拟浏览器行为,或者使用代理池来避免IP被封。
接下来考虑步骤。首先发送请求获取页面内容,然后解析HTML提取所需数据,最后存储数据到文件或数据库。如果是分页的数据,可能需要循环处理多个页面。还需要处理异常情况,比如请求失败、页面结构变化等,这时候需要错误处理和日志记录。
另外,爬虫可能对性能有要求吗?比如并发请求,可以使用Promise.all或者限制并发数的库,比如p-limit,避免同时发送太多请求导致服务器压力过大或被封IP。
数据存储方面,可能需要存到JSON文件、CSV,或者数据库如MongoDB、MySQL,根据用户需求选择。如果是简单需求,保存到文件可能更方便。
还有合法性的问题,提醒用户遵守网站的robots.txt,尊重版权和隐私,避免法律问题。这也是需要注意的地方。
最后,代码示例部分需要简单明了,展示一个完整的流程。比如用axios获取页面,用cheerio解析,提取数据,然后保存到文件。如果是动态内容,用puppeteer的例子。同时给出注意事项,比如处理延迟、错误处理等。
多数用户是初学者,所以代码示例要注释清楚,步骤明确。同时需要提到可能的扩展点,比如处理分页、并发请求、存储到数据库等,让用户知道如何根据需求进一步开发。
总结一下,回答需要涵盖工具选择、步骤分解、代码示例、注意事项以及可能的扩展方向,帮助用户全面了解Node.js抓取数据的流程和要点。
在 Node.js 中实现数据抓取通常涉及 HTTP 请求、HTML 解析和数据处理。以下是详细实现步骤和示例代码:
一、常用工具
-
HTTP 请求库
axios
:Promise-based HTTP 客户端node-fetch
:类似浏览器 fetch 的实现puppeteer
:无头浏览器(用于动态渲染页面)
-
HTML 解析
cheerio
:类似 jQuery 的 DOM 操作库jsdom
:完整的 DOM 实现
-
其他工具
p-limit
:控制并发请求csv-writer
:生成 CSV 文件
二、静态页面抓取示例
const axios = require('axios');
const cheerio = require('cheerio');
const fs = require('fs');async function fetchData(url) {try {const { data } = await axios.get(url);const $ = cheerio.load(data);const results = [];$('.product-item').each((i, element) => {results.push({name: $(element).find('.name').text().trim(),price: $(element).find('.price').text().trim(),link: $(element).find('a').attr('href')});});fs.writeFileSync('products.json', JSON.stringify(results, null, 2));console.log('数据抓取完成');} catch (error) {console.error('抓取失败:', error.message);}
}// 使用示例
fetchData('https://example.com/products');
三、动态页面抓取(使用 Puppeteer)
const puppeteer = require('puppeteer');async function dynamicScraping(url) {const browser = await puppeteer.launch();const page = await browser.newPage();await page.goto(url, { waitUntil: 'networkidle2' });// 执行页面内 JavaScriptconst data = await page.evaluate(() => {return Array.from(document.querySelectorAll('.user-card')).map(card => ({username: card.querySelector('.username').innerText,bio: card.querySelector('.bio').innerText}));});await browser.close();return data;
}// 使用示例
dynamicScraping('https://example.com/users').then(data => console.log(data)).catch(console.error);
四、高级技巧
- 处理分页
async function paginatedScraping(baseUrl, totalPages) {const results = [];for (let page = 1; page <= totalPages; page++) {const url = `${baseUrl}?page=${page}`;const data = await fetchData(url);results.push(...data);await new Promise(resolve => setTimeout(resolve, 2000)); // 延迟防止封禁}return results;
}
- 并发控制
const pLimit = require('p-limit');
const limit = pLimit(3); // 最大并发数async function concurrentScraping(urls) {const promises = urls.map(url => limit(() => fetchData(url)));return Promise.all(promises);
}
- 代理配置
const axiosInstance = axios.create({proxy: {host: 'proxy-server',port: 8080,auth: {username: 'your_user',password: 'your_pass'}}
});
五、数据存储选项
- JSON 文件
fs.writeFileSync('data.json', JSON.stringify(data));
- CSV 文件
const createCsvWriter = require('csv-writer').createObjectCsvWriter;const csvWriter = createCsvWriter({path: 'data.csv',header: [{id: 'name', title: 'NAME'},{id: 'price', title: 'PRICE'}]
});csvWriter.writeRecords(data);
- 数据库存储(MongoDB 示例)
const mongoose = require('mongoose');const productSchema = new mongoose.Schema({name: String,price: Number,link: String
});const Product = mongoose.model('Product', productSchema);async function saveToDB(data) {await mongoose.connect('mongodb://localhost:27017/scraping');await Product.insertMany(data);await mongoose.disconnect();
}
六、反爬虫对策
- 设置合理的请求头
headers: {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ...','Accept-Language': 'en-US,en;q=0.9'
}
- 使用随机延迟
function randomDelay(min, max) {return new Promise(resolve => setTimeout(resolve, Math.random() * (max - min) + min));
}
- 处理 Cookie
const jar = new tough.CookieJar();
axios.get(url, {jar: jar,withCredentials: true
});
七、错误处理最佳实践
async function robustScraping(url, retries = 3) {for (let i = 0; i < retries; i++) {try {return await fetchData(url);} catch (error) {if (i === retries - 1) throw error;await new Promise(resolve => setTimeout(resolve, 5000 * (i + 1)));}}
}
注意事项
- 遵守 robots.txt 规则
- 尊重网站的服务条款
- 控制请求频率(建议 2-5 秒/请求)
- 处理敏感数据需符合 GDPR 等法规
- 使用 try/catch 处理网络错误
- 定期检查选择器是否有效
根据具体需求可以组合这些技术,简单的静态页面使用 cheerio + axios 即可,复杂场景(SPA、需要登录)则需要 puppeteer。对于大规模抓取建议使用分布式架构(Redis 队列 + 多 Worker)。
相关文章:

Node.js数据抓取技术实战示例
Node.js常用的库有哪些呢?比如axios或者node-fetch用来发送HTTP请求,cheerio用来解析HTML,如果是动态网页的话可能需要puppeteer这样的无头浏览器。这些工具的组合应该能满足大部分需求。 然后,可能遇到的难点在哪里?…...
[架构之美]Spring Boot集成MyBatis-Plus高效开发(十七)
[架构之美]Spring Boot集成MyBatis-Plus高效开发(十七) 摘要:本文通过图文代码实战,详细讲解Spring Boot整合MyBatis-Plus全流程,涵盖代码生成器、条件构造器、分页插件等核心功能,助你减少90%的SQL编写量…...

windows10 安装 QT
本地环境有个qt文件,这里是5.14.2 打开一个cmd窗口并指定到该文件根目录下 .\qt-opensource-windows-x86-5.14.2.exe --mirror https://mirrors.ustc.edu.cn/qtproject 执行上面命令 记住是文件名,记住不要傻 X的直接复制,是你的文件名 点击…...

WordPress 和 GPL – 您需要了解的一切
如果您使用 WordPress,GPL 对您来说应该很重要,您也应该了解它。查看有关 WordPress 和 GPL 的最全面指南。 您可能听说过 GPL(通常被称为 WordPress 的权利法案),但很可能并不完全了解它。这是有道理的–这是一个复杂…...
计算机网络:什么是计算机网络?它的定义和组成是什么?
计算机网络是指通过通信设备和传输介质,将分布在不同地理位置的计算机、终端设备及其他网络设备连接起来,实现资源共享、数据传输和协同工作的系统。其核心目标是使设备之间能够高效、可靠地交换信息。 关键组成部分 硬件设备 终端设备:如计算…...

C++书本摆放 2024年信息素养大赛复赛 C++小学/初中组 算法创意实践挑战赛 真题详细解析
目录 C++书本摆放 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序编写 四、运行结果 五、考点分析 六、 推荐资料 1、C++资料 2、Scratch资料 3、Python资料 C++书本摆放 2024年信息素养大赛 C++复赛真题 一、题目要求 1、编程实现 中科智慧科技…...
在scala中使用sparkSQL读入csv文件
以下是使用 Spark SQL(Scala)读取 CSV 文件的完整代码示例: scala import org.apache.spark.sql.SparkSession import org.apache.spark.sql.types._object CSVReadExample {def main(args: Array[String]): Unit {// 创建SparkSessionval…...

RabbitMQ 核心概念与消息模型深度解析(一)
一、RabbitMQ 是什么 在当今分布式系统盛行的时代,消息队列作为一种至关重要的中间件技术,扮演着实现系统之间异步通信、解耦和削峰填谷等关键角色 。RabbitMQ 便是消息队列领域中的佼佼者,是一个开源的消息代理和队列服务器,基于…...

论文阅读笔记——双流网络
双流网络论文 视频相比图像包含更多信息:运动信息、时序信息、背景信息等等。 原先处理视频的方法: CNN LSTM:CNN 抽取关键特征,LSTM 做时序逻辑;抽取视频中关键 K 帧输入 CNN 得到图片特征,再输入 LSTM&…...
思路解析:第一性原理解 SQL:连接(JOIN)
目录 题目描述 🎯 应用第一性原理来思考这个 SQL 题目 ✅ 第一步:还原每个事件的本质单位 ✅ 第二步:如果一个表只有事件,如何构造事件对? ✅ 第三步:加过滤条件,只保留“同一机器、同一进…...
Java面向对象三大特性深度解析
Java面向对象三大特性封装继承多态深度解析 前言一、封装:数据隐藏与访问控制的艺术1.1 封装的本质与作用1.2 封装的实现方式1.2.1 属性私有化与方法公开化1.2.2 封装的访问修饰符 二、继承:代码复用与类型扩展的核心机制2.1 继承的定义与语法2.2 继承的…...

LabVIEW在电子电工教学中的应用
在电子电工教学领域,传统教学模式面临诸多挑战,如实验设备数量有限、实验过程存在安全隐患、教学内容更新滞后等。LabVIEW 作为一款功能强大的图形化编程软件,为解决这些问题提供了创新思路,在电子电工教学的多个关键环节发挥着重…...

Vue3 怎么在ElMessage消息提示组件中添加自定义icon图标
1、定义icon组件代码: <template><svg :class"svgClass" aria-hidden"true"><use :xlink:href"iconName" :fill"color"/></svg> </template><script> export default defineComponen…...

生活破破烂烂,AI 缝缝补补(附提示词)
写在前面:【Fire 计算器】已上线,快算算财富自由要多少 现实不总温柔,愿你始终自渡。 请永远拯救自己于水火之中。 毛绒风格提示词(供参考): 1. 逼真毛绒风 Transform this image into a hyperrealist…...

张 。。 通过Token实现Loss调优prompt
词编码模型和 API LLM不匹配,采用本地模型 理性中性案例(针对中性调整比较合理) 代码解释:Qwen2模型的文本编码与生成过程 这段代码展示了如何使用Qwen2模型进行文本的编码和解码操作。 模型加载与初始化 from transformers import AutoModelForCausalLM, AutoTokenizer...
Ubuntu 22.04.5 LTS上部署Docker及相关优化
以下是在Ubuntu 22.04.5 LTS上部署Docker及相关优化的步骤: 安装Docker 更新系统:在安装Docker之前,先确保系统是最新的,执行以下命令:sudo apt update sudo apt upgrade -y安装依赖包:安装一些必要的依赖…...

JVM学习专题(一)类加载器与双亲委派
目录 1、JVM加载运行全过程梳理 2、JVM Hotspot底层 3、war包、jar包如何加载 4、类加载器 我们来查看一下getLauncher: 1.我们先查看getExtClassLoader() 2、再来看看getAppClassLoader(extcl) 5、双亲委派机制 1.职责明确,路径隔离ÿ…...

PyTorch API 9 - masked, nested, 稀疏, 存储
文章目录 torch.randomtorch.masked简介动机什么是 MaskedTensor? 支持的运算符一元运算符二元运算符归约操作查看与选择函数 torch.nested简介构造方法数据布局与形状支持的操作查看嵌套张量的组成元素填充张量的相互转换形状操作注意力机制 与 torch.compile 的配…...

进程相关面试题20道
一、基础概念与原理 1.进程的定义及其与程序的本质区别是什么? 答案:进程是操作系统分配资源的基本单位,是程序在数据集合上的一次动态执行过程。核心区别: 动态性:程序是静态文件,进程是动态执行实例…...
微信小程序学习之轮播图swiper
轮播图是小程序的重要组件,我们还是好好学滴。 1、上代码,直接布局一个轮播图组件(index.wxml): <swiper class"swiper" indicator-active-color"#fa2c19" indicator-color"#fff" duration"{{durati…...
【万字逐行详解】深入解析ONNX Runtime图像分类程序main函数
本文将全面、详尽地解析一个使用ONNX Runtime进行图像分类的C++程序,不省略任何一行代码,逐行解释其语法和实现原理。这个程序展示了现代C++在计算机视觉领域的完整应用流程,从模型加载到结果可视化,涵盖了异常处理、性能分析等工程实践。 程序完整解析 1. 主函数框架 i…...

Linux复习笔记(五) 网络服务配置(dhcp)
二、网络服务配置 2.5 dhcp服务配置(不涉及实际操作) 要求:知道原理和常见的参数配置就行 2.5.1 概述DHCP(Dynamic Host Configuration Protocol,动态主机配置协议) DHCP(Dynamic Host Conf…...
智慧工厂管理平台推荐?智慧工厂解决方案提供商有哪些?智慧工厂管理系统哪家好?
随着工业4.0和“双碳”目标的推进,智慧工厂管理平台成为制造企业数字化转型的核心工具。本文基于技术实力、应用场景、安全可靠三大维度,结合最新行业实践与用户需求,精选出十大智慧工厂解决方案提供商,助您快速匹配行业需求&…...
鸿蒙OSUniApp 实现的语音输入与语音识别功能#三方框架 #Uniapp
UniApp 实现的语音输入与语音识别功能 最近在开发跨平台应用时,客户要求添加语音输入功能以提升用户体验。经过一番调研和实践,我成功在UniApp项目中实现了语音输入与识别功能,现将过程和方法分享出来,希望对有类似需求的开发者有…...

windows版redis的使用
redis下载 Releases microsoftarchive/redishttps://github.com/microsoftarchive/redis/releases redis的启动和停止 进入路径的cmd 启动:redis-server.exe redis.windows.conf 停止:ctrlc 连接redis 指定要连接的IP和端口号 -h IP地址 -p 端口…...

Java版OA管理系统源码 手机版OA系统源码
Java版OA管理系统源码 手机版OA系统源码 一:OA系统的主要优势 1. 提升效率 减少纸质流程和重复性工作,自动化处理常规事务,缩短响应时间。 2. 降低成本 节省纸张、打印、通讯及人力成本,优化资源分配。 3. 规范管理 固化企…...

NineData 社区版 V4.1.0 正式发布,新增 4 条迁移链路,本地化数据管理能力再升级
NineData 社区版 V4.1.0 正式更新发布。本次通过新增 4 条迁移链路扩展、国产数据库深度适配、敏感数据保护增强等升级,进一步巩固了其作为高效、安全、易用的数据管理工具的定位。无论是开发测试、数据迁移,还是多环境的数据管理,NineData…...

进阶2_1:QT5多线程与定时器共生死
1、在widget.ui中使用 LCD Number控件 注意:若 LCD 控件不是多线程,LCD控件则会瞬间自增到最大的数值,如上图,说明两者都是多线程处理 2、实现方式 1、创建 LCD 控件并修改为 LCD1 2、创建任务类 mytask. h,对任务类…...

在虚拟机Ubuntu18.04中安装NS2教程及应用
NS2简介 一、主要组成部分: 1.NS2:模拟器本身,负责执行TCL脚本进行模拟,并生成trace文件输出结果。 2.NAM:网络动画模拟器,用于将模拟结果可视化。 二、使用的语言: 1.C:NS2中最重要…...

VBA —— 第6章子程序与函数
子程序:实现特定功能的程序代码块 子程序语法: [修饰符] Sub 子程序名称([参数1,参数2,参数3]) 代码块 End Sub 子程序如何调用: 1 . 子程序名 [参数1,参数2,...] 2. Call 子程序名 [(参…...