用 n8n 提取静态网页内容:从 HTTP Request 到 HTML 节点全解析
n8n 的 HTTP Request + HTML 节点组合是个实用又高效的工具。这篇文章就带你一步步搞懂如何用它们提取静态网页内容,重点解析 HTML 节点参数和 CSS 选择器,让你轻松上手 。
一、整体流程概览
我们的目标是从静态网页中提取特定内容,流程分两步:
- HTTP Request 节点:负责获取网页的完整 HTML 源码,相当于模拟浏览器访问网页并拿到原始内容。
- HTML 节点:对获取到的 HTML 源码进行解析,通过 CSS 选择器精准提取我们需要的内容,比如标题、正文、图片链接等。
二、HTTP Request 节点使用(简单铺垫)
在 n8n 里,添加 HTTP Request 节点后,只需填入目标网页的 URL,请求方法选 GET
,就能获取到网页的 HTML 数据啦。获取到的数据会以 JSON 形式输出,后续 HTML 节点要基于这些数据进一步处理,这里重点在后面的 HTML 节点,所以这部分简单设置即可 。
三、HTML 节点深度解析
(一)参数配置核心逻辑
HTML 节点的作用是从 HTTP Request 拿到的 HTML 内容里“挑出”我们想要的部分,关键就在参数设置,下面逐个说:
- Source Data:选
JSON
,因为 HTTP Request 节点输出的是 JSON 格式数据,里面的data
字段存着网页 HTML 源码。 - JSON Property:填
data
,告诉 HTML 节点从 JSON 数据的data
字段里取 HTML 内容来解析 。
(二)Extraction Values 参数详解(重点!)
这部分是提取内容的关键配置,包含 Key
、CSS Selector
、Return Value
等参数,结合实际例子讲:
1. Key
:提取结果的“标识名”
你可以把它理解成给提取出来的内容起个变量名,方便后续节点使用。比如要提取文章标题,Key
就填 article_title
;提取正文,就填 article_content
,名字自己定,语义化、好识别就行 。
2. CSS Selector
:精准定位元素的“地图”
这是前端选元素的语法,但别慌,后端同学记住核心规则也能轻松用:
.
(句点):匹配 HTML 元素的class
属性。比如网页里有<h1 class="title">文章标题</h1>
,要选这个h1
,CSS 选择器就填.title
,意思是“找所有 class 为 title 的元素” 。#
(井号):匹配 HTML 元素的id
属性。要是有<div id="content">正文内容</div>
,选它就用#content
,代表“找 id 为 content 的元素” 。- 层级选择(后代、直接子元素):
- 后代选择(空格):比如网页结构是
想选到最里层的<div id="title"><div class="article-title"><h1 class="title">用完的票根不要扔 小小票根帮你玩转整座城!</h1></div> </div>
h1
,可以用#title .title
(意思是“在 id 为 title 的元素内部,找所有 class 为 title 的元素” ,这里的空格表示后代关系,不管中间隔多少层嵌套 )。 - 直接子元素(
>
):如果想严格找直接子元素,比如<div id="parent"> <div class="child">...</div> </div>
,选直接子元素用#parent > .child
,但实际提取网页内容时,后代选择(空格)用得更多,没那么严格限制层级 。
- 后代选择(空格):比如网页结构是
举个完整例子,假设网页结构如下(静态 HTML ,内容明确):
<!DOCTYPE html>
<html>
<body><div id="title"><div class="article-title"><h1 class="title">这是文章标题</h1></div><div class="article-src-time"><span class="src">2025-06-05 11:07 来源:测试网</span></div></div><div id="content" class="article-content"><p class="section txt">这是正文第一段</p><p class="section txt">这是正文第二段</p></div>
</body>
</html>
- 提取标题(
h1
里的文本):Key
填article_title
CSS Selector
填#title .title
(或者更简单的.title
,只要页面里 class 为 title 的就这一个h1
)Return Value
选Text
(只要文本内容)
- 提取正文(所有
p
标签内容):Key
填article_content
CSS Selector
填.section.txt
(找所有 class 同时包含 section 和 txt 的p
元素 )Return Value
选Text
,要是想保留 HTML 标签结构,就选HTML
,根据需求来 。
3. Return Value
:决定提取内容的形式
Text
:只提取元素里的文本内容,会去掉 HTML 标签。比如<p class="txt">正文内容</p>
,选Text
就拿到“正文内容” 。HTML
:提取元素及内部完整的 HTML 结构。还是上面的p
标签,选HTML
就拿到<p class="txt">正文内容</p>
。Attribute
:提取元素的某个属性值,比如想拿图片的src
属性,CSS 选择器选img
,Return Value
选Attribute
,再在额外参数里填src
,就会提取出图片链接 。
4. Return Array
:处理多个匹配结果
如果 CSS 选择器匹配到多个元素(比如页面里有多个 p
标签都符合 .section.txt
),把 Return Array
设为 ON
,提取结果就会以数组形式输出,方便后续遍历处理;设为 OFF
,则只返回第一个匹配到的元素内容 。
四、实际操作演示(闭环例子)
(一)准备工作
找一个静态网页(比如自己本地写个简单 HTML 文件,或者找个公开的静态内容网页,像上面例子里的结构 ),用 HTTP Request 节点获取它的 HTML 内容 。
(二)HTML 节点配置
- 提取标题:
Key
:article_title
CSS Selector
:#title .title
Return Value
:Text
Return Array
:OFF
(因为标题一般就一个 )
- 提取正文段落:
Key
:article_paragraphs
CSS Selector
:.section.txt
Return Value
:Text
Return Array
:ON
(因为有多个段落 )
(三)运行与验证
把 HTTP Request 节点和 HTML 节点连起来,执行工作流。在 HTML 节点输出里,就能看到提取的标题文本和正文段落数组啦,形成一个从“获取网页内容”到“提取指定内容”的完整闭环 。
五、常见问题 & 避坑指南
- CSS 选择器不生效:
- 先去浏览器开发者工具(按 F12 )里,用“元素”面板的搜索框,把 CSS 选择器粘进去,看看能不能选中目标元素。能选中,n8n 里才可能提取到;选不中,就调整选择器语法 。
- 注意区分
class
和id
,别把.
和#
用混,比如该用#content
选 id 为 content 的元素,结果用成.content
,就可能选不到 。
- 提取内容为空:
- 检查
Source Data
和JSON Property
是否正确,确保从 HTTP Request 节点拿到了 HTML 内容 。 - 看看网页是不是动态加载内容(不过咱们这篇讲静态网页,动态的后续再拓展 ),静态网页的话,内容肯定在初始 HTML 里 。
- 检查
掌握 n8n 里 HTTP Request + HTML 节点提取静态网页内容的方法,能轻松应对一些轻量的网页数据采集需求。重点记住 HTML 节点里 CSS Selector
的 .
和 #
用法,以及 Key
、Return Value
这些参数的配置逻辑,多实操几次,就能熟练运用啦,遇到问题多借助浏览器开发者工具排查,问题就迎刃而解咯 !
相关文章:
用 n8n 提取静态网页内容:从 HTTP Request 到 HTML 节点全解析
n8n 的 HTTP Request HTML 节点组合是个实用又高效的工具。这篇文章就带你一步步搞懂如何用它们提取静态网页内容,重点解析 HTML 节点参数和 CSS 选择器,让你轻松上手 。 一、整体流程概览 我们的目标是从静态网页中提取特定内容,流程分两…...

Android Camera Hal中通过Neon指令优化数据拷贝
背景描述: Camera apk普通相机模式录像操作时,一般是同时请求两个流,即预览流和录像流。对于两个流输出图像格式和分辨率相同的情况下,是不是可以通过一个流拷贝得到另一个流的数据,进而节省掉一个Sensor输出处理两次…...

C# winform教程(二)----button
一、button的使用方法 主要使用方法几乎都在属性内,我们操作也在这个界面 二、作用 用户点击时触发事件,事件有很多种,可以根据需要选择。 三、常用属性 虽然属性很多,但是常用的并不多 3.常用属性 名称内容含义AutoSize自动调…...
AcWing 3417:砝码称重——位集合
【题目来源】 3417. 砝码称重 - AcWing题库 【题目描述】 你有一架天平和 N 个砝码,这 N 个砝码重量依次是 W1,W2,⋅⋅⋅,WN。 请你计算一共可以称出多少种不同的正整数重量? 注意砝码可以放在天平两边。 【输入格式】 输入的第一行包含一个整数 N。 …...
我认为STM32输入只分为模拟输入 与 数字输入
核心概念解析 模拟输入 (Analog Input) 设计目的:直接连接模拟信号(如ADC采集电压、温度传感器输出) 硬件行为: ✅ 断开内部数字电路(施密特触发器禁用) ✅ 信号直通模拟外设(如ADC、运放&…...

Python编码格式化之PEP8编码规范
文章目录 概要PEP8编码风格py文本组织规范命名规范编码风格 PEP8编码检查工具pylintflake8PyCharm中配置检查工具 PEP8编码格式化工具blackautopep8PyCharm配置格式化工具本地git配置hook 总结 概要 在Python项目开发过程中,代码的可读性和一致性对于项目的长期维护…...

【Zephyr 系列 14】使用 MCUboot 实现 BLE OTA 升级机制:构建安全可靠的固件分发系统
🧠关键词:Zephyr、MCUboot、OTA 升级、BLE DFU、双分区、Bootloader、安全固件管理 📌面向读者:希望基于 Zephyr 为 BLE 设备加入安全 OTA 升级功能的开发者 📊预计字数:5200+ 字 🧭 前言:为什么你需要 OTA? 随着设备部署数量增多与产品生命周期延长,远程升级(…...

K8S认证|CKS题库+答案| 8. 沙箱运行容器 gVisor
目录 8. 沙箱运行容器 gVisor 免费获取并激活 CKA_v1.31_模拟系统 题目 开始操作: 1)、切换集群 2)、官网找模板 3)、创建 RuntimeClass 4)、 将命名空间为 server 下的 Pod 引用 RuntimeClass 5)…...
【Redis】数据库与缓存一致性
目录 1、背景2、核心问题3、常见解决方案【1】缓存更新策略[1]旁路缓存模式(Cache-Aside)[2]写穿透模式(Write-Through)[3]写回模式 【2】删除与更新策略[1]先更新数据库再删除缓存[2]先删除缓存再更新数据库 【3】一致性保障机制…...

Selenium4+Python的web自动化测试框架
一、什么是Selenium? Selenium是一个基于浏览器的自动化测试工具,它提供了一种跨平台、跨浏览器的端到端的web自动化解决方案。Selenium主要包括三部分:Selenium IDE、Selenium WebDriver 和Selenium Grid。 Selenium IDE:Firefo…...

【论文解读】MemGPT: 迈向为操作系统的LLM
1st author: Charles Packer paper MemGPT[2310.08560] MemGPT: Towards LLMs as Operating Systems code: letta-ai/letta: Letta (formerly MemGPT) is the stateful agents framework with memory, reasoning, and context management. 这个项目现在已经转化为 Letta &a…...

vb监测Excel两个单元格变化,达到阈值响铃
需求 在Excel中实现监控两个单元格之间的变化范围,当达到某个设定的值的范围内时,实现自动响铃提示。 实现: 首先设置Excel,开启宏、打开开发者工具,点击visual Basic按钮,然后在左侧双击需要监测的shee…...
跨域请求解决方案全解析
跨域请求可以通过多种技术方案实现,核心是绕过浏览器的同源策略限制。以下是主流解决方案及具体实现方式: 一、CORS(跨域资源共享) 最常用的标准化方案,通过服务器设置HTTP响应头实现: Access-Control-Al…...
【前端】vue3性能优化方案
以下是Vue 3性能优化的系统性方案,结合核心优化策略与实用技巧,覆盖渲染、响应式、加载、代码等多个维度: ⚙️ 一、渲染优化 精准控制渲染范围 v-if vs v-show: v-if:条件为假时销毁DOM,适合低频切换场景&…...

node 进程管理工具 pm2 的详细说明 —— 一步一步配置 Ubuntu Server 的 NodeJS 服务器详细实录 7
前言 我以 Ubuntu Server 打造的 NodeJS 服务器为主题的系列文章,经过五篇博客,我们顺利的 安装了 ubuntu server 服务器,并且配置好了 ssh 免密登录服务器,安装好了 服务器常用软件安装, 配置好了 zsh 和 vim 以及 通过 NVM 安装…...

Flask与Celery 项目应用(shared_task使用)
目录 1. 项目概述主要功能技术栈 2. 项目结构3. 环境设置创建虚拟环境并安装依赖主要依赖 4. 应用配置Flask应用初始化 (__init__.py)Celery应用初始化 (make_celery.py) 5. 定义Celery任务 (tasks.py)任务说明 6. 创建API端点 (views.py)API端点说明 7. 前端界面 (index.html)…...
Fetch API 使用详解:Bearer Token 与 localStorage 实践
Fetch API:现代浏览器内置的用于发送 HTTP 请求的 API,Bearer Token:一种基于令牌的身份验证方案,常用于 JWT 认证,localStorage:浏览器提供的持久化存储方案,用于在客户端存储数据。 token是我…...
vue3 vite.config.js 引入bem.scss文件报错
[sass] Can’t find stylesheet to import. ╷ 1 │ use “/bem.scss” as *; │ ^^^^^^^^^^^^^^^^^^^^^^ ╵ src\App.vue 1:1 root stylesheet 分析 我们遇到了一个在Vue3项目中使用Vite时,在vite.config.js中引入bem.scss文件报错的问题。错误信息指出在App.vue…...

二叉树-226.翻转链表-力扣(LeetCode)
一、题目解析 翻转可以理解为树的左右子树交换,从根到叶子节点,但是这里交换的是链接的指针,而不是单纯的交换值,当出现nullptr时,也是可以交换链接的,交换值的话就不行了。 二、算法原理 依旧的递归&…...

HarmonyOS Next 弹窗系列教程(3)
HarmonyOS Next 弹窗系列教程(3) 选择器弹窗 (PickerDialog) 介绍 选择器弹窗通常用于在用户进行某些操作(如点击按钮)时显示特定的信息或选项。让用户可以进行选择提供的固定的内容。 以下内容都属于选择器弹窗: …...
编程笔记---问题小计
编程笔记 qml ProgressBar 为什么valuemodel.progress / 100 在QML中,ProgressBar的value属性用于表示进度条的当前进度值,其范围通常为0到1(或0%到100%)。当使用model.progress / 100来设置value时,这样做的原因是为…...

【docker】Windows安装docker
环境及工具(点击下载) Docker Desktop Installer.exe (windows 环境下运行docker的一款产品) wsl_update_x64 (Linux 内核包) 前期准备 系统要求2: Windows 11:64 位系统&am…...

无人机避障——感知部分(Ubuntu 20.04 复现Vins Fusion跑数据集)胎教级教程
硬件环境:NVIDIA Jeston Orin nx 系统:Ubuntu 20.04 任务:跑通 EuRoC MAV Dataset 数据集 展示结果: 编译Vins Fusion 创建工作空间vins_ws # 创建目录结构 mkdir -p ~/vins_ws/srccd ~/vins_ws/src# 初始化工作空间…...
人工智能--大型语言模型的存储
好的,我现在需要回答用户关于GGUF文件和safetensors文件后缀的差别的问题。首先,我得先确认这两个文件格式的具体应用场景和它们各自的优缺点。用户可能是在处理大模型时遇到了这两种文件格式,想了解它们的区别以便正确使用。 首先ÿ…...
OD 算法题 B卷【删除字符串中出现次数最少的字符】
文章目录 删除字符串中出现次数最少的字符 删除字符串中出现次数最少的字符 实现删除字符串中出现次数最少的字符,若(最少的)有多个字符出现次数一样,则都删除。输出删除后的字符串,其他字符保持原有顺序;…...

如何安装并使用RustDesk
参考: 搭建 RustDesk Server:打造属于自己的远程控制系统,替代 TeamViewer 和 ToDesk! 向日葵、ToDesk再见!自己动手,自建RustDesk远程服务器真香! 通俗易懂:RustDesk Server的搭…...

机器学习——随机森林算法
随机森林算法是一种强大的树集成算法,比使用单个决策树效果要好得多。 以下是生成树集成的方法:假设有一个大小为m的训练集,然后对于b1到B,所以执行B次,可以使用有放回抽样来创建一个大小为m的训练集。所以如果有10个…...

【从零学习JVM|第二篇】字节码文件
前言: 通过了解字节码文件可以帮助我们更容易的理解JVM的工作原理,所以接下来,我们来介绍一下字节码文件。 目录 前言: 正确的打开字节码文件 字节码文件组成 1. 魔数(Magic Number) 2. 版本号&…...

Fractal Generative Models论文阅读笔记与代码分析
何恺明分型模型这篇文章在二月底上传到arXiv预出版网站到现在已经过了三个月,当时我也听说这篇文章时感觉是大有可为,但是几个月不知道忙啥了,可能错过很多机会,但是亡羊补牢嘛,而且截至目前,该文章应该也还…...
软件测试—学习Day11
今天学习下兼容性 1.App兼容性常见问题 以下是关于 App 兼容性问题的常见举例,涵盖界面展示、操作逻辑、性能差异三大维度,涉及不同系统、设备及网络环境的兼容性场景: 一、界面展示问题 界面展示兼容性问题主要由操作系统版本差异、屏幕…...