当前位置: 首页 > news >正文

Readability.js 与 Newspaper提取网页内容和元数据

        在当今信息爆炸的时代,网页内容的提取和处理变得尤为重要。无论是从新闻网站、博客还是教程网站中提取内容,都需要一个高效、准确的工具来帮助我们去除无关信息,提取出有价值的正文内容。这不仅能够提高我们的工作效率,还能让我们更好地专注于内容本身。
在这里插入图片描述

为什么选择 Readability.js 和 Newspaper?

Readability.js 和 Newspaper 是两个非常流行的 Node.js 库,它们能够帮助我们从网页中提取正文内容,同时去除无关的 HTML 标签。Readability.js 基于 Mozilla 的 Readability 算法,专注于提取正文内容,而 Newspaper 则提供了更全面的功能,包括提取元数据和图片。

Readability.js 和 Newspaper 的详细分析

1. Readability.js

介绍

Readability.js 是一个基于 Mozilla 的 Readability 算法的 JavaScript 实现,专门用于从网页中提取正文内容。它能够智能识别并提取网页的正文内容,同时去除无关内容(如广告、导航栏、页脚等),保留正文和代码块。

安装

npm install readability

使用示例

const Readability = require('readability');
const fetch = require('node-fetch');
const { JSDOM } = require('jsdom');async function extractContent(url) {try {const response = await fetch(url);const html = await response.text();const dom = new JSDOM(html);const article = new Readability(dom.window.document).parse();console.log(article.content); // 提取的正文内容} catch (error) {console.error('Error extracting content:', error);}
}extractContent('https://example.com/article');

优点

  • 高精度提取:基于成熟的 Mozilla Readability 算法,提取效果出色。
  • 保留代码块:默认保留 <pre><code> 标签及其内容。
  • 无需手动配置:完全自动化,无需编写正则表达式。
  • 支持 Node.js:可以直接在 Node.js 环境中使用。

适用场景

  • 适合从教程网站(含代码)和学习文章网站(无代码)中提取正文内容。
  • 需要在 Node.js 环境中运行。
2. Newspaper(Node.js 版本)

介绍

Newspaper 是一个强大的 Node.js 库,用于从网页中提取正文内容、标题、作者、发布日期等信息。它基于 Python 版本的 Newspaper 库,提供了类似的功能。

安装

npm install newspaper

使用示例

const newspaper = require('newspaper');async function extractContent(url) {try {const result = await newspaper(url);console.log(result.text); // 提取的正文内容console.log(result.title); // 文章标题console.log(result.authors); // 作者console.log(result.publishDate); // 发布日期} catch (error) {console.error('Error extracting content:', error);}
}extractContent('https://example.com/article');

优点

  • 高精度提取:提取正文内容并去除无关标签。
  • 支持元数据提取:可以提取文章的标题、作者、发布日期等信息。
  • 灵活性:提供一些配置选项,可以自定义提取逻辑。
  • 支持 Node.js:可以直接在 Node.js 环境中使用。

适用场景

  • 适合从新闻网站、博客或学习文章网站中提取内容。
  • 需要在 Node.js 环境中运行。

对比分析

工具自动去除HTML标签保留代码块无需手动配置支持元数据提取适用场景
Readability.js★★★★★★★★★★★★★★★适合从教程网站(含代码)和学习文章网站(无代码)中提取正文内容。
Newspaper★★★★★★★★★★★★★★适合从新闻网站、博客或学习文章网站中提取内容。

总结

Readability.js 是一个专注于提取网页正文内容的工具,特别适合需要保留代码块的场景。Newspaper 提供了更全面的功能,包括提取元数据,适合需要提取文章标题、作者、发布日期等信息的场景。

选择哪个工具取决于你的具体需求。如果你只需要提取正文内容并保留代码块,Readability.js 是一个很好的选择。如果你还需要提取元数据,Newspaper 可能更适合你。

相关文章:

Readability.js 与 Newspaper提取网页内容和元数据

在当今信息爆炸的时代&#xff0c;网页内容的提取和处理变得尤为重要。无论是从新闻网站、博客还是教程网站中提取内容&#xff0c;都需要一个高效、准确的工具来帮助我们去除无关信息&#xff0c;提取出有价值的正文内容。这不仅能够提高我们的工作效率&#xff0c;还能让我们…...

小程序Three Dof识别 实现景区AR体验

代码工程 GitCode - 全球开发者的开源社区,开源代码托管平台 dof...

腾讯2025年软件测试面试题

以下是基于腾讯等一线互联网公司软件测试岗位的面试趋势和技术要求,025年出现的软件测试面试题。这些问题涵盖了基础知识、自动化测试、性能测试、安全测试、编程能力等多个方面,供参考和准备。 一、基础知识 软件测试的基本概念...

SSL域名证书怎么续期?

在当今数字化时代&#xff0c;网站的安全性已成为企业和个人不可忽视的重要因素。SSL域名证书作为保障网站数据传输安全的关键工具&#xff0c;其重要性不言而喻。然而&#xff0c;SSL证书并非永久有效&#xff0c;它们通常有一个固定的有效期&#xff0c;到期后需要进行续期以…...

Grok3使用体验与模型版本对比分析

文章目录 Grok的功能DeepSearch思考功能绘画功能Grok 3的独特功能 Grok 3的版本和特点与其他AI模型的比较 最新新闻&#xff1a;Grok3被誉为“地球上最聪明的AI” 最近&#xff0c;xAI公司正式发布了Grok3&#xff0c;并宣称其在多项基准测试中展现了惊艳的表现。据官方消息&am…...

《算法宝典:全类型题目索引》

目录 &#x1f334;递归、搜索与回溯 一、递归 二、二叉树中的深搜 三、穷举vs暴搜vs深搜vs回溯vs剪枝 四、综合练习 五、FloodFill 算法 六、记忆化搜索 &#x1f335;优选算法 一、双指针 二、滑动窗口 三、二分查找 四、前缀和 五、位运算 六、模拟 七、分治 …...

Windows 11 部署 GPUStack 运行 DeepSeek

1. 介绍 DeepSeek 是一个强大的深度学习框架&#xff0c;适用于图像识别、自然语言处理等任务。GPUStack 是一个高效的 GPU 资源管理工具&#xff0c;能够帮助用户更好地利用 GPU 资源进行深度学习任务。本文将详细介绍如何在 Windows 11 系统上部署 GPUStack 并运行 DeepSeek…...

LangChain教程 - RAG - PDF问答

系列文章索引 LangChain教程 - 系列文章 在现代自然语言处理&#xff08;NLP&#xff09;中&#xff0c;基于文档内容的问答系统变得愈发重要&#xff0c;尤其是当我们需要从大量文档中提取信息时。通过结合文档检索和生成模型&#xff08;如RAG&#xff0c;Retrieval-Augment…...

Windows 图形显示驱动开发-WDDM 3.2-自动显示切换(十二)

API 更改 ADS 功能增加了以下公共 API 功能&#xff1a; 枚举系统中的多路复用器设备。查询有关多路复用器的信息&#xff0c;例如&#xff0c;它连接了哪些目标&#xff0c;以及当前切换到哪个目标。触发多路复用器切换。如何检测多路复用器是否已切换。 枚举系统中的多路复…...

《当齐天大圣踏入3A游戏世界:黑神话·悟空的破壁传奇》:此文为AI自动生成

国产 3A 游戏的破晓之光 2024 年 8 月 20 日,这一天注定被铭记在中国游戏发展的史册上。国产首款 3A 游戏《黑神话・悟空》震撼上线,犹如一颗重磅炸弹,在全球游戏市场掀起了惊涛骇浪。仅仅上线 3 小时,其同时在线人数便突破了 140 万,一举打破 Steam 纯单机游戏最高在线纪…...

Graphics View画一个可调速的风机(pyqt)

效果如图&#xff1a; 风机具备调节转速的功能&#xff0c;转速通过扇叶旋转的快慢来区别&#xff0c;共分为四档&#xff0c;其中零档为静止状态&#xff0c;而一、二、三档则依次增加转速。在代码中&#xff0c;BlowerWrapper 类包含了可旋转的扇叶、风机外框以及选项三个主要…...

基于django图书信息管理系统的搭建(增删改查)

✍django项目搭建教程 ☞ ----------------- 教程 本文主要讲解django如何连接数据库MySQL并且可视化展示&#xff0c;实现增删改查功能 目录 一. 创建django应用 二. 数据库配置 三. 查看数据库 四. 编写代码 4.1视图函数 4.2 配置URL 4.3创建模板文件 4.…...

Python 编程题 第四节:斐波那契数列、列表的复制、暂停后输出、成绩评级、统计字符

斐波那契数列 方法一&#xff08;递归&#xff09; def f(a):if a1:return 1elif a2:return 1else:return f(a-1)f(a-2) print(f(3)) 方法二&#xff08;非递归&#xff09; nint(input()) lst[1,1] for i in range(2,n1):lst.append(lst[i-1]lst[i-2]) print(lst[n-1]) 列…...

【华为OD机考】华为OD笔试真题解析(15)--异常的打卡记录

题目描述 考勤记录是分析和考核职工工作时间利用情况的原始依据&#xff0c;也是计算职工工资的原始依据&#xff0c;为了正确地计算职工工资和监督工资基金使用情况&#xff0c;公司决定对员工的手机打卡记录进行异常排查。 如果出现以下两种情况&#xff0c;则认为打卡异常…...

跟我学C++中级篇——定时器的设计

一、定时器 谈到定时器&#xff0c;理论上讲是各种语言和各种设计都无法避开的一个技术点。对于定时器来说&#xff0c;表面上就是一种时间间隔的处理约定&#xff0c;但对程序来说&#xff0c;可能就是设计层面、接口层面和库或框架以及系统应用的一个大集合。不同的系统&…...

HTTP 请求时传递多部分表单数据

HTTP 请求时传递多部分表单数据&#xff08;multipart/form-data&#xff09; --data-raw $------demo11111\r\nContent-Disposition: form-data; name"Filedata"; filename"截屏2025-02-27 15.45.46.png"\r\nContent-Type: image/png\r\n\r\n\r\n------d…...

第J3-1周:DenseNet算法 实现乳腺癌识别

文章目录 一、前言二、前期准备1.设置GPU2.划分数据集 三、搭建网络模型1.DenseLayer模块2.DenseBlock模块3.Transition模块4.构建DenseNet5.构建densenet121 四、训练模型1.编写训练函数2.编写测试函数3.正式训练 五、结果可视化1.Loss与Accuracy图2.模型评估 总结&#xff1a…...

Mac 版 本地部署deepseek ➕ RAGflow 知识库搭建流程分享(附问题解决方法)

安装&#xff1a; 1、首先按照此视频的流程一步一步进行安装&#xff1a;(macos版&#xff09;ragflowdeepseek 私域知识库搭建流程分享_哔哩哔哩_bilibili 2、RAGflow 官网文档指南&#xff1a;https://ragflow.io 3、RAGflow 下载地址&#xff1a;https://github.com/infi…...

【解决】OnTriggerEnter/OnTriggerExit 调用匿名委托误区的问题

开发平台&#xff1a;Unity 开发语言&#xff1a;CSharp 6.0 开发工具&#xff1a;Visual Studio 2022   问题背景 public void OnTriggerEnter(Collider collider) {output.OnInteractionNoticed () > OnInteractionTriggered?.Invoke(); }public void OnTriggerExit(C…...

vscode集成DeepSeek

vscode 扩展 安装 Cline Meet Cline&#xff0c;一个可以使用你的CLI和编辑器的AI助手。 得益于 Claude 3.5 Sonnet的代理编码功能&#xff0c;Cline 可以逐步处理复杂的软件开发任务。借助让他创建和编辑文件、探索大型项目、使用浏览器和执行终端命令(在您授予权限后)的工具&…...

百考通:AI精准精准赋能论文降重与去AI痕迹,让学术成果更高效、更专业

在学术写作与论文发表的过程中&#xff0c;重复率过高、AI生成痕迹明显&#xff0c;是困扰无数学生与科研工作者的核心难题。不仅可能导致查重不通过&#xff0c;更会影响学术诚信与成果认可度。百考通&#xff08;https://www.baikaotongai.com&#xff09; 凭借智能文本优化技…...

Modelsim 10.7/2019.5 破解后启动报错:HostID格式异常排查与修复

1. 破解后启动报错的典型现象 最近在折腾Modelsim 10.7和2019.5版本时&#xff0c;遇到了一个让人抓狂的问题&#xff1a;明明按照网上的破解教程一步步操作&#xff0c;环境变量也设置正确&#xff0c;但启动软件时还是弹出了license报错。这个错误提示特别有意思&#xff0c;…...

解锁论文新姿势:书匠策AI——毕业论文的“智能魔法棒”

在学术的征途中&#xff0c;毕业论文如同那座必须攀登的高峰&#xff0c;既让人心生敬畏&#xff0c;又满怀期待。它不仅是对多年学习成果的集中展示&#xff0c;更是开启未来学术或职业大门的一把金钥匙。然而&#xff0c;面对堆积如山的资料、错综复杂的逻辑架构&#xff0c;…...

八大网盘直链下载助手:免费获取高速下载链接的完整指南

八大网盘直链下载助手&#xff1a;免费获取高速下载链接的完整指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 &#xff0c;支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼…...

仅限TOP20量化机构内部流通的C++内存池测试矩阵(含FPGA协处理器适配层验证项),现在限时解密!

第一章&#xff1a;金融级C内存池测试的范式演进与行业背景在高频交易、实时风控与低延迟结算等金融核心系统中&#xff0c;内存分配性能直接决定毫秒级响应能力的上限。传统 malloc/free 在高并发小对象场景下易引发锁争用、碎片化加剧与缓存行失效&#xff0c;迫使头部券商与…...

Music Tag Web:一站式智能音乐标签管理解决方案

Music Tag Web&#xff1a;一站式智能音乐标签管理解决方案 【免费下载链接】music-tag-web 音乐标签编辑器&#xff0c;可编辑本地音乐文件的元数据&#xff08;Editable local music file metadata.&#xff09; 项目地址: https://gitcode.com/gh_mirrors/mu/music-tag-we…...

MVP.css暗黑模式终极指南:如何完美适配用户偏好与系统设置

MVP.css暗黑模式终极指南&#xff1a;如何完美适配用户偏好与系统设置 【免费下载链接】mvp MVP.css — Minimalist classless CSS stylesheet for HTML elements 项目地址: https://gitcode.com/gh_mirrors/mv/mvp MVP.css是一款极简主义的无类CSS样式表&#xff0c;为…...

黑客 比普通 程序员 高在哪里?

黑客比普通程序员高在哪里? 99%的程序员&#xff1a;搜&#xff0c;拿&#xff0c;改。纯自己手写个贪吃蛇小游戏都费劲。 99%的黑客&#xff1a;下&#xff0c;扫&#xff0c;查。离开下载的工具&#xff0c;徒手找个网页注入点都费劲。 没几个有真本事的。都瞎掰。骗骗小孩…...

专业级PDF自动化解决方案:如何构建高效文档工作流

专业级PDF自动化解决方案&#xff1a;如何构建高效文档工作流 【免费下载链接】clawPDF Open Source Virtual (Network) Printer for Windows that allows you to create PDFs, OCR text, and print images, with advanced features usually available only in enterprise solu…...

猫抓:重新定义网页资源提取的开源方案

猫抓&#xff1a;重新定义网页资源提取的开源方案 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 在数字内容爆炸的时代&#xff0c;我们每天浏览的…...