当前位置: 首页 > article >正文

Python 爬虫数据处理:富文本爬虫内容格式化还原

前言互联网平台发布的文章、资讯、公众号推文、论坛帖子、商品详情、教程文案等内容普遍以富文本形式存在融合文字、段落层级、换行缩进、加粗引用、列表排版、超链接、分段结构等多种格式元素。普通爬虫仅能抓取原始 HTML 源码或纯文本内容会丢失原有排版结构、段落逻辑、层级列表、引用格式出现文字堆砌、段落混乱、列表错乱、格式完全失真等问题无法直接用于归档、展示、二次分发与数据入库。富文本爬虫内容格式化还原核心目标是从爬虫抓取的原始 HTML 标签中精准解析段落、有序列表、无序列表、引用块、换行分段、标题层级、文本加粗等排版语义剔除冗余广告标签、无效样式代码、隐藏冗余节点按照原文视觉排版逻辑还原出结构规整、段落清晰、层级分明的标准化纯文本富文本内容。本文开发所需依赖库官方超链接前置汇总可直接访问查阅文档与适配版本Requests 网页富文本源码抓取基础库BeautifulSoup4 HTML 标签解析与节点遍历核心库lxml 高效 HTML/XML 解析器提升富文本解析容错与速度re Python 内置正则库清洗冗余字符与无效标签残留html.parser 内置 HTML 实体转义还原工具一、富文本爬虫核心特征与还原难点1.1 网页富文本常见构成标签主流网站富文本均由标准化 HTML 标签组合构成也是格式化还原必须适配的核心标签集合如下表表格HTML 标签富文本语义作用还原处理要求p标准段落标签段落之间强制换行分隔保留独立段落结构br单行换行标签转换为文本换行符不产生多余空行h1~h6一至六级标题单独成行添加层级标识与正文分段隔离ul/li无序列表还原为圆点列表格式保持列表缩进层级ol/li有序列表还原为数字序号列表顺序严格保留blockquote引用文本块单独区块缩进或添加引用标识与正文区分strong/b加粗文本保留文本内容可标记加粗语义或直接保留原文a超链接文本保留链接文字可选择剔除链接地址或附在末尾div通用容器块内部文本按段落逻辑拆分剔除容器本身冗余1.2 富文本爬虫格式化还原核心难点标签嵌套混乱部分站点手写 HTML 不规范标签多层嵌套、交叉闭合常规解析易出现段落错乱冗余垃圾标签多页面夹杂广告 div、统计标签、隐藏 display 节点、样式 class 无用属性干扰正文提取换行空行泛滥多处 br 连续出现、空 p 标签、空白 div导致还原后大量无效空行实体转义字符富文本中存在nbsp;、amp;、lt;等 HTML 转义符不还原会出现乱码自定义样式干扰行内 style 缩进、字体样式、颜色属性无业务价值需要批量过滤剔除。1.3 富文本格式化还原标准规范合格的富文本还原结果必须满足以下规范保留原文段落结构、标题层级、有序 / 无序列表、引用区块四大核心排版剔除所有 CSS 样式、无用 class 属性、广告节点、隐藏节点、统计脚本标签自动合并连续空行、剔除空白段落文本紧凑规整无冗余还原 HTML 转义字符保证文字无乱码、无特殊符号残留输出纯文本结构化内容可直接用于数据库存储、小程序展示、文档生成。二、环境依赖安装与解析器选型2.1 核心依赖安装富文本解析必备爬虫与 HTML 解析库执行批量安装命令bash运行pip install requests beautifulsoup4 lxmllxml 作为解析器性能远优于 Python 内置 html.parser容错性更强能兼容不规范的嵌套 HTML 富文本项目中统一优先选用 lxml 解析模式。2.2 前置通用工具函数准备包含 HTML 转义还原、空白行清理、无效字符清洗三大基础工具是富文本格式化的公共依赖模块。python运行import re import html from bs4 import BeautifulSoup # 1. HTML转义字符还原 def html_unescape(text): return html.unescape(text) # 2. 清理多余空行与首尾空白 def clean_blank_line(text): # 替换多个换行为单个换行 text re.sub(r\n\s*\n, \n\n, text) # 去除首尾换行空格 return text.strip() # 3. 过滤特殊控制字符 def clean_special_char(text): text re.sub(r\r|\t, , text) return text2.3 工具函数原理说明html_unescape 负责解析网页富文本中常见的空格、引号、尖括号等转义实体避免出现nbsp;残留clean_blank_line 通过正则合并连续空行解决爬虫还原后大片空白的问题clean_special_char 剔除制表符、回车符等不可见控制字符保证文本纯净。三、富文本爬虫抓取与原始 HTML 获取3.1 富文本页面爬虫请求封装实现通用富文本页面请求配置请求头模拟浏览器超时处理、异常捕获稳定获取富文本原始 HTML 源码。python运行import requests def get_rich_text_html(url): headers { User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/120.0.0.0 Safari/537.36 } try: resp requests.get(url, headersheaders, timeout15) resp.encoding resp.apparent_encoding return resp.text except Exception as e: print(富文本页面抓取异常,str(e)) return 3.2 代码原理解析通过模拟浏览器 UA 规避基础反爬自动识别页面编码避免中文乱码设置超时防止请求卡死异常捕获保证爬虫健壮性返回完整页面 HTML 源码作为富文本解析输入源。四、核心富文本 HTML 格式化还原算法实现4.1 整体解析逻辑设计使用 BeautifulSoup 加载 HTML 源码基于 lxml 解析器移除脚本、样式、广告、隐藏节点等无用标签遍历 DOM 节点按 p、h1-h6、ul、ol、blockquote、br 分类处理按语义自动添加换行、列表序号、引用标识组合全文文本执行空行清理、转义还原、特殊字符过滤输出格式化完成的规整富文本内容。4.2 完整富文本格式化还原核心代码python运行def parse_rich_text(html_content): # 加载HTML文档 soup BeautifulSoup(html_content, lxml) # 第一步移除无用标签 for useless in soup.find_all([script,style,iframe,noscript]): useless.decompose() # 第二步移除带隐藏样式、广告类名的节点 for div in soup.find_all(div): style div.get(style,).lower() cls div.get(class,[]) if display:none in style or ad in str(cls).lower(): div.decompose() text_lines [] # 遍历正文核心节点 for tag in soup.body.contents: if not tag.name: continue # 处理标题 h1~h6 if re.match(rh[1-6], tag.name): title_text tag.get_text(stripTrue) if title_text: text_lines.append(f【标题】{title_text}) text_lines.append() # 处理段落 p elif tag.name p: p_text tag.get_text(stripTrue) if p_text: text_lines.append(p_text) text_lines.append() # 处理无序列表 ul li elif tag.name ul: for li in tag.find_all(li): li_text li.get_text(stripTrue) if li_text: text_lines.append(f• {li_text}) text_lines.append() # 处理有序列表 ol li elif tag.name ol: for idx,li in enumerate(tag.find_all(li),1): li_text li.get_text(stripTrue) if li_text: text_lines.append(f{idx}. {li_text}) text_lines.append() # 处理引用块 blockquote elif tag.name blockquote: quote_text tag.get_text(stripTrue) if quote_text: text_lines.append(f 引用{quote_text}) text_lines.append() # 处理换行 br elif tag.name br: text_lines.append() # 合并所有行 full_text \n.join(text_lines) # 格式化清洗 full_text html_unescape(full_text) full_text clean_special_char(full_text) full_text clean_blank_line(full_text) return full_text4.3 逐模块原理详解无用标签移除批量删除 script、style、iframe 等非富文本展示标签从源头剔除脚本与样式代码干扰隐藏与广告节点过滤匹配 style 隐藏属性与 class 广告关键词自动剔除广告区块、隐藏冗余内容标题节点处理识别 h1 至 h6 标签统一添加【标题】标识单独成行并空一行保留层级结构段落节点处理p 标签提取纯文本每个段落自动分段还原原文阅读节奏无序列表处理遍历 li 子节点统一用圆点符号还原列表格式保持列表整体缩进观感有序列表处理自动按顺序生成数字序号严格还原原文有序列表逻辑引用块处理添加引用专属标识和普通正文做视觉区分后置格式化整合文本后依次执行转义还原、特殊字符清理、空行合并输出最终规整内容。五、完整串联实战从爬取到格式化还原5.1 主程序调用代码python运行def get_format_rich_text(url): # 1. 抓取富文本HTML html get_rich_text_html(url) if not html: return 内容抓取失败 # 2. 格式化还原 result parse_rich_text(html) return result if __name__ __main__: # 替换为任意文章、资讯、教程富文本链接 target_url https://example.com/article/123.html rich_content get_format_rich_text(target_url) # 打印格式化结果 print(rich_content) # 保存到本地文本文件 with open(富文本格式化结果.txt,w,encodingutf-8) as f: f.write(rich_content)5.2 执行流程原理主程序封装两步核心逻辑先爬虫获取页面完整 HTML 源码再送入格式化解析函数做标签语义解析与排版还原最终控制台输出并本地存档全程自动化无需人工干预。六、富文本还原常见问题适配与优化方案6.1 解决标签嵌套错乱问题部分站点富文本存在 p 嵌套 div、li 内部嵌套 p 的不规范写法默认遍历会导致段落错乱。优化方案放弃直接遍历子节点改用全文先提取所有 p、h、ul、ol、blockquote 独立节点按节点出现先后顺序重组文本规避嵌套干扰。6.2 解决超链接文字冗余问题富文本中大量 a 标签保留链接地址会造成内容杂乱可增加规则仅保留 a 标签内文字自动丢弃 href 属性只做文本展示不保留链接。6.3 解决图片残留与空白占位问题爬虫抓取的富文本常含 img 图片标签还原时可直接移除 img 节点或替换为【图片】占位标识避免出现图片地址乱码。6.4 批量富文本批量处理优化面对列表页批量文章富文本采集可封装异步请求、多线程抓取搭配统一格式化函数批量输出规整文本并批量入库大幅提升处理效率。七、业务落地应用场景7.1 自媒体内容采集归档批量爬取公众号、头条、知乎专栏富文本自动还原排版结构归档保存为规整文档保留原文段落、标题、列表、引用格式。7.2 知识库与教程爬虫整理技术教程、文档类富文本爬虫格式化还原后可直接导入知识库、小程序文档中心无需手动重新排版。7.3 电商商品详情规整爬取电商商品详情富文本剔除冗余样式与广告还原标准段落与参数列表干净结构化入库用于商品展示。7.4 舆情资讯文本标准化新闻、舆情资讯富文本自动格式化统一排版格式便于后续分词、关键词提取、语义关联挖掘等二次数据处理。

相关文章:

Python 爬虫数据处理:富文本爬虫内容格式化还原

前言 互联网平台发布的文章、资讯、公众号推文、论坛帖子、商品详情、教程文案等内容,普遍以富文本形式存在,融合文字、段落层级、换行缩进、加粗引用、列表排版、超链接、分段结构等多种格式元素。普通爬虫仅能抓取原始 HTML 源码或纯文本内容&#xf…...

Legacy iOS Kit终极指南:一站式拯救老旧iPhone/iPad的免费工具

Legacy iOS Kit终极指南:一站式拯救老旧iPhone/iPad的免费工具 【免费下载链接】Legacy-iOS-Kit An all-in-one tool to restore/downgrade, save SHSH blobs, jailbreak legacy iOS devices, and more 项目地址: https://gitcode.com/gh_mirrors/le/Legacy-iOS-K…...

Zotero茉莉花插件:3大核心功能彻底解决中文文献管理难题

Zotero茉莉花插件:3大核心功能彻底解决中文文献管理难题 【免费下载链接】jasminum A Zotero add-on to retrive CNKI meta data. 一个简单的Zotero 插件,用于识别中文元数据 项目地址: https://gitcode.com/gh_mirrors/ja/jasminum 还在为Zotero…...

魔兽争霸3终极优化指南:如何让经典游戏在现代系统上完美运行

魔兽争霸3终极优化指南:如何让经典游戏在现代系统上完美运行 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否还在为魔兽争霸3的兼容…...

ncmdump终极指南:快速解密网易云音乐NCM格式文件

ncmdump终极指南:快速解密网易云音乐NCM格式文件 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾经从网易云音乐下载了喜爱的歌曲,却发现它们只能在特定客户端播放?这就是NCM格式加密带来…...

SPSS数据合并避坑指南:键变量设置、缺失值处理与常见错误解析

SPSS数据合并实战避坑手册:从原理到解决方案 数据合并是SPSS分析过程中最基础也最容易出错的环节之一。许多用户在按照网络教程操作后,常常发现合并结果与预期不符——变量丢失、数据错乱、大量缺失值涌现。这些问题往往源于对合并原理的理解不足和关键细…...

Mac窗口置顶神器Topit:3步解决多窗口遮挡难题,工作效率提升150%

Mac窗口置顶神器Topit:3步解决多窗口遮挡难题,工作效率提升150% 【免费下载链接】Topit Pin any window to the top of your screen / 在Mac上将你的任何窗口强制置顶 项目地址: https://gitcode.com/gh_mirrors/to/Topit 在Mac上进行多任务处理时…...

OpenVSP参数化飞机设计:3个技巧让你从零开始打造专业飞行器

OpenVSP参数化飞机设计:3个技巧让你从零开始打造专业飞行器 【免费下载链接】OpenVSP A parametric aircraft geometry tool 项目地址: https://gitcode.com/gh_mirrors/ope/OpenVSP 你是否梦想设计自己的飞机,却被复杂的CAD软件吓退?…...

Apache SeaTunnel 4 月有何新动作?连接器增强与 Zeta 稳定性提升等亮点速览

在技术领域,我们常常被那些闪耀的、可见的成果所吸引。今天,这个焦点无疑是大语言模型技术。它们的流畅对话、惊人的创造力,让我们得以一窥未来的轮廓。然而,作为在企业一线构建、部署和维护复杂系统的实践者,我们深知…...

YOLO 全景解析:从 v8 到 v26(基于 Ultralytics 本仓库)

本文基于当前仓库 ultralytics-main 源码逐行解析,覆盖 v8 → v9 → v10 → v11 → v12 → v26 的主干、Neck、Head、损失、训练、验证、推理、导出与量化。文中的代码引用全部指向本仓库实际文件与行号,方便 Ctrl+点进去核对。 0. 阅读地图 关注点 你应该看哪一章 关键源码 …...

flux_down 下载工具使用步骤详解(附FluxDown多线程下载与磁力解析教程)

在技术领域,我们常常被那些闪耀的、可见的成果所吸引。今天,这个焦点无疑是大语言模型技术。它们的流畅对话、惊人的创造力,让我们得以一窥未来的轮廓。然而,作为在企业一线构建、部署和维护复杂系统的实践者,我们深知…...

不可错过的AI教材写作攻略,借助工具轻松达成低查重目标

教材编写中的挑战与AI工具的解决方案 在教材编写的过程中,确保原创性与合规性之间的平衡是一项关键任务。创作者在借鉴优秀教材的同时,又担心查重率可能会超标;而在尝试自主创作时,又容易面临逻辑不够严密或内容不准确的问题。更…...

5G NR里那个神秘的Timing Advance,到底是怎么让手机和基站‘对表’的?

5G NR中的Timing Advance:手机与基站如何实现精准"对表" 想象一下音乐会现场,指挥家轻轻抬起指挥棒,所有乐手在同一瞬间开始演奏——这种完美同步在5G网络中同样至关重要。当你的手机与基站通信时,电磁波以光速穿梭&…...

macOS菜单栏终极管理指南:用Ice开源工具打造高效工作空间

macOS菜单栏终极管理指南:用Ice开源工具打造高效工作空间 【免费下载链接】Ice Powerful menu bar manager for macOS 项目地址: https://gitcode.com/GitHub_Trending/ice/Ice 在macOS生态中,菜单栏作为系统交互的核心区域,却常常因为…...

前端状态管理:主流状态管理库对比与选型指南

前端状态管理:主流状态管理库对比与选型指南 前言 状态管理是前端开发中的核心问题。随着应用复杂度的增加,选择一个合适的状态管理库变得越来越重要。今天我就来给大家对比一下目前主流的状态管理库,帮助你做出最佳选择。 主流状态管理库概览…...

C++ 算法实战:从鸡兔同笼到多元方程求解的编程思维演进

1. 从鸡兔同笼开始理解算法思维 记得第一次接触鸡兔同笼问题时,我正啃着铅笔头对着数学作业发愁。题目说笼子里有35个头和94只脚,问鸡和兔各有多少只。这个看似简单的应用题,后来竟成了我算法思维的启蒙老师。 用C解决这个问题时,…...

DO-254标准下的航空电子硬件需求追溯实践

1. DO-254标准与需求追踪的核心价值在航空电子硬件开发领域,RTCA/DO-254标准(在欧洲称为ED-80)是确保机载电子硬件(AEH)功能安全的关键规范。该标准于2005年获得FAA(美国联邦航空管理局)和EASA(欧洲航空安全…...

从零搭建Modbus通信测试环境:TCP与串口双模式实战

1. 为什么需要搭建Modbus测试环境? 刚接触工业通信协议时,我最头疼的就是找不到合适的设备做测试。真实PLC动辄上万元,而Modbus作为工业领域最常用的通信协议之一,其实完全可以用软件模拟。搭建本地测试环境的好处很明显&#xff…...

军用270V电源系统设计与模块化解决方案

1. 军用270V电源系统的核心挑战在军用电子设备领域,270V直流电源系统已成为现代战机、舰载设备和地面作战系统的标准配置。作为一名在军工电源领域工作十余年的工程师,我深刻理解这类系统设计面临的独特挑战。军用环境对电源的要求远高于商业应用&#x…...

ABAP 7.40+新语法实战:从传统代码到现代编程范式的重构

1. ABAP 7.40新语法带来的编程革命 十年前我刚接触ABAP时,代码风格还停留在SAP R/3时代的传统写法。每次看到满屏的DATA声明、LOOP...ENDLOOP和APPEND语句,就像在看上世纪90年代的编程教科书。直到ABAP 7.40版本发布,这个被称为"ABAP语言…...

告别‘黑盒’:图解Android SDM660 UEFI XBL启动全流程与关键配置文件解析

图解Android SDM660 UEFI XBL启动全流程与关键配置文件解析 在移动设备开发领域,启动流程的透明化与可配置性一直是系统工程师关注的焦点。本文将深入剖析高通SDM660平台基于UEFI架构的XBL(Extensible Boot Loader)启动全流程,通…...

05 - rocrtst 功能测试详解

本文档深入介绍 rocrtst 功能测试套件(suites/functional/)中的各个测试模块,帮助你理解每个测试验证的 HSA API 功能。 1. 功能测试概览 功能测试注册在 rocrtstFunc 测试套件下,共 26 个源码模块,涵盖 ROCr Runtim…...

别再百度了!工程师私藏的5个免费Datasheet查询网站(附使用技巧)

工程师必备:5个高效Datasheet查询工具与实战技巧 每次调试电路板时,最让人抓狂的莫过于找不到最新版的元器件规格书。上周我就遇到一个案例:某款MCU的旧版手册标注的引脚功能与实际芯片不符,导致整个通信模块无法工作。这种经历让…...

04 - 运行 rocrtst 第一个测试

本文档帮助你成功运行 rocrtst 的第一个测试,并掌握各种运行方式。 1. 运行前检查清单 在运行测试之前,确认以下条件: # ✅ 1. rocrtst64 已构建并安装 ls $ROCM_PREFIX/bin/rocrtst64# ✅ 2. GPU kernel 已编译(检查你的 GPU …...

Arm SME架构下的矩阵运算优化实践

1. Arm SME架构下的矩阵运算优化概述矩阵乘法作为高性能计算的核心运算,其效率直接影响深度学习推理、信号处理、科学计算等关键领域的性能表现。Arm SME(Scalable Matrix Extension)架构通过引入可扩展的矩阵寄存器(ZA&#xff0…...

保姆级教程:手把手教你用Intel RealSense D435i进行动态标定(附打印目标尺寸)

深度相机动态标定实战:从原理到精准优化的完整指南 在计算机视觉和机器人领域,深度相机的标定质量直接决定了三维感知的精度。许多开发者在初次使用Intel RealSense D435i这类设备时,常常会遇到深度图像噪点多、边缘模糊或数据空洞等问题。这…...

Python 爬虫高级实战:异地多机房爬虫协同采集

前言 随着爬虫业务规模扩张,单机、单机房部署模式逐渐暴露出单点故障、IP 池单一、地域访问延迟高、目标站点区域风控封禁、单机房带宽资源瓶颈等一系列问题。单一机房所有爬虫出口 IP 归属同一运营商、同一地域,极易被目标站点基于地域、IP 段整体封禁…...

NLP基石:从n-gram到现代语言模型的演进之路

1. 语言模型的起源与核心思想 语言模型这个概念最早可以追溯到上世纪中叶的信息论研究。当时科学家们试图用数学方法描述人类语言的规律性,于是提出了"用概率衡量句子合理性"的基本思路。想象一下,当你听到"今天天气真好"和"天…...

Python 爬虫进阶技巧:内网公开资源合规爬虫采集

前言 在企业园区、高校校园、政务机关、科研机构等封闭网络环境中,普遍存在内网公开资源服务节点,这类资源仅对内网 IP 段开放访问权限,外网无法直接穿透接入,包含公开文档库、共享文件服务器、内部资讯公告、教学资源库、政务公…...

反向传播不神秘:手把手调试一个计算图,看梯度是怎么‘流’回来的

反向传播不神秘:手把手调试一个计算图,看梯度是怎么"流"回来的 在深度学习的实践中,我们常常会调用loss.backward()这样的魔法函数,然后梯度就自动计算好了。但这个过程究竟发生了什么?为什么调整参数时梯度…...