当前位置：首页 > article >正文

Python 爬虫数据处理：富文本爬虫内容格式化还原

article 2026/5/11 17:02:42

前言互联网平台发布的文章、资讯、公众号推文、论坛帖子、商品详情、教程文案等内容普遍以富文本形式存在融合文字、段落层级、换行缩进、加粗引用、列表排版、超链接、分段结构等多种格式元素。普通爬虫仅能抓取原始 HTML 源码或纯文本内容会丢失原有排版结构、段落逻辑、层级列表、引用格式出现文字堆砌、段落混乱、列表错乱、格式完全失真等问题无法直接用于归档、展示、二次分发与数据入库。富文本爬虫内容格式化还原核心目标是从爬虫抓取的原始 HTML 标签中精准解析段落、有序列表、无序列表、引用块、换行分段、标题层级、文本加粗等排版语义剔除冗余广告标签、无效样式代码、隐藏冗余节点按照原文视觉排版逻辑还原出结构规整、段落清晰、层级分明的标准化纯文本富文本内容。本文开发所需依赖库官方超链接前置汇总可直接访问查阅文档与适配版本Requests 网页富文本源码抓取基础库BeautifulSoup4 HTML 标签解析与节点遍历核心库lxml 高效 HTML/XML 解析器提升富文本解析容错与速度re Python 内置正则库清洗冗余字符与无效标签残留html.parser 内置 HTML 实体转义还原工具一、富文本爬虫核心特征与还原难点1.1 网页富文本常见构成标签主流网站富文本均由标准化 HTML 标签组合构成也是格式化还原必须适配的核心标签集合如下表表格HTML 标签富文本语义作用还原处理要求p标准段落标签段落之间强制换行分隔保留独立段落结构br单行换行标签转换为文本换行符不产生多余空行h1~h6一至六级标题单独成行添加层级标识与正文分段隔离ul/li无序列表还原为圆点列表格式保持列表缩进层级ol/li有序列表还原为数字序号列表顺序严格保留blockquote引用文本块单独区块缩进或添加引用标识与正文区分strong/b加粗文本保留文本内容可标记加粗语义或直接保留原文a超链接文本保留链接文字可选择剔除链接地址或附在末尾div通用容器块内部文本按段落逻辑拆分剔除容器本身冗余1.2 富文本爬虫格式化还原核心难点标签嵌套混乱部分站点手写 HTML 不规范标签多层嵌套、交叉闭合常规解析易出现段落错乱冗余垃圾标签多页面夹杂广告 div、统计标签、隐藏 display 节点、样式 class 无用属性干扰正文提取换行空行泛滥多处 br 连续出现、空 p 标签、空白 div导致还原后大量无效空行实体转义字符富文本中存在nbsp;、amp;、lt;等 HTML 转义符不还原会出现乱码自定义样式干扰行内 style 缩进、字体样式、颜色属性无业务价值需要批量过滤剔除。1.3 富文本格式化还原标准规范合格的富文本还原结果必须满足以下规范保留原文段落结构、标题层级、有序 / 无序列表、引用区块四大核心排版剔除所有 CSS 样式、无用 class 属性、广告节点、隐藏节点、统计脚本标签自动合并连续空行、剔除空白段落文本紧凑规整无冗余还原 HTML 转义字符保证文字无乱码、无特殊符号残留输出纯文本结构化内容可直接用于数据库存储、小程序展示、文档生成。二、环境依赖安装与解析器选型2.1 核心依赖安装富文本解析必备爬虫与 HTML 解析库执行批量安装命令bash运行pip install requests beautifulsoup4 lxmllxml 作为解析器性能远优于 Python 内置 html.parser容错性更强能兼容不规范的嵌套 HTML 富文本项目中统一优先选用 lxml 解析模式。2.2 前置通用工具函数准备包含 HTML 转义还原、空白行清理、无效字符清洗三大基础工具是富文本格式化的公共依赖模块。python运行import re import html from bs4 import BeautifulSoup # 1. HTML转义字符还原 def html_unescape(text): return html.unescape(text) # 2. 清理多余空行与首尾空白 def clean_blank_line(text): # 替换多个换行为单个换行 text re.sub(r\n\s*\n, \n\n, text) # 去除首尾换行空格 return text.strip() # 3. 过滤特殊控制字符 def clean_special_char(text): text re.sub(r\r|\t, , text) return text2.3 工具函数原理说明html_unescape 负责解析网页富文本中常见的空格、引号、尖括号等转义实体避免出现nbsp;残留clean_blank_line 通过正则合并连续空行解决爬虫还原后大片空白的问题clean_special_char 剔除制表符、回车符等不可见控制字符保证文本纯净。三、富文本爬虫抓取与原始 HTML 获取3.1 富文本页面爬虫请求封装实现通用富文本页面请求配置请求头模拟浏览器超时处理、异常捕获稳定获取富文本原始 HTML 源码。python运行import requests def get_rich_text_html(url): headers { User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/120.0.0.0 Safari/537.36 } try: resp requests.get(url, headersheaders, timeout15) resp.encoding resp.apparent_encoding return resp.text except Exception as e: print(富文本页面抓取异常,str(e)) return 3.2 代码原理解析通过模拟浏览器 UA 规避基础反爬自动识别页面编码避免中文乱码设置超时防止请求卡死异常捕获保证爬虫健壮性返回完整页面 HTML 源码作为富文本解析输入源。四、核心富文本 HTML 格式化还原算法实现4.1 整体解析逻辑设计使用 BeautifulSoup 加载 HTML 源码基于 lxml 解析器移除脚本、样式、广告、隐藏节点等无用标签遍历 DOM 节点按 p、h1-h6、ul、ol、blockquote、br 分类处理按语义自动添加换行、列表序号、引用标识组合全文文本执行空行清理、转义还原、特殊字符过滤输出格式化完成的规整富文本内容。4.2 完整富文本格式化还原核心代码python运行def parse_rich_text(html_content): # 加载HTML文档 soup BeautifulSoup(html_content, lxml) # 第一步移除无用标签 for useless in soup.find_all([script,style,iframe,noscript]): useless.decompose() # 第二步移除带隐藏样式、广告类名的节点 for div in soup.find_all(div): style div.get(style,).lower() cls div.get(class,[]) if display:none in style or ad in str(cls).lower(): div.decompose() text_lines [] # 遍历正文核心节点 for tag in soup.body.contents: if not tag.name: continue # 处理标题 h1~h6 if re.match(rh[1-6], tag.name): title_text tag.get_text(stripTrue) if title_text: text_lines.append(f【标题】{title_text}) text_lines.append() # 处理段落 p elif tag.name p: p_text tag.get_text(stripTrue) if p_text: text_lines.append(p_text) text_lines.append() # 处理无序列表 ul li elif tag.name ul: for li in tag.find_all(li): li_text li.get_text(stripTrue) if li_text: text_lines.append(f• {li_text}) text_lines.append() # 处理有序列表 ol li elif tag.name ol: for idx,li in enumerate(tag.find_all(li),1): li_text li.get_text(stripTrue) if li_text: text_lines.append(f{idx}. {li_text}) text_lines.append() # 处理引用块 blockquote elif tag.name blockquote: quote_text tag.get_text(stripTrue) if quote_text: text_lines.append(f 引用{quote_text}) text_lines.append() # 处理换行 br elif tag.name br: text_lines.append() # 合并所有行 full_text \n.join(text_lines) # 格式化清洗 full_text html_unescape(full_text) full_text clean_special_char(full_text) full_text clean_blank_line(full_text) return full_text4.3 逐模块原理详解无用标签移除批量删除 script、style、iframe 等非富文本展示标签从源头剔除脚本与样式代码干扰隐藏与广告节点过滤匹配 style 隐藏属性与 class 广告关键词自动剔除广告区块、隐藏冗余内容标题节点处理识别 h1 至 h6 标签统一添加【标题】标识单独成行并空一行保留层级结构段落节点处理p 标签提取纯文本每个段落自动分段还原原文阅读节奏无序列表处理遍历 li 子节点统一用圆点符号还原列表格式保持列表整体缩进观感有序列表处理自动按顺序生成数字序号严格还原原文有序列表逻辑引用块处理添加引用专属标识和普通正文做视觉区分后置格式化整合文本后依次执行转义还原、特殊字符清理、空行合并输出最终规整内容。五、完整串联实战从爬取到格式化还原5.1 主程序调用代码python运行def get_format_rich_text(url): # 1. 抓取富文本HTML html get_rich_text_html(url) if not html: return 内容抓取失败 # 2. 格式化还原 result parse_rich_text(html) return result if __name__ __main__: # 替换为任意文章、资讯、教程富文本链接 target_url https://example.com/article/123.html rich_content get_format_rich_text(target_url) # 打印格式化结果 print(rich_content) # 保存到本地文本文件 with open(富文本格式化结果.txt,w,encodingutf-8) as f: f.write(rich_content)5.2 执行流程原理主程序封装两步核心逻辑先爬虫获取页面完整 HTML 源码再送入格式化解析函数做标签语义解析与排版还原最终控制台输出并本地存档全程自动化无需人工干预。六、富文本还原常见问题适配与优化方案6.1 解决标签嵌套错乱问题部分站点富文本存在 p 嵌套 div、li 内部嵌套 p 的不规范写法默认遍历会导致段落错乱。优化方案放弃直接遍历子节点改用全文先提取所有 p、h、ul、ol、blockquote 独立节点按节点出现先后顺序重组文本规避嵌套干扰。6.2 解决超链接文字冗余问题富文本中大量 a 标签保留链接地址会造成内容杂乱可增加规则仅保留 a 标签内文字自动丢弃 href 属性只做文本展示不保留链接。6.3 解决图片残留与空白占位问题爬虫抓取的富文本常含 img 图片标签还原时可直接移除 img 节点或替换为【图片】占位标识避免出现图片地址乱码。6.4 批量富文本批量处理优化面对列表页批量文章富文本采集可封装异步请求、多线程抓取搭配统一格式化函数批量输出规整文本并批量入库大幅提升处理效率。七、业务落地应用场景7.1 自媒体内容采集归档批量爬取公众号、头条、知乎专栏富文本自动还原排版结构归档保存为规整文档保留原文段落、标题、列表、引用格式。7.2 知识库与教程爬虫整理技术教程、文档类富文本爬虫格式化还原后可直接导入知识库、小程序文档中心无需手动重新排版。7.3 电商商品详情规整爬取电商商品详情富文本剔除冗余样式与广告还原标准段落与参数列表干净结构化入库用于商品展示。7.4 舆情资讯文本标准化新闻、舆情资讯富文本自动格式化统一排版格式便于后续分词、关键词提取、语义关联挖掘等二次数据处理。

Python 爬虫数据处理：富文本爬虫内容格式化还原

相关文章：

Python 爬虫数据处理：富文本爬虫内容格式化还原

Legacy iOS Kit终极指南：一站式拯救老旧iPhone/iPad的免费工具

Zotero茉莉花插件：3大核心功能彻底解决中文文献管理难题

魔兽争霸3终极优化指南：如何让经典游戏在现代系统上完美运行

ncmdump终极指南：快速解密网易云音乐NCM格式文件

SPSS数据合并避坑指南：键变量设置、缺失值处理与常见错误解析

Mac窗口置顶神器Topit：3步解决多窗口遮挡难题，工作效率提升150%

OpenVSP参数化飞机设计：3个技巧让你从零开始打造专业飞行器

Apache SeaTunnel 4 月有何新动作？连接器增强与 Zeta 稳定性提升等亮点速览

YOLO 全景解析：从 v8 到 v26（基于 Ultralytics 本仓库）

flux_down 下载工具使用步骤详解（附FluxDown多线程下载与磁力解析教程）

不可错过的AI教材写作攻略，借助工具轻松达成低查重目标

5G NR里那个神秘的Timing Advance，到底是怎么让手机和基站‘对表’的？

macOS菜单栏终极管理指南：用Ice开源工具打造高效工作空间

前端状态管理：主流状态管理库对比与选型指南

C++ 算法实战：从鸡兔同笼到多元方程求解的编程思维演进

DO-254标准下的航空电子硬件需求追溯实践

从零搭建Modbus通信测试环境：TCP与串口双模式实战

军用270V电源系统设计与模块化解决方案

ABAP 7.40+新语法实战：从传统代码到现代编程范式的重构

告别‘黑盒’：图解Android SDM660 UEFI XBL启动全流程与关键配置文件解析

05 - rocrtst 功能测试详解

别再百度了！工程师私藏的5个免费Datasheet查询网站（附使用技巧）

04 - 运行 rocrtst 第一个测试

Arm SME架构下的矩阵运算优化实践

保姆级教程：手把手教你用Intel RealSense D435i进行动态标定（附打印目标尺寸）

Python 爬虫高级实战：异地多机房爬虫协同采集

NLP基石：从n-gram到现代语言模型的演进之路

Python 爬虫进阶技巧：内网公开资源合规爬虫采集

反向传播不神秘：手把手调试一个计算图，看梯度是怎么‘流’回来的