当前位置: 首页 > article >正文

Python 爬虫高级实战:AI 智能解析复杂网页内容

前言现代网页大量采用 JavaScript 动态渲染、异步接口混淆、HTML 结构碎片化、标签无规律嵌套、反爬混淆节点、加密参数嵌入页面等设计传统爬虫依赖 Xpath、BeautifulSoup 固定节点定位的解析方式极易因页面小幅改版直接失效部分网站采用乱序 class 名、随机 id、无语义标签、布局伪装节点人工编写解析规则耗时久、维护成本极高、通用性极差。AI 智能解析复杂网页内容依托大语言模型与网页语义理解能力脱离固定 XPath、CSS 选择器依赖基于网页全文文本与 DOM 结构做语义抽取、字段识别、结构化整理、自动适配页面改版能够智能提取标题、时间、作者、正文、价格、规格、列表数据等核心字段适配混乱结构、动态渲染、混淆布局的复杂网页实现一套解析逻辑适配多站点、免人工频繁改规则是高阶爬虫架构中替代传统规则解析的核心能力。本文覆盖网页预处理、DOM 精简降噪、本地大模型私有化部署、API 大模型调用、AI 结构化数据抽取、复杂列表智能解析、分页内容批量提取、解析结果校验、缓存降本、爬虫与 AI 解析全链路封装实战附带完整可运行代码、分层原理拆解、配置模板与生产级优化方案无需人工写选择器即可完成复杂网页数据抓取。本文涉及核心工具与官方文档超链接可直接跳转查阅LangChain 官方文档大模型应用开发编排框架BeautifulSoup4 官方文档网页 DOM 清洗与精简Ollama 官方文档本地私有化大模型一键部署工具Requests 官方文档网页源码请求基础库Llama 3 模型介绍轻量开源大解析模型OpenAI 接口文档通用大模型标准调用协议一、复杂网页传统解析痛点与 AI 解析优势1.1 传统固定规则解析核心痛点网页轻微改版、节点顺序变动、class/id 随机生成解析规则直接失效页面标签嵌套混乱、无统一语义结构人工编写 XPath 成本极高动态渲染网页 DOM 冗余节点多筛选目标字段难度大多同类型站点结构不一致无法复用解析代码每个站点单独维护规则混淆标签、广告节点、空节点干扰严重传统规则难以精准过滤。1.2 AI 智能解析核心优势语义化抽取不依赖标签位置基于文本语义自动识别标题、正文、时间、价格等字段结构自适应页面小幅改版不影响解析效果无需频繁修改代码规则多站点通用同一套提示词与解析逻辑适配同行业数十个异构网页自动降噪智能过滤广告、导航栏、底部冗余、空节点、混淆无用文本结构化输出直接返回 JSON 标准格式数据无需二次拆分处理私有化部署本地开源大模型离线解析无接口调用费用、无数据外泄风险。1.3 AI 爬虫解析整体流程爬虫请求获取网页原始 HTMLDOM 清洗、去冗余、过滤广告、精简节点文本构造标准化解析提示词传入精简后网页内容调用本地 / 云端大模型做语义抽取解析返回 JSON 结构化数据数据校验、格式清洗、入库存储增加缓存机制相同网页避免重复调用大模型降低耗时与资源消耗。二、环境依赖安装与基础组件准备2.1 安装 Python 依赖库bash运行pip install requests beautifulsoup4 langchain ollama json5json5兼容大模型返回非严格 JSON 格式自动容错解析langchain统一封装大模型调用、提示词模板、输出解析器ollama本地大模型一键调用客户端beautifulsoup4网页 DOM 清洗、降噪、精简文本。2.2 Ollama 本地大模型部署Ollama 支持 Linux/Windows/macOS 全平台无需复杂环境配置一条命令即可部署开源大模型适配网页文本解析场景。安装 Ollama 服务并启动后台进程拉取轻量解析专用模型bash运行ollama pull llama3:8b验证模型可用bash运行ollama run llama3:8b本地模型部署完成后默认提供本地接口地址Python 代码可直接调用完全离线运行无需外网。三、网页 DOM 清洗与精简降噪核心实现3.1 清洗原理原始网页 HTML 包含大量脚本标签、样式标签、广告模块、导航栏、侧边栏、空标签、注释内容直接送入大模型会造成文本冗余、上下文浪费、解析精度下降、Token 消耗过高。需要提前做 DOM 预处理只保留正文相关节点剔除无关噪声。3.2 网页清洗精简完整工具类代码python运行from bs4 import BeautifulSoup import re class HtmlCleaner: # 需移除的无用标签 REMOVE_TAGS [script, style, iframe, noscript, header, footer, nav, aside] # 广告、冗余关键词匹配 NOISE_KEYWORDS [广告, 推荐, 版权所有, 返回顶部, 关注我们, 公众号] staticmethod def clean_html(html_text: str) - str: 网页HTML清洗、去冗余、精简正文 soup BeautifulSoup(html_text, html.parser) # 移除指定无用标签 for tag in HtmlCleaner.REMOVE_TAGS: for item in soup.find_all(tag): item.decompose() # 移除包含噪声关键词的节点 for text in HtmlCleaner.NOISE_KEYWORDS: for item in soup.find_all(stringre.compile(text)): if item.parent: item.parent.decompose() # 获取纯文本并去除多余换行与空格 raw_text soup.get_text(separator , stripTrue) clean_text re.sub(r\s, , raw_text) return clean_text3.3 代码原理解析批量移除脚本、样式、导航、页脚等与正文无关的固定标签从结构上降噪通过关键词匹配广告、版权、推广类文本节点直接删除父节点提取纯文本内容合并多余空格与换行压缩文本体积精简后文本体积可压缩至原 HTML 的 10%~20%大幅降低大模型 Token 消耗提升解析准确率与响应速度。四、AI 智能解析核心封装本地大模型版4.1 解析提示词模板设计固定结构化输出要求强制大模型返回标准 JSON指定需要抽取的字段适配新闻、资讯、商品、文章类通用网页。python运行from langchain.prompts import PromptTemplate from langchain.llms import Ollama from langchain.output_parsers import StructuredOutputParser, ResponseSchema # 定义需要抽取的字段规则 response_schemas [ ResponseSchema(nametitle, description网页文章标题), ResponseSchema(namepublish_time, description发布时间无则填空字符串), ResponseSchema(nameauthor, description作者信息无则填空字符串), ResponseSchema(namecontent, description文章正文完整内容), ResponseSchema(namesource, description来源站点名称无则填空字符串) ] # 输出解析器 output_parser StructuredOutputParser.from_response_schemas(response_schemas) format_instructions output_parser.get_format_instructions() # 构造提示词模板 prompt_template PromptTemplate( template你是专业网页数据解析专家根据下面网页精简文本抽取指定字段严格按照JSON格式输出不要多余解释、不要markdown格式。\n{format_instructions}\n网页内容{web_text}, input_variables[web_text], partial_variables{format_instructions: format_instructions} )4.2 大模型调用与结构化解析完整代码python运行class AiSpiderParser: def __init__(self, model_namellama3:8b): # 初始化本地Ollama大模型 self.llm Ollama(modelmodel_name, temperature0.1) self.prompt prompt_template self.parser output_parser def parse_web_content(self, clean_web_text: str): AI智能解析网页精简文本返回结构化字典 # 拼接提示词 prompt_value self.prompt.format_prompt(web_textclean_web_text) # 调用大模型 result self.llm(prompt_value.to_string()) # 解析为结构化字典 data self.parser.parse(result) return data4.3 全链路整合爬虫请求 清洗 AI 解析python运行import requests class ComplexAiSpider: def __init__(self): self.cleaner HtmlCleaner() self.ai_parser AiSpiderParser() self.headers { User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 } def get_html(self, url: str) - str: 请求网页源码 resp requests.get(url, headersself.headers, timeout15) resp.raise_for_status() resp.encoding resp.apparent_encoding return resp.text def run(self, url: str): # 1. 获取网页源码 html self.get_html(url) # 2. DOM清洗精简 clean_text self.cleaner.clean_html(html) # 3. AI智能解析 res_data self.ai_parser.parse_web_content(clean_text) return res_data if __name__ __main__: spider ComplexAiSpider() url 待解析复杂网页地址 data spider.run(url) print(data)4.4 核心原理解析temperature 设置为 0.1降低大模型随机性保证每次解析结果稳定一致固定提示词强制只返回 JSON禁止多余文字描述便于程序直接解析入库LangChain 结构化输出解析器自动容错兼容大模型微小格式偏差整套流程完全脱离 XPath、CSS 选择器仅依赖文本语义完成字段抽取网页结构改版、标签随机变化时无需修改代码AI 自动适配解析逻辑。五、云端大模型通用适配改造5.1 适配思路只需替换底层 LLM 为 OpenAI 兼容接口提示词、清洗逻辑、解析流程完全不用改动实现本地 / 云端模型无缝切换。仅需更换模型初始化方式其余业务代码完全复用适配阿里云、腾讯云、各类开源兼容接口大模型。六、复杂列表类网页 AI 解析扩展6.1 业务场景商品列表、新闻列表、榜单分页等多条目网页传统解析需要循环定位列表项AI 可一次性识别所有列表条目输出数组结构化数据。只需修改提示词字段规则定义输出为列表数组格式大模型自动拆分每条数据批量抽取标题、链接、价格、简介等信息无需人工遍历节点。七、生产级优化缓存、限流、容错与校验7.1 解析缓存机制对已解析过的网页 URL 做本地缓存或 Redis 缓存短时间内重复爬取直接返回缓存结果无需重复调用大模型节省 Token、降低耗时、减少硬件资源占用。7.2 异常容错处理增加大模型调用超时捕获、JSON 解析失败重试、字段缺失默认填充避免单条网页解析异常导致整个爬虫中断。7.3 结果数据校验对标题、时间、正文做长度校验、格式校验过滤 AI 幻觉生成的无效内容保证入库数据质量。7.4 批量并发控制限制同时调用大模型的并发数量防止本地模型算力打满、接口限流封禁适配大规模批量爬虫解析场景。八、AI 爬虫与原有云原生架构融合8.1 对接 Docker 容器化将包含 AI 解析的爬虫项目打包进 Docker 镜像内置 Ollama 模型或对接外部模型服务实现容器一键部署。8.2 对接 K8s 集群编排在 K8s 中单独部署大模型服务 Pod爬虫服务通过内网接口调用解析能力实现算力隔离、弹性扩容、统一管控。8.3 对接监控告警将 AI 解析失败率、调用耗时、模型异常纳入 Prometheus 监控指标解析成功率过低、模型服务离线自动触发告警。8.4 对接定时任务定时爬虫采集网页后自动送入 AI 解析流程实现定时爬取 AI 智能解析 自动入库全流程无人值守。

相关文章:

Python 爬虫高级实战:AI 智能解析复杂网页内容

前言 现代网页大量采用 JavaScript 动态渲染、异步接口混淆、HTML 结构碎片化、标签无规律嵌套、反爬混淆节点、加密参数嵌入页面等设计,传统爬虫依赖 Xpath、BeautifulSoup 固定节点定位的解析方式,极易因页面小幅改版直接失效;部分网站采用…...

别再手动拼接错误信息了!用CONVERT_BDCMSGCOLL_TO_BAPIRET2一键搞定SAP BDC消息处理

别再手动拼接错误信息了!用CONVERT_BDCMSGCOLL_TO_BAPIRET2一键搞定SAP BDC消息处理 在SAP ABAP开发中,BDC(Batch Data Communication)是批量数据导入和事务录屏的核心技术。然而,每次调用BDC后返回的消息处理却让开发…...

可解释AI 2.0:从通用工具到定制化方案的实战指南

1. 项目概述:从“黑盒”到“白盒”的进阶之路“可解释AI”这个词,现在听起来已经不新鲜了。几年前,当深度学习模型在图像识别、自然语言处理等领域大杀四方时,我们这些从业者一边惊叹于其惊人的性能,一边又对模型内部的…...

Anthropic出手!AI的内心独白,曝光了

一水 发自 凹非寺量子位 | 公众号 QbitAIAI之所以不可控,很大一部分原因是它的思考过程不透明。就像和人打交道一样,你永远没办法真正看清,对方是不是“嘴上一套、心里一套”。而这一次,Anthropic撕开了这个黑箱。就在刚刚&#x…...

从裸机到RTOS:用STM32CubeMX给Keil工程添加RT-Thread内核(含内存优化配置)

从裸机到RTOS:STM32CubeMX与RT-Thread深度整合实战指南 1. 嵌入式开发模式演进:裸机与RTOS的本质差异 第一次接触RTOS的开发者往往会被各种新概念淹没——任务调度、优先级反转、内存池管理,这些在裸机编程中从未出现的术语让人望而生畏。但究…...

第一批「AI原生」本科生,要毕业了

Jay 发自 凹非寺量子位 | 公众号 QbitAI 一眨眼,第一批「AI原生」本科生,最近就要毕业了! 2022年入学的那批本科生,几乎在ChatGPT的全程陪伴下完成了大学学业。 就在这一时间点,OpenAI宣布了「未来之星」计划&#xff…...

别再为Word转PDF表格错位发愁了!手把手教你用Aspose.Words for Java 19.5搞定

深度解析Aspose.Words for Java在表格保真转换中的实战技巧 每次遇到Word转PDF时表格格式错位的问题,总让人抓狂——明明在.docx里完美对齐的表格,转成PDF后却变得七零八落。这种问题在合同、财务报表等正式文档中尤为致命。本文将带你深入探索Aspose.Wo…...

快来,和AI实战派一起AI!AIGC峰会最新嘉宾阵容来了

组委会 发自 凹非寺公众号|量子位 QbitAIAI爆款年年有,2026年以来更是特别的多。AI正在从少数人的工具,变成所有人的日常。今年5月20日,我们将在北京金茂万丽酒店举办一年一度的中国AIGC产业峰会,这次峰会主题是「所有…...

大气层系统进阶配置完全手册:从架构解析到性能调优

大气层系统进阶配置完全手册:从架构解析到性能调优 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable 大气层(Atmosphere)作为Nintendo Switch的开源自定义…...

别再花钱买设备了!旧电脑+免费iKuai系统,DIY一个家庭PPPoE服务器全记录

零成本打造家庭PPPoE服务器:旧电脑爱快系统的极客实践指南 你是否曾为家中多设备联网管理而头疼?或是想给访客一个独立网络却不愿额外购买硬件?一台尘封的旧电脑加上免费的爱快(iKuai)系统,就能变身为专业级PPPoE服务器。这不仅是…...

强化学习与微随机化试验在移动健康干预中的融合应用

1. 项目概述:当强化学习遇上移动健康干预如果你关注过精准医疗或者数字健康领域,最近几年“个性化”绝对是一个高频词。但说起来容易做起来难,真正的个性化干预不是简单地根据用户画像推送千篇一律的内容,而是需要一套能够动态学习…...

碧蓝航线Alas脚本终极指南:5步快速上手,彻底解放双手告别肝船烦恼

碧蓝航线Alas脚本终极指南:5步快速上手,彻底解放双手告别肝船烦恼 【免费下载链接】AzurLaneAutoScript Azur Lane bot (CN/EN/JP/TW) 碧蓝航线脚本 | 无缝委托科研,全自动大世界 项目地址: https://gitcode.com/gh_mirrors/az/AzurLaneAut…...

使用Python快速接入Taotoken调用多款大模型API的简明教程

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 使用Python快速接入Taotoken调用多款大模型API的简明教程 对于希望快速体验不同大模型能力的开发者而言,逐一申请和配置…...

字节Agent岗三面:你们线上跑了 RAG,那你怎么衡量它的效果好不好?

👔面试官:你们线上跑了 RAG,那你怎么衡量它的效果好不好? 🙋‍♂️我:我主要看用户反馈,有人投诉就说明效果不好,没人投诉就还行。 👔面试官:靠用户投诉来评…...

【图解】Claude Code 源码解析 |Prompt 提示词模块

Prompt 提示词 做过 Agent 的同学都知道,调 Prompt 是一个很痛苦的过程,不过我们现在可以看看顶级Agent的提示词是怎么做的。 CC 的 Prompt 提示词主要分成以下几个部分: Core System Prompt: 明确角色、任务边界、输出风格、风险…...

调 Agent 的 Prompt 太痛苦了?这套“写法 + 测评”救了我

最近在做导购Agent,工程侧已经开发完毕,但调Prompt、做测评,每一个都令我痛苦万分,因为到处都是“翻车现场”:要么“思维太发散”,绕着用户的问题走;要么“工具乱点”,命中一个tool就…...

使用Taotoken CLI工具一键配置本地开发环境所需的所有API密钥

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 使用Taotoken CLI工具一键配置本地开发环境所需的所有API密钥 基础教程类,面向希望快速搭建或统一团队开发环境的工程师…...

AI 时代,六年Java程序员转行做鸭

最近群里看到一张图,有一个程序员转行买鸭子了。 程序员的真实内情 程序员这行,外人看来高大上,高薪,体面,能力强,改变世界。实际情况是加班多,有时候熬夜,也要不断学习&#xff0c…...

金融AI风险管理:从模型验证到全生命周期治理的实战框架

1. 项目概述:当金融遇上AI,风险管理如何“进化”?在金融行业摸爬滚打了十几年,我亲眼见证了技术浪潮如何一次次重塑这个行业的肌理。从早期的电子交易系统到后来的大数据分析,每一次技术革新都伴随着效率的飞跃和新型风…...

我的 Claude 代码助手不再因 Token 耗尽而中断工作流

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 我的 Claude 代码助手不再因 Token 耗尽而中断工作流 作为一名日常与代码打交道的程序员,我的工作流中已经深度集成了 …...

CANN/pto-isa FA PTO移植示例

FA PTO PyTorch 移植示例 【免费下载链接】pto-isa Parallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operations. This repository offers high-performance, cross-platform tile operations acro…...

通过审计日志功能回溯与分析团队的API调用情况

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过审计日志功能回溯与分析团队的API调用情况 作为团队的技术负责人,在引入大模型能力支持业务创新的同时&#xff0c…...

AI绘画模型 GPT-image-2 ,全面发布!

大家好,我是程序员小灰。时间过得很快,转眼间AI绘画技术已经迭代了整整三年。回想三年前,AI绘画是什么水平?那时候的AI作品当中,人物有六个手指头、左右脚分不清、文字全是乱码......如今仅仅三年过去,AI绘…...

CANN DeepSeek-V4推理优化

NPU DeepSeek-V4推理优化实践 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例 项目地址: https://gitcode.com/cann/cann-recipes-infer DeepSeek团队发布了最新的模型DeepSeek-V…...

专业月饼生产线厂家:企业选购关键指标与合作策略深度解析

专业月饼生产线厂家选购指南:关键指标与合作策略FAQ全解析“选对专业月饼生产线厂家,不是看设备价格,而是看‘整线效率柔性适配长期服务’的三重匹配度”——这是中秋旺季前众多食品企业采购负责人的共识。面对招工难、产能波动、品质不稳定等…...

可预测AI:构建可预知性能与安全性的智能系统框架

1. 项目概述:从“黑盒”到“白盒”的智能进化“可预测AI”这个概念,最近几年在工业界和学术界的讨论热度越来越高。它直指当前主流人工智能应用,尤其是深度学习模型的一个核心痛点:不可预测性。我们训练了一个模型,在测…...

Vim集成ChatGPT:AI编程助手在编辑器中的无缝应用

1. 项目概述:当Vim遇上ChatGPT,会擦出怎样的火花?如果你是一个Vim的深度用户,同时又对AI编程助手充满好奇,那么0xStabby/chatgpt-vim这个项目绝对值得你花上十分钟了解一下。简单来说,这是一个Vim插件&…...

欧洲AI公众认知研究:低认知高好感背后的信任构建与治理启示

1. 项目概述:一次深入欧洲AI民意的“切片”研究最近,我花了不少时间研读一份来自学术预印本平台arXiv的研究报告,标题是《欧洲的人工智能:一项关于认知、态度与信任的研究》。这份报告对我触动很深。它不像那些充斥着技术术语和未…...

Hypnos-i1-8B入门必看:思维链(CoT)数学解题+长文本理解完整指南

Hypnos-i1-8B入门必看:思维链(CoT)数学解题长文本理解完整指南 1. 模型概述与核心能力 Hypnos-i1-8B是一款专注于复杂逻辑推理和数学问题求解的8B参数开源大模型。基于NousResearch/Hermes-3-Llama-3.1-8B微调而来,通过量子噪声…...

AI赋能电弧故障检测:从原理到工程落地的关键技术解析

1. 项目概述:当AI遇见电弧故障,一场配电安全的静默革命作为一名在电力系统一线摸爬滚打了十几年的工程师,我亲眼见过太多因电弧故障引发的惨痛事故。从设备烧毁到火灾,甚至人身伤害,这些“电火花”的破坏力远超常人想象…...