网页抓取混淆与嵌套数据处理流程
当我们在网页抓取中,遇到混淆和多层嵌套的情况是比较常见的挑战。混淆大部分都是为了防止爬虫而设计的,例如使用JavaScript动态加载、数据加密、字符替换、CSS偏移等。多层嵌套则可能是指HTML结构复杂,数据隐藏在多层标签或者多个iframe中。
那么遇到这样的问题,通常的情况的需要结合多种技术手段来处理,一下就是我整理的具体系统化的解决方案:
一、混淆处理策略
-
动态渲染对抗
- 使用无头浏览器:
Playwright
/Puppeteer
/Selenium
from playwright.sync_api import sync_playwrightwith sync_playwright() as p:browser = p.chromium.launch()page = browser.new_page()page.goto(url)# 处理延迟加载page.wait_for_selector('.target-element', timeout=10000)html = page.content()browser.close()
- 使用无头浏览器:
-
CSS偏移混淆
- 解析CSS样式规则:
from bs4 import BeautifulSoup import redef decrypt_css_offset(html):soup = BeautifulSoup(html, 'lxml')style_tags = soup.find_all('style')mapping = {}for tag in style_tags:# 提取CSS规则rules = re.findall(r'\.(.+?){left:(.+?)px', tag.text)for class_name, offset in rules:mapping[class_name] = -int(offset.replace(';', ''))return mapping
-
字体反爬破解
- 字体文件解析:
from fontTools.ttLib import TTFontdef parse_font(font_path):font = TTFont(font_path)cmap = font.getBestCmap()glyph_names = [font['glyf'][g].getGlyphName() for g in cmap.values()]# 建立编码到实际字符的映射return {hex(k): v for k, v in zip(cmap.keys(), glyph_names)}
二、多层嵌套处理技巧
-
智能路径生成
def smart_extract(html):soup = BeautifulSoup(html, 'lxml')# 寻找数据密集区域data_container = soup.find(lambda tag: len(tag.find_all()) > 10 and tag.text.strip())# 自动化生成XPathpath = []while data_container:path.insert(0, data_container.name)data_container = data_container.parentreturn " > ".join(path)
-
多级JSON解析
import jsondef extract_nested_json(data):results = []if isinstance(data, dict):for key, value in data.items():if key == 'targetKey':results.append(value)else:results.extend(extract_nested_json(value))elif isinstance(data, list):for item in data:results.extend(extract_nested_json(item))return results
三、综合解决方案
处理流程:
四、高级技巧
-
机器学习辅助
- 使用预训练模型识别数据区域
# 伪代码示例 from sklearn.ensemble import RandomForestClassifier# 特征:标签深度/子节点数/文本长度等 clf = RandomForestClassifier() clf.fit(features, labels) # 预先标注样本训练
-
动态XPath生成
def generate_xpath(element):components = []while element.parent is not None:siblings = element.find_previous_siblings(element.name)position = len(siblings) + 1 if siblings else 1components.insert(0, f"{element.name}[{position}]")element = element.parentreturn '/' + '/'.join(components)
-
反调试绕过
# Playwright 示例 page = browser.new_page() # 屏蔽开发者工具检测 page.add_init_script(""" window.console.debug = () => {}; Object.defineProperty(navigator, 'webdriver', {get: () => false}); """)
五、调试与优化
-
数据校验机制
def validate_data(data):patterns = {'phone': r'\d{3}-\d{4}-\d{4}','email': r'[\w.-]+@[\w.-]+\.\w+'}for field, pattern in patterns.items():if not re.match(pattern, data.get(field, '')):logging.warning(f"Invalid {field} format: {data[field]}")
-
自适应重试策略
import random from tenacity import retry, wait_exponential@retry(wait=wait_exponential(multiplier=1, max=60)) def fetch_with_retry(url):# 随机切换UAheaders = {'User-Agent': random.choice(USER_AGENTS)}response = requests.get(url, headers=headers)response.raise_for_status()return response
最佳实践建议:
- 分层处理:先解决渲染问题,再处理结构混淆,最后解析数据
- 模块化设计:将渲染引擎、解析器、校验模块分离
- 缓存机制:对字体文件/CSS规则进行本地缓存
- 熔断机制:设置异常阈值自动停止爬取
- 分布式处理:使用Scrapy+Scrapy-Redis处理大规模数据
遇到具体案例时,建议:
- 使用浏览器开发者工具的"元素覆盖检测"功能
- 分析网络请求中的XHR/Fetch请求
- 对比多页面结构寻找稳定特征
- 对混淆代码进行AST语法树分析
最后需要提醒的是:处理复杂网站时,我们优先检查是否有官方API可用,并遵守robots.txt协议。对于商业项目,建议使用专业级爬虫框架如Scrapy
配合Splash
渲染服务配合API代理效率杠杠的。
相关文章:

网页抓取混淆与嵌套数据处理流程
当我们在网页抓取中,遇到混淆和多层嵌套的情况是比较常见的挑战。混淆大部分都是为了防止爬虫而设计的,例如使用JavaScript动态加载、数据加密、字符替换、CSS偏移等。多层嵌套则可能是指HTML结构复杂,数据隐藏在多层标签或者多个iframe中。 …...

高性能MYSQL:复制同步的问题和解决方案
一、复制的问题和解决方案 中断MySQL的复制并不是件难事。因为实现简单,配置相当容易,但也意味着有很多方式会导致复制停止,陷入混乱并中断。 (一)数据损坏或丢失的错误 由于各种各样的原因,MySQL 的复制…...
如何通过外网访问内网服务器?怎么让互联网上连接本地局域网的网址
服务器作为一个数据终端,是很多企事业单位不可获缺的重要设备,多数公司本地都会有部署服务器供测试或部署一些网络项目使用。有人说服务器就是计算机,其实这种说法不是很准确。准确的说服务器算是计算机的一种,它的作用是管理计算…...

大话软工笔记—架构模型
1. 架构模型1—拓扑图 (1)拓扑图概念 拓扑图,将多个软件系统用网络图连接起来的表达方式。 (2)拓扑图分类 总线型结构 比较普遍采用的方式,将所有的系统接到一条总线上。 星状结构 各个系统通过点到…...

javaweb -html -CSS
HTML是一种超文本标记语言 超文本:超过了文本的限制,比普通文本更强大,除了文字信息,还可以定义图片、音频、视频等内容。 标记语言:由标签"<标签名>"构成的语言。 CSS:层叠样式表,用于…...

spring task定时任务快速入门
spring task它基于注解和配置,可以轻松实现任务的周期性调度、延迟执行或固定频率触发。按照我们约定的时间自动执行某段代码。例如闹钟 使用场景 每月还款提醒,未支付的订单自动过期,收到快递后自动收货,系统自动祝你生日快乐等…...

搭建nginx的负载均衡
1、编写一个configMap的配置文件 events {worker_connections 1024; # 定义每个worker进程的最大连接数 }http {# 定义通用代理参数(替代proxy_params文件)proxy_set_header Host $host;proxy_set_header X-Real-IP $remote_addr;proxy_set_header X-F…...

Appium+python自动化(八)- 认识Appium- 下章
1、界面认识 在之前安装appium的时候说过我们有两种方法安装,也就有两种结果,一种是有界面的(客户端安装),一种是没有界面的(终端安装),首先我们先讲一下有界面的,以及界…...

LabVIEW的MathScript Node 绘图功能
该VI 借助 LabVIEW 的 MathScript Node,结合事件监听机制,实现基于 MathScript 的绘图功能,并支持通过交互控件自定义绘图属性。利用 MathScript 编写脚本完成图形初始化,再通过LabVIEW 事件结构响应用户操作,动态修改…...
互斥锁与消息队列的架构哲学
更多精彩内容请访问:通义灵码2.5——基于编程智能体开发Wiki多功能搜索引擎更多精彩内容请访问:更多精彩内容请访问:通义灵码2.5——基于编程智能体开发Wiki多功能搜索引擎 一、资源争用的现实镜像 当多个ATM机共用一个现金库时,…...

每日Prompt:治愈动漫插画
提示词 现代都市治愈动漫插画风格,现代女子,漂亮,长直发,20岁,豆沙唇,白皙,气质,清纯现代都市背景下,夕阳西下,一位穿着白色露脐短袖,粉色工装裤…...
stress-ng 服务器压力测试的工具学习
一、stress-ng (下一代压力测试) 介绍 项目地址:https://github.com/ColinIanKing/stress-ng stress-ng 将以多种可选方式对计算机系统进行压力测试。它旨在锻炼计算机的各种物理子系统以及各种操作系统内核接口。stress-ng 的特点: 360 压力测试100 …...

6.8 note
paxos算法_初步感知 Paxos算法保证一致性主要通过以下几个关键步骤和机制: 准备阶段 - 提议者向所有接受者发送准备请求,请求中包含一个唯一的编号。 - 接受者收到请求后,会检查编号,如果编号比它之前见过的都大,就会承…...

面试心得 --- 车载诊断测试常见的一些面试问题
我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…...
Vue项目PDF目录功能集成【一】——方案深度思考
文章目录 项目背景一、方案一:数据透传 外部开发模式二、方案二:内置组件 黑盒模式三、方案三:激活官方实现 可控定制总结 项目背景 本项目是Vue 3 项目,需要使用文件预览组件(pdfjs 当前是作为sdk二次封装引入&am…...
服务器中僵尸网络攻击是指什么?
随着网络业务的不断发展,网络攻击的手段也变得越来越多,各个企业都会受到网络攻击的威胁,其中常见的网络攻击主要有DDOS攻击和CC攻击等类型,今天小编则为大家来介绍僵尸网络攻击是指什么! 僵尸网络主要是指采用一种或者…...
Java编程中常见的条件链与继承陷阱
格式错误的if-else条件链 典型结构与常见错误模式 在Java编程中,if-else条件链是一种常见的多条件处理模式,其标准结构如下: if (condition1) {// 处理逻辑1 } else if (condition2) {// 处理逻辑2 } else...

跟进一下目前最新的大数据技术
搭建最新平台 40C64G服务器,搭建3节点kvm,8C12G。 apache-hive-4.0.1-bin apache-tez-0.10.4-bin flink-1.20.1 hadoop-3.4.1 hbase-2.6.2 jdk-11.0.276 jdk8u452-b09 jdk8终于可以不用了 spark-3.5.5-bin-hadoop3 zookeeper-3.9.3 trino…...
ubuntu 系统分区注意事项
ubuntu 系统分区大小,注意事项: 安装ubuntu系统时,需要进行分区,手动分区时,有一点需要注意。一开始我也没有注意,长时间使用后才发现的问题。 需要注意一点,如果不对 /usr 进行单独分区&…...
当前市场环境下,软件行业的突围之道:技术演进与商业模式重构
一、行业背景:软件行业进入结构性调整期 2024年至今,软件行业面临三重挑战: 宏观经济承压:全球经济放缓,企业IT预算趋于谨慎; 资本市场收缩:融资环境收紧,盈利能力成为生死线&…...
Redis——主从哨兵配置
目录 基础概念 一、核心原理 二、核心特性 三、技术意义与应用价值 四、典型应用场景 案例部署 一、主从复制配置命令 二、哨兵模式部署命令 关键注意事项 基础概念 一、核心原理 内存存储与高性能 Redis 所有数据存储于内存中&…...

系统模块与功能设计框架
系统模块与功能设计框架,严格遵循专业架构设计原则,基于行业标准(如微服务架构、DDD领域驱动设计)构建。设计采用分层解耦模式,确保可扩展性和可维护性,适用于电商、企业服务、数字平台等中大型系统。 系统…...

我爱学算法之—— 前缀和(中)
一、724. 寻找数组的中心下标 题目解析 这道题,给定数组nums,要求我们找出这个数组的中心下标。 **中心下标:**指左侧所有元素的和等于右侧所有元素的和。 如果存在多个中心数组下标,就返回最左侧的中心数组下标。 算法思路 暴…...
leetcode sql50题
在中文站没找到对应的集合,想来自己动手拷贝过来,方便大家面试复习用,对应英文站点: https://leetcode.com/studyplan/top-sql-50/ Select #1757. 可回收且低脂的产品 链接: https://leetcode.cn/problems/recyclable-and-low-fa…...
word操作(持续更新)
1、图片前面(无间隔格式),有像标题标记一样的黑点 word段落左边的黑色小方块小黑点是什么(段落的换行和分页属性)_哔哩哔哩_bilibili...
AURA智能助手在物联网(IoT)和数字化改造领域的使用
要设计一款在物联网(IoT)和数字化改造领域占据市场主导的AURA智能助手,产品经理需从行业痛点、技术架构、商业模式、生态整合四大维度切入,深度融合工业场景的特殊性。以下是系统性设计框架与落地策略: 一、精准定位:直击工业场景核心痛点 1. 解决企业级关键问题 场景痛…...
怎么把自己电脑设置成服务器?
将自己的电脑设置为服务器可以让您托管网站、文件共享或运行各种服务。以下是设置步骤: 基本设置步骤 选择操作系统: Windows:可使用IIS(Internet Information Services)Linux:常用Apache、Nginx等mac…...

Elasticsearch从安装到实战、kibana安装以及自定义IK分词器/集成整合SpringBoot详细的教程ES(三)
DSL官方地址: DSL查询分类 Elasticsearch提供了基于JSON的DSL(https://www.elastic.co/docs/explore-analyze/query-filter/languages/querydsl)来定义查询。常见的查询类型包括: 查询所有:查询出所有数据࿰…...
神经网络 隐藏层
神经网络中隐藏层的数量是一个超参数,其选择取决于任务复杂度、数据规模和计算资源。以下是常见的架构类型及其适用场景: 1. 单层隐藏层(浅神经网络) 结构:输入层 → 1 个隐藏层 → 输出层特点: 仅需调整…...

React Hooks 指南:何时使用 useEffect ?
在 React 的函数组件中,useEffect Hook 是一个强大且不可或缺的工具。它允许我们处理副作用 (side effects)——那些在组件渲染之外发生的操作。但是,什么时候才是使用 useEffect 的正确时机呢?让我们深入探讨一下! 什么是副作用…...