当前位置: 首页 > article >正文

网页抓取混淆与嵌套数据处理流程

当我们在网页抓取中,遇到混淆和多层嵌套的情况是比较常见的挑战。混淆大部分都是为了防止爬虫而设计的,例如使用JavaScript动态加载、数据加密、字符替换、CSS偏移等。多层嵌套则可能是指HTML结构复杂,数据隐藏在多层标签或者多个iframe中。

在这里插入图片描述

那么遇到这样的问题,通常的情况的需要结合多种技术手段来处理,一下就是我整理的具体系统化的解决方案:

一、混淆处理策略

  1. 动态渲染对抗

    • 使用无头浏览器:Playwright/Puppeteer/Selenium
    from playwright.sync_api import sync_playwrightwith sync_playwright() as p:browser = p.chromium.launch()page = browser.new_page()page.goto(url)# 处理延迟加载page.wait_for_selector('.target-element', timeout=10000)html = page.content()browser.close()
    
  2. CSS偏移混淆

    • 解析CSS样式规则:
    from bs4 import BeautifulSoup
    import redef decrypt_css_offset(html):soup = BeautifulSoup(html, 'lxml')style_tags = soup.find_all('style')mapping = {}for tag in style_tags:# 提取CSS规则rules = re.findall(r'\.(.+?){left:(.+?)px', tag.text)for class_name, offset in rules:mapping[class_name] = -int(offset.replace(';', ''))return mapping
    
  3. 字体反爬破解

    • 字体文件解析:
    from fontTools.ttLib import TTFontdef parse_font(font_path):font = TTFont(font_path)cmap = font.getBestCmap()glyph_names = [font['glyf'][g].getGlyphName() for g in cmap.values()]# 建立编码到实际字符的映射return {hex(k): v for k, v in zip(cmap.keys(), glyph_names)}
    

二、多层嵌套处理技巧

  1. 智能路径生成

    def smart_extract(html):soup = BeautifulSoup(html, 'lxml')# 寻找数据密集区域data_container = soup.find(lambda tag: len(tag.find_all()) > 10 and tag.text.strip())# 自动化生成XPathpath = []while data_container:path.insert(0, data_container.name)data_container = data_container.parentreturn " > ".join(path)
    
  2. 多级JSON解析

    import jsondef extract_nested_json(data):results = []if isinstance(data, dict):for key, value in data.items():if key == 'targetKey':results.append(value)else:results.extend(extract_nested_json(value))elif isinstance(data, list):for item in data:results.extend(extract_nested_json(item))return results
    

三、综合解决方案

处理流程:

CSS混淆
字体混淆
JS加密
多层嵌套
JSON数据
启动无头浏览器
加载目标页面
检测混淆类型
解析样式表
下载字体文件
执行解密函数
获取纯净HTML
结构复杂度
动态路径分析
深度遍历解析
数据规范化
输出结构化数据

四、高级技巧

  1. 机器学习辅助

    • 使用预训练模型识别数据区域
    # 伪代码示例
    from sklearn.ensemble import RandomForestClassifier# 特征:标签深度/子节点数/文本长度等
    clf = RandomForestClassifier()
    clf.fit(features, labels)  # 预先标注样本训练
    
  2. 动态XPath生成

    def generate_xpath(element):components = []while element.parent is not None:siblings = element.find_previous_siblings(element.name)position = len(siblings) + 1 if siblings else 1components.insert(0, f"{element.name}[{position}]")element = element.parentreturn '/' + '/'.join(components)
    
  3. 反调试绕过

    # Playwright 示例
    page = browser.new_page()
    # 屏蔽开发者工具检测
    page.add_init_script("""
    window.console.debug = () => {};
    Object.defineProperty(navigator, 'webdriver', {get: () => false});
    """)
    

五、调试与优化

  1. 数据校验机制

    def validate_data(data):patterns = {'phone': r'\d{3}-\d{4}-\d{4}','email': r'[\w.-]+@[\w.-]+\.\w+'}for field, pattern in patterns.items():if not re.match(pattern, data.get(field, '')):logging.warning(f"Invalid {field} format: {data[field]}")
    
  2. 自适应重试策略

    import random
    from tenacity import retry, wait_exponential@retry(wait=wait_exponential(multiplier=1, max=60))
    def fetch_with_retry(url):# 随机切换UAheaders = {'User-Agent': random.choice(USER_AGENTS)}response = requests.get(url, headers=headers)response.raise_for_status()return response
    

最佳实践建议:

  1. 分层处理:先解决渲染问题,再处理结构混淆,最后解析数据
  2. 模块化设计:将渲染引擎、解析器、校验模块分离
  3. 缓存机制:对字体文件/CSS规则进行本地缓存
  4. 熔断机制:设置异常阈值自动停止爬取
  5. 分布式处理:使用Scrapy+Scrapy-Redis处理大规模数据

遇到具体案例时,建议:

  1. 使用浏览器开发者工具的"元素覆盖检测"功能
  2. 分析网络请求中的XHR/Fetch请求
  3. 对比多页面结构寻找稳定特征
  4. 对混淆代码进行AST语法树分析

最后需要提醒的是:处理复杂网站时,我们优先检查是否有官方API可用,并遵守robots.txt协议。对于商业项目,建议使用专业级爬虫框架如Scrapy配合Splash渲染服务配合API代理效率杠杠的。

相关文章:

网页抓取混淆与嵌套数据处理流程

当我们在网页抓取中,遇到混淆和多层嵌套的情况是比较常见的挑战。混淆大部分都是为了防止爬虫而设计的,例如使用JavaScript动态加载、数据加密、字符替换、CSS偏移等。多层嵌套则可能是指HTML结构复杂,数据隐藏在多层标签或者多个iframe中。 …...

高性能MYSQL:复制同步的问题和解决方案

一、复制的问题和解决方案 中断MySQL的复制并不是件难事。因为实现简单,配置相当容易,但也意味着有很多方式会导致复制停止,陷入混乱并中断。 (一)数据损坏或丢失的错误 由于各种各样的原因,MySQL 的复制…...

如何通过外网访问内网服务器?怎么让互联网上连接本地局域网的网址

服务器作为一个数据终端,是很多企事业单位不可获缺的重要设备,多数公司本地都会有部署服务器供测试或部署一些网络项目使用。有人说服务器就是计算机,其实这种说法不是很准确。准确的说服务器算是计算机的一种,它的作用是管理计算…...

大话软工笔记—架构模型

1. 架构模型1—拓扑图 (1)拓扑图概念 拓扑图,将多个软件系统用网络图连接起来的表达方式。 (2)拓扑图分类 总线型结构 比较普遍采用的方式,将所有的系统接到一条总线上。 星状结构 各个系统通过点到…...

javaweb -html -CSS

HTML是一种超文本标记语言 超文本&#xff1a;超过了文本的限制&#xff0c;比普通文本更强大&#xff0c;除了文字信息&#xff0c;还可以定义图片、音频、视频等内容。 标记语言&#xff1a;由标签"<标签名>"构成的语言。 CSS:层叠样式表&#xff0c;用于…...

spring task定时任务快速入门

spring task它基于注解和配置&#xff0c;可以轻松实现任务的周期性调度、延迟执行或固定频率触发。按照我们约定的时间自动执行某段代码。例如闹钟 使用场景 每月还款提醒&#xff0c;未支付的订单自动过期&#xff0c;收到快递后自动收货&#xff0c;系统自动祝你生日快乐等…...

搭建nginx的负载均衡

1、编写一个configMap的配置文件 events {worker_connections 1024; # 定义每个worker进程的最大连接数 }http {# 定义通用代理参数&#xff08;替代proxy_params文件&#xff09;proxy_set_header Host $host;proxy_set_header X-Real-IP $remote_addr;proxy_set_header X-F…...

Appium+python自动化(八)- 认识Appium- 下章

1、界面认识 在之前安装appium的时候说过我们有两种方法安装&#xff0c;也就有两种结果&#xff0c;一种是有界面的&#xff08;客户端安装&#xff09;&#xff0c;一种是没有界面的&#xff08;终端安装&#xff09;&#xff0c;首先我们先讲一下有界面的&#xff0c;以及界…...

LabVIEW的MathScript Node 绘图功能

该VI 借助 LabVIEW 的 MathScript Node&#xff0c;结合事件监听机制&#xff0c;实现基于 MathScript 的绘图功能&#xff0c;并支持通过交互控件自定义绘图属性。利用 MathScript 编写脚本完成图形初始化&#xff0c;再通过LabVIEW 事件结构响应用户操作&#xff0c;动态修改…...

互斥锁与消息队列的架构哲学

更多精彩内容请访问&#xff1a;通义灵码2.5——基于编程智能体开发Wiki多功能搜索引擎更多精彩内容请访问&#xff1a;更多精彩内容请访问&#xff1a;通义灵码2.5——基于编程智能体开发Wiki多功能搜索引擎 一、资源争用的现实镜像 当多个ATM机共用一个现金库时&#xff0c;…...

每日Prompt:治愈动漫插画

提示词 现代都市治愈动漫插画风格&#xff0c;现代女子&#xff0c;漂亮&#xff0c;长直发&#xff0c;20岁&#xff0c;豆沙唇&#xff0c;白皙&#xff0c;气质&#xff0c;清纯现代都市背景下&#xff0c;夕阳西下&#xff0c;一位穿着白色露脐短袖&#xff0c;粉色工装裤…...

stress-ng 服务器压力测试的工具学习

一、stress-ng (下一代压力测试) 介绍 项目地址&#xff1a;https://github.com/ColinIanKing/stress-ng stress-ng 将以多种可选方式对计算机系统进行压力测试。它旨在锻炼计算机的各种物理子系统以及各种操作系统内核接口。stress-ng 的特点&#xff1a; 360 压力测试100 …...

6.8 note

paxos算法_初步感知 Paxos算法保证一致性主要通过以下几个关键步骤和机制&#xff1a; 准备阶段 - 提议者向所有接受者发送准备请求&#xff0c;请求中包含一个唯一的编号。 - 接受者收到请求后&#xff0c;会检查编号&#xff0c;如果编号比它之前见过的都大&#xff0c;就会承…...

面试心得 --- 车载诊断测试常见的一些面试问题

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…...

Vue项目PDF目录功能集成【一】——方案深度思考

文章目录 项目背景一、方案一&#xff1a;数据透传 外部开发模式二、方案二&#xff1a;内置组件 黑盒模式三、方案三&#xff1a;激活官方实现 可控定制总结 项目背景 本项目是Vue 3 项目&#xff0c;需要使用文件预览组件&#xff08;pdfjs 当前是作为sdk二次封装引入&am…...

服务器中僵尸网络攻击是指什么?

随着网络业务的不断发展&#xff0c;网络攻击的手段也变得越来越多&#xff0c;各个企业都会受到网络攻击的威胁&#xff0c;其中常见的网络攻击主要有DDOS攻击和CC攻击等类型&#xff0c;今天小编则为大家来介绍僵尸网络攻击是指什么&#xff01; 僵尸网络主要是指采用一种或者…...

Java编程中常见的条件链与继承陷阱

格式错误的if-else条件链 典型结构与常见错误模式 在Java编程中,if-else条件链是一种常见的多条件处理模式,其标准结构如下: if (condition1) {// 处理逻辑1 } else if (condition2) {// 处理逻辑2 } else...

跟进一下目前最新的大数据技术

搭建最新平台 40C64G服务器&#xff0c;搭建3节点kvm&#xff0c;8C12G。 apache-hive-4.0.1-bin apache-tez-0.10.4-bin flink-1.20.1 hadoop-3.4.1 hbase-2.6.2 jdk-11.0.276 jdk8u452-b09 jdk8终于可以不用了 spark-3.5.5-bin-hadoop3 zookeeper-3.9.3 trino…...

ubuntu 系统分区注意事项

ubuntu 系统分区大小&#xff0c;注意事项&#xff1a; 安装ubuntu系统时&#xff0c;需要进行分区&#xff0c;手动分区时&#xff0c;有一点需要注意。一开始我也没有注意&#xff0c;长时间使用后才发现的问题。 需要注意一点&#xff0c;如果不对 /usr 进行单独分区&…...

当前市场环境下,软件行业的突围之道:技术演进与商业模式重构

一、行业背景&#xff1a;软件行业进入结构性调整期 2024年至今&#xff0c;软件行业面临三重挑战&#xff1a; 宏观经济承压&#xff1a;全球经济放缓&#xff0c;企业IT预算趋于谨慎&#xff1b; 资本市场收缩&#xff1a;融资环境收紧&#xff0c;盈利能力成为生死线&…...

Redis——主从哨兵配置

目录 基础概念 ‌一、核心原理‌ ‌二、核心特性‌ ‌三、技术意义与应用价值‌ ‌四、典型应用场景‌ 案例部署 ‌一、主从复制配置命令‌ ‌二、哨兵模式部署命令‌ ‌关键注意事项‌ 基础概念 ‌一、核心原理‌ ‌内存存储与高性能‌ Redis 所有数据存储于内存中&…...

系统模块与功能设计框架

系统模块与功能设计框架&#xff0c;严格遵循专业架构设计原则&#xff0c;基于行业标准&#xff08;如微服务架构、DDD领域驱动设计&#xff09;构建。设计采用分层解耦模式&#xff0c;确保可扩展性和可维护性&#xff0c;适用于电商、企业服务、数字平台等中大型系统。 系统…...

我爱学算法之—— 前缀和(中)

一、724. 寻找数组的中心下标 题目解析 这道题&#xff0c;给定数组nums&#xff0c;要求我们找出这个数组的中心下标。 **中心下标&#xff1a;**指左侧所有元素的和等于右侧所有元素的和。 如果存在多个中心数组下标&#xff0c;就返回最左侧的中心数组下标。 算法思路 暴…...

leetcode sql50题

在中文站没找到对应的集合&#xff0c;想来自己动手拷贝过来&#xff0c;方便大家面试复习用&#xff0c;对应英文站点&#xff1a; https://leetcode.com/studyplan/top-sql-50/ Select #1757. 可回收且低脂的产品 链接: https://leetcode.cn/problems/recyclable-and-low-fa…...

word操作(持续更新)

1、图片前面&#xff08;无间隔格式&#xff09;&#xff0c;有像标题标记一样的黑点 word段落左边的黑色小方块小黑点是什么(段落的换行和分页属性)_哔哩哔哩_bilibili...

AURA智能助手在物联网(IoT)和数字化改造领域的使用

要设计一款在物联网(IoT)和数字化改造领域占据市场主导的AURA智能助手,产品经理需从行业痛点、技术架构、商业模式、生态整合四大维度切入,深度融合工业场景的特殊性。以下是系统性设计框架与落地策略: 一、精准定位:直击工业场景核心痛点 1. 解决企业级关键问题 场景痛…...

怎么把自己电脑设置成服务器?

将自己的电脑设置为服务器可以让您托管网站、文件共享或运行各种服务。以下是设置步骤&#xff1a; 基本设置步骤 ‌选择操作系统‌&#xff1a; Windows&#xff1a;可使用IIS&#xff08;Internet Information Services&#xff09;Linux&#xff1a;常用Apache、Nginx等mac…...

Elasticsearch从安装到实战、kibana安装以及自定义IK分词器/集成整合SpringBoot详细的教程ES(三)

DSL官方地址&#xff1a; DSL查询分类 Elasticsearch提供了基于JSON的DSL&#xff08;https://www.elastic.co/docs/explore-analyze/query-filter/languages/querydsl&#xff09;来定义查询。常见的查询类型包括&#xff1a; 查询所有&#xff1a;查询出所有数据&#xff0…...

神经网络 隐藏层

神经网络中隐藏层的数量是一个超参数&#xff0c;其选择取决于任务复杂度、数据规模和计算资源。以下是常见的架构类型及其适用场景&#xff1a; 1. 单层隐藏层&#xff08;浅神经网络&#xff09; 结构&#xff1a;输入层 → 1 个隐藏层 → 输出层特点&#xff1a; 仅需调整…...

React Hooks 指南:何时使用 useEffect ?

在 React 的函数组件中&#xff0c;useEffect Hook 是一个强大且不可或缺的工具。它允许我们处理副作用 (side effects)——那些在组件渲染之外发生的操作。但是&#xff0c;什么时候才是使用 useEffect 的正确时机呢&#xff1f;让我们深入探讨一下&#xff01; 什么是副作用…...