当前位置: 首页 > news >正文

XHR请求解密:抓取动态生成数据的方法

爬虫代理

在如今动态页面大行其道的时代,传统的静态页面爬虫已无法满足数据采集需求。尤其是在目标网站通过XHR(XMLHttpRequest)动态加载数据的情况下,如何精准解密XHR请求、捕获动态生成的数据成为关键技术难题。本文将深入剖析XHR请求解密的原理及实现方法,详细介绍5种主流方案,并以Steam游戏商店为案例,展示如何采集游戏介绍与评论数据。


1. 问题背景 —— 旧技术的痛点

传统爬虫技术主要基于页面静态HTML的抓取,但当下许多网站采用前后端分离技术,数据通过XHR请求加载。这带来了几个主要痛点:

  • 数据动态加载:页面初始HTML中并不包含全部数据,数据在用户浏览器中通过JavaScript异步加载。
  • 反爬虫机制:很多网站会对直接的HTTP请求进行验证,要求请求头中包含特定的cookie和useragent信息。
  • 请求加密与混淆:部分网站对XHR请求参数进行混淆或加密处理,直接复制请求参数难以复现。

为了解决这些问题,开发者需要解析XHR请求的生成过程,逆向出数据接口,并结合代理IP、cookie、useragent等技术绕过反爬机制,从而实现高效、稳定的数据抓取。


2. 技术架构图 + 核心模块拆解

技术架构图

技术框架

核心模块解析

  • XHR请求解析模块
    通过抓包工具(如Fiddler、Charles、Chrome DevTools)分析页面中的XHR请求,逆向出数据接口及参数。
  • 动态数据接口提取
    利用分析结果构造模拟请求,确保包含必要的请求头(User-Agent、Cookie等)和参数。
  • 数据抓取模块
    集成代理IP(如亿牛云爬虫代理),分布式并发请求,降低IP被封风险。
  • 数据解析与存储
    使用BeautifulSoup、XPath等工具解析响应数据,并存储到数据库或文件中以便后续分析。
  • 数据分析与展示
    对抓取的数据进行清洗、结构化处理,最终通过报表或可视化展示数据价值。

3. 性能对比数据 + 行业应用案例

性能对比数据

在实际测试中,采用XHR请求解密方案与传统爬虫相比有明显优势:

  • 请求成功率提升:通过代理IP与完整请求头伪装,成功率提高了30%-50%。
  • 抓取速度加快:多线程并发抓取与分布式代理架构,使页面数据采集速度提高了2倍以上。
  • 数据准确率提高:精准还原XHR请求参数后,数据采集错误率下降至5%以内。

行业应用案例

以Steam游戏商店为例,通过XHR解密技术,爬虫能够高效采集游戏详情和用户评论数据,为游戏数据分析、用户口碑研究提供强有力的数据支持。类似技术已广泛应用于电商、社交媒体、金融资讯等领域,助力企业实现大数据驱动的业务决策。


4. 创意点:技术演化树

下图展示了爬虫技术的历史脉络和演化过程:

传统HTTP请求
HTML页面解析
Ajax请求爬虫
XHR请求解密
Headless Browser爬虫
AI驱动智能爬虫

这棵“技术演化树”反映了从简单的页面抓取到智能化数据采集技术的发展历程,每一步技术进步都旨在更好地应对目标网站的反爬措施和数据动态加载难题。


5. 示例代码实现

下面是一段基于Python的示例代码,演示如何通过亿牛云爬虫代理对Steam商店进行数据抓取,并实现cookie与useragent的设置。代码中详细注释了每一步操作,帮助开发者理解并参考实现细节。

import requests
from bs4 import BeautifulSoup# 设置亿牛云爬虫代理相关信息www.16yun.com
# 请根据实际情况修改代理服务器的域名、端口、用户名和密码
proxy_domain = "proxy.16yun.cn"
proxy_port = "12345"
proxy_username = "16YUN"
proxy_password = "16IP"# 构造代理URL(支持HTTP和HTTPS代理)
proxy_url = f"http://{proxy_username}:{proxy_password}@{proxy_domain}:{proxy_port}"
proxies = {"http": proxy_url,"https": proxy_url
}# 设置请求头,包含User-Agent和Cookie(Cookie请根据实际情况填写)
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36","Cookie": "sessionid=example_session_id; other_cookie=example_value"
}# 目标页面URL:Steam商店中某个游戏(例如Dota 2)的页面
url = "https://store.steampowered.com/app/570/"# 使用代理IP发送请求,抓取动态生成数据
try:response = requests.get(url, headers=headers, proxies=proxies, timeout=10)# 判断请求是否成功if response.status_code == 200:# 解析页面数据soup = BeautifulSoup(response.text, "html.parser")# 示例:提取游戏简介(页面结构可能随时变化,请根据实际情况调整解析规则)intro_div = soup.find("div", {"class": "game_description_snippet"})game_intro = intro_div.get_text(strip=True) if intro_div else "暂无游戏简介"print("游戏简介:", game_intro)# 示例:提取用户评论(需要根据实际的页面结构确定具体标签和类名)reviews = soup.find_all("div", {"class": "user_review"})if reviews:for idx, review in enumerate(reviews, start=1):review_text = review.get_text(strip=True)print(f"评论 {idx}:", review_text)else:print("未提取到评论数据,请检查页面结构或XHR请求数据接口。")else:print("请求失败,状态码:", response.status_code)
except Exception as e:print("请求过程中出现异常:", e)

代码说明:

  • 通过设置proxies参数,实现代理IP的使用,参考亿牛云爬虫代理的相关参数。
  • headers中包含了伪装的User-Agent和Cookie信息,帮助绕过目标网站的反爬机制。
  • 采用BeautifulSoup解析HTML数据,提取游戏简介和评论数据。
  • 请根据目标页面的最新结构,适时调整解析规则。

6. 总结

本文从技术原理和实践案例两个层面,详细介绍了XHR请求解密在抓取动态生成数据中的应用。通过对比传统爬虫技术与XHR解密方案的优劣,结合代理IP、cookie和useragent设置,实现了高效稳定的数据采集。无论是在游戏数据分析还是其他行业应用中,理解并掌握这些技术都将为数据驱动的决策提供有力支撑。

相关文章:

XHR请求解密:抓取动态生成数据的方法

在如今动态页面大行其道的时代,传统的静态页面爬虫已无法满足数据采集需求。尤其是在目标网站通过XHR(XMLHttpRequest)动态加载数据的情况下,如何精准解密XHR请求、捕获动态生成的数据成为关键技术难题。本文将深入剖析XHR请求解密…...

坐标变换介绍与机器人九点标定的原理

【备注】本文的C#代码在下面链接中可以下载:Opencv的C#九点标定代码资源-CSDN文库 https://download.csdn.net/download/qq_34047402/90452336 一、坐标变换的介绍 1.绕原点旋转的坐标变换 一个点(x,y)绕原点旋转u度,其旋转后的坐标(x1,y1)如何计算? 2.绕任意点的坐标变…...

串口调试助手Alien v5.198新版发布

v5.198 更改点: 1.增加USB打印机支持 2.支持特殊波特率/自定义波特率 3.支持窗口透明调整 4.支持接收框文本左/中/右对齐,粗体字,自动换行 5.支持接收时间戳 6.HEX接收自动换行 7.支持文本颜色主题 8.支持文本字体修改 9.增加菜单/增状态栏显示当前接口 下载 alien_v5.198.7z …...

解锁Android RemoteViews:跨进程UI更新的奥秘

一、RemoteViews 简介 在 Android 开发的广阔领域中,RemoteViews 是一个独特且重要的概念,它为开发者提供了一种在其他进程中显示视图结构的有效方式。从本质上讲,RemoteViews 并非传统意义上在当前应用进程内直接渲染和操作的 View&#xf…...

编译可以在Android手机上运行的ffmpeg程序

下载代码 git clone gitgithub.com:FFmpeg/FFmpeg.git git checkout n7.0建立build目录 mkdir build cd build创建build.sh脚本 vim build.sh这段脚本的主要功能是配置和编译 FFmpeg,使其能够在 Android 平台上运行,通过设置不同的架构和 API 级别&am…...

Verilog学习方法—基础入门篇(一)

前言: 在FPGA开发中,Verilog HDL(硬件描述语言)是工程师必须掌握的一项基础技能。它不仅用于描述数字电路,还广泛应用于FPGA的逻辑设计与验证。对于初学者来说,掌握Verilog的核心概念和基本语法&#xff0…...

本地jar包添加到 maven

进入到 你的 maven bin文件夹下 执行cmd ,然后执行命令 mvn install:install-file -Dfilepath/to/your/artifact.jar -DgroupIdyour.group.id -DartifactIdyour-artifact-id -Dversion1.0 -Dpackagingjar 替换path/to/your/artifact.jar为你的JAR文件路径&#xf…...

C# Unity 唐老狮 No.6 模拟面试题

本文章不作任何商业用途 仅作学习与交流 安利唐老狮与其他老师合作的网站,内有大量免费资源和优质付费资源,我入门就是看唐老师的课程 打好坚实的基础非常非常重要: 全部 - 游习堂 - 唐老狮创立的游戏开发在线学习平台 - Powered By EduSoho 如果你发现了文章内特殊的字体格式,…...

项目工坊 | Python驱动淘宝信息爬虫

目录 前言 1 完整代码 2 代码解读 2.1 导入模块 2.2 定义 TaoBao 类 2.3 search_infor_price_from_web 方法 2.3.1 获取下载路径 2.3.2 设置浏览器选项 2.3.3 反爬虫处理 2.3.4 启动浏览器 2.3.5 修改浏览器属性 2.3.6 设置下载行为 2.3.7 打开淘宝登录页面 2.3.…...

Java8-Stream流介绍和使用案例

Java 8 引入了 Stream API,它提供了一种高效且声明式的方式来处理集合数据。Stream 的核心思想是将数据的操作分为中间操作(Intermediate Operations)和终端操作(Terminal Operations),并通过流水线&#x…...

setlocale()的参数,“zh_CN.UTF-8“, “chs“, “chinese-simplified“的差异。

在 C/C 中,setlocale() 函数的参数 zh_CN.UTF-8、chs 和 chinese-simplified 均用于设置中文简体环境,但它们的语义、平台支持和编码行为存在显著差异: ​1. zh_CN.UTF-8(推荐)​ ​含义: zh_CN: 中文&…...

docker 安装达梦数据库(离线)

docker安装达梦数据库,官网上已经下载不了docker版本的了,下面可通过百度网盘下载 通过网盘分享的文件:dm8_20240715_x86_rh6_rq_single.tar.zip 链接: https://pan.baidu.com/s/1_ejcs_bRLZpICf69mPdK2w?pwdszj9 提取码: szj9 上传到服务…...

FastGPT 引申:如何基于 LLM 判断知识库的好坏

文章目录 如何基于 LLM 判断知识库的好坏方法概述示例 Prompt声明抽取器 Prompt声明检查器 Prompt 判断机制总结 下面介绍如何基于 LLM 判断知识库的好坏,并展示了如何利用声明抽取器和声明检查器这两个 prompt 构建评价体系。 如何基于 LLM 判断知识库的好坏 在知…...

关于2023新版PyCharm的使用

考虑到大家AI编程的需要,建议大家安装新版Python解释器和新版PyCharm,下载地址都可以官网进行: Python:Download Python | Python.org(可以根据需要自行选择,建议选择3.11,保持交流版本一致&am…...

Leetcode 112: 路径总和

Leetcode 112: 路径总和 问题描述: 给定一个二叉树的根节点 root 和一个目标和 targetSum,判断是否存在从根节点到叶子节点的路径,使路径上所有节点的值相加等于目标和 targetSum。 适合面试的解法:递归 解法特点: …...

华为云IAM 用户名和IAM ID

账号 当您首次使用华为云时注册的账号,该账号是您的华为云资源归属、资源使用计费的主体,对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。账号统一接收所有IAM用户进行资源操作时产生的费用账单。 账号不能…...

Compose Multiplatform+Kotlin Multiplatfrom 第四弹跨平台

文章目录 引言功能效果开发准备依赖使用gradle依赖库MVIFlow设计富文本显示 总结 引言 Compose Multiplatformkotlin Multiplatfrom 今天已经到compose v1.7.3,从界面UI框架上实战开发看,很多api都去掉实验性注解,表示稳定使用了!…...

【Proteus仿真】【STM32单片机】全自动养护智能生态雨林缸

文章目录 一、功能简介二、软件设计三、实验现象联系作者 一、功能简介 本项目使用Proteus8仿真STM32单片机控制器,使用按键、LCD1602液晶、DS18B20模块、PCF8591 ADC、浑浊传感器、PH传感器、液位传感器、继电器、水泵、酸碱调节剂、加热降温装置等。 主要功能&am…...

GBT32960 协议编解码器的设计与实现

GBT32960 协议编解码器的设计与实现 引言 在车联网领域,GBT32960 是一个重要的国家标准协议,用于新能源汽车与监控平台之间的数据交互。本文将详细介绍如何使用 Rust 实现一个高效可靠的 GBT32960 协议编解码器。 整体架构 编解码器的核心由三个主要组…...

SolidWorks 转 PDF3D 技术详解

在现代工程设计与制造流程中,不同软件间的数据交互与格式转换至关重要。将 SolidWorks 模型转换为 PDF3D 格式,能有效解决模型展示、数据共享以及跨平台协作等问题。本文将深入探讨 SolidWorks 转 PDF3D 的技术原理、操作流程及相关注意事项,…...

遍历 Map 类型集合的方法汇总

1 方法一 先用方法 keySet() 获取集合中的所有键。再通过 gey(key) 方法用对应键获取值 import java.util.HashMap; import java.util.Set;public class Test {public static void main(String[] args) {HashMap hashMap new HashMap();hashMap.put("语文",99);has…...

页面渲染流程与性能优化

页面渲染流程与性能优化详解(完整版) 一、现代浏览器渲染流程(详细说明) 1. 构建DOM树 浏览器接收到HTML文档后,会逐步解析并构建DOM(Document Object Model)树。具体过程如下: (…...

RNN避坑指南:从数学推导到LSTM/GRU工业级部署实战流程

本文较长,建议点赞收藏,以免遗失。更多AI大模型应用开发学习视频及资料,尽在聚客AI学院。 本文全面剖析RNN核心原理,深入讲解梯度消失/爆炸问题,并通过LSTM/GRU结构实现解决方案,提供时间序列预测和文本生成…...

安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”(装配)

船舶制造装配管理现状:装配工作依赖人工经验,装配工人凭借长期实践积累的操作技巧完成零部件组装。企业通常制定了装配作业指导书,但在实际执行中,工人对指导书的理解和遵循程度参差不齐。 船舶装配过程中的挑战与需求 挑战 (1…...

Bean 作用域有哪些?如何答出技术深度?

导语: Spring 面试绕不开 Bean 的作用域问题,这是面试官考察候选人对 Spring 框架理解深度的常见方式。本文将围绕“Spring 中的 Bean 作用域”展开,结合典型面试题及实战场景,帮你厘清重点,打破模板式回答&#xff0c…...

tauri项目,如何在rust端读取电脑环境变量

如果想在前端通过调用来获取环境变量的值&#xff0c;可以通过标准的依赖&#xff1a; std::env::var(name).ok() 想在前端通过调用来获取&#xff0c;可以写一个command函数&#xff1a; #[tauri::command] pub fn get_env_var(name: String) -> Result<String, Stri…...

React核心概念:State是什么?如何用useState管理组件自己的数据?

系列回顾&#xff1a; 在上一篇《React入门第一步》中&#xff0c;我们已经成功创建并运行了第一个React项目。我们学会了用Vite初始化项目&#xff0c;并修改了App.jsx组件&#xff0c;让页面显示出我们想要的文字。但是&#xff0c;那个页面是“死”的&#xff0c;它只是静态…...

写一个shell脚本,把局域网内,把能ping通的IP和不能ping通的IP分类,并保存到两个文本文件里

写一个shell脚本&#xff0c;把局域网内&#xff0c;把能ping通的IP和不能ping通的IP分类&#xff0c;并保存到两个文本文件里 脚本1 #!/bin/bash #定义变量 ip10.1.1 #循环去ping主机的IP for ((i1;i<10;i)) doping -c1 $ip.$i &>/dev/null[ $? -eq 0 ] &&am…...

VSCode 使用CMake 构建 Qt 5 窗口程序

首先,目录结构如下图: 运行效果: cmake -B build cmake --build build 运行: windeployqt.exe F:\testQt5\build\Debug\app.exe main.cpp #include "mainwindow.h"#include <QAppli...

Element-Plus:popconfirm与tooltip一起使用不生效?

你们好&#xff0c;我是金金金。 场景 我正在使用Element-plus组件库当中的el-popconfirm和el-tooltip&#xff0c;产品要求是两个需要结合一起使用&#xff0c;也就是鼠标悬浮上去有提示文字&#xff0c;并且点击之后需要出现气泡确认框 代码 <el-popconfirm title"是…...