当前位置: 首页 > news >正文

JavaScript反爬技术解析与应对

JavaScript 反爬技术解析与应对

前言

在当今 Web 爬虫与数据抓取的生态环境中,网站运营方日益关注数据安全与隐私保护,因此逐步采用多种反爬技术来限制非授权访问。本文从 JavaScript 角度出发,深入剖析主流反爬策略的技术原理,并探讨相应的绕过方案,以期为研究者和开发者提供系统性的理解与实践指导。


1. JavaScript 反爬技术概述

1.1 右键禁用与开发者工具防护

部分网站采用 JavaScript 拦截用户右键菜单或监听 F12 按键,以阻碍用户直接访问开发者工具。

示例代码:

// 禁用右键菜单
window.addEventListener('contextmenu', event => event.preventDefault());// 监听 F12 及常见开发者工具快捷键
window.addEventListener('keydown', event => {if (event.key === 'F12' || (event.ctrlKey && event.shiftKey && event.key === 'I')) {event.preventDefault();}
});

应对策略:

  1. 直接在浏览器控制台执行 document.oncontextmenu = null; 以解除右键限制。
  2. 通过修改 JavaScript 代码或使用浏览器扩展禁用前端 JavaScript。
  3. 在 Puppeteer 环境中执行以下代码,绕过此类限制:
    await page.evaluate(() => {document.oncontextmenu = null;
    });
    

心得: 这一类简单的反爬手段往往只针对普通用户,而对开发者而言可以轻松绕过,不必理会。


1.2 动态数据加载

许多网站不直接在 HTML 结构中返回完整数据,而是通过 JavaScript 进行异步请求,如 fetchXMLHttpRequest

示例代码:

fetch('/api/data').then(response => response.json()).then(data => console.log(data));

应对策略:

  1. 通过浏览器 Network 面板定位 API 请求地址,直接使用 curlrequests 模拟请求。
  2. 若 API 存在签名验证,可使用 Puppeteer 拦截并复用请求参数:
    await page.setRequestInterception(true);
    page.on('request', request => {console.log(request.url(), request.postData());request.continue();
    });
    

心得: 动态数据加载是现代网站的常见模式,因此在爬取时应优先检查网络请求,F12打开开发者面板进入network时刻注意操作后的网络请求,即使是普通的页面请求通过这里查看也更加精确,好过直接查看element选项卡。


1.3 Canvas 指纹追踪

部分网站利用 Canvas 进行指纹识别,以检测爬虫行为。

示例代码:

const canvas = document.createElement('canvas');
const ctx = canvas.getContext('2d');
ctx.fillText('Hello, World!', 10, 10);
const fingerprint = canvas.toDataURL();
console.log(fingerprint);

应对策略:

  1. 使用 Canvas Defender 之类的扩展工具随机化指纹信息。
  2. 通过 Puppeteer 修改 canvas.toDataURL() 返回固定值:
    await page.evaluate(() => {HTMLCanvasElement.prototype.toDataURL = () => 'fake-image';
    });
    

心得: Canvas 指纹追踪主要用于区分真实用户与自动化脚本,针对这一点可以使用指纹篡改工具或 Puppeteer 进行规避。


1.4 验证码与行为分析

某些网站采用验证码(如 reCAPTCHA)或基于用户交互模式(鼠标轨迹、按键节奏等)进行检测。

示例代码:

<input type="text" onfocus="logActivity()" onmousemove="logActivity()">

应对策略:

  1. 针对文本验证码,可使用 OCR 技术(如 Tesseract.js)进行解析。
  2. 通过 Puppeteer 模拟用户输入行为,以规避行为分析:
    await page.mouse.move(100, 100);
    await page.mouse.click(100, 100);
    

心得: 在遇到验证码时,建议首先尝试 API 解析方式,若无法突破,则考虑 OCR 或模拟用户行为。


2. 反爬绕过实践

2.1 Puppeteer 绕过反爬机制

Puppeteer 是一个基于 Chromium 的无头浏览器工具,可用于模拟用户操作,绕过前端反爬限制。

示例代码:

const puppeteer = require('puppeteer');
(async () => {const browser = await puppeteer.launch({ headless: false });const page = await browser.newPage();await page.goto('https://example.com');await page.waitForTimeout(3000);await browser.close();
})();

心得: Puppeteer 适用于高度依赖 JavaScript 渲染的网站,能有效绕过多数前端反爬机制。


2.2 DrissionPage 绕过反爬机制

DrissionPage 是一个结合 Selenium 和 Requests 的 Python 爬虫工具,能够应对前端 JavaScript 渲染。

示例代码:

from DrissionPage import ChromiumPage
page = ChromiumPage()
page.get('https://example.com')
print(page.html)

心得: DrissionPage 结合了浏览器模拟与传统 HTTP 请求,在某些场景下比 Puppeteer 更加高效。拽神是这样的。


3. 结论

随着 Web 反爬技术的不断演进,开发者需要深入理解 JavaScript 反爬策略及绕过方法,同时应遵循数据抓取的法律与伦理规范。合理使用 Web 爬取技术,将有助于促进数据利用的合法化和高效化。

在数据爬取过程中,既要注重技术手段的优化,也要确保数据获取的合规性,以避免法律风险。

相关文章:

JavaScript反爬技术解析与应对

JavaScript 反爬技术解析与应对 前言 在当今 Web 爬虫与数据抓取的生态环境中&#xff0c;网站运营方日益关注数据安全与隐私保护&#xff0c;因此逐步采用多种反爬技术来限制非授权访问。本文从 JavaScript 角度出发&#xff0c;深入剖析主流反爬策略的技术原理&#xff0c;…...

[NOIP2007]矩阵取数游戏

点我写题 题目描述 帅帅经常跟同学玩一个矩阵取数游戏&#xff1a;对于一个给定的n*m的矩阵&#xff0c;矩阵中的每个元素aij均为非负整数。游戏规则如下&#xff1a; 1.每次取数时须从每行各取走一个元素&#xff0c;共n个。m次后取完矩阵所有元素&#xff1b; 2.每次取走的…...

在Linux系统上安装.NET

测试系统&#xff1a;openKylin(开放麒麟) 1.确定系统和架构信息&#xff1a; 打开终端&#xff08;Ctrl Alt T&#xff09;&#xff0c;输入cat /etc/os-release查看系统版本相关信息。 输入uname -m查看系统架构。确保你的系统和架构符合.NET 的要求&#xff0c;如果架构…...

PCB Editor层叠文件(Gerber文件输出-01)

先看底层和表层,如下图 钢网表层和底层,如下图 丝印表层和底层,如下图 阻焊表层和底层,如下图 下面来添加钻孔层,先提取钻孔表 点击OK后钻孔表会挂在鼠标上...

labelimg闪退的解决办法

其实就是你的python版本太高不稳定不支持labelimg 标记时出现闪退 问题原因&#xff1a;python版本过高 解决方案 第一步&#xff1a; 在python3.9以上的版本运行软件会闪退&#xff0c;这个时候我们需要创建一个3.9或者及以下的虚拟环境 conda cr…...

【开源免费】基于Vue和SpringBoot的在线文档管理系统(附论文)

本文项目编号 T 038 &#xff0c;文末自助获取源码 \color{red}{T038&#xff0c;文末自助获取源码} T038&#xff0c;文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…...

数据库管理-第287期 Oracle DB 23.7新特性一览(20250124)

数据库管理287期 20245-01-24 数据库管理-第287期 Oracle DB 23.7新特性一览&#xff08;20250124&#xff09;1 AI向量搜索&#xff1a;算术和聚合运算2 更改Compatible至23.6.0&#xff0c;以使用23.6或更高版本中的新AI向量搜索功能3 Cloud Developer包4 DBMS_DEVELOPER.GET…...

Golang :用Redis构建高效灵活的应用程序

在当前的应用程序开发中&#xff0c;高效的数据存储和检索的必要性已经变得至关重要。Redis是一个快速的、开源的、内存中的数据结构存储&#xff0c;为各种应用场景提供了可靠的解决方案。在这个完整的指南中&#xff0c;我们将学习什么是Redis&#xff0c;通过Docker Compose…...

四层网络模型

互联网由终端主机、链路和路由器组成&#xff0c;数据通过逐跳的方式&#xff0c;依次经过每条链路进行传输。 网络层的工作是将数据包从源端到目的端&#xff0c;跨越整个互联网。 网络层的数据包称为数据报。网络将数据报交给链路层&#xff0c;指示它通过第一条链路发送数据…...

CUDA学习-内存访问

一 访存合并 1.1 说明 本部分内容主要参考: 搞懂 CUDA Shared Memory 上的 bank conflicts 和向量化指令(LDS.128 / float4)的访存特点 - 知乎 1.2 share memory结构 图1.1 share memory结构 放在 shared memory 中的数据是以 4 bytes(即 32 bits)作为 1 个 word,依…...

进程通讯——类型和发展

进程常用交互方法如上...

在 Windows 11 中为 SMB 3.x 文件共享协议提供 RDMA 支持

注&#xff1a;机翻&#xff0c;未校。 Enable SMB Direct in Windows 11 在 Windows 11 中启用 SMB Direct Provides RDMA support for the SMB 3.x file sharing protocol 为 SMB 3.x 文件共享协议提供 RDMA 支持 Vigneshwaran Vijayakumar November 3, 2024 Last Updat…...

C 标准库 - `<errno.h>`

C 标准库 - <errno.h> 引言 在C语言编程中,正确处理错误是保证程序稳定性和可靠性的关键。C标准库中的<errno.h>头文件提供了错误码定义和宏,使得开发者能够更好地管理和处理程序运行过程中可能出现的错误。本文将详细介绍<errno.h>头文件的作用、常用错…...

2025年01月28日Github流行趋势

项目名称&#xff1a;maybe 项目地址url&#xff1a;https://github.com/maybe-finance/maybe项目语言&#xff1a;Ruby历史star数&#xff1a;37540今日star数&#xff1a;1004项目维护者&#xff1a;zachgoll, apps/dependabot, tmyracle, Shpigford, crnsh项目简介&#xff…...

7. 马科维茨资产组合模型+金融研报AI长文本智能体(Qwen-Long)增强方案(理论+Python实战)

目录 0. 承前1. 深度金融研报准备2. 核心AI函数代码讲解2.1 函数概述2.2 输入参数2.3 主要流程2.4 异常处理2.5 清理工作2.7 get_ai_weights函数汇总 3. 汇总代码4. 反思4.1 不足之处4.2 提升思路 5. 启后 0. 承前 本篇博文是对前两篇文章&#xff0c;链接: 5. 马科维茨资产组…...

Android 启动流程

一 Bootloader 在嵌入式系统中&#xff0c;Bootloader的引导过程与传统的PC环境有所不同&#xff0c;主要是因为嵌入式系统的硬件配置和应用场景更加多样化。以下是嵌入式系统中Bootloader被引导的一般流程&#xff1a; 1. 硬件复位 当嵌入式设备上电或复位时&#xff0c;处…...

庆祝2025到来:C++编程的新篇章

作者&#xff1a;w(&#xff9f;Д&#xff9f;)w吓洗宝宝了 发布时间&#xff1a;2025年1月19日00:00 引言 新年伊始&#xff0c;万象更新。在这充满希望的2025年&#xff0c;我们迎来了新的机遇和挑战。作为C编程爱好者的一员&#xff0c;我感到无比激动和自豪。C作为一种强…...

基于STM32的智能家用温控器设计

目录 引言系统设计 硬件设计软件设计 系统功能模块 温度监测模块自动加热与制冷模块用户交互与显示模块节能模式与定时功能模块远程控制与数据上传模块 控制算法 温度调节算法定时任务与节能优化算法数据记录与反馈算法 代码实现 温度监测与自动控制代码定时与节能模式代码数据…...

扣子平台音频功能:让声音也能“智能”起来。扣子免费系列教程(14)

在数字化时代&#xff0c;音频内容的重要性不言而喻。无论是在线课程、有声读物&#xff0c;还是各种多媒体应用&#xff0c;音频都是传递信息、增强体验的关键元素。扣子平台的音频功能&#xff0c;为开发者和内容创作者提供了一个强大而灵活的工具&#xff0c;让音频的使用和…...

Dismissible组件的用法

文章目录 1 概念介绍2 使用方法3 示例代码我们在上一章回中介绍了GestureDetector Widget相关的内容,本章回中将介绍Dismissible Widget.闲话休提,让我们一起Talk Flutter吧。 1 概念介绍 我们在这里介绍的Dismissible是一个事件响应Widget,它和GestureDetector类似,不过它只…...

Swagger2配置避坑指南:为什么你的Docket分组设置会导致api-docs 404?

Swagger2配置避坑指南&#xff1a;为什么你的Docket分组设置会导致api-docs 404&#xff1f; 在RESTful API开发中&#xff0c;Swagger2作为API文档生成工具被广泛使用。但许多开发者在配置过程中都遇到过这样的问题&#xff1a;明明能正常访问swagger-ui.html页面&#xff0c;…...

从‘找不到设备’到驱动成功:3DSystems Touch HID 在Linux下的连接问题全解析与诊断工具使用

从‘找不到设备’到驱动成功&#xff1a;3DSystems Touch HID 在Linux下的连接问题全解析与诊断工具使用 当你在Ubuntu系统中第一次连接3DSystems Touch HID设备时&#xff0c;可能会遇到各种令人困惑的问题——设备无法识别、动态链接库错误、/dev/ttyACM*设备消失等。这些问…...

STM32架构解析:哈佛与冯·诺依曼的工程实践

STM32处理器架构解析&#xff1a;哈佛结构与冯诺依曼结构的工程实践 1. 计算机体系结构基础 1.1 冯诺依曼体系结构 冯诺依曼体系结构&#xff08;Von Neumann architecture&#xff09;是现代计算机的基础设计范式&#xff0c;其核心特征包括&#xff1a; 统一存储结构 &am…...

从零开始:3小时掌握Arduino ESP32开发板完整安装与配置指南 [特殊字符]

从零开始&#xff1a;3小时掌握Arduino ESP32开发板完整安装与配置指南 &#x1f680; 【免费下载链接】arduino-esp32 Arduino core for the ESP32 项目地址: https://gitcode.com/GitHub_Trending/ar/arduino-esp32 想要快速上手ESP32物联网开发吗&#xff1f;无论你是…...

GTE模型在法律文书智能检索中的突破性应用

GTE模型在法律文书智能检索中的突破性应用 1. 引言 在法律行业&#xff0c;文书检索一直是个让人头疼的问题。传统的检索方式主要依赖关键词匹配&#xff0c;但法律文书往往涉及复杂的语义关系和专业术语&#xff0c;简单的关键词搜索经常会出现"查不全"或"查…...

数模小白别慌!手把手教你用Python和MATLAB搞定国赛美赛(附2022年M奖/省一代码)

数模竞赛入门指南&#xff1a;从零到获奖的Python与MATLAB实战路径 数学建模竞赛对于初学者而言&#xff0c;往往像一座难以攀登的高山。第一次面对赛题时&#xff0c;那种无从下手的迷茫感我至今记忆犹新——三个队友围着一道看似简单的题目&#xff0c;却连该用什么工具、从哪…...

刚学单片机的小白,聊聊我的学习目标和职业期待

大家好&#xff0c;我是一名智能科学与技术专业的大二学生&#xff0c;目前刚刚开始接触单片机&#xff0c;还是个实打实的小白。开这篇博客&#xff0c;主要是想记录自己的学习历程&#xff0c;也希望能和同样入门的同学一起交流、互相鼓励。一、自我介绍我目前大二&#xff0…...

nli-distilroberta-base开源协作:使用GitHub管理模型微调与实验代码

nli-distilroberta-base开源协作&#xff1a;使用GitHub管理模型微调与实验代码 1. 为什么需要GitHub管理AI项目 当你开始一个AI项目时&#xff0c;代码版本管理往往是最容易被忽视的环节。想象一下这样的场景&#xff1a;你花了三天时间调整模型参数&#xff0c;效果提升了5…...

Linux(9)操作系统

linux 之 操作系统冯若依曼体系体系结构理解数据流动操作系统什么是操作系统&#xff1f;&#xff1f;理解操作系统的调用系统调用的接口&#xff1a;冯若依曼体系 体系结构 要理解进程首先就需要了解操作系统&#xff01;&#xff01;&#xff01; 五大组件&#xff1a; ○…...

赣州琴行哪家最可靠

在赣州&#xff0c;选择一家可靠的琴行对于孩子的钢琴启蒙和成长至关重要。今天我们就来聊聊赣州的几家知名琴行&#xff0c;看看哪家最适合您的孩子。1. 可六琴行&#xff1a;专注儿童钢琴启蒙&#xff0c;天天练琴模式为什么选择可六琴行&#xff1f;1.1 专注儿童钢琴启蒙具体…...