当前位置: 首页 > news >正文

python 爬虫之js逆向爬虫详解

随着网站前端技术的不断发展,越来越多的网站采用JS进行渲染,并加上了一些反爬机制,导致传统的爬虫技术有些力不从心。本文将为大家介绍如何进行JS逆向爬虫,并且不少于1000字。

一、JS逆向爬虫的介绍

JS逆向是一种分析反爬机制的行为,通过分析反爬机制如何加密、混淆和模拟JS代码的执行,使之能够成功处理并渲染网页。由于JS逆向的方式需要进行复制粘贴,因此开发过程中需要耗费一定的时间和精力。

在Python上,我们可以使用Requests和Selenium等库来获取页面元素或模拟人类操作。Requests库是一种强大、简洁的HTTP请求库。而Selenium是一个自动化测试框架,用于模拟用户在浏览器中的操作。过程如下:

使用Requests

import requests# 获取页面
r = requests.get(url)
html = r.content# 对页面进行解析
# ...使用Seleniumfrom selenium import webdriver# 创建浏览器对象
browser = webdriver.Chrome()
browser.get(url)# 获取页面
html = browser.page_source# 对页面进行解析
# ...# 关闭浏览器
browser.quit()


二、JS逆向的原理

当浏览器使用JS渲染页面时,它会从客户端下载HTML文件并下载相关的JS库。当完成下载之后,浏览器会自动执行所有与页面相关的JS代码,根据代码来生成和修改HTML元素的DOM结构。这意味着,我们需要模拟并执行JS代码轨迹,对页面元素进行解析,即可获取页面信息。

三、如何进行JS逆向爬虫

在进行JS逆向之前,我们首先需要对目标网页进行分析,找出JS代码的执行顺序以及可能的加密方式、参数等。JS代码通常使用jQuery、Vue.js、React和AngularJS等框架编写,我们需要对其进行模拟执行并提取关键信息。

1.分析页面

我们首先需要分析目标页面,找出JS渲染的部分并正确定位到需要获取的数据和信息。我们需要找到JS代码的执行顺序、可能存在的加密方式和传递参数的方式等。

2.分析JS代码和参数

找到JS代码并对其进行分析后,我们需要利用Python模拟执行该JS代码并获取相应数据。我们需要确定参数的位置和值,并利用Python解析数据以获取需要的数据。

例如,当网站使用jQuery进行JS渲染时,我们可以找到与文件相关联的URL链接,发送AJAX请求获取HTML代码 ,并解析其中的数据。设置AJAX请求的参数、头部信息并发送请求,获取到HTML代码并用Python进行解析。

import requests
import re
from pprint import pprint
from pyquery import PyQuery as pqdef parse_page(html):doc = pq(html)return doc('title').text()def get_html(url, headers):res = requests.get(url, headers=headers)html = res.text# 解析html,过滤掉其他标签,只要标题return parse_page(html)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
url = 'https://www.baidu.com'
print(get_html(url, headers))


3.模拟Ajax请求或操作浏览器


如果网站的JS逆向需要进行Ajax请求的模拟发送,可以使用类似于request库之类的Python库来发送请求,或者使用Selenium模拟浏览器操作。

from selenium import webdriver
from selenium.webdriver.chromeoptions import Options#设置浏览器头和禁用图片加载
chrome_options = Options()
chrome_options.add_argument(‘–no-sandbox’)
chrome_options.add_argument(‘–disable-dev-shm-usage’)
chrome_options.add_argument(‘–disable-gpu’)
chrome_options.add_argument(‘–disable-setuid-sandbox’)
chrome_options.add_argument(‘–headless’)
chrome_options.add_argument(‘–disable-extensions’)#创建浏览器对象
browser = webdriver.Chrome(options=chrome_options)#通过js来控制点击“下一页”翻页
#这里假定下一页链接是’next’的,如果需要替换
#只需要这里用find_element_by_xpath方法查找并替换即可
js = “document.querySelector(‘a[href=“next”]’).click()”#在浏览器中打开链接
browser.get(url)#以固定的时间间隔执行JS方法
browser.execute_script(js)
time.sleep(10)#获取页面
html = browser.page_source#对页面进行解析
#…
#关闭浏览器
browser.quit()


四、JS逆向爬虫的注意事项

1. 遵守网站规则和政策

进行网站爬取时,需要遵守相关政策、遵守社区规则,不得进行侵权或者影响到网站原有服务和资源的使用。

2. 注意程序效率

由于JS逆向需要模拟JS代码的执行,程序效率可能会变得较低。我们应该设计科学的程序结构,以最小的代价来完成任务。

3. 遵循爬虫规则

爬虫是给用户带来便利的工具,但是应该遵守相关的爬虫规则,不要给被爬网站造成负面影响,否则可能会被严惩。

4. 确保数据准确性

在进行数据爬取操作时,我们需要确保数据的准确性和完整性,防止出现数据损失或错误。

五、总结

JS逆向爬虫是解决JS解密反爬措施的有效方式。在Python中使用Requests和Selenium等库,我们可以模拟执行JS代码,获取到所需要的数据。在进行JS逆向爬虫时,我们需要分析JS和页面的结构,遵守爬虫规则,保证程序的效率和数据的准确性。

相关文章:

python 爬虫之js逆向爬虫详解

随着网站前端技术的不断发展,越来越多的网站采用JS进行渲染,并加上了一些反爬机制,导致传统的爬虫技术有些力不从心。本文将为大家介绍如何进行JS逆向爬虫,并且不少于1000字。 一、JS逆向爬虫的介绍 JS逆向是一种分析反爬机制的…...

SpringBoot:WebSocket实现消息撤回、图片撤回

下面只是讲述一下实现思路,代码基本没有哈!有时间单独发表一篇关于websocket的相关操作的博客。 1. 消息撤回、图片撤回 个人觉得关于撤回,需要下述几个过程: 发送的消息的标签上可以定义一个属性,这个属性的值应该是…...

输出指定日期区间内的所有天、周、月

部分方法需要依赖hutool工具包。 <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>4.5.10</version> </dependency>需求&#xff1a;输出2023-04-17到2023-05-23期间所有的天、周、月。…...

【线性规划模型】

线性规划模型&#xff1a;原理介绍和预测应用 引言 线性规划是运筹学中一种重要的数学优化方法&#xff0c;被广泛应用于各个领域&#xff0c;包括工业、经济、物流等。 线性规划模型的原理 线性规划模型的目标是在一组线性约束条件下&#xff0c;寻找一组变量的最优解&…...

android 12.0卸载otg设备开机不加载otg设备

1.概述 在12.0定制化开发过程中,客户有功能需求,通过系统属性值控制是否加载挂载otg设备,当设置为卸载模式时,要求不能挂载otg设备,开机也不能挂载otg设备 2.卸载otg设备开机不加载otg设备的核心代码 frameworks/base/services/core/java/com/android/server/StorageMan…...

通过 Wacom 的 Project Mercury 提高远程办公效率

过去几年中&#xff0c;我们的工作方式发生了翻天覆地的变化。疫情加快了对远程办公和协作的采纳&#xff0c;导致人们更加依赖技术来联系团队和提高工作效率。 但是&#xff0c;那些依靠专门硬件和软件来完成工作的创作者呢&#xff1f;艺术家、设计师和开发人员需要使用专门…...

Linux-0.11 文件系统namei.c详解

Linux-0.11 文件系统namei.c详解 模块简介 namei.c是整个linux-0.11版本的内核中最长的函数&#xff0c;总长度为700行。其核心是namei函数&#xff0c;即根据文件路径寻找对应的i节点。 除此以外&#xff0c;该模块还包含一些创建目录&#xff0c;删除目录&#xff0c;创建目…...

计算机网络学习笔记

<!-- GFM-TOC --> 计算机网络体系结构 传输层&#xff1a;TCP和UDP 什么是三次握手&#xff1f; 什么是四次挥手&#xff1f; TCP如何实现流量控制&#xff1f; TCP的拥塞控制是怎么实现的&#xff1f; TCP如何最大利用带宽&#xff1f; TCP与UDP的区别 TCP如何保…...

Pod相关操作命令

Pod相关操作命令 Pod setup # CocoaPods 将信息下载到~/.cocoapods/repos 目录下。如果安装 CocoaPods 时不执行此命令&#xff0c;在初次执行pod intall 命令时&#xff0c;系统也会自动执行该指令 pod --version # 检查 CocoaPods 是否安装成功及其版本号 pod repo update #…...

图灵完备游戏:信号计数 解法记录

使用1个全加器 2个半加器完成。这关的思想主旨在于如何把输出4&#xff0c;输出2&#xff0c;输出1的情况统一在一根导线上。 首先用一个全加器来完成输入2-4这三个引脚的计数&#xff0c;因为全加器输出范围二进制是00 - 11&#xff0c;而输入正好有两个引脚数位是2和1&…...

数据结构图的基础概念

1、图的概念 图(Graph)&#xff1a;是由顶点的有穷非空集合和顶点之间边的集合组成。顶点(Vertex)&#xff1a;图中的数据元素。边(Edge)&#xff1a;顶点之间的逻辑关系,边可以是有向的或无向的&#xff0c;也可以带有权重&#xff08;可以表示距离&#xff0c;花费等&#xf…...

一场九年前的“出发”:奠基多模态,逐鹿大模型

原创&#xff1a;谭婧 全球AI大模型的技术路线&#xff0c;没有多少秘密&#xff0c;就那几条路线&#xff0c;一只手都数得过来。 而举世闻名的GPT-4浑身上下都是秘密。 这两件事并不矛盾。为什么呢&#xff1f; 这就好比&#xff0c;回答“如何制造一台光刻机&#xff1f;”。…...

什么是url跳转漏洞?

什么是url跳转漏洞 简介原因&#xff1a;如何防止 简介 URL跳转漏洞是一种Web应用程序安全问题&#xff0c;指的是在应用程序处理URL跳转时&#xff0c;由于程序员的疏忽或设计不当&#xff0c;攻击者可能通过构造恶意URL来实现对应用程序的攻击。 原因&#xff1a; 跳转条件…...

生物学经典blast比对算法,R语言和Python如何实现?

Blast比对算法原理与实现方式 做生物的同学肯定听说过blast比对这个方法&#xff0c;一般在NCBI等网站上可以在线进行比对&#xff0c;也可以在本地服务器进行比对&#xff0c;那么blast算法究竟是怎么实现对不同序列的比对呢&#xff1f; 本文分享经典blast算法的基础原理&…...

Android 开机动画支持mp4格式视频播放

前 言 Android系统在启动的过程中&#xff0c;最多可以出现三个画面&#xff0c;每一个画面都用来描述一个不同的启动阶段。无论是哪一个画面&#xff0c;它们都是在一个称为帧缓冲区&#xff08;frame buffer&#xff0c;简称fb&#xff09;的硬件设备上进行渲染的。 自定义…...

软考A计划-试题模拟含答案解析-卷十

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 &#x1f449;关于作者 专注于Android/Unity和各种游戏开发技巧&#xff0c;以及各种资源分享&am…...

Kafka入门(安装和SpringBoot整合)

文章目录 一、Docker安装Kafka1. 创建网络2. 安装zookeeper3. 安装Kafka 二、Kafka介绍1. Kafka简介 三、SpringBoot整合Kafka1. 引入pom依赖2. application.propertise配置3. Hello Kafka(Producer)4. Consumer Kafka5. 带回调的生产者6. 自定义分区器7. kafka事务提交8. 指定…...

gitLab相关命令

gitLab相关命令 1) 远程仓库相关命令 git clone 远程仓库地址 #检出仓库git remote -v #查看远程仓库git remote add [name][url] #添加远程仓库&#xff0c;git remote add origin 远程仓库地址git remote rm [name] #删除远程仓库&#xff0c;git remote rm origingit remo…...

一些查看日志时的常用命令

文章目录 1、grep -r 搜索内容 *2、l * 关键字 *3、tail -f 文件名4、tail -n X 文件名5、cat 文件名 | grep "关键字" -C X同理可得&#xff0c;-A同理可得&#xff0c;-B 一些查看日志时的常用命令 1、grep -r 搜索内容 * 作用&#xff1a;在一堆文件里&#xff0…...

Javascript 的执行环境(execution context)和作用域(scope)及垃圾回收

执行环境有全局执行环境和函数执行环境之分&#xff0c;每次进入一个新执行环境&#xff0c;都会创建一个搜索变量和函数的作用域链。函数的局部环境不仅有权访问函数作用于中的变量&#xff0c;而且可以访问其外部环境&#xff0c;直到全局环境。全局执行环境只能访问全局执行…...

MAA明日方舟助手:一键解放双手的智能游戏伴侣终极指南

MAA明日方舟助手&#xff1a;一键解放双手的智能游戏伴侣终极指南 【免费下载链接】MaaAssistantArknights 《明日方舟》小助手&#xff0c;全日常一键长草&#xff01;| A one-click tool for the daily tasks of Arknights, supporting all clients. 项目地址: https://git…...

SMUDebugTool:免费开源的AMD Ryzen硬件调试利器,释放处理器全部潜力

SMUDebugTool&#xff1a;免费开源的AMD Ryzen硬件调试利器&#xff0c;释放处理器全部潜力 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table…...

5分钟快速掌握ViGEmBus:Windows虚拟游戏控制器驱动完整指南

5分钟快速掌握ViGEmBus&#xff1a;Windows虚拟游戏控制器驱动完整指南 【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus 你是否曾经遇到过这样的困扰&#xf…...

用CUDA C++手搓LeNet推理引擎:从PyTorch导出权重到GPU加速的完整避坑指南

用CUDA C手搓LeNet推理引擎&#xff1a;从PyTorch导出权重到GPU加速的完整避坑指南在深度学习模型部署的最后一公里&#xff0c;将训练好的模型高效移植到生产环境是每个开发者必须面对的挑战。本文将带您深入实践&#xff0c;从PyTorch训练好的LeNet模型出发&#xff0c;完整实…...

别再死记硬背EM算法了!用Python手写一个硬币实验,5分钟搞懂E步和M步

用Python实现EM算法&#xff1a;从硬币实验到高斯混合模型实战 很多人在学习EM算法时&#xff0c;都会被复杂的数学推导劝退。但今天我要带你用Python手写一个硬币实验&#xff0c;通过不到50行代码直观理解E步和M步的奥妙。我们不仅会复现经典的双硬币问题&#xff0c;还会延伸…...

保姆级教程:Win10到Win11,VMware虚拟机无损迁移全流程(含GRUB修复)

从Win10到Win11&#xff1a;VMware虚拟机无损迁移与GRUB修复终极指南当你拿到崭新的Win11电脑&#xff0c;最头疼的莫过于如何将旧电脑上那些精心配置的VMware虚拟机环境完整迁移过来。特别是那些承载着重要开发环境或测试数据的Linux虚拟机&#xff0c;稍有不慎就可能面临系统…...

量子计算与生成式AI融合:自动化电路生成技术解析

1. 量子计算与生成式AI的交叉领域概述量子计算作为下一代计算范式&#xff0c;正在经历从理论到实践的转变过程。在这个过程中&#xff0c;量子电路的设计与实现成为关键瓶颈。传统手工编写量子电路的方式效率低下&#xff0c;难以满足日益复杂的量子算法需求。与此同时&#x…...

Linux Hook技术演进史:从函数指针到eBPF,安全与监控的十年变迁

Linux Hook技术演进史&#xff1a;从函数指针到eBPF的十年变革在系统级编程领域&#xff0c;Hook技术始终扮演着关键角色。想象一下这样的场景&#xff1a;当某个关键系统调用被触发时&#xff0c;你需要在不修改原始代码的情况下注入自定义逻辑——可能是记录日志、实施安全检…...

告别黑窗口!保姆级教程:在Win11上用Xming给WSL2装个轻量级桌面(XFCE4)

告别黑窗口&#xff01;Win11 WSL2轻量级桌面配置全指南 对于习惯Windows图形界面的开发者来说&#xff0c;初次接触WSL的黑窗口命令行界面总有些不适。本文将手把手教你如何用Xming和XFCE4为WSL2打造一个轻量级Linux桌面环境&#xff0c;无需虚拟机就能运行GIMP、VSCode等图形…...

从矩阵分解到聚类:构建可评估电影推荐系统的实战指南

1. 项目概述&#xff1a;从零构建一个可评估的推荐引擎 做推荐系统这些年&#xff0c;我最大的感受是&#xff1a;理论模型千千万&#xff0c;但真正决定项目成败的&#xff0c;往往不是选择了最前沿的算法&#xff0c;而是对基础模型深刻的理解、扎实的工程实现&#xff0c;以…...