当前位置: 首页 > article >正文

【项目实训MemeMind——Blog3】

项目实训MemeMind——Blog3完善第一个任务——数据源获取理解反爬障碍之AJAX类反爬障碍探索反爬障碍之AJAX类反爬障碍攻克AJAX类反爬障碍完善第一个任务——数据源获取本篇博客将在上篇提到的爬虫架构基础上进一步对常见反爬障碍进行攻克。理解反爬障碍之AJAX类反爬障碍什么是AJAXAJAX全称Asynchronous JavaScript and XML是一种用于创建异步Web应用的技术。它允许网页在不重新加载整个页面的情况下与服务器交换数据并更新部分内容。AJAX的核心是通过JavaScript发起HTTP请求实现数据的动态加载和渲染。AJAX的工作原理用户操作例如点击按钮触发JavaScript函数。通过XMLHttpRequest或Fetch API向服务器发送请求。服务器接收请求并返回数据通常为JSON或XML格式。JavaScript解析响应数据并动态更新DOM。AJAX基础代码示例使用XMLHttpRequest的简单实现constxhrnewXMLHttpRequest();xhr.open(GET,https://api.example.com/data,true);xhr.onloadfunction(){if(xhr.status200){console.log(JSON.parse(xhr.responseText));}};xhr.send();AJAX反爬特征AJAX类反爬通常表现为页面内容通过JavaScript动态加载数据可能来自后端API接口返回JSON/XML等格式。爬虫直接请求初始HTML时目标数据可能不存在于源码中需分析网络请求捕获接口。探索反爬障碍之AJAX类反爬障碍初步应对同样分析浏览器开发者工具中的Network选项卡但这次筛选XHR/Fetch请求定位返回目标数据的接口。关于加密目标数据的接口可能携带加密参数或动态令牌需逆向JavaScript逻辑生成有效请求。接口返回的数据经过混淆或加密需额外解析处理。例如importrequests responserequests.get(https://example.com/api/data,headers{User-Agent:Mozilla/5.0})dataresponse.json()# 假设返回JSON关于接口以外单纯通过接口获取JSON数据仅是Ajax反爬的一种表现形式。其他变体包括分页参数加密、请求频率限制、cookie验证等。需结合具体场景分析网络交互逻辑。攻克AJAX类反爬障碍本次实践适配比较常见的实时排行榜类网页这里我选择了猫眼电影和上一篇博客一样先通过浏览器自带的开发者工具抓包查找分析网页结果这次由于是攻克AJAX类反爬障碍还多了对json数据结构的逆向分析接着使用TRAE辅助python开发给出提示词在提供的.py代码基础上完善对json内容的爬取功能网站需要爬取的内容对应源代码如下…TRAE修改后的代码...# 匹配页面里的 props {...}matchre.search(rvar props (\{.*?\});,html,re.S)ifmatch:json_strmatch.group(1)datajson.loads(json_str)# 直接转成JSON字典# 你可以在这里输出查看结构# print(json.dumps(data, indent2, ensure_asciiFalse))# 提取需要的内容示例取页面基础信息result[]info{标题:data.get(title,),页面ID:data.get(pageId,),系统类型:data.get(os,),当前日期:data[data][calendar][today]}...运行后却发生了报错推测原因是JSON 里包含了 new Date(…)标准 json 库不认识所以解析失败。我继续给出提示词修改上述代码替换JSON中的new Date(…)避免json解析失败TRAE修改后的代码...# 1. 匹配 propsmatchre.search(rvar props (\{.*?\});\n,html,re.DOTALL)ifnotmatch:print(未找到JSON)exit()json_strmatch.group(1)# 2. 把 new Date(...) 替换成字符串解决json解析报错json_strre.sub(rnew Date\((.*?)\),r\1,json_str)# 3. 加载JSONdatajson.loads(json_str)...依旧报错又推测猫眼的 props 里不是标准 JSON是 JS 对象包含函数、undefined 等json 库无法解析。又尝试了好几次后终于发现猫眼是行不通的它反爬太强、接口会封锁、会返回空数据于是改用某金融网站继续实践上述已有的重复步骤我就不再赘述了接着与TRAE一起开发核心获取代码...# 解析URL返回值并且转换为Json数据defparseResText2JsonList(text):# 1.在字符串中找到需要去掉的内容recordsstartIndextext.find(records)print(截取起始索引,startIndex)# 2.找到最后1个]的位置endIndextext.find(])1print(截取结束索引,endIndex)# 3.通过起始位置和结束位置截取到[]之间的数据strtext[startIndex:endIndex].replace(records,)# 4.将数据解析成JSON列表jsonlistjson.loads(str[2:])returnjsonlist...resgetTextFromUrl(urlURL)jsonListparseResText2JsonList(res.text)all_data.extend(jsonList)# 把当前页数据加入总列表...运行后成功达到了预期效果

相关文章:

【项目实训MemeMind——Blog3】

项目实训MemeMind——Blog3完善第一个任务——数据源获取理解反爬障碍之AJAX类反爬障碍探索反爬障碍之AJAX类反爬障碍攻克AJAX类反爬障碍完善第一个任务——数据源获取 本篇博客将在上篇提到的爬虫架构基础上进一步对常见反爬障碍进行攻克。 理解反爬障碍之AJAX类反爬障碍 什…...

现代PHP项目Doctrine ORM集成实践:架构、性能与DDD应用

1. 项目概述:一个为现代Web应用量身定制的ORM工具如果你正在开发一个中大型的Web应用,无论是电商平台、内容管理系统还是企业级后台,数据库操作都是绕不开的核心。从简单的增删改查到复杂的多表关联、事务处理,再到性能优化&#…...

日文NLP工具链全解析:从分词到OCR的实战选型指南

1. 项目概述:一份日文NLP从业者的“藏宝图”如果你正在处理日文文本,无论是想做一个情感分析机器人、一个智能翻译工具,还是想从海量日文资料里挖掘信息,你首先会遇到的难题是什么?我的经验是,不是算法不够…...

OpenSoul项目解析:构建具备持续记忆与情感状态的AI认知架构

1. 项目概述与核心价值最近在开源社区里,一个名为“OpenSoul”的项目引起了我的注意。这个项目由用户“samttoo22-MewCat”发起,虽然名字听起来有点神秘,但它的核心目标非常明确:构建一个能够模拟人类灵魂或深层认知过程的AI框架。…...

安卓手机部署双AI智能体:Codex与OpenClaw的本地化协作实践

1. 项目概述:当双AI智能体“住进”你的安卓手机如果你和我一样,是个喜欢折腾移动端开发、同时又对AI智能体如何真正“落地”到日常设备里充满好奇的开发者,那么“口袋大龙虾”(Pocket Lobster)这个项目,绝对…...

示波器探头核心原理与工程实践:从负载效应到高频测量避坑指南

1. 从一份老测验聊起:为什么你的示波器读数总是不准?前几天在整理资料时,翻到一份2016年EE Times上的“周五小测验”,主题是“示波器探头”。测验本身只有六个选择题,但底下工程师们的讨论却很有意思。一位叫David Ash…...

具身智能实践:从AI智能体到机械爪的软硬件协同开发指南

1. 项目概述:从“智能体”到“机械爪”的具身智能实践最近在开源社区里,一个名为“AgentR1/Claw-R1”的项目引起了我的注意。乍一看这个名字,你可能会有点困惑——这到底是关于软件智能体(Agent)的,还是关于…...

深入解析PHP表单处理:Ajax与Checkbox数组的完美结合

引言 在现代Web开发中,Ajax技术广泛应用于提升用户体验,尤其是在处理表单数据时。然而,处理包含多选框(checkbox)数组的表单数据时,常常会遇到一些棘手的问题。本文将通过一个实例,详细解析如何在PHP中处理Ajax发送的序列化表单数据,特别关注如何正确获取和处理多选框…...

OpenClearn:AI智能体工作空间自动化清理工具实战指南

1. 项目概述:为AI智能体打造的安全工作空间清理工具如果你和我一样,日常工作中深度依赖Codex、Claude Code或OpenClaw这类AI编程助手,那你肯定也遇到过这个头疼的问题:项目目录里不知不觉就塞满了各种临时文件、重复的代码片段、过…...

微信小程序插画共享平台(30264)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告/任务书)远程调试控屏包运行一键启动项目&…...

微信小程序跑腿平台(30263)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告/任务书)远程调试控屏包运行一键启动项目&…...

【航空调度】基于企鹅优化算法的航空调度问题研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...

Cursor AI编程规则配置指南:提升代码生成质量与团队协作效率

1. 项目概述:一个为 Cursor 编辑器量身定制的规则集合如果你和我一样,日常重度依赖 Cursor 这款 AI 驱动的代码编辑器,那你肯定也经历过这样的时刻:面对一个复杂的重构任务,或者想快速生成一个特定框架的组件&#xff…...

Redis分布式锁进阶第三十五篇

Redis分布式锁进阶第二十五篇:联锁深度拆解 多资源交叉死锁根治 复杂业务多级加锁绝对有序方案一、本篇前置衔接 第二十四篇我们完成了全系列终局复盘,整理了故障排查SOP与企业级落地铁律。常规单资源锁、热点分片锁、隔离锁全部讲透,但真实…...

AI主播与MCP协议集成:智能视频创作工作流实践

1. 项目概述:当AI主播遇见MCP最近在捣鼓AI数字人直播和智能体开发的朋友,估计都绕不开一个词:MCP。全称是 Model Context Protocol,你可以把它理解成一套让不同AI模型和应用之间能“说上话”的通用语言。而aituberapp/aituber-mcp…...

Windows光标转Linux主题:Project Sekai风格光标自动化转换指南

1. 项目概述:从Windows光标到Linux主题的转换之旅如果你是一个Linux桌面用户,同时又对《世界计划 彩色舞台 feat. 初音未来》(Project Sekai)这款游戏的美术风格情有独钟,那么你很可能和我一样,曾有过一个“…...

程序员如何通过“技术写作”实现被动收入?

在软件测试领域,很多从业者都面临一个共同的职业困惑:每天重复着用例执行、缺陷提交、回归验证的循环,技术成长似乎触到了天花板,收入也停留在固定的月薪上。而与此同时,测试行业的知识鸿沟却真实存在——大批初入行的…...

Cyclone III FPGA在LCD HDTV图像处理中的优势与应用

1. Cyclone III FPGA在LCD HDTV图像处理中的核心优势LCD HDTV面临的最大技术挑战在于如何实时处理高分辨率视频流数据。传统方案使用ASSP或ASIC存在明显局限——ASSP缺乏算法灵活性,无法实现产品差异化;ASIC开发周期长且成本高昂。Cyclone III FPGA通过以…...

使用CGAL构建完美球体网格

在计算机图形学和几何处理中,构建高质量的球体网格(sphere mesh)是许多应用的基础。CGAL(Computational Geometry Algorithms Library)提供了丰富的工具来处理几何问题。本文将详细介绍如何使用CGAL中的SurfaceMesh数据结构来生成一个规则的球体网格,并展示如何通过Loop细…...

FastAPI扩展库实战:构建生产级API服务的标准化工具箱

1. 项目概述:一个为FastAPI应用量身定制的“瑞士军刀”如果你正在用FastAPI构建API服务,并且已经厌倦了在每个新项目里重复编写那些“轮子”——比如统一的响应格式封装、全局异常处理、数据库连接池管理、或是繁琐的权限验证中间件——那么,…...

硬件创新与TTM平衡:从芯片设计到产品落地的系统工程实践

1. 从“观察”到“创造”:一场关于激进创新的圆桌启示录“你光是看着,就能发现很多。”约吉贝拉这句带着点哲学幽默感的话,恰恰点破了我们这些搞技术、做产品的人时常陷入的困境——我们花了太多时间“观察”市场、竞品和技术趋势&#xff0c…...

解决Nx Cloud超限问题:实战案例解析

在过去的一周中,你是否遇到了CI/CD管道突然停止工作的问题?如果你在使用Nx Cloud进行项目管理,并且遇到了类似的错误,那么这篇博客正是为你准备的。今天我们将探讨如何解决Nx Cloud因超出免费计划限制而导致的问题,并通过实际案例展示如何优化你的CI/CD流程。 问题背景 …...

ART-PI开发板实测:解锁STM32H750隐藏的2MB Flash,手把手教你修改Keil MDK链接脚本

ART-PI开发板深度实战:解锁STM32H750隐藏Flash的完整工程指南 当ART-PI开发板遇上内存焦虑,开发者们往往在128KB的官方Flash限制下绞尽脑汁。但鲜为人知的是,STM32H750XBH6这颗芯片体内还沉睡着近16倍的存储潜力。本文将带你深入芯片内存架构…...

Llama模型转ONNX:原理、实践与性能优化全解析

1. 项目概述:从Llama到ONNX的模型转换之旅最近在部署大语言模型时,你是不是也遇到了这样的困境:手头有一个用PyTorch训练好的Llama模型,性能不错,但一到生产环境就头疼——推理速度慢、内存占用高、跨平台部署困难。如…...

开源小型机器人夹爪miniclawd:从设计到实现的完整指南

1. 项目概述:一个轻量级、可扩展的“小爪子”机器人最近在机器人社区里,一个名为“miniclawd”的项目引起了我的注意。这个由开发者KOAKAR765开源的仓库,名字本身就很有趣——“mini”代表小型,“clawd”听起来像是“claw”&#…...

Rust Trait对象与多态:实现灵活的代码复用

Rust Trait对象与多态:实现灵活的代码复用 引言 大家好,我是一名正在从Rust转向Python的后端开发者。在学习Rust的过程中,Trait系统是我觉得最强大的特性之一。与Python的鸭子类型不同,Rust的Trait提供了一种类型安全的多态实现…...

Code Buddy:实时监控AI编程助手状态,提升开发效率与掌控感

1. 项目概述如果你和我一样,日常开发重度依赖 Claude Code、Cursor 这类 AI 编程助手,那你肯定遇到过这个场景:你让 AI 去执行一个复杂的find或grep命令,然后切到浏览器查资料,或者去回个消息。几分钟后回来&#xff0…...

【懒人运维】rsyslog+mysql+loganalyzer 日志服务器搭建

文章目录运行环境数据库配置rsyslog配置loganalyzer安装防火墙配置《中华人民共和国网络安全法》第二十一条第三项明确规定,网络运营者必须采取监测、记录网络运行状态和网络安全事件的技术措施,并按照规定留存相关的网络日志不少于六个月‌。‌目前&…...

[Deep Agents:LangChain的Agent Harness-03]FilesystemMiddleware:赋能Agent读写文件及管理长上下文

通过“构建抽象的文件系统”我们知道,Deep Agents的文件系统是建立在一个利用BackendProtocol协议抽象的文件系统之上的,使得Agent能够以统一的方式进行文件操作,无论底层存储是本地磁盘、云端S3、数据库还是内存。这种设计不仅提供了极大的灵…...

6条Claude Code实践中的经验与思考

Claude Code系列回顾 目前在实践和应用Claude Code,顺便分享一些在实践过程中的经验,没想竟然写成一个系列了。如果你也对Claude Code感兴趣,可以先回顾一下之前的文章,然后开始今天的文章。 第1篇:《国内环境下的Cl…...