当前位置: 首页 > article >正文

[爬虫实战] 爬微博图片:xpath的具体运用

 博客配套代码发布于github:微博图片

相关知识点:图片懒加载 [爬虫知识] 数据解析

相关爬虫专栏:JS逆向爬虫实战  爬虫知识点合集  爬虫实战案例


这里我们以网页微博图片为例,尝试获取该页面下所有图片并保存。

一、分析网站

刷新网页后看到这个html文件:其中Content-type看到text/html且预览里面是整个页面布局,可以确定这是个html类型文件,侧重点在于如何xpath提取对应数据。

再看到文中有大量图片,且鼠标下滑时能在开发者工具中看到图片的不断缓存加载,证明这里用到了图片懒加载的知识(了解懒加载→图片懒加载)。

再把请求标头的各项参数看看,确定后就可以开写代码了。

二、爬取代码初始化

  • 确认页面 -- url = 'https://blog.sina.com.cn/s/blog_01ebcb8a0102zj25.html'
  • 确认请求头 -- headers = {
  • 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36',
    'referer':'https://blog.sina.com.cn/s/articlelist_32230282_1_1.html'

  • }
  • 发起请求 -- response = requests.get(url,headers=headers).textq

请求响应成功:

得到该页面整体数据后我们就能开始进行数据解析了。

三、数据清洗

这时候我们再去找第一张图片的xpath试试看能不能获取

tree =etree.HTML(response.text)
title = tree.xpath('//*[@id="sina_keyword_ad_area2"]/a[1]/img/@title')[0]
print(title)

没问题,再具体分析一下各个图片的xpath关系:

大概能确定这里div为大标签,从div下面取到每个a标签的img标签,同时再取到真正的图片属性链接real_src就能得到我们想要的数据。测试一下:

if not os.path.exists('西安图片集'):os.mkdir('西安图片集')
img_link = tree.xpath('//*[@id="sina_keyword_ad_area2"]/a/img')
n = 1
for img in img_link:real_src= img.xpath('./@real_src')[0]response_detail = session.get(url=real_src,headers=header).contentwith open(f'./西安图片集/{n}.图片.png','wb') as f:f.write(response_detail)print(f'图片{n}写入完成!')breakn += 1

难点分析:img_link = tree.xpath('//*[@id="sina_keyword_ad_area2"]/a/img')

原先直接选中那个img标签的xpath给的是 xx.xpath('//*[@id="sina_keyword_ad_area2"]/a[1]/img')这里a的[1]需要去掉,代表我们选择是这个@id下所有相关的a下面的img标签。此时的img_link返回的就是个列表项,接着可以用for循环得到其中每个项

另:图片写入时记得是二进制,返回数据要用content,写入要用wb模式,与常规的写入不太一样。

把break去掉再运行一下:

?为什么就十张,明明那页面里非常多的图片啊。

我们回到原页面再观察一下各标签:

好家伙,竟然下面还藏着这么多div标签,所以我们应该写两套for循环,第一套img_link,第二套div_link,分别代表两套不同的xpath提取方式。(吐槽下这个前端页面写的真是...)

div_total_link = tree.xpath('//*[@id="sina_keyword_ad_area2"]')[0] # element对象必须以非列表形式才能xpath!!!
print(div_total_link)
img_link = div_total_link.xpath('./a/img')
div_link = div_total_link.xpath('./div/a/img')
n = 1
for img in img_link:real_src = img.xpath('./@real_src')[0]response_detail = session.get(url=real_src,headers=header).contentwith open(f'./西安图片集/{n}.图片.png','wb') as f:f.write(response_detail)print(f'图片{n}写入完成!')n += 1for div1 in div_link:real_src = div1.xpath('./@real_src')[0]response_detail = session.get(url=real_src,headers=header).contentwith open(f'./西安图片集/{n}.图片.png','wb') as f:f.write(response_detail)print(f'图片{n}写入完成!')n += 1print(f'全部爬取完成!总计爬取{len(img_link)+len(div_link)}张图片!')

如上,写了第二个for循环后再把当初的那个大div标记成div_total_link,各自去它底下xpath,并完善相应逻辑。

最终得答:保存成功!

四、总结

在这种类似的反爬较少的网站,耐心的观察网页的各项属性标签,慢慢分析同时熟练使用xpath即可。

相关文章:

[爬虫实战] 爬微博图片:xpath的具体运用

博客配套代码发布于github:微博图片 相关知识点:图片懒加载 [爬虫知识] 数据解析 相关爬虫专栏:JS逆向爬虫实战 爬虫知识点合集 爬虫实战案例 这里我们以网页微博图片为例,尝试获取该页面下所有图片并保存。 一、分析网站 刷…...

MySQL中简单的操作

一.数据库 1.1数据库的建立: create database 库名; 1.2数据库的查看: show databases; 1.3数据库的删除: drop database 库名; 二.数据库中的表 2.1表的建立: create table 表名&…...

NNG和DDS

NNG (Nanomsg Next Generation) 和 DDS (Data Distribution Service) 是两种不同的通信协议,各自在不同场景下具有其优势。下面我将对这两种技术进行详细解释,并通过具体的例子来说明它们如何应用在实际场景中。 1. NNG (Nanomsg Next Generation) NNG简…...

防震基座在半导体晶圆制造设备抛光机详细应用案例-江苏泊苏系统集成有限公司

在半导体制造领域,晶圆抛光作为关键工序,对设备稳定性要求近乎苛刻。哪怕极其细微的振动,都可能对晶圆表面质量产生严重影响,进而左右芯片制造的成败。以下为您呈现一个防震基座在半导体晶圆制造设备抛光机上的经典应用案例。 企…...

框架开发与原生开发的权衡:React案例分析(原生JavaScript)

文章目录 框架开发与原生开发的权衡:React案例分析引言框架开发的优势开发效率提升状态管理的便捷性组件复用与生态系统团队协作与规范统一 原生开发的优势性能优化空间学习曲线平缓精细控制与定制化避免版本依赖与迁移成本 实际应用案例分析大型企业应用性能关键型…...

Lua5.4.2常用API整理记录

一、基础函数 1.type(value)​​ 返回值的类型(如 "nil", "number", "string", "table", "function" 等)。 代码测试: a 0 print(type(a)) a nil print(type(a)) a "aaaaaaaa&…...

Python打卡训练营学习记录Day36

仔细回顾一下神经网络到目前的内容,没跟上进度的同学补一下进度。 作业:对之前的信贷项目,利用神经网络训练下,尝试用到目前的知识点让代码更加规范和美观。 import pandas as pd #用于数据处理和分析,可处理表格数…...

### Mac电脑推送文件至Gitee仓库步骤详解

**核心流程及命令说明:** #### 1. **配置全局Git用户信息** bash git config --global user.name "shenguanling" git config --global user.email "3259125968qq.com" - **作用**:设置提交代码时的作者信息&#xff0…...

官方SDK停更后的选择:开源维护的Bugly Unity SDK

腾讯Bugly,为移动开发者提供专业的异常上报和运营统计,帮助开发者快速发现并解决异常,同时掌握产品运营动态,及时跟进用户反馈。 但是,免费版的Unity SDK已经很久不更新了,会有一些问题和特性缺失&#xff…...

什么是智能体agent?

文章目录 什么是智能体agent?最基本的核心思想我们是如何走到今天以及为什么是现在如何从思维上剖析“一个智能体系统”痛苦的教训结论 什么是智能体agent? 原文链接:https://windsurf.com/blog/what-is-an-agent 本文探讨了AI智能体的核心概…...

【多线程】Java 实现方式及其优缺点

以下是 Java 多线程实现方式及其优缺点的详细说明: 一、Java 多线程核心实现方式 1. 继承 Thread 类 public class MyThread extends Thread {Overridepublic void run() {System.out.println("Thread running: " Thread.currentThread().getName());}…...

Obsidian 数据可视化深度实践:用 DataviewJS 与 Charts 插件构建智能日报系统

Obsidian 数据可视化深度实践:用 DataviewJS 与 Charts 插件构建智能日报系统 一、核心架构解析 本系统基于 Obsidian 的 DataviewJS 和 Charts 插件,实现日报数据的自动采集、可视化分析及智能回溯功能(系统架构原理见)。其技术…...

Three.js 海量模型加载性能优化指南

一、性能瓶颈分析 1.1 常见性能杀手 问题类型典型表现影响范围Draw Call 爆炸每帧渲染调用超过1000次GPU 渲染性能内存占用过高浏览器进程内存突破1GB加载速度/崩溃风险模型文件过大单个GLB文件超过50MB网络传输时间几何数据冗余重复模型独立加载CPU/GPU资源浪费 1.2 性能监…...

6.4.3_有向无环图描述表达式

有向无环图: 有向图中不存在环即为有向无环图DAG图,即如下V0->V4->v3->V0或者V4->V1->v4就存在环不是有向无环图,即在一个路径中一个顶点不能出现2次? DAG描述表达式: 算术表达式用树来表示&#xff0…...

力扣第157场双周赛

1. 最大质数子字符串之和 给定一个字符串 s,找出可以由其 子字符串 组成的 3个最大的不同质数 的和。 返回这些质数的 总和 ,如果少于 3 个不同的质数,则返回 所有 不同质数的和。 质数是大于 1 且只有两个因数的自然数:1和它本身…...

青少年编程与数学 02-019 Rust 编程基础 19课题、项目发布

青少年编程与数学 02-019 Rust 编程基础 19课题、项目发布 一、准备工作1. 创建和配置项目2. 编写代码和测试3. 文档注释 二、构建发布版本1. 构建优化后的可执行文件2. 静态链接(可选) 三、发布到 crates.io1. Crates.io核心功能使用方法特点最新动态 2…...

【HarmonyOS Next之旅】DevEco Studio使用指南(二十五) -> 端云一体化开发 -> 业务介绍(二)

目录 1 -> 工作原理 2 -> 约束与限制 2.1 -> 支持的设备 2.2 -> 支持的国家/地区 2.3 -> 支持的签名方式 3 -> 总结 3.1 -> 关键功能与工具 3.2 -> 开发流程 3.3 -> 典型场景与优化 3.4 -> 常见问题与解决 3.5 -> 总结 1 -> 工…...

LLaMA-Factory 微调模型与训练数据量对应关系

在使用LLaMA-Factory的LoRA技术微调1.5B和7B模型时,数据量需求主要取决于任务类型、数据质量以及模型规模。以下是基于现有研究和实践的具体分析: 一、数据量需求的核心影响因素 模型规模与数据量的关系 通常情况下,模型参数越多&#xff08…...

数据库与Redis数据一致性解决方案

在写数据时保证 Redis 和数据库数据一致,可采用以下方案,需根据业务场景权衡选择: 1. 先更新数据库,再更新 Redis 步骤: 写入 / 更新数据库数据。删除或更新 Redis 缓存。适用场景:读多写少,对缓存一致性要求不高(短暂不一致可接受)。风险:若第二步失败,导致缓存与…...

Spring Boot AI 之 Chat Client API 使用大全

ChatClient提供了一套流畅的API用于与AI模型交互,同时支持同步和流式两种编程模型。 流畅API包含构建Prompt组成元素的方法,这些Prompt将作为输入传递给AI模型。从API角度来看,Prompt由一系列消息组成,其中包含指导AI模型输出和行为的指令文本。 AI模型主要处理两类消息: …...

分身空间:手机分身多开工具,轻松实现多账号登录

分身空间是一款功能强大的手机分身多开工具APP,专为需要同时登录多个账号的用户设计。它支持多开各种游戏和软件,让用户可以轻松实现多账号同时在线,提升使用效率和体验。无论是社交软件、游戏还是办公应用,分身空间都能帮助你轻松…...

音视频之视频压缩及数字视频基础概念

系列文章: 1、音视频之视频压缩技术及数字视频综述 一、视频压缩编码技术综述: 1、信息化与视频通信: 什么是信息: 众所周知,人类社会的三大支柱是物质、能量和信息。具体而言,农业现代化的支柱是物质&…...

Ubuntu 24.04部署安装Honeyd蜜罐

🌴 前言 最近有个大作业,里面要求我们部署Hoenyd蜜罐,在网上搜了一通,发现相关的教程竟然少的可怜,即使有比较详细的教程,也是好几年前的了,跟着做一遍报一堆错,无奈之下&#xff0…...

C++复习核心精华

一、内存管理与智能指针 内存管理是C区别于其他高级语言的关键特性,掌握好它就掌握了C的灵魂。 1. 原始指针与内存泄漏 先来看看传统C的内存管理方式: void oldWay() {int* p new int(42); // 分配内存// 如果这里发生异常或提前return&#xff0c…...

Android中获取控件尺寸进阶方案

在Android开发中,很多场景都需要获取控件(View)的宽高信息,比如动态布局调整、动画效果实现等。然而,直接在Activity的onCreate()中调用控件的getWidth()或getHeight()`方法,得到结果却是0,因为控件还没完成布局测量。 本文总结了几种获取控件大小的实用方法,并对各方…...

云原生安全之PaaS:从基础到实践的技术指南

🔥「炎码工坊」技术弹药已装填! 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 云原生安全之PaaS:从基础到实践的技术指南 一、基础概念 PaaS(Platform as a Service)平台 PaaS是一种云计算服务模型…...

MCP技术体系介绍

MCP,全称时Model Context Protocol,模型上下文协议,由Claude母公司Anthropic于2014年11月正式提出。 MCP的核心作用是统一了Agent开发过程中大模型调用外部工具的技术实现流程,从而大幅提高Agent的开发效率。在MCP诞生之前,不同外部工具各有不同的调用方法。 要连接这些…...

《深入探秘:从底层搭建Python微服务之FastAPI与Docker部署》

FastAPI作为一款现代、快速的Web框架,在Python微服务开发领域独树一帜。它基于Python 3.6的类型提示功能,融合了Starlette和Pydantic的优势,具备诸多令人瞩目的特性。 FastAPI的性能表现十分卓越,可与Go和Node.js相媲美。这得益于…...

深入解析Spring Boot与JUnit 5集成测试的最佳实践

深入解析Spring Boot与JUnit 5集成测试的最佳实践 引言 在现代软件开发中,单元测试和集成测试是确保代码质量的重要手段。Spring Boot作为当前最流行的Java Web框架之一,提供了丰富的测试支持。而JUnit 5作为最新的JUnit版本,引入了许多新特…...

我的第1个爬虫程序——豆瓣Top250爬虫的详细步骤指南

我的第1个爬虫程序——豆瓣Top250爬虫的详细步骤指南 一、创建隔离开发环境 1. 使用虚拟环境(推荐venv) # 在项目目录打开终端执行 python -m venv douban_env # 创建虚拟环境 source douban_env/bin/activate # Linux/macOS激活 douban_env\Scri…...