当前位置：首页 > news >正文

爬虫技术——小白入狱案例

news 2026/5/19 16:28:03

在这里插入图片描述
知孤云出岫

1. 案例概述

百度图片搜索页面可以展示大量的图片，我们可以通过分析其请求规律，编写爬虫从页面中获取图片URL，并将图片批量下载。我们将使用requests库获取网页内容，BeautifulSoup库解析HTML，re库进行正则匹配，同时使用多线程或异步库加速下载过程。

2. 案例需求分析

目标：批量下载百度图片搜索结果中的优质图片
技术栈：Python、requests、BeautifulSoup、正则表达式、线程池
难点：
- 爬虫需要模拟浏览器请求，避免被反爬机制检测
- 图片下载需高效且保证成功率
- 百度图片页面的URL是动态生成的，需要正确分析数据接口

3. 实现步骤

Step 1: 环境准备

pip install requests
pip install beautifulsoup4

Step 2: 分析百度图片URL请求规律

在百度图片页面进行搜索，使用浏览器开发者工具（F12）查看网络请求。可以发现，图片信息是通过特定的JSON接口获取的。通常请求的URL格式如下：

https://image.baidu.com/search/acjson?tn=resultjson_com&logid=XXXXX&ipn=rj&ct=201326592&is=&fp=result&queryWord={keyword}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={keyword}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn={page_num}&rn=30

queryWord和word是搜索关键词。
pn表示图片页码。
rn表示每页图片数量。

Step 3: 编写爬虫代码

以下代码示例展示了如何构建一个百度图片爬虫。该爬虫首先发起HTTP请求获取JSON数据，再解析其中的图片URL，然后逐一下载图片到本地。

import os
import re
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor# 定义请求头，模拟浏览器行为
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36"
}# 创建文件夹存储图片
def create_folder(folder_name):if not os.path.exists(folder_name):os.makedirs(folder_name)# 获取图片URL列表
def fetch_image_urls(keyword, page_num):url = f"https://image.baidu.com/search/acjson?tn=resultjson_com&logid=XXXXX&ipn=rj&ct=201326592&is=&fp=result&queryWord={keyword}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={keyword}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn={page_num*30}&rn=30"response = requests.get(url, headers=headers)response.encoding = 'utf-8'# 使用正则表达式提取所有图片的URLimg_urls = re.findall(r'"thumbURL":"(http.*?)"', response.text)return img_urls# 下载图片
def download_image(img_url, folder_name):try:img_data = requests.get(img_url, headers=headers).contentimg_name = os.path.join(folder_name, img_url.split('/')[-1])with open(img_name, 'wb') as img_file:img_file.write(img_data)print(f"Downloaded: {img_name}")except Exception as e:print(f"Failed to download {img_url}: {e}")# 主函数，负责获取URL和下载图片
def main(keyword, num_pages, folder_name="images"):create_folder(folder_name)with ThreadPoolExecutor(max_workers=10) as executor:for page_num in range(num_pages):img_urls = fetch_image_urls(keyword, page_num)for img_url in img_urls:executor.submit(download_image, img_url, folder_name)# 执行爬虫
if __name__ == "__main__":search_keyword = "风景"  # 可替换成需要的搜索关键词main(search_keyword, num_pages=5)

代码解析

请求图片数据：fetch_image_urls函数构造URL并发起请求，返回包含图片URL的列表。
图片下载：download_image函数负责下载并保存图片，同时使用多线程加速下载过程。
多线程下载：ThreadPoolExecutor用于并行下载图片。

4. 运行代码

运行以上代码后，会在images文件夹下存储批量下载的百度图片。根据网络环境和页面数量，可实现高效的图片下载。

5. 注意事项

反爬策略：百度可能会检测异常访问频率导致IP封禁。可以通过减少请求频率、使用代理IP等方式规避反爬。
使用代理：在高频请求情况下，建议添加代理池来模拟不同IP访问。
延时操作：为避免频繁请求导致的封禁，可以在请求间添加随机延时。

6. 案例总结

以上技术案例展示了如何利用Python爬虫实现大批量百度图片的下载。通过合理构造请求、使用正则表达式解析数据，以及使用多线程提升效率，该爬虫具备较好的性能和可拓展性。

步骤编号	步骤名称	操作说明	代码示例
1	环境准备	安装所需的Python库：`requests`和`beautifulsoup4`	`pip install requests` `pip install beautifulsoup4`
2	分析请求URL格式	使用浏览器开发者工具（F12）观察百度图片页面的网络请求，找到获取图片的接口URL。	URL示例: `https://image.baidu.com/search/acjson?...`
3	创建图片存储文件夹	检查文件夹是否存在，若不存在则创建。	`os.makedirs(folder_name)`
4	获取图片URL列表	构造请求URL，使用正则表达式提取图片URL。	`fetch_image_urls(keyword, page_num)`
5	下载图片	通过图片URL下载图片数据并保存到本地文件夹中。	`download_image(img_url, folder_name)`
6	多线程并行下载	使用`ThreadPoolExecutor`进行多线程图片下载，提高下载效率。	`executor.submit(download_image, img_url, folder_name)`
7	执行爬虫	调用`main()`函数，输入关键词和页数，启动爬虫程序，完成图片批量下载。	`main(search_keyword, num_pages=5)`
8	反爬策略	加入延时、代理IP等措施，避免因高频访问被封禁。	使用`time.sleep()` 或代理池
9	案例总结	通过Python爬虫实现百度图片批量下载，分析URL结构、多线程加速下载，并总结反爬注意事项。	-

爬虫技术——小白入狱案例

知孤云出岫目录 1. 案例概述2. 案例需求分析3. 实现步骤Step 1: 环境准备Step 2: 分析百度图片URL请求规律Step 3: 编写爬虫代码代码解析 4. 运行代码5. 注意事项6. 案例总结要实现大批量爬取百度图片，可以使用Python编写一个网络爬虫，通过发送HTTP请求…...

编程日记 2024/11/2 14:04:02

vue 果蔬识别系统百度AI识别vue+springboot java开发、elementui+ echarts+ vant开发

编号：R03-果蔬识别系统简介：vuespringboot百度AI实现的果蔬识别系统版本：2025版视频介绍： vuespringboot百度AI实现的果蔬识别系统前后端java开发，百度识别，带H5移动端，mysql数据库可视化 1 …...

编程日记 2024/11/2 14:03:01

全新更新！Fastreport.NET 2025.1版本发布，提升报告开发体验

在.NET 2025.1版本中，我们带来了巨大的期待功能，进一步简化了报告模板的开发过程。新功能包括通过添加链接报告页面、异步报告准备、HTML段落旋转、代码文本编辑器中的文本搜索、WebReport图像导出等，大幅提升用户体验。 FastReport .NET 是…...

编程日记 2024/11/2 14:00:59

信息学科平台系统设计与实现：Spring Boot技术手册

5系统详细实现 5.1 用户信息管理基于保密信息学科平台系统的系统管理员可以对用户信息查询。具体界面的展示如图5.1所示。图5.1 用户信息管理界面 5.2 教师信息管理管理员可以对教师信息进行查下和删除。具体界面如图5.2所示。图5.2 教师信息界面 5.3 学科动态管理管理…...

编程日记 2024/11/2 13:59:58

conda下jupyterlab安装问题以及交互绘图问题记录

安装 1. 直接conda install jupyterlab就好，只要在base环境下安装就行，可以在任意环境下执行jupyter lab启动。 2. 打开jupyter lab后显示Could not determine jupyterlab build status without nodejs，可以执行conda install nodejs安装no…...

编程日记 2024/11/2 13:58:57

尚硅谷react教程_扩展_setState更新状态的2种写法

1.setState setState更新状态的2种写法（1）.setState(stateChange,[callback])----对象式的setState1.stateChange为状态改变对象（该对象可以体现出状态的更改）2.callback是可选的回调函数，它在状态更新完毕、界面也更新…...

编程日记 2024/11/2 13:56:55

C语言编写的自动取款机模拟程序

＃include〈stdio。h> ＃include<string。h> ＃include <stdio.h> #include〈stdlib.h〉 #include〈direct.h〉＃include<io.h> ＃include 〈errno。h> /＊＊*＊＊*＊＊*＊＊***＊＊＊＊****＊**＊*＊*＊******＊＊*＊**＊＊**＊＊＊*＊***＊*…...

编程日记 2024/11/2 13:55:54

【常用数据结构】开发中常用的数据结构？

开发中常用的数据结构包括数组、链表、栈、队列、树、图、堆和散列表（哈希表）‌。这些数据结构在软件开发中有着广泛的应用，并且各自具有独特的特点和用途。数组数组是最基本的数据结构之一，用于在内存中连续存储多个元素。数…...

编程日记 2024/11/2 13:54:53

OCC 点云

OCC的基础知识可能还是要系统学习一下，部分导入的模型面类型是很多面都是GeomAbs_BSplineSurface，最终获取参数都要拟合一下，拟合后的生成的面对象没有大小，比如平面只有矢量（大小没有思路） 圆柱拟合面没有…...

编程日记 2024/11/2 13:53:51

方法重写与方法重载

1. 方法重载与方法重写的定义方法重写（Overriding） 方法重写（Overriding）是指在子类中重新定义与父类中相同的方法。此操作允许子类提供特定的实现，以替代父类的实现。方法重写是实现多态性（Polymorphis…...

编程日记 2024/11/2 13:52:50

Vue3实现地球上加载柱体

最终效果为上图。实现该技术，需要一些技术，我分别罗列一下： canvas：需要使用canvas根据json来绘制地球，不懂的可以看这篇canvas绘制地球 threejs：需要会使用threejs，这里并没有使用shader&am…...

编程日记 2024/11/2 13:51:49

OpenGL入门003——使用Factory设计模式简化渲染流程

前面两节已经学会了如何使用opengl创建窗口并绘制三角形，我们可以看出有些步骤是固定的，而且都写在main.cpp，这一节我们将了解如何使用Factroy设计模型。将模型渲染逻辑封装在一个单独的类中，简化开发流程，且提高代码复…...

编程日记 2024/11/2 13:50:47

01_AI编程案例展示:借助AI轻松爬取海量网盘链接

爬虫案例展示今天,我们将展示如何利用AI快速开发一个网络爬虫， 使用的工具是Python和Claude 3.5 Sonnet(国内可用豆包替代) 我们的目标是爬取panhub.fun网站上的夸克网盘链接, 即使你是编程新手,也可以轻松完成这样的任务。案例1-批量爬取panhub网盘整合包下…...

编程日记 2024/11/2 13:49:45

【机器学习导引】ch5-神经网络

Q&A 1x1 卷积层在深度学习中的作用？ 1x1 卷积层在深度学习中具有几个重要的作用： 通道压缩：1x1卷积可以通过调整输出通道数来减少特征图的深度，从而降低计算成本和参数数量。这有助于在保持特征的情况下简化模型。特征融合&am…...

编程日记 2024/11/2 13:47:43

【Axure原型分享】颜色选择器——填充颜色

今天和大家分享颜色选择器——填充颜色的原型模板，点击颜色区域可以弹出颜色选择器，点击可以选择对应颜色，颜色区域会变色我们选择的颜色，具体效果可以观看下方视频或者打开预览地址体验。【原型效果】【Axure高保真原型】颜色…...

编程日记 2024/11/2 13:45:41

怎么安装行星减速电机才是正确的

行星减速电机由于其高效、精密的传动能力，广泛应用于自动化设备、机器人、机床以及其他需要精准控制的领域。正确的安装行星减速电机对于确保设备的性能与延长使用寿命至关重要。一、前期准备在进行行星减速电机的安装之前，必须做好充分的前期准备工作…...

编程日记 2024/11/2 13:44:40

制作地形： 绘制方块逐个绘制方块并加噪波高度删除Gizmos和逐个绘制 1.draw quad using System.Collections; using System.Collections.Generic; using UnityEngine;[RequireComponent(typeof(MeshFilter))] public class mesh_generator : MonoBehaviour {Mesh m…...

编程日记 2024/11/2 13:42:38

Vxe UI vue vxe-table 表格中使用下拉表格，单元格渲染下拉表格

Vxe UI vue vxe-table 表格中使用下拉表格，单元格渲染下拉表格单元格中渲染下拉表格，需要使用到 vxe-table-select 这个组件，在 vxe-table 4.7 中使用非常简单，只需要配置好渲染器数据源就可以。支持单选也可以多选代码 …...

编程日记 2024/11/2 13:41:37

Android开发教程实加载中...动效

Android开发教程实加载中…动效加载中，发送中，匹配中都可以用，就是后面是三个点还是两个点，不断在切换一、思路： 隔500ms发送一次，改变内容二、效果图： 看视频更加直观点： An…...

编程日记 2024/11/2 13:40:36

NVR设备ONVIF接入平台EasyCVR视频融合平台智慧小区视频监控系统建设方案

一、方案背景智慧小区构成了“平安城市”建设的基石。随着社会的进步，社区安全问题逐渐成为公众关注的热点。诸如高空抛物、乱丢垃圾、破坏车辆、入室盗窃等不文明行为和违法行为频繁出现。目前，许多小区的物业管理和安全防护系统仍然较为简单和陈旧&a…...

编程日记 2024/11/2 13:38:34

RISC-V开发板深度测评指南：从硬件解析到生态实战

1. 项目概述：一次深度参与RISC-V生态的实战机会最近，电子发烧友社区联合多家厂商发起的第二届RISC-V开发板测评大赛，吸引了圈内不少工程师和爱好者的目光。其中，昊芯（Haawking）作为一家专注于RISC-V处理器I…...

编程新知 2026/5/19 16:20:11

在数字记忆成为个人财富的时代，如何让微信对话成为永恒珍藏？

在数字记忆成为个人财富的时代，如何让微信对话成为永恒珍藏？ 【免费下载链接】WeChatMsg 提取微信聊天记录，将其导出成HTML、Word、CSV文档永久保存，对聊天记录进行分析生成年度聊天报告项目地址: https://gitcode.com/GitHub_…...

编程新知 2026/5/19 16:20:10

从VS2019调试到IIS部署：一个.NET Core Web API的‘完整旅程’与避坑实录

从VS2019调试到IIS部署：一个.NET Core Web API的‘完整旅程’与避坑实录当第一次尝试将.NET Core Web API从开发环境部署到生产服务器时，许多开发者都会遇到各种预料之外的挑战。本文将以第一人称视角，详细记录我从零开始创建项目、本地调试…...

编程新知 2026/5/19 15:53:14

从EfficientNetV1到V2：我是如何用PyTorch复现Fused-MBConv模块并验证其速度优势的

从EfficientNetV1到V2：我是如何用PyTorch复现Fused-MBConv模块并验证其速度优势的去年在优化移动端图像分类模型时，我偶然发现EfficientNetV2论文中提到的Fused-MBConv模块在浅层网络中的推理速度比传统MBConv快30%以上。这个数字让我既兴奋又怀疑——毕…...

编程新知 2026/5/19 15:32:28

别再死记ResNet结构了！用PyTorch手把手带你复现ResNet-50（附完整代码与可视化）

从零构建ResNet-50：PyTorch实战与架构解密当你第一次看到ResNet的残差连接时，是否曾被那个"跳跃"的结构所困惑？为什么简单的跨层连接就能解决深度网络的退化问题？本文将以工程师视角，带你用PyTorch从第一行…...

编程新知 2026/5/19 15:30:26

用STM32G431RBT6复刻一个简易示波器+信号发生器：蓝桥杯嵌入式外设综合应用实战

基于STM32G431RBT6的嵌入式示波器与信号发生器开发实战在嵌入式系统开发领域，将理论知识转化为实际应用能力是每个工程师成长的必经之路。本文将带你使用STM32G431RBT6开发板，从零开始构建一个兼具示波器和信号发生器功能的综合系统。这个项目不仅能够…...

编程新知 2026/5/19 14:50:43

别再手动改hosts了！用Docker Compose一键部署Authelia SSO，顺便搞定Traefik反向代理

一键部署Authelia SSO与Traefik反向代理的Docker Compose实战指南在当今复杂的网络环境中，管理多个Web应用的认证流程往往成为开发者的痛点。手动配置hosts文件、逐个设置访问权限不仅耗时耗力，还容易出错。本文将介绍如何利用Docker Compose快速搭建Au…...

编程新知 2026/5/19 13:41:53

深度解析：三合一技术方案破解Cursor AI编辑器限制的终极指南

深度解析：三合一技术方案破解Cursor AI编辑器限制的终极指南【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能: Youve reached yo…...

编程新知 2026/5/19 13:17:11

新手入门教程使用Python快速调用Taotoken提供的多模型API服务

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度新手入门教程使用Python快速调用Taotoken提供的多模型API服务对于刚开始接触大模型API的开发者而言，直接对接不同厂商…...

编程新知 2026/5/19 12:21:02

DPDK l2fwd性能调优手记：Hygon 8核+Intel X710网卡，从20G到满速的配置清单

DPDK l2fwd性能调优实战：Hygon 8核X710网卡突破10G瓶颈全记录当我们在Hygon C86 3250八核处理器与Intel X710 10GbE网卡的硬件组合上部署DPDK l2fwd应用时，初始测试仅达到20Gbps的转发性能，远未达到硬件理论带宽。经过系统级的深度调优&…...

编程新知 2026/5/19 11:44:39

目录