Python爬虫实战:图片爬取与保存
引言:
在本文中,我们将学习如何使用Python创建一个简单的图片爬虫。我们将利用
requests库来发送HTTP请求,BeautifulSoup库来解析HTML页面,以及os和shutil库来下载和保存图片。通过这个教程,你将学会如何爬取网页上的图片并保存到本地。
目录
一、准备工作
在开始之前,请确保你已经安装了Python,并且安装了以下库:
你可以使用以下命令来安装这些库:
二、代码实现
三、代码解析

一、准备工作
在开始之前,请确保你已经安装了Python,并且安装了以下库:
requests:用于发送HTTP请求beautifulsoup4:用于解析HTML页面
你可以使用以下命令来安装这些库:
pip install requests beautifulsoup4
二、代码实现
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from urllib.request import urlretrieve def download_images(url, save_dir): """ 下载指定网页上的所有图片并保存到本地文件夹 :param url: 目标网页的URL :param save_dir: 图片保存的目录 """ # 创建保存图片的目录 if not os.path.exists(save_dir): os.makedirs(save_dir) # 发送HTTP请求 response = requests.get(url) response.raise_for_status() # 如果请求失败,抛出异常 # 使用BeautifulSoup解析页面 soup = BeautifulSoup(response.text, 'html.parser') # 查找所有的图片链接 image_links = soup.find_all('img') # 下载并保存图片 for img in image_links: img_url = img.get('src') # 如果图片链接是相对路径,则将其转换为绝对路径 if not img_url.startswith(('http://', 'https://')): img_url = urljoin(url, img_url) # 下载图片 img_name = os.path.join(save_dir, img_url.split('/')[-1]) urlretrieve(img_url, img_name) print(f"Downloaded: {img_name}") # 使用示例
url = "https://example.com" # 替换为你要爬取的网页的URL
save_dir = "images" # 图片保存的目录
download_images(url, save_dir)
三、代码解析
- 导入库:首先,我们导入了所需的库,包括
os、requests、BeautifulSoup、urllib.parse和urllib.request。- 定义函数:我们定义了一个名为
download_images的函数,它接受两个参数:url(目标网页的URL)和save_dir(图片保存的目录)。- 创建保存目录:如果指定的保存目录不存在,我们将创建它。
- 发送HTTP请求:使用
requests.get方法发送HTTP请求,并使用response.raise_for_status检查请求是否成功。- 解析页面:使用
BeautifulSoup解析HTML页面,并查找所有的<img>标签,以获取图片链接。- 下载并保存图片:遍历每个图片链接,将其转换为绝对路径(如果需要),并使用
urlretrieve方法下载图片然后,将图片保存到指定的目录,并打印出下载的文件名。- 使用示例:最后,我们提供了一个使用示例,包括目标网页的URL和图片保存的目录。
四、注意事项
- 在使用爬虫时,请确保遵守目标网站的
robots.txt文件和使用条款,并尊重他人的版权和隐私。 - 不要对网站造成过大的压力或进行恶意爬取。
- 可以根据需要进一步扩展此代码,例如增加错误处理、添加代理支持、限制并发请求数、使用异步IO等。
通过本文的学习,你已经掌握了如何使用Python创建一个简单的图片爬虫。你可以根据自己的需求进一步扩展和优化这个爬虫。记得在使用爬虫时要遵守相关规定和法律法规,尊重他人的权益。
相关文章:
Python爬虫实战:图片爬取与保存
引言: 在本文中,我们将学习如何使用Python创建一个简单的图片爬虫。 我们将利用requests库来发送HTTP请求,BeautifulSoup库来解析HTML页面,以及os和shutil库来下载和保存图片。通过这个教程,你将学会如何爬取网…...
CMS垃圾回收器
CMS垃圾回收 CMS GC的官方名称为“Mostly Concurrenct Mark and Sweep Garbage Collector”(最大-并发-标记-清除-垃圾收集器)。 作用范围: 老年代 算法: 并发标记清除算法。 启用参数:-XX:UseConMarkSweepGC 默认回收…...
【力扣白嫖日记】184.部门工资最高的员工
前言 练习sql语句,所有题目来自于力扣(https://leetcode.cn/problemset/database/)的免费数据库练习题。 今日题目: 184.部门工资最高的员工 表:Employee 列名类型idintnamevarcharsalaryvarchardepartmentIdint …...
JAVA讲解算法-排序算法-选择排序算法-02
一、定义 选择排序法是一种不稳定的排序算法。它的工作原理是每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,然后,再从剩余未排序元素中继续寻找最小(大)元素&a…...
【初始RabbitMQ】高级发布确认的实现
在生产环境中由于一些不明原因,导致 rabbitmq 重启,在 RabbitMQ 重启期间生产者消息投递失败, 导致消息丢失,需要手动处理和恢复。于是,我们开始思考,如何才能进行 RabbitMQ 的消息可靠投递呢? …...
用39块钱的全志V851se视觉开发板做了个小相机,还可以物品识别、自动追焦!
用39块钱的V851se视觉开发板做了个小相机。 可以进行物品识别、自动追焦! 这个超低成本的小相机是在V851se上移植使用全志在线开源版本的Tina Linux与OpenCV框架开启摄像头拍照捕获视频,并结合NPU实现Mobilenet v2目标分类识别以及运动追踪等功能…并最终…...
主从复制实现Redis集群
主从复制实现Redis集群实验 (一主二从): 实验环境: 使用Docker 搭建 Redis 版本 5.0.5 打开一个终端窗口,在其中运行如下命令创建一个名为redis-master的Redis容器。注意,它的端口是6379 (本地的端口:映射到容器的端口) docker run -itd--name redis-m…...
高分文献解读|3D打印骨支架实现梯度密度颌骨功能性重建
近月,浙江大学医学院附属口腔医院谢志坚教授团队与浙江大学化学系唐睿康教授团队、机械工程学院贺永教授团队合作,在期刊《Advanced Functional Materials》(IF19)上发表题为“A Hierarchical 3D Graft Printed with Nanoink for …...
大型电商日志离线分析系统(一)
一、项目需求分析 某大型网站日志离线分析系统 1.1 概述 该部分的主要目标就是描述本次项目最终七个分析模块的页面展示。 1.2 工作流 在我们的demo展示中,我们使用jqueryecharts的方式调用程序后台提供的rest api接口,获取json数据,然后…...
FL Studio Fruity Edition2024中文入门版Win/Mac
FL Studio Fruity Edition2024是一款功能强大的音乐制作软件,适合初学者和音乐爱好者使用。它提供了丰富的音乐制作工具,包括音频录制、编辑、混音以及MIDI制作等功能,帮助用户轻松创作出动人的音乐作品。 FL Studio 21.2.3 Win-安装包下载如…...
学习vue3第二节(使用vite 创建vue3项目)
使用vite 创建vue3项目 node 安装请移步 node官网: https://nodejs.p2hp.com/ node 版本控制 请移步 nvm官网:https://nvm.uihtm.com/ vite 生成vue项目完整版 请移步 vite官网:https://cn.vitejs.dev/ 1、使用 npm 或者 yarn 创建vue3 项目…...
基于Siamese网络的zero-shot意图分类
原文地址:Zero-Shot Intent Classification with Siamese Networks 通过零样本意图分类有效定位域外意图 2021 年 9 月 24 日 意图识别是面向目标对话系统的一项重要任务。意图识别(有时也称为意图检测)是使用标签对每个用户话语进行分类的任务,该标签…...
Java架构师之路五、微服务:微服务架构、服务注册与发现、服务治理、服务监控、容器化等。
目录 微服务架构: 服务注册与发现: 服务治理: 服务监控: 容器化: 上篇:Java架构师之路四、分布式系统:分布式架构、分布式数据存储、分布式事务、分布式锁、分布式缓存、分布式消息中间件、…...
[计算机网络]--IP协议
前言 作者:小蜗牛向前冲 名言:我可以接受失败,但我不能接受放弃 如果觉的博主的文章还不错的话,还请点赞,收藏,关注👀支持博主。如果发现有问题的地方欢迎❀大家在评论区指正 目录 一、IP协议…...
MySQL问题记录
问题 Ubuntu2204 通过 apt 安装 mysql-server8.0.36 后,数次修改密码不生效,仍可无密码登录。 解决 mysql_native_password 是MySQL 5.7及之前版本使用的默认身份验证插件。在MySQL 8.0及更高版本中,默认的身份验证插件 caching_sha2_pass…...
LeetCode_Java_动态规划系列(1)(题目+思路+代码)
目录 斐波那契类型 746.使用最小花费爬楼梯 矩阵 120. 三角形最小路径和 斐波那契类型 746.使用最小花费爬楼梯 给你一个整数数组 cost ,其中 cost[i] 是从楼梯第 i 个台阶向上爬需要支付的费用。一旦你支付此费用,即可选择向上爬一个或者两个台阶。…...
Linux使用Docker部署在线协作白板WBO并结合内网穿透发布公网远程访问
文章目录 前言1. 部署WBO白板2. 本地访问WBO白板3. Linux 安装cpolar4. 配置WBO公网访问地址5. 公网远程访问WBO白板6. 固定WBO白板公网地址 前言 WBO在线协作白板是一个自由和开源的在线协作白板,允许多个用户同时在一个虚拟的大型白板上画图。该白板对所有线上用…...
petalinux烧写image.ub报错
xinlinx SDK烧写petalinux生成的BOOT.BIN和image.ub时,BOOT.BIN烧写正常,image.ub烧写报错如下 Erase Operation failed. INFO: [Xicom 50-44] Elapsed time 0 sec.ERROR: Flash Operation Failed串口助手操作擦除flash如图: 解决方法&am…...
[足式机器人]Part2 Dr. CAN学习笔记-Ch00-2 - 数学知识基础
本文仅供学习使用 本文参考: B站:DR_CAN 《控制之美(卷1)》 王天威 《控制之美(卷2)》 王天威 Dr. CAN学习笔记-Ch00 - 数学知识基础 Part2 4. Ch0-4 线性时不变系统中的冲激响应与卷积4.1 LIT System:Linear Time Invariant4.2 卷积 Convolution4.3 单位冲激 Unit Impulse—…...
【Linux】head命令使用
head命令 head是一个在 Unix 和 Unix-like 操作系统中常用的命令行工具,用于输出文件的前 n 行。默认为 10,即显示 10 行的内容。 语法 head [options] [file(s)] head命令 -Linux手册页 选项及作用 执行令 : head --help 执行命令结果…...
手把手调试:在STM32上用Cortex-M3/4的SVC中断,一步步启动你的第一个RTOS任务
手把手调试:在STM32上用Cortex-M3/4的SVC中断,一步步启动你的第一个RTOS任务 当你第一次接触RTOS时,最令人困惑的莫过于理解操作系统如何从裸机环境过渡到多任务世界。本文将带你用STM32F103开发板和MDK环境,通过SVC中断实现这一神…...
OpenVLA: 开源视觉-语言-动作模型文献解读
OpenVLA: 开源视觉-语言-动作模型文献解读 一、文献概述 论文标题: OpenVLA: An Open-Source Vision-Language-Action Model 作者: Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti 等 机构: Stanford University, UC Berkeley, Toyota Research Institute, Google DeepMind,…...
告别Wormhole依赖:手把手教你理解nil Foundation的Solana轻客户端zk-bridge方案
重新定义跨链互操作性:nil Foundation的零知识轻客户端方案解析 当Solana生态在去年9月迎来爆发式增长时,很少有人注意到这场繁荣背后隐藏着一个关键瓶颈——跨链桥的中心化依赖。传统方案如Wormhole虽然解决了资产转移的基本需求,但其基于权…...
机器学习:基于python旅游推荐系统 景点推荐系统 爬虫 可视化 机器学习 协同过滤算法
1、项目 介绍 (1)技术栈: Django框架、基于用户协同过滤推荐算法、requests爬虫 、MySQL数据库、去哪儿网站、Echarts可视化 (2)介绍选题基于现阶段时代背景,利用Python爬虫技术获取旅游网站 中的旅游信息&…...
别再死记公式了!用Simulink动手搭建一个卡尔曼滤波器(附单摆模型仿真文件)
从零构建卡尔曼滤波器:Simulink实战与单摆模型仿真 当你第一次接触卡尔曼滤波时,那些复杂的矩阵运算和概率公式是否让你望而却步?作为工程师,我们更习惯通过动手实践来理解抽象概念。本文将带你用Simulink这个图形化工具ÿ…...
【车载系统调试革命】:Docker容器化调试的5大不可逆优势与3个致命误区
第一章:【车载系统调试革命】:Docker容器化调试的5大不可逆优势与3个致命误区在智能座舱与域控制器快速迭代的背景下,传统嵌入式调试方式正遭遇环境不一致、依赖冲突与跨团队协作低效等系统性瓶颈。Docker 容器化调试已从“可选项”演变为车载…...
魔兽争霸3终极兼容性指南:如何使用WarcraftHelper解决现代系统问题
魔兽争霸3终极兼容性指南:如何使用WarcraftHelper解决现代系统问题 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸3在新系…...
前端新人必看:用nvm管理Node版本,再也不怕‘npm install’报错了(保姆级避坑指南)
前端新人必看:用nvm管理Node版本,再也不怕‘npm install’报错了(保姆级避坑指南) 刚入门前端开发时,最让人头疼的莫过于各种环境配置问题。尤其是当你兴致勃勃地准备运行一个Vue或React项目时,突然蹦出一堆…...
real-anime-z在跨媒体叙事中的应用:小说文本→角色图→分镜图→动态预告片链路
real-anime-z在跨媒体叙事中的应用:小说文本→角色图→分镜图→动态预告片链路 1. 跨媒体叙事的新工具 在内容创作领域,跨媒体叙事正变得越来越重要。从小说文本到视觉呈现,再到动态视频的完整创作链路,能够帮助创作者将想法快速…...
如何5分钟解决Windows和Office激活问题:智能KMS工具完全指南
如何5分钟解决Windows和Office激活问题:智能KMS工具完全指南 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为系统激活问题而烦恼吗?当你急需使用Office完成工作报告…...
