当前位置: 首页 > news >正文

Python爬虫实战:图片爬取与保存

引言:
        在本文中,我们将学习如何使用Python创建一个简单的图片爬虫

        我们将利用requests来发送HTTP请求,BeautifulSoup来解析HTML页面,以及osshutil库来下载和保存图片。通过这个教程,你将学会如何爬取网页上的图片并保存到本地。

目录

一、准备工作

在开始之前,请确保你已经安装了Python,并且安装了以下库:

你可以使用以下命令来安装这些库:

二、代码实现 

三、代码解析



一、准备工作

在开始之前,请确保你已经安装了Python,并且安装了以下库:
  • requests用于发送HTTP请求
  • beautifulsoup4用于解析HTML页面
你可以使用以下命令来安装这些库:
pip install requests beautifulsoup4

二、代码实现 

import os  
import requests  
from bs4 import BeautifulSoup  
from urllib.parse import urljoin  
from urllib.request import urlretrieve  def download_images(url, save_dir):  """  下载指定网页上的所有图片并保存到本地文件夹  :param url: 目标网页的URL  :param save_dir: 图片保存的目录  """  # 创建保存图片的目录  if not os.path.exists(save_dir):  os.makedirs(save_dir)  # 发送HTTP请求  response = requests.get(url)  response.raise_for_status()  # 如果请求失败,抛出异常  # 使用BeautifulSoup解析页面  soup = BeautifulSoup(response.text, 'html.parser')  # 查找所有的图片链接  image_links = soup.find_all('img')  # 下载并保存图片  for img in image_links:  img_url = img.get('src')  # 如果图片链接是相对路径,则将其转换为绝对路径  if not img_url.startswith(('http://', 'https://')):  img_url = urljoin(url, img_url)  # 下载图片  img_name = os.path.join(save_dir, img_url.split('/')[-1])  urlretrieve(img_url, img_name)  print(f"Downloaded: {img_name}")  # 使用示例  
url = "https://example.com"  # 替换为你要爬取的网页的URL  
save_dir = "images"  # 图片保存的目录  
download_images(url, save_dir)

三、代码解析

  • 导入库:首先,我们导入了所需的库,包括osrequestsBeautifulSoupurllib.parseurllib.request
  • 定义函数:我们定义了一个名为download_images的函数,它接受两个参数url(目标网页的URL)和save_dir(图片保存的目录)
  • 创建保存目录:如果指定的保存目录不存在,我们将创建它。
  • 发送HTTP请求:使用requests.get方法发送HTTP请求,并使用response.raise_for_status检查请求是否成功。
  • 解析页面:使用BeautifulSoup解析HTML页面,并查找所有的<img>标签,以获取图片链接。
  • 下载并保存图片:遍历每个图片链接,将其转换为绝对路径(如果需要),并使用urlretrieve方法下载图片然后,将图片保存到指定的目录,并打印出下载的文件名。
  • 使用示例:最后,我们提供了一个使用示例,包括目标网页的URL和图片保存的目录。

四、注意事项

  • 在使用爬虫时,请确保遵守目标网站的robots.txt文件和使用条款,并尊重他人的版权和隐私。
  • 不要对网站造成过大的压力或进行恶意爬取。
  • 可以根据需要进一步扩展此代码,例如增加错误处理、添加代理支持、限制并发请求数、使用异步IO等。

通过本文的学习,你已经掌握了如何使用Python创建一个简单的图片爬虫。你可以根据自己的需求进一步扩展和优化这个爬虫。记得在使用爬虫时要遵守相关规定和法律法规,尊重他人的权益。

相关文章:

Python爬虫实战:图片爬取与保存

引言&#xff1a; 在本文中&#xff0c;我们将学习如何使用Python创建一个简单的图片爬虫。 我们将利用requests库来发送HTTP请求&#xff0c;BeautifulSoup库来解析HTML页面&#xff0c;以及os和shutil库来下载和保存图片。通过这个教程&#xff0c;你将学会如何爬取网…...

CMS垃圾回收器

CMS垃圾回收 CMS GC的官方名称为“Mostly Concurrenct Mark and Sweep Garbage Collector”&#xff08;最大-并发-标记-清除-垃圾收集器&#xff09;。 作用范围&#xff1a; 老年代 算法&#xff1a; 并发标记清除算法。 启用参数&#xff1a;-XX:UseConMarkSweepGC 默认回收…...

【力扣白嫖日记】184.部门工资最高的员工

前言 练习sql语句&#xff0c;所有题目来自于力扣&#xff08;https://leetcode.cn/problemset/database/&#xff09;的免费数据库练习题。 今日题目&#xff1a; 184.部门工资最高的员工 表&#xff1a;Employee 列名类型idintnamevarcharsalaryvarchardepartmentIdint …...

JAVA讲解算法-排序算法-选择排序算法-02

一、定义 选择排序法是一种不稳定的排序算法。它的工作原理是每一次从待排序的数据元素中选出最小&#xff08;或最大&#xff09;的一个元素&#xff0c;存放在序列的起始位置&#xff0c;然后&#xff0c;再从剩余未排序元素中继续寻找最小&#xff08;大&#xff09;元素&a…...

【初始RabbitMQ】高级发布确认的实现

在生产环境中由于一些不明原因&#xff0c;导致 rabbitmq 重启&#xff0c;在 RabbitMQ 重启期间生产者消息投递失败&#xff0c; 导致消息丢失&#xff0c;需要手动处理和恢复。于是&#xff0c;我们开始思考&#xff0c;如何才能进行 RabbitMQ 的消息可靠投递呢&#xff1f; …...

用39块钱的全志V851se视觉开发板做了个小相机,还可以物品识别、自动追焦!

用39块钱的V851se视觉开发板做了个小相机。 可以进行物品识别、自动追焦&#xff01; 这个超低成本的小相机是在V851se上移植使用全志在线开源版本的Tina Linux与OpenCV框架开启摄像头拍照捕获视频&#xff0c;并结合NPU实现Mobilenet v2目标分类识别以及运动追踪等功能…并最终…...

主从复制实现Redis集群

主从复制实现Redis集群实验 (一主二从): 实验环境: 使用Docker 搭建 Redis 版本 5.0.5 打开一个终端窗口&#xff0c;在其中运行如下命令创建一个名为redis-master的Redis容器。注意&#xff0c;它的端口是6379 (本地的端口:映射到容器的端口) docker run -itd--name redis-m…...

高分文献解读|3D打印骨支架实现梯度密度颌骨功能性重建

近月&#xff0c;浙江大学医学院附属口腔医院谢志坚教授团队与浙江大学化学系唐睿康教授团队、机械工程学院贺永教授团队合作&#xff0c;在期刊《Advanced Functional Materials》&#xff08;IF19&#xff09;上发表题为“A Hierarchical 3D Graft Printed with Nanoink for …...

大型电商日志离线分析系统(一)

一、项目需求分析 某大型网站日志离线分析系统 1.1 概述 该部分的主要目标就是描述本次项目最终七个分析模块的页面展示。 1.2 工作流 在我们的demo展示中&#xff0c;我们使用jqueryecharts的方式调用程序后台提供的rest api接口&#xff0c;获取json数据&#xff0c;然后…...

FL Studio Fruity Edition2024中文入门版Win/Mac

FL Studio Fruity Edition2024是一款功能强大的音乐制作软件&#xff0c;适合初学者和音乐爱好者使用。它提供了丰富的音乐制作工具&#xff0c;包括音频录制、编辑、混音以及MIDI制作等功能&#xff0c;帮助用户轻松创作出动人的音乐作品。 FL Studio 21.2.3 Win-安装包下载如…...

学习vue3第二节(使用vite 创建vue3项目)

使用vite 创建vue3项目 node 安装请移步 node官网&#xff1a; https://nodejs.p2hp.com/ node 版本控制 请移步 nvm官网&#xff1a;https://nvm.uihtm.com/ vite 生成vue项目完整版 请移步 vite官网&#xff1a;https://cn.vitejs.dev/ 1、使用 npm 或者 yarn 创建vue3 项目…...

基于Siamese网络的zero-shot意图分类

原文地址&#xff1a;Zero-Shot Intent Classification with Siamese Networks 通过零样本意图分类有效定位域外意图 2021 年 9 月 24 日 意图识别是面向目标对话系统的一项重要任务。意图识别(有时也称为意图检测)是使用标签对每个用户话语进行分类的任务&#xff0c;该标签…...

Java架构师之路五、微服务:微服务架构、服务注册与发现、服务治理、服务监控、容器化等。

目录 微服务架构&#xff1a; 服务注册与发现&#xff1a; 服务治理&#xff1a; 服务监控&#xff1a; 容器化&#xff1a; 上篇&#xff1a;Java架构师之路四、分布式系统&#xff1a;分布式架构、分布式数据存储、分布式事务、分布式锁、分布式缓存、分布式消息中间件、…...

[计算机网络]--IP协议

前言 作者&#xff1a;小蜗牛向前冲 名言&#xff1a;我可以接受失败&#xff0c;但我不能接受放弃 如果觉的博主的文章还不错的话&#xff0c;还请点赞&#xff0c;收藏&#xff0c;关注&#x1f440;支持博主。如果发现有问题的地方欢迎❀大家在评论区指正 目录 一、IP协议…...

MySQL问题记录

问题 Ubuntu2204 通过 apt 安装 mysql-server8.0.36 后&#xff0c;数次修改密码不生效&#xff0c;仍可无密码登录。 解决 mysql_native_password 是MySQL 5.7及之前版本使用的默认身份验证插件。在MySQL 8.0及更高版本中&#xff0c;默认的身份验证插件 caching_sha2_pass…...

LeetCode_Java_动态规划系列(1)(题目+思路+代码)

目录 斐波那契类型 746.使用最小花费爬楼梯 矩阵 120. 三角形最小路径和 斐波那契类型 746.使用最小花费爬楼梯 给你一个整数数组 cost &#xff0c;其中 cost[i] 是从楼梯第 i 个台阶向上爬需要支付的费用。一旦你支付此费用&#xff0c;即可选择向上爬一个或者两个台阶。…...

Linux使用Docker部署在线协作白板WBO并结合内网穿透发布公网远程访问

文章目录 前言1. 部署WBO白板2. 本地访问WBO白板3. Linux 安装cpolar4. 配置WBO公网访问地址5. 公网远程访问WBO白板6. 固定WBO白板公网地址 前言 WBO在线协作白板是一个自由和开源的在线协作白板&#xff0c;允许多个用户同时在一个虚拟的大型白板上画图。该白板对所有线上用…...

petalinux烧写image.ub报错

xinlinx SDK烧写petalinux生成的BOOT.BIN和image.ub时&#xff0c;BOOT.BIN烧写正常&#xff0c;image.ub烧写报错如下 Erase Operation failed. INFO: [Xicom 50-44] Elapsed time 0 sec.ERROR: Flash Operation Failed串口助手操作擦除flash如图&#xff1a; 解决方法&am…...

[足式机器人]Part2 Dr. CAN学习笔记-Ch00-2 - 数学知识基础

本文仅供学习使用 本文参考: B站:DR_CAN 《控制之美(卷1)》 王天威 《控制之美(卷2)》 王天威 Dr. CAN学习笔记-Ch00 - 数学知识基础 Part2 4. Ch0-4 线性时不变系统中的冲激响应与卷积4.1 LIT System:Linear Time Invariant4.2 卷积 Convolution4.3 单位冲激 Unit Impulse—…...

【Linux】head命令使用

head命令 head是一个在 Unix 和 Unix-like 操作系统中常用的命令行工具&#xff0c;用于输出文件的前 n 行。默认为 10&#xff0c;即显示 10 行的内容。 语法 head [options] [file(s)] head命令 -Linux手册页 选项及作用 执行令 &#xff1a; head --help 执行命令结果…...

AI在网络安全中的实战应用与ROI优化策略

1. 项目概述"AI与网络安全手册——超越炒作&#xff0c;聚焦投资回报"这个标题直指当前企业技术决策中最棘手的矛盾点&#xff1a;一方面AI技术被包装成解决所有安全问题的银弹&#xff0c;另一方面实际落地时却常陷入投入产出比模糊的困境。作为在安全行业摸爬滚打十…...

django-cacheops模板集成:Django和Jinja2缓存标签完全手册

django-cacheops模板集成&#xff1a;Django和Jinja2缓存标签完全手册 【免费下载链接】django-cacheops A slick ORM cache with automatic granular event-driven invalidation. 项目地址: https://gitcode.com/gh_mirrors/dj/django-cacheops django-cacheops是一个强…...

别再只会用‘blue‘和‘red‘了!Matplotlib plt.scatter颜色参数c的保姆级配色指南

别再只会用blue和red了&#xff01;Matplotlib plt.scatter颜色参数c的保姆级配色指南 当你在Python中用Matplotlib绘制散点图时&#xff0c;是否经常为颜色选择而苦恼&#xff1f;那些默认的蓝色和红色点虽然简单&#xff0c;但在专业报告或论文中往往显得单调乏味。plt.scatt…...

如何突破Intel CPU性能瓶颈:智能电压调节工具的终极指南

如何突破Intel CPU性能瓶颈&#xff1a;智能电压调节工具的终极指南 【免费下载链接】Universal-x86-Tuning-Utility Unlock the full potential of your Intel/AMD based device. 项目地址: https://gitcode.com/gh_mirrors/un/Universal-x86-Tuning-Utility 你是否曾被…...

Python实现移动平均平滑技术的时间序列分析

1. 移动平均平滑技术概述在时间序列分析和预测领域&#xff0c;数据预处理的质量往往直接决定了模型的最终表现。移动平均平滑&#xff08;Moving Average Smoothing&#xff09;作为一种经典且高效的数据平滑技术&#xff0c;通过消除短期波动、突出长期趋势&#xff0c;为后续…...

简单三步:Ollama选择phi3:mini模型,开启你的AI对话初体验

简单三步&#xff1a;Ollama选择phi3:mini模型&#xff0c;开启你的AI对话初体验 1. 引言&#xff1a;为什么选择Phi-3-mini开启AI之旅&#xff1f; 如果你对AI对话模型感兴趣&#xff0c;但又被复杂的部署、庞大的模型和昂贵的硬件要求吓退&#xff0c;那么今天这篇文章就是…...

别再只会用浏览器调试了!手把手教你用Wireshark抓取并解密WebSocket实时聊天数据

从乱码到明文&#xff1a;用Wireshark解密WebSocket聊天数据的实战指南 当你盯着屏幕上那些看似毫无规律的十六进制数据流时&#xff0c;是否曾好奇过这些数字背后隐藏的真实对话内容&#xff1f;作为开发者&#xff0c;我们每天都在与WebSocket打交道&#xff0c;但大多数人只…...

治愈不内卷!星露谷物语v1.6.15,承包你的所有温柔时光

如果你被快节奏的生活压得喘不过气&#xff0c;被内耗裹挟得身心俱疲&#xff0c;那一定要试试《星露谷物语》v1.6.15版本——这款Steam好评率98%的治愈神作&#xff0c;用一方小小农场&#xff0c;给你一个逃离喧嚣的精神避风港。 今天&#xff0c;就有免费的pc资源&#xff1…...

如何用WeChatMsg永久保存你的微信聊天记忆:从数据备份到情感回顾的完整指南

如何用WeChatMsg永久保存你的微信聊天记忆&#xff1a;从数据备份到情感回顾的完整指南 【免费下载链接】WeChatMsg 提取微信聊天记录&#xff0c;将其导出成HTML、Word、CSV文档永久保存&#xff0c;对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitH…...

2026年人工智能专业毕业论文降AI工具推荐:AI技术类论文怎么降AI

2026年人工智能专业毕业论文降AI工具推荐&#xff1a;AI技术类论文怎么降AI 研究生群里聊起AI率的问题&#xff0c;发现十个人里起码六七个都在用工具降。主流的选择其实就那几款&#xff0c;关键是选对了能省很多麻烦。 综合价格和效果&#xff0c;我主推嘎嘎降AI&#xff0…...