当前位置：首页 > news >正文

批量爬取网站图片脚本

news 2026/2/9 0:07:22

不分文件夹

import requests
from bs4 import BeautifulSoup
import os
from concurrent.futures import ThreadPoolExecutordef download_image(img_url):# 检查图片后缀是否为.jpg或.jpegif img_url.lower().endswith(('.jpg', '.jpeg')):try:img_response = requests.get(img_url, stream=True)img_size = int(img_response.headers.get('content-length', 0))if img_size > 50 * 1024:  # 大于50KBfilename = os.path.join(images_dir, img_url.split('/')[-1])with open(filename, 'wb') as f:for chunk in img_response.iter_content(1024):f.write(chunk)print(f"Downloaded {img_url}")except Exception as e:print(f"Error downloading {img_url}: {e}")else:print(f"Skipped {img_url} due to file extension")def download_images_from_page(url):page_response = requests.get(url)page_soup = BeautifulSoup(page_response.content, 'html.parser')images = page_soup.find_all('img')with ThreadPoolExecutor(max_workers=5) as executor:  # 可以调整max_workers来改变线程数for img in images:img_url = img['src']executor.submit(download_image, img_url)def main(base_url, start_path):global images_dirimages_dir = 'images'if not os.path.exists(images_dir):os.makedirs(images_dir)start_url = f"{base_url}/{start_path}"response = requests.get(start_url)soup = BeautifulSoup(response.content, 'html.parser')links = soup.find_all('h3')for link in links:a_tag = link.find('a', href=True)if a_tag:full_url = f"{base_url}/{a_tag['href']}"download_images_from_page(full_url)# 示例中使用的基本URL和开始路径
base_url = 'http://xxxxxxx'
start_path = 'thread6.php?fid=15'if __name__ == "__main__":main(base_url, start_path)

按文件夹分类

import requests
from bs4 import BeautifulSoup
import os
from concurrent.futures import ProcessPoolExecutor
import redef sanitize_folder_name(name):"""清理文件夹名称，移除或替换不合法的文件系统字符。"""return re.sub(r'[\\/*?:"<>|]', '_', name)def download_image(data):img_url, filename_prefix = dataif img_url.lower().endswith(('.jpg', '.jpeg')):try:img_response = requests.get(img_url, stream=True)img_size = int(img_response.headers.get('content-length', 0))if img_size > 20 * 1024:  # 大于20KBfilename = f"{filename_prefix}.jpg"with open(filename, 'wb') as f:for chunk in img_response.iter_content(1024):f.write(chunk)print(f"Downloaded {filename}")except Exception as e:print(f"Error downloading {img_url}: {e}")else:print(f"Skipped {img_url} due to file extension")def download_images_from_page(url, base_dir):page_response = requests.get(url)page_soup = BeautifulSoup(page_response.content, 'html.parser')images = page_soup.find_all('img')img_data = []for i, img in enumerate(images):img_url = img['src']filename_prefix = os.path.join(base_dir, f"{i:04d}")img_data.append((img_url, filename_prefix))with ProcessPoolExecutor(max_workers=4) as executor:  # 调整max_workers来改变进程数executor.map(download_image, img_data)def main(base_url, start_path):global images_dirimages_dir = 'images'if not os.path.exists(images_dir):os.makedirs(images_dir)start_url = f"{base_url}/{start_path}"response = requests.get(start_url)soup = BeautifulSoup(response.content, 'html.parser')links = soup.find_all('h3')for link_index, link in enumerate(links):a_tag = link.find('a', href=True)if a_tag:folder_name = sanitize_folder_name(a_tag.text.strip())full_url = f"{base_url}/{a_tag['href']}"page_dir = os.path.join(images_dir, folder_name)if not os.path.exists(page_dir):os.makedirs(page_dir)download_images_from_page(full_url, page_dir)# 示例中使用的基本URL和开始路径
base_url = 'http://xxx/pw'
start_path = 'thread1022.php?fid=15&page=3'if __name__ == "__main__":main(base_url, start_path)

批量爬取网站图片脚本

不分文件夹 import requests from bs4 import BeautifulSoup import os from concurrent.futures import ThreadPoolExecutordef download_image(img_url):# 检查图片后缀是否为.jpg或.jpegif img_url.lower().endswith((.jpg, .jpeg)):try:img_response requests.get(img_ur…...

编程日记 2024/3/7 18:23:32

scrapy 爬虫：多线程爬取去微博热搜排行榜数据信息，进入详情页面拿取第一条微博信息，保存到本地text文件、保存到excel

如果想要保存到excel中可以看我的这个爬虫使用Scrapy 框架开启多进程爬取贝壳网数据保存到excel文件中，包括分页数据、详情页数据，新手保护期快来看！！仅供学习参考，别乱搞_爬取贝壳成交数据c端用户登录-CSDN博客最终…...

编程日记 2024/3/7 18:20:29

网络、UDP编程

1.网络协议模型: OSI协议模型应用层实际发送的数据表示层发送的数据是否加密会话层是否建立会话连接传输层数据传输的方式（数据报、流式） 网络层 …...

编程日记 2024/3/7 18:19:27

VSCode安装与使用

1、下载地址：Documentation for Visual Studio Code 在 VS Code 中使用 Python - 知乎 (zhihu.com) 自动补全和智能感知检测、调试和单元测试在Python环境(包括虚拟环境和 conda 环境)之间轻松切换在 VS Code 中安装插件非常的简单，只需要打开 VS Code…...

编程日记 2024/3/7 18:17:25

进程和线程的区别与联系

进程和线程是计算机系统中两个重要的概念，它们在操作系统中扮演着不同的角色，并有着不同的特点和用途。以下是详细信息： 进程。进程是操作系统中资源分配的基本单位，它包括程序、数据和进程控制块。每个进程都有自己的地址空间&a…...

编程日记 2024/3/7 18:14:21

6、Redis-KV设计、全局命令和安全性

目录一、value设计二、Key设计三、全局命令——针对所有key 四、安全性一、value设计 ①是否需要排序？需要：Zset ②需要缓存的数据是单个值还是多个值？ 单个值：简单值---String；对象值---Hash多个值&#x…...

编程日记 2024/3/7 18:13:20

python之海龟绘图

海龟绘图（turtle）是一个Python内置的绘图库，也被称为“Turtle Graphics”或简称“Turtles”。它采用了一种有趣的绘图方式，模拟一只小海龟在屏幕上爬行，而小海龟爬行的路径就形成了绘制的图形。这种绘图方式最初源自20…...

编程日记 2024/3/7 18:11:18

Java实战：Spring Boot 实现异步记录复杂日志

日志记录是软件开发中非常重要的一环，它可以帮助我们快速定位问题、监控程序运行状态等。在 Spring Boot 应用中，异步记录日志是一种常见的需求。本文将详细介绍如何在 Spring Boot 中实现异步记录复杂日志，包括异步日志的基本原理、实现方式…...

编程日记 2024/3/7 18:10:17

“色狼”用英语怎么说？柯桥日常英语，成人英语口语学习

最近有粉丝问我"色狼"英文翻译是啥首先声明不是"colour wolf"哈关于“色狼”的英文表达有很多快和C姐一起来看看吧！ 1.pervert 这个单词的意思是变态、色狼是对性变态者最直观的描述 He is such a pervert！ I saw him lo…...

编程日记 2024/3/7 18:09:16

Docker前后端项目部署

目录一、搭建项目部署的局域网二、redis安装三、MySQL安装四、若依后端项目搭建 4.1 使用Dockerfile自定义镜像五、若依前端项目搭建一、介绍前后端项目一张图带你看懂ruoyi的前后端项目部署得出结论：需要4台服务器，都处于同一个局域网中…...

编程日记 2024/3/7 18:08:14

如何快速的搭建一个小程序

要快速搭建一个小程序，你可以按照以下步骤进行： 明确目标和需求：在开始搭建小程序之前，首先明确你的小程序的主要功能、目标用户以及希望实现的业务需求。这将帮助你更好地规划和设计小程序。选择小程序平台：根据你的…...

编程日记 2024/3/7 18:06:12

STM32自学☞AD多通道

涉及到的硬件有：光敏传感器，热敏传感器，红外对射传感器，电位器通过adc将他们采集的模拟信号转换为数值 ad.c文件 #include "stm32f10x.h" #include "stm32f10x_adc.h" #include "ad.h" #inc…...

编程日记 2024/3/7 18:05:11

微服务之商城系统

一、商城系统建立之前的一些配置 1、nacos Nacos是一个功能丰富的开源平台，用于配置管理、服务发现和注册、健康检查等，帮助构建和管理分布式系统。在linux上安装nacos容器的命令： docker run --name nacos-standalone -e MODEstandalone …...

编程日记 2024/3/7 18:04:10

安卓玩机工具推荐----高通芯片9008端口读写分区备份分区恢复分区制作线刷包工具操作解析

上期解析了下adb端口备份分区的有关操作安卓玩机工具推荐----ADB状态读写分区备份分区恢复分区查看分区号工具操作解析在以往的博文中对于高通芯片机型的分区读写已经分享了很多。相关类似博文安卓备份分区----手动查询安卓系统分区信息导出系统分区的一些基本操作 …...

编程日记 2024/3/7 18:03:08

全量知识系统问题及SmartChat给出的答复之16 币圈生态链和行为模式

Q.42 币圈生态链和行为模式我认为，上面和“币”有关的一系列概念和技术，按设计模式的划分 ，整体应该都属于行为模式，而且应该囊括行为模式的所有各个方面。而行为又可以按照三种不同的导向（以目的或用途为导向、过…...

编程日记 2024/3/7 17:57:01

【MOMO_Tips】批量将word转换为PDF格式

批量将word转换为PDF格式 1.打开文件–>选项–>自定义功能区–>开发工具–>确定 2.点开开发工具，选择第一个visual basic 3.进入页面后找到插入–>模块，就可以看到这样的画面之后将下列vba代码复制粘贴到模块中 Sub ConvertWordsToPd…...

编程日记 2024/3/7 17:56:00

【JSON2WEB】08 Amis的事件和校验

【JSON2WEB】01 WEB管理信息系统架构设计【JSON2WEB】02 JSON2WEB初步UI设计【JSON2WEB】03 go的模板包html/template的使用【JSON2WEB】04 amis低代码前端框架介绍【JSON2WEB】05 前端开发三件套 HTML CSS JavaScript 速成【JSON2WEB】06 JSON2WEB前端框架搭建【J…...

编程日记 2024/3/7 17:53:58

抖店类目报白什么意思？什么类目需要报白？这次给你讲明白！

我是电商珠珠不少新手在选择类目的时候，有些类目却无法选择，系统显示需要报白才可以。那什么是报白？怎么报白？今天我就一次性给你们讲清楚。抖店类目报白什么意思？ 根据官方的说法，报白就是针对一些比…...

编程日记 2024/3/7 17:50:55

＜C++＞【继承篇】

✨前言✨ 🎓作者：【教主】 📜文章推荐： ☕博主水平有限，如有错误，恳请斧正。 📌机会总是留给有准备的人，越努力，越幸运！ 💦导航助手&#x1…...

编程日记 2024/3/7 17:47:52

size_t 和double相乘怎么转换size_t

在C中，size_t和double可以直接相乘，结果会自动转换为double类型。如果你想要得到的结果是size_t类型，你需要进行显式类型转换。但是要注意，double转size_t可能会丢失小数部分，只保留整数部分。以下是一个例子&#x…...

编程日记 2024/3/7 17:46:51

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

使用rpicam-app通过网络流式传输视频使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素文章来源： http://raspberry.dns8844.cn/documentation 原文网址使用 rpicam-app 通过网络流式传输视频本节介绍来自 rpica…...

编程新知 2025/11/5 13:03:58

【配置 YOLOX 用于按目录分类的图片数据集】

现在的图标点选越来越多，如何一步解决，采用 YOLOX 目标检测模式则可以轻松解决要在 YOLOX 中使用按目录分类的图片数据集（每个目录代表一个类别，目录下是该类别的所有图片），你需要进行以下配置步骤&#x…...

编程新知 2026/1/30 4:52:56

中医有效性探讨

文章目录西医是如何发展到以生物化学为药理基础的现代医学？传统医学奠基期（远古 - 17 世纪）近代医学转型期（17 世纪 - 19 世纪末）现代医学成熟期（20世纪至今） 中医的源远流长和一脉相承远古至…...

编程新知 2026/1/23 7:56:54

Go 并发编程基础：通道（Channel）的使用

在 Go 中，Channel 是 Goroutine 之间通信的核心机制。它提供了一个线程安全的通信方式，用于在多个 Goroutine 之间传递数据，从而实现高效的并发编程。本章将介绍 Channel 的基本概念、用法、缓冲、关闭机制以及 select 的使用。一、Channel…...

编程新知 2025/12/4 8:54:35

JavaScript 数据类型详解

JavaScript 数据类型详解 JavaScript 数据类型分为原始类型（Primitive） 和对象类型（Object） 两大类，共 8 种（ES11）： 一、原始类型（7种） 1. undefined 定…...

编程新知 2025/12/25 4:05:41

GO协程(Goroutine)问题总结

在使用Go语言来编写代码时，遇到的一些问题总结一下 [参考文档]：https://www.topgoer.com/%E5%B9%B6%E5%8F%91%E7%BC%96%E7%A8%8B/goroutine.html 1. main()函数默认的Goroutine 场景再现： 今天在看到这个教程的时候，在自己的电…...

编程新知 2026/1/31 6:53:53

Chrome 浏览器前端与客户端双向通信实战

Chrome 前端（即页面 JS / Web UI）与客户端（C 后端）的交互机制，是 Chromium 架构中非常核心的一环。下面我将按常见场景，从通道、流程、技术栈几个角度做一套完整的分析，特别适合你这种在分析和改…...

编程新知 2026/2/4 16:47:57

mac：大模型系列测试

0 MAC 前几天经过学生优惠以及国补17K入手了mac studio,然后这两天亲自测试其模型行运用能力如何，是否支持微调、推理速度等能力。下面进入正文。 1 mac 与 unsloth 按照下面的进行安装以及测试，是可以跑通文章里面的代码。训练速度也是很快的。注意…...

编程新知 2026/2/4 0:46:21

【Veristand】Veristand环境安装教程-Linux RT / Windows

首先声明，此教程是针对Simulink编译模型并导入Veristand中编写的，同时需要注意的是老用户编译可能用的是Veristand Model Framework，那个是历史版本，且NI不会再维护，新版本编译支持为VeriStand Model Generation Suppo…...

编程新知 2026/2/5 20:04:55

Java数组Arrays操作全攻略

Arrays类的概述 Java中的Arrays类位于java.util包中，提供了一系列静态方法用于操作数组（如排序、搜索、填充、比较等）。这些方法适用于基本类型数组和对象数组。常用成员方法及代码示例排序（sort） 对数组进行升序…...

编程新知 2026/1/22 13:36:20

相关文章：