当前位置: 首页 > news >正文

打破常规思维:Scrapy处理豆瓣视频下载的方式

亿牛云

概述

Scrapy是一个强大的Python爬虫框架,它可以帮助我们快速地开发和部署各种类型的爬虫项目。Scrapy提供了许多方便的功能,例如请求调度、数据提取、数据存储、中间件、管道、信号等,让我们可以专注于业务逻辑,而不用担心底层的细节。

但是,Scrapy也有一些局限性,例如它不能直接处理视频下载的任务。如果我们想要用Scrapy来下载豆瓣视频,我们需要自己编写一些额外的代码,来实现视频数据的获取和保存。而且,由于豆瓣视频有一定的反爬措施,我们还需要使用代理服务器来绕过它们,否则我们可能会被封禁IP或者遭到验证码的干扰。

那么,如何用Scrapy来处理豆瓣视频下载的任务呢?本文将为您介绍一种打破常规思维的方式,让您可以用Scrapy来轻松地下载豆瓣视频,并且使用代理服务器和多线程技术来提高采集效率。

细节

1. 创建Scrapy项目和爬虫

首先,我们需要创建一个Scrapy项目和一个爬虫,用于爬取豆瓣视频的网页。我们可以使用Scrapy的命令行工具来完成这个步骤,例如:

# 创建一个名为douban_video的Scrapy项目
scrapy startproject douban_video# 进入项目目录
cd douban_video# 创建一个名为douban的爬虫,用于爬取豆瓣视频的网页
scrapy genspider douban www.douban.com

这样,我们就创建了一个Scrapy项目和一个爬虫,它们的文件结构如下:

douban_video/
├── douban_video/
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders/
│       ├── __init__.py
│       └── douban.py
└── scrapy.cfg

其中,douban.py是我们的爬虫文件,它的初始代码如下:

# -*- coding: utf-8 -*-
import scrapyclass DoubanSpider(scrapy.Spider):name = 'douban'start_urls = ['https://www.douban.com']def parse(self, response):# 在这里,你可以使用Scrapy的选择器(Selector)来提取视频URL,然后使用Request对象下载视频。pass

2. 设置代理服务器

由于豆瓣视频有一定的反爬措施,我们需要使用代理服务器来绕过它们,否则我们可能会被封禁IP或者遭到验证码的干扰。我们可以使用亿牛云爬虫代理的服务,它提供了稳定的高速代理IP,支持多种协议和认证方式,可以满足我们的需求。

为了使用爬虫代理的服务,我们需要先注册一个账号,然后获取一个域名、端口、用户名和密码,用于连接代理服务器。我们可以在亿牛云爬虫代理的官网www.16yun.cn上找到相关的信息。

假设我们已经获取了以下的信息:

  • 域名:ip.16yun.cn
  • 端口:31111
  • 用户名:16YUN123456
  • 密码:123456

那么,我们可以在Scrapy的settings.py文件中,设置以下的配置项,来启用代理服务器:

# 设置代理服务器的域名和端口
HTTP_PROXY = 'ip.16yun.cn'
HTTP_PROXY_PORT = 31111# 设置代理服务器的用户名和密码
HTTP_PROXY_USER = '16YUN123456'
HTTP_PROXY_PASS = '123456'

然后,我们需要在Scrapy的middlewares.py文件中,编写一个自定义的中间件类,用于给每个请求添加代理服务器的信息。我们可以参考以下的代码:

# -*- coding: utf-8 -*-
import base64
from scrapy import signals
from scrapy.exceptions import NotConfiguredclass ProxyMiddleware(object):# 初始化中间件def __init__(self, proxy, port, user, password):# 保存代理服务器的信息self.proxy = proxyself.port = portself.user = userself.password = password# 从配置文件中读取代理服务器的信息@classmethoddef from_crawler(cls, crawler):# 获取代理服务器的域名和端口proxy = crawler.settings.get('HTTP_PROXY')port = crawler.settings.get('HTTP_PROXY_PORT')# 获取代理服务器的用户名和密码user = crawler.settings.get('HTTP_PROXY_USER')password = crawler.settings.get('HTTP_PROXY_PASS')# 如果没有设置代理服务器的信息,抛出异常if not proxy or not port or not user or not password:raise NotConfigured# 创建中间件实例return cls(proxy, port, user, password)# 处理请求def process_request(self, request, spider):# 给请求添加代理服务器的信息request.meta['proxy'] = f'http://{self.proxy}:{self.port}'# 给请求添加代理服务器的认证信息auth = base64.b64encode(f'{self.user}:{self.password}'.encode()).decode()request.headers['Proxy-Authorization'] = f'Basic {auth}'

最后,我们需要在Scrapy的settings.py文件中,启用我们的自定义中间件类,让它在请求发送之前执行。我们可以在DOWNLOADER_MIDDLEWARES配置项中,添加以下的代码:

# 启用自定义的代理中间件
DOWNLOADER_MIDDLEWARES = {'douban_video.middlewares.ProxyMiddleware': 100,
}

这样,我们就完成了代理服务器的设置,我们可以用Scrapy来爬取豆瓣视频的网页了。

3. 提取视频URL

接下来,我们需要在Scrapy的douban.py文件中,编写我们的爬虫逻辑,用于提取视频URL,然后使用Request对象下载视频。

首先,我们需要定义一个起始URL,用于爬取豆瓣视频的网页。我们可以选择任意一个豆瓣视频的分类页面,例如:

# 定义一个起始URL,用于爬取豆瓣视频的网页
start_urls = ['https://www.douban.com/doulist/16002/']

然后,我们需要在parse方法中,使用Scrapy的选择器(Selector)来提取视频URL,然后使用Request对象下载视频。我们可以参考以下的代码:

def parse(self, response):# 在这里,我们使用Scrapy的选择器(Selector)来提取视频URL,然后使用Request对象下载视频。# 例如,假设视频URL在HTML中的类为`video_url`的标签内:video_url = response.xpath('//*[@class="video_url"]/@href')# 创建一个用于下载视频的Request对象video_request = scrapy.Request(url=video_url, callback=self.save_video)# 返回Request对象yield video_request

这样,我们就完成了视频URL的提取,我们可以用Scrapy来下载视频了。

4. 保存视频

最后,我们需要在Scrapy的douban.py文件中,编写一个回调函数,用于保存视频数据到本地。我们可以参考以下的代码:

def save_video(self, response):# 在这里,我们使用response.body来获取视频数据,并将其保存到本地。# 例如,将视频数据保存到名为`video.mp4`的文件中:with open('video.mp4', 'wb') as f:f.write(response.body)

这样,我们就完成了视频的保存,我们可以用Scrapy来下载豆瓣视频了。

5. 使用多线程技术

为了提高采集效率,我们可以使用多线程技术,让Scrapy同时处理多个请求和响应。Scrapy本身就支持多线程技术,我们只需要在Scrapy的settings.py文件中,设置以下的配置项,来调整线程的数量和延迟:

# 设置每个域名的最大并发请求数
CONCURRENT_REQUESTS_PER_DOMAIN = 10
# 设置每个IP的最大并发请求数
CONCURRENT_REQUESTS_PER_IP = 10
# 设置每个请求之间的延迟时间,单位为秒
DOWNLOAD_DELAY = 0.5

这样,我们就启用了多线程技术,我们可以用Scrapy来快速地下载豆瓣视频了。

总结

本文介绍了一种打破常规思维的方式,让您可以用Scrapy来轻松地下载豆瓣视频,并且使用代理服务器和多线程技术来提高采集效率。我们主要完成了以下的步骤:

  • 创建Scrapy项目和爬虫
  • 设置代理服务器
  • 提取视频URL
  • 保存视频
  • 使用多线程技术

希望本文对您有所帮助,如果您有任何问题或建议,欢迎与我交流。

相关文章:

打破常规思维:Scrapy处理豆瓣视频下载的方式

概述 Scrapy是一个强大的Python爬虫框架,它可以帮助我们快速地开发和部署各种类型的爬虫项目。Scrapy提供了许多方便的功能,例如请求调度、数据提取、数据存储、中间件、管道、信号等,让我们可以专注于业务逻辑,而不用担心底层的…...

系列学习前端之第 2 章:一文精通 HTML

全套学习 HTMLCSSJavaScript 代码和笔记请下载网盘的资料: 链接: https://pan.baidu.com/s/1-vY2anBdrsBSwDZfALZ6FQ 提取码: 6666 HTML 全称:HyperText Markup Language(超文本标记语言) 1、 HTML 标签 1. 标签又称元素&#…...

SCSS Module 这样处理配置和使用太赞了

SCSS Module 只是Scss和Css Module结合,可以利用SCSS对代码静态处理的能力,使得样式处理更强大一些,并不是什么新的东西,对比css-in-js和scoped,个人偏向喜欢Scss Module做样式隔离,先说一下优点&#xff1…...

【Unity动画】Unity 2D动画创建流程

本文以2D为案例,讲解Unity 播放动画的流程 准备和导入2D动画资源 外部导入序列帧生成的 Unity内部制作的 外部导入的3D动画 2.创建动画过程 打开时间轴Ctrl6 选中场景中的一个未来需要播放动画的物体 回到时间轴点击Create一个新动画片段 拖动2D动画资源放入…...

【算法每日一练]-图论(保姆级教程篇12 tarjan篇)#POJ3352道路建设 #POJ2553图的底部 #POJ1236校园网络 #缩点

目录: 今天知识点 加边使得无向图图变成双连通图 找出度为0的强连通分量 加边使得有向图变成强连通图 将有向图转成DAG图进行dp POJ3352:道路建设 思路: POJ2553:图的底部 思路: POJ1236校园网络 思路&#x…...

Python数据科学视频讲解:数据挖掘与建模的注意事项

1.7 数据挖掘与建模的注意事项 视频为《Python数据科学应用从入门到精通》张甜 杨维忠 清华大学出版社一书的随书赠送视频讲解1.7节内容。本书已正式出版上市,当当、京东、淘宝等平台热销中,搜索书名即可。内容涵盖数据科学应用的全流程,包括…...

unity | 动画模块之循环滚动选项框

一、作者的话 评论区有人问,有没有竖排循环轮播选项框,我就写了一个 二、效果动画 如果不是你们想要的,就省的你们继续往下看了 三、制作思路 把移动分成里面的方块,还有背景(父物体),方块自…...

TinyMPC - CMU (卡耐基梅隆大学)开源的机器人 MPC 控制器

系列文章目录 CasADi - 最优控制开源 Python/MATLAB 库 文章目录 系列文章目录前言一、机器人硬件对比1.1 Teensy 上的微控制器基准测试1.2 机器人硬件1.3 BibTeX 二、求解器三、功能(预期)3.1 高效3.2 鲁棒3.3 可嵌入式3.4 最小依赖性3.5 高效热启动3.…...

C++ 对象的初始化和清理:构造函数和析构函数

目录 构造函数和析构函数 构造函数 析构函数 构造函数的分类及调用 括号法 显示法 隐式转换法 拷贝构造函数的调用时机 使用一个已经创建完毕的对象来初始化一个新对象 值传递的方式给函数参数传值 以值方式返回局部对象 构造函数调用规则 初始化列表 类对象作…...

Tmux中使用Docker报错 - 解决方案

问题 进入Tmux会话后,在其中使用Docker可能会出现如下报错: Got permission denied while trying to connect to the Docker ……解决方案 退出tmux会话: tmux detach在tmux会话外部杀掉tmux进程: pkill -f tmux重新进入tmux&#xff1a…...

如何在WordPress中批量替换图片路径?

很多站长在使用WordPress博客或者搬家时,需要把WordPress文章中的图片路径进行替换来解决图片不显示的问题。总结一下WordPress图片路径批量替换的过程,方便有此类需求的站长们学习。 什么情况下批量替换图片路径 1、更换了网站域名 有许多网站建设初期…...

el-pagination 纯前端分页

需求&#xff1a;后端把所有数据都返给前端&#xff0c;前端进行分页渲染。 实现思路&#xff1a;先把数据存储到一个大数组中&#xff0c;然后调用方法进行切割。主要使用数组的slice方法 所有代码&#xff1a; html <template><div style"padding: 20px&qu…...

基于springboot的校园二手市场

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容&#xff1a;毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目介绍…...

【开源】基于Vue和SpringBoot的在线课程教学系统

项目编号&#xff1a; S 014 &#xff0c;文末获取源码。 \color{red}{项目编号&#xff1a;S014&#xff0c;文末获取源码。} 项目编号&#xff1a;S014&#xff0c;文末获取源码。 目录 一、摘要1.1 系统介绍1.2 项目录屏 二、研究内容2.1 课程类型管理模块2.2 课程管理模块2…...

Mysql分布式集群部署---MySQL集群Cluster将数据分成多个片段,每个片段存储在不同的服务器上

1.1 目的 部署MysqlCluster集群环境 1.2 MySQL集群Cluster原理 1 数据分片 MySQL集群Cluster将数据分成多个片段&#xff0c;每个片段存储在不同的服务器上。这样可以将数据负载分散到多个服务器上&#xff0c;提高系统的性能和可扩展性。 2. 数据同步 MySQL集群Cluster使…...

身份认证技术

身份认证是对系统的用户进行有效性、真实性验证。 1&#xff0e;口令认证方式 使用口令认证方式&#xff0c;用户必须具有一个唯一的系统标识&#xff0c;并且保证口令在系统的使用和存储过程中是安全的&#xff0c;同时口令在传输过程中不能被窃取、替换。另外特别要注意的是在…...

Centos7、Mysql8.0 load_file函数返回为空的终极解决方法--暨selinux的深入理解

零、问题背景 最近想换房&#xff0c;为了方便自己对比感兴趣的房子&#xff0c;因此决定将目标房源的基本信息放在表里&#xff0c;特别是要一目了然的看到众多房子的各种图纸和照片&#xff0c;因此决定要在Mysql8.0.34数据库中以二进制形式保存图片&#xff08;抛开合理性和…...

基于Spring Boot的水产养殖管理系统

文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式🍅 作者主页:超级无敌暴龙战士塔塔开 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 🍅文末获取源码联系🍅 项目介绍 基于Spring Boot的水产养殖管理系统,jav…...

LCR 090. 打家劫舍 II(leetcode)动态规划

文章目录 前言一、题目分析二、算法原理1.状态表示2.状态转移方程3.初始化4.填表顺序5.返回值是什么 三、代码实现总结 前言 在本文章中&#xff0c;我们将要详细介绍一下LeetcodeLCR 090. 打家劫舍 II。采用动态规划解决&#xff0c;这是一道经典的多状态dp问题 一、题目分析…...

【小沐学Python】Python实现语音识别(Whisper)

文章目录 1、简介1.1 whisper简介1.2 whisper模型 2、安装2.1 whisper2.2 pytorch2.3 ffmpeg 3、测试3.1 命令测试3.2 代码测试&#xff1a;识别声音文件3.3 代码测试&#xff1a;实时录音识别 结语 1、简介 https://github.com/openai/whisper 1.1 whisper简介 Whisper 是…...

【Python】 -- 趣味代码 - 小恐龙游戏

文章目录 文章目录 00 小恐龙游戏程序设计框架代码结构和功能游戏流程总结01 小恐龙游戏程序设计02 百度网盘地址00 小恐龙游戏程序设计框架 这段代码是一个基于 Pygame 的简易跑酷游戏的完整实现,玩家控制一个角色(龙)躲避障碍物(仙人掌和乌鸦)。以下是代码的详细介绍:…...

Java 8 Stream API 入门到实践详解

一、告别 for 循环&#xff01; 传统痛点&#xff1a; Java 8 之前&#xff0c;集合操作离不开冗长的 for 循环和匿名类。例如&#xff0c;过滤列表中的偶数&#xff1a; List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...

基于uniapp+WebSocket实现聊天对话、消息监听、消息推送、聊天室等功能,多端兼容

基于 ​UniApp + WebSocket​实现多端兼容的实时通讯系统,涵盖WebSocket连接建立、消息收发机制、多端兼容性配置、消息实时监听等功能,适配​微信小程序、H5、Android、iOS等终端 目录 技术选型分析WebSocket协议优势UniApp跨平台特性WebSocket 基础实现连接管理消息收发连接…...

HTML前端开发:JavaScript 常用事件详解

作为前端开发的核心&#xff0c;JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例&#xff1a; 1. onclick - 点击事件 当元素被单击时触发&#xff08;左键点击&#xff09; button.onclick function() {alert("按钮被点击了&#xff01;&…...

k8s业务程序联调工具-KtConnect

概述 原理 工具作用是建立了一个从本地到集群的单向VPN&#xff0c;根据VPN原理&#xff0c;打通两个内网必然需要借助一个公共中继节点&#xff0c;ktconnect工具巧妙的利用k8s原生的portforward能力&#xff0c;简化了建立连接的过程&#xff0c;apiserver间接起到了中继节…...

JVM 内存结构 详解

内存结构 运行时数据区&#xff1a; Java虚拟机在运行Java程序过程中管理的内存区域。 程序计数器&#xff1a; ​ 线程私有&#xff0c;程序控制流的指示器&#xff0c;分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。 ​ 每个线程都有一个程序计数…...

Qemu arm操作系统开发环境

使用qemu虚拟arm硬件比较合适。 步骤如下&#xff1a; 安装qemu apt install qemu-system安装aarch64-none-elf-gcc 需要手动下载&#xff0c;下载地址&#xff1a;https://developer.arm.com/-/media/Files/downloads/gnu/13.2.rel1/binrel/arm-gnu-toolchain-13.2.rel1-x…...

API网关Kong的鉴权与限流:高并发场景下的核心实践

&#x1f525;「炎码工坊」技术弹药已装填&#xff01; 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 引言 在微服务架构中&#xff0c;API网关承担着流量调度、安全防护和协议转换的核心职责。作为云原生时代的代表性网关&#xff0c;Kong凭借其插件化架构…...

高端性能封装正在突破性能壁垒,其芯片集成技术助力人工智能革命。

2024 年&#xff0c;高端封装市场规模为 80 亿美元&#xff0c;预计到 2030 年将超过 280 亿美元&#xff0c;2024-2030 年复合年增长率为 23%。 细分到各个终端市场&#xff0c;最大的高端性能封装市场是“电信和基础设施”&#xff0c;2024 年该市场创造了超过 67% 的收入。…...

raid存储技术

1. 存储技术概念 数据存储架构是对数据存储方式、存储设备及相关组件的组织和规划&#xff0c;涵盖存储系统的布局、数据存储策略等&#xff0c;它明确数据如何存储、管理与访问&#xff0c;为数据的安全、高效使用提供支撑。 由计算机中一组存储设备、控制部件和管理信息调度的…...