打破常规思维:Scrapy处理豆瓣视频下载的方式

概述
Scrapy是一个强大的Python爬虫框架,它可以帮助我们快速地开发和部署各种类型的爬虫项目。Scrapy提供了许多方便的功能,例如请求调度、数据提取、数据存储、中间件、管道、信号等,让我们可以专注于业务逻辑,而不用担心底层的细节。
但是,Scrapy也有一些局限性,例如它不能直接处理视频下载的任务。如果我们想要用Scrapy来下载豆瓣视频,我们需要自己编写一些额外的代码,来实现视频数据的获取和保存。而且,由于豆瓣视频有一定的反爬措施,我们还需要使用代理服务器来绕过它们,否则我们可能会被封禁IP或者遭到验证码的干扰。
那么,如何用Scrapy来处理豆瓣视频下载的任务呢?本文将为您介绍一种打破常规思维的方式,让您可以用Scrapy来轻松地下载豆瓣视频,并且使用代理服务器和多线程技术来提高采集效率。
细节
1. 创建Scrapy项目和爬虫
首先,我们需要创建一个Scrapy项目和一个爬虫,用于爬取豆瓣视频的网页。我们可以使用Scrapy的命令行工具来完成这个步骤,例如:
# 创建一个名为douban_video的Scrapy项目
scrapy startproject douban_video# 进入项目目录
cd douban_video# 创建一个名为douban的爬虫,用于爬取豆瓣视频的网页
scrapy genspider douban www.douban.com
这样,我们就创建了一个Scrapy项目和一个爬虫,它们的文件结构如下:
douban_video/
├── douban_video/
│ ├── __init__.py
│ ├── items.py
│ ├── middlewares.py
│ ├── pipelines.py
│ ├── settings.py
│ └── spiders/
│ ├── __init__.py
│ └── douban.py
└── scrapy.cfg
其中,douban.py是我们的爬虫文件,它的初始代码如下:
# -*- coding: utf-8 -*-
import scrapyclass DoubanSpider(scrapy.Spider):name = 'douban'start_urls = ['https://www.douban.com']def parse(self, response):# 在这里,你可以使用Scrapy的选择器(Selector)来提取视频URL,然后使用Request对象下载视频。pass
2. 设置代理服务器
由于豆瓣视频有一定的反爬措施,我们需要使用代理服务器来绕过它们,否则我们可能会被封禁IP或者遭到验证码的干扰。我们可以使用亿牛云爬虫代理的服务,它提供了稳定的高速代理IP,支持多种协议和认证方式,可以满足我们的需求。
为了使用爬虫代理的服务,我们需要先注册一个账号,然后获取一个域名、端口、用户名和密码,用于连接代理服务器。我们可以在亿牛云爬虫代理的官网www.16yun.cn上找到相关的信息。
假设我们已经获取了以下的信息:
- 域名:
ip.16yun.cn - 端口:
31111 - 用户名:
16YUN123456 - 密码:
123456
那么,我们可以在Scrapy的settings.py文件中,设置以下的配置项,来启用代理服务器:
# 设置代理服务器的域名和端口
HTTP_PROXY = 'ip.16yun.cn'
HTTP_PROXY_PORT = 31111# 设置代理服务器的用户名和密码
HTTP_PROXY_USER = '16YUN123456'
HTTP_PROXY_PASS = '123456'
然后,我们需要在Scrapy的middlewares.py文件中,编写一个自定义的中间件类,用于给每个请求添加代理服务器的信息。我们可以参考以下的代码:
# -*- coding: utf-8 -*-
import base64
from scrapy import signals
from scrapy.exceptions import NotConfiguredclass ProxyMiddleware(object):# 初始化中间件def __init__(self, proxy, port, user, password):# 保存代理服务器的信息self.proxy = proxyself.port = portself.user = userself.password = password# 从配置文件中读取代理服务器的信息@classmethoddef from_crawler(cls, crawler):# 获取代理服务器的域名和端口proxy = crawler.settings.get('HTTP_PROXY')port = crawler.settings.get('HTTP_PROXY_PORT')# 获取代理服务器的用户名和密码user = crawler.settings.get('HTTP_PROXY_USER')password = crawler.settings.get('HTTP_PROXY_PASS')# 如果没有设置代理服务器的信息,抛出异常if not proxy or not port or not user or not password:raise NotConfigured# 创建中间件实例return cls(proxy, port, user, password)# 处理请求def process_request(self, request, spider):# 给请求添加代理服务器的信息request.meta['proxy'] = f'http://{self.proxy}:{self.port}'# 给请求添加代理服务器的认证信息auth = base64.b64encode(f'{self.user}:{self.password}'.encode()).decode()request.headers['Proxy-Authorization'] = f'Basic {auth}'
最后,我们需要在Scrapy的settings.py文件中,启用我们的自定义中间件类,让它在请求发送之前执行。我们可以在DOWNLOADER_MIDDLEWARES配置项中,添加以下的代码:
# 启用自定义的代理中间件
DOWNLOADER_MIDDLEWARES = {'douban_video.middlewares.ProxyMiddleware': 100,
}
这样,我们就完成了代理服务器的设置,我们可以用Scrapy来爬取豆瓣视频的网页了。
3. 提取视频URL
接下来,我们需要在Scrapy的douban.py文件中,编写我们的爬虫逻辑,用于提取视频URL,然后使用Request对象下载视频。
首先,我们需要定义一个起始URL,用于爬取豆瓣视频的网页。我们可以选择任意一个豆瓣视频的分类页面,例如:
# 定义一个起始URL,用于爬取豆瓣视频的网页
start_urls = ['https://www.douban.com/doulist/16002/']
然后,我们需要在parse方法中,使用Scrapy的选择器(Selector)来提取视频URL,然后使用Request对象下载视频。我们可以参考以下的代码:
def parse(self, response):# 在这里,我们使用Scrapy的选择器(Selector)来提取视频URL,然后使用Request对象下载视频。# 例如,假设视频URL在HTML中的类为`video_url`的标签内:video_url = response.xpath('//*[@class="video_url"]/@href')# 创建一个用于下载视频的Request对象video_request = scrapy.Request(url=video_url, callback=self.save_video)# 返回Request对象yield video_request
这样,我们就完成了视频URL的提取,我们可以用Scrapy来下载视频了。
4. 保存视频
最后,我们需要在Scrapy的douban.py文件中,编写一个回调函数,用于保存视频数据到本地。我们可以参考以下的代码:
def save_video(self, response):# 在这里,我们使用response.body来获取视频数据,并将其保存到本地。# 例如,将视频数据保存到名为`video.mp4`的文件中:with open('video.mp4', 'wb') as f:f.write(response.body)
这样,我们就完成了视频的保存,我们可以用Scrapy来下载豆瓣视频了。
5. 使用多线程技术
为了提高采集效率,我们可以使用多线程技术,让Scrapy同时处理多个请求和响应。Scrapy本身就支持多线程技术,我们只需要在Scrapy的settings.py文件中,设置以下的配置项,来调整线程的数量和延迟:
# 设置每个域名的最大并发请求数
CONCURRENT_REQUESTS_PER_DOMAIN = 10
# 设置每个IP的最大并发请求数
CONCURRENT_REQUESTS_PER_IP = 10
# 设置每个请求之间的延迟时间,单位为秒
DOWNLOAD_DELAY = 0.5
这样,我们就启用了多线程技术,我们可以用Scrapy来快速地下载豆瓣视频了。
总结
本文介绍了一种打破常规思维的方式,让您可以用Scrapy来轻松地下载豆瓣视频,并且使用代理服务器和多线程技术来提高采集效率。我们主要完成了以下的步骤:
- 创建Scrapy项目和爬虫
- 设置代理服务器
- 提取视频URL
- 保存视频
- 使用多线程技术
希望本文对您有所帮助,如果您有任何问题或建议,欢迎与我交流。
相关文章:
打破常规思维:Scrapy处理豆瓣视频下载的方式
概述 Scrapy是一个强大的Python爬虫框架,它可以帮助我们快速地开发和部署各种类型的爬虫项目。Scrapy提供了许多方便的功能,例如请求调度、数据提取、数据存储、中间件、管道、信号等,让我们可以专注于业务逻辑,而不用担心底层的…...
系列学习前端之第 2 章:一文精通 HTML
全套学习 HTMLCSSJavaScript 代码和笔记请下载网盘的资料: 链接: https://pan.baidu.com/s/1-vY2anBdrsBSwDZfALZ6FQ 提取码: 6666 HTML 全称:HyperText Markup Language(超文本标记语言) 1、 HTML 标签 1. 标签又称元素&#…...
SCSS Module 这样处理配置和使用太赞了
SCSS Module 只是Scss和Css Module结合,可以利用SCSS对代码静态处理的能力,使得样式处理更强大一些,并不是什么新的东西,对比css-in-js和scoped,个人偏向喜欢Scss Module做样式隔离,先说一下优点࿱…...
【Unity动画】Unity 2D动画创建流程
本文以2D为案例,讲解Unity 播放动画的流程 准备和导入2D动画资源 外部导入序列帧生成的 Unity内部制作的 外部导入的3D动画 2.创建动画过程 打开时间轴Ctrl6 选中场景中的一个未来需要播放动画的物体 回到时间轴点击Create一个新动画片段 拖动2D动画资源放入…...
【算法每日一练]-图论(保姆级教程篇12 tarjan篇)#POJ3352道路建设 #POJ2553图的底部 #POJ1236校园网络 #缩点
目录: 今天知识点 加边使得无向图图变成双连通图 找出度为0的强连通分量 加边使得有向图变成强连通图 将有向图转成DAG图进行dp POJ3352:道路建设 思路: POJ2553:图的底部 思路: POJ1236校园网络 思路&#x…...
Python数据科学视频讲解:数据挖掘与建模的注意事项
1.7 数据挖掘与建模的注意事项 视频为《Python数据科学应用从入门到精通》张甜 杨维忠 清华大学出版社一书的随书赠送视频讲解1.7节内容。本书已正式出版上市,当当、京东、淘宝等平台热销中,搜索书名即可。内容涵盖数据科学应用的全流程,包括…...
unity | 动画模块之循环滚动选项框
一、作者的话 评论区有人问,有没有竖排循环轮播选项框,我就写了一个 二、效果动画 如果不是你们想要的,就省的你们继续往下看了 三、制作思路 把移动分成里面的方块,还有背景(父物体),方块自…...
TinyMPC - CMU (卡耐基梅隆大学)开源的机器人 MPC 控制器
系列文章目录 CasADi - 最优控制开源 Python/MATLAB 库 文章目录 系列文章目录前言一、机器人硬件对比1.1 Teensy 上的微控制器基准测试1.2 机器人硬件1.3 BibTeX 二、求解器三、功能(预期)3.1 高效3.2 鲁棒3.3 可嵌入式3.4 最小依赖性3.5 高效热启动3.…...
C++ 对象的初始化和清理:构造函数和析构函数
目录 构造函数和析构函数 构造函数 析构函数 构造函数的分类及调用 括号法 显示法 隐式转换法 拷贝构造函数的调用时机 使用一个已经创建完毕的对象来初始化一个新对象 值传递的方式给函数参数传值 以值方式返回局部对象 构造函数调用规则 初始化列表 类对象作…...
Tmux中使用Docker报错 - 解决方案
问题 进入Tmux会话后,在其中使用Docker可能会出现如下报错: Got permission denied while trying to connect to the Docker ……解决方案 退出tmux会话: tmux detach在tmux会话外部杀掉tmux进程: pkill -f tmux重新进入tmux:…...
如何在WordPress中批量替换图片路径?
很多站长在使用WordPress博客或者搬家时,需要把WordPress文章中的图片路径进行替换来解决图片不显示的问题。总结一下WordPress图片路径批量替换的过程,方便有此类需求的站长们学习。 什么情况下批量替换图片路径 1、更换了网站域名 有许多网站建设初期…...
el-pagination 纯前端分页
需求:后端把所有数据都返给前端,前端进行分页渲染。 实现思路:先把数据存储到一个大数组中,然后调用方法进行切割。主要使用数组的slice方法 所有代码: html <template><div style"padding: 20px&qu…...
基于springboot的校园二手市场
博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目介绍…...
【开源】基于Vue和SpringBoot的在线课程教学系统
项目编号: S 014 ,文末获取源码。 \color{red}{项目编号:S014,文末获取源码。} 项目编号:S014,文末获取源码。 目录 一、摘要1.1 系统介绍1.2 项目录屏 二、研究内容2.1 课程类型管理模块2.2 课程管理模块2…...
Mysql分布式集群部署---MySQL集群Cluster将数据分成多个片段,每个片段存储在不同的服务器上
1.1 目的 部署MysqlCluster集群环境 1.2 MySQL集群Cluster原理 1 数据分片 MySQL集群Cluster将数据分成多个片段,每个片段存储在不同的服务器上。这样可以将数据负载分散到多个服务器上,提高系统的性能和可扩展性。 2. 数据同步 MySQL集群Cluster使…...
身份认证技术
身份认证是对系统的用户进行有效性、真实性验证。 1.口令认证方式 使用口令认证方式,用户必须具有一个唯一的系统标识,并且保证口令在系统的使用和存储过程中是安全的,同时口令在传输过程中不能被窃取、替换。另外特别要注意的是在…...
Centos7、Mysql8.0 load_file函数返回为空的终极解决方法--暨selinux的深入理解
零、问题背景 最近想换房,为了方便自己对比感兴趣的房子,因此决定将目标房源的基本信息放在表里,特别是要一目了然的看到众多房子的各种图纸和照片,因此决定要在Mysql8.0.34数据库中以二进制形式保存图片(抛开合理性和…...
基于Spring Boot的水产养殖管理系统
文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式🍅 作者主页:超级无敌暴龙战士塔塔开 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 🍅文末获取源码联系🍅 项目介绍 基于Spring Boot的水产养殖管理系统,jav…...
LCR 090. 打家劫舍 II(leetcode)动态规划
文章目录 前言一、题目分析二、算法原理1.状态表示2.状态转移方程3.初始化4.填表顺序5.返回值是什么 三、代码实现总结 前言 在本文章中,我们将要详细介绍一下LeetcodeLCR 090. 打家劫舍 II。采用动态规划解决,这是一道经典的多状态dp问题 一、题目分析…...
【小沐学Python】Python实现语音识别(Whisper)
文章目录 1、简介1.1 whisper简介1.2 whisper模型 2、安装2.1 whisper2.2 pytorch2.3 ffmpeg 3、测试3.1 命令测试3.2 代码测试:识别声音文件3.3 代码测试:实时录音识别 结语 1、简介 https://github.com/openai/whisper 1.1 whisper简介 Whisper 是…...
Linux应用开发之网络套接字编程(实例篇)
服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...
web vue 项目 Docker化部署
Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段: 构建阶段(Build Stage):…...
RocketMQ延迟消息机制
两种延迟消息 RocketMQ中提供了两种延迟消息机制 指定固定的延迟级别 通过在Message中设定一个MessageDelayLevel参数,对应18个预设的延迟级别指定时间点的延迟级别 通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后…...
鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院挂号小程序
一、开发准备 环境搭建: 安装DevEco Studio 3.0或更高版本配置HarmonyOS SDK申请开发者账号 项目创建: File > New > Create Project > Application (选择"Empty Ability") 二、核心功能实现 1. 医院科室展示 /…...
第25节 Node.js 断言测试
Node.js的assert模块主要用于编写程序的单元测试时使用,通过断言可以提早发现和排查出错误。 稳定性: 5 - 锁定 这个模块可用于应用的单元测试,通过 require(assert) 可以使用这个模块。 assert.fail(actual, expected, message, operator) 使用参数…...
DBAPI如何优雅的获取单条数据
API如何优雅的获取单条数据 案例一 对于查询类API,查询的是单条数据,比如根据主键ID查询用户信息,sql如下: select id, name, age from user where id #{id}API默认返回的数据格式是多条的,如下: {&qu…...
EtherNet/IP转DeviceNet协议网关详解
一,设备主要功能 疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络,本网关连接到EtherNet/IP总线中做为从站使用,连接到DeviceNet总线中做为从站使用。 在自动…...
Unit 1 深度强化学习简介
Deep RL Course ——Unit 1 Introduction 从理论和实践层面深入学习深度强化学习。学会使用知名的深度强化学习库,例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。在独特的环境中训练智能体,比如 SnowballFight、Huggy the Do…...
Map相关知识
数据结构 二叉树 二叉树,顾名思义,每个节点最多有两个“叉”,也就是两个子节点,分别是左子 节点和右子节点。不过,二叉树并不要求每个节点都有两个子节点,有的节点只 有左子节点,有的节点只有…...
在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的?
uni-app 中 Web-view 与 Vue 页面的通讯机制详解 一、Web-view 简介 Web-view 是 uni-app 提供的一个重要组件,用于在原生应用中加载 HTML 页面: 支持加载本地 HTML 文件支持加载远程 HTML 页面实现 Web 与原生的双向通讯可用于嵌入第三方网页或 H5 应…...
