当前位置：首页 > news >正文

使用 Scrapy 抓取网页数据

news 2025/7/8 3:11:44

1. Scrapy 简介

Scrapy 是一个流行的 Python 爬虫框架，提供了强大的工具和灵活的扩展机制，用于高效抓取和处理网页数据。它支持异步 I/O，速度快且资源消耗低，非常适合大规模爬取任务。

2. 安装 Scrapy

确保你的 Python 环境版本在 3.7 或以上。

使用 pip 安装：

pip install scrapy

验证安装：

scrapy version

3. 创建 Scrapy 项目

创建一个新的 Scrapy 项目：

scrapy startproject myproject

目录结构：

myproject/scrapy.cfgmyproject/__init__.pyitems.pymiddlewares.pypipelines.pysettings.pyspiders/__init__.py

4. 编写第一个爬虫

进入项目目录并生成爬虫：

scrapy genspider example example.com

生成的文件 spiders/example.py：

import scrapyclass ExampleSpider(scrapy.Spider):name = 'example'allowed_domains = ['example.com']start_urls = ['http://example.com']def parse(self, response):self.log('Visited: ' + response.url)

运行爬虫：

scrapy crawl example

5. 提取数据：XPath 与 CSS 选择器

Scrapy 支持 XPath 和 CSS 选择器用于解析 HTML。以下是两种选择器的简单对比：

XPath 示例：

titles = response.xpath('//h1/text()').getall()

CSS 示例：

titles = response.css('h1::text').getall()

常用方法：

get(): 获取单个匹配的内容。
getall(): 获取所有匹配的内容。
extract_first(): 等价于 .get()。
extract(): 等价于 .getall()。

6. 保存数据

Scrapy 支持将数据导出为 JSON、CSV、XML 等格式。

在终端中导出数据：

scrapy crawl example -o output.json

将数据存储到管道： 编辑 pipelines.py 文件：

class MyProjectPipeline:

def process_item(self, item, spider):

with open('output.txt', 'a') as f:

f.write(str(item) + '\n')

return item

在 settings.py 中启用管道：

ITEM_PIPELINES = { 'myproject.pipelines.MyProjectPipeline': 300, }

7. 处理动态加载的页面

许多现代网站使用 JavaScript 动态渲染内容，Scrapy 默认无法处理这种情况。可以结合以下工具：

Scrapy-Splash：

安装：

pip install scrapy-splash

配置：在 settings.py 中添加：

SPLASH_URL = 'http://localhost:8050'
DOWNLOADER_MIDDLEWARES = {'scrapy_splash.SplashCookiesMiddleware': 723,'scrapy_splash.SplashMiddleware': 725,'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

示例代码：

from scrapy_splash import SplashRequestclass ExampleSpider(scrapy.Spider):name = 'example'start_urls = ['http://example.com']def start_requests(self):for url in self.start_urls:yield SplashRequest(url, self.parse, args={'wait': 3})def parse(self, response):self.log(response.text)

Playwright：

安装：

pip install scrapy-playwright

示例代码：

class ExampleSpider(scrapy.Spider):name = 'example'def start_requests(self):yield scrapy.Request(url='http://example.com',meta={'playwright': True})def parse(self, response):self.log(response.text)

8. 反爬策略与解决方法

设置 User-Agent： 在 settings.py 中添加：

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
处理 Cookies： Scrapy 支持自动管理 Cookies，也可以手动设置：

yield scrapy.Request(url, cookies={'key': 'value'})
请求头伪装：

headers = {

'User-Agent': 'Your User-Agent',

'Referer': 'http://example.com'

}

yield scrapy.Request(url, headers=headers)
降低爬取速度：

DOWNLOAD_DELAY = 2

9. 进阶技巧

多层解析： 如果页面需要多次请求：

def parse(self, response): links = response.xpath('//a/@href').getall() for link in links: yield response.follow(link, self.parse_detail) 
def parse_detail(self, response): self.log(response.url)

使用代理：

PROXY = 'http://your_proxy'

yield scrapy.Request(url, meta={'proxy': PROXY})
分布式爬取： 使用 Scrapy + Redis 实现分布式爬虫。

10. 调试与测试

调试 XPath 或 CSS： 在浏览器开发者工具的 Console 中测试：

$x('//h1/text()') // XPath

document.querySelectorAll('h1') // CSS
Scrapy Shell： 启动交互式调试：

scrapy shell 'http://example.com'

11. 总结

Scrapy 是一个非常强大的爬虫框架，适合从简单的静态页面到复杂的动态加载内容的抓取需求。通过不断优化爬虫的结构和策略，可以更高效地完成数据采集任务。

多层解析： 如果页面需要多次请求：

def parse(self, response):links = response.xpath('//a/@href').getall()for link in links:yield response.follow(link, self.parse_detail)def parse_detail(self, response):self.log(response.url)

使用代理：

PROXY = 'http://your_proxy'

yield scrapy.Request(url, meta={'proxy': PROXY})
分布式爬取： 使用 Scrapy + Redis 实现分布式爬虫。
调试 XPath 或 CSS： 在浏览器开发者工具的 Console 中测试：

// XPath document.querySelectorAll('h1') // CSS

$x('//h1/text()')
Scrapy Shell： 启动交互式调试：

scrapy shell 'http://example.com'

使用 Scrapy 抓取网页数据

1. Scrapy 简介 Scrapy 是一个流行的 Python 爬虫框架，提供了强大的工具和灵活的扩展机制，用于高效抓取和处理网页数据。它支持异步 I/O，速度快且资源消耗低，非常适合大规模爬取任务。 2. 安装 Scrapy 确保你的 Python 环境版本…...

编程日记 2025/2/12 20:43:39

C# OpenCV机器视觉:SoftNMS非极大值抑制

嘿，你知道吗？阿强最近可忙啦！他正在处理一个超级棘手的问题呢，就好像在一个混乱的战场里，到处都是乱糟糟的候选框，这些候选框就像一群调皮的小精灵，有的重叠在一起，让阿强头疼不已。…...

编程日记 2025/2/12 20:42:38

kamailio关于via那点事

如果kamailio作为代理服务器，在转到目的路由时不删除原始的via信息会造成信息泄露如果 Kamailio 作为代理服务器（SIP Proxy）在转发 SIP 请求时不删除原始的 Via 信息，这确实可能会造成信息泄露。 📌 为什么不删除 …...

编程日记 2025/2/12 20:38:33

[MFC] 使用控件

介绍如何使用控件，以及如何获取控件中的数值 check Box 添加点击事件，即选中和取消选中触发的事件第一种方式是按照如下方式第二种方式是直接双击点击进去 void CMFCApplication1Dlg::OnBnClickedCheckSun() {// TODO: 在此添加控件通知处理程序代…...

编程日记 2025/2/12 20:37:32

【探索未来科技】2025年国际学术会议前瞻

【探索未来科技】2025年国际学术会议前瞻【探索未来科技】2025年国际学术会议前瞻文章目录【探索未来科技】2025年国际学术会议前瞻前言1. 第四届电子信息工程、大数据与计算机技术国际学术会议（ EIBDCT 2025）代码示例：机器学习中的线性回…...

编程日记 2025/2/12 20:35:29

使用wpa_supplicant和wpa_cli 扫描wifi热点及配网

一：简要说明交叉编译wpa_supplicant工具后会有wpa_supplicant和wpa_cli两个程序生产，如果知道需要连接的wifi热点及密码的话不需要遍历及查询所有wifi热点的名字及信号强度等信息的话，使用wpa_supplicant即可，否则还需要使用wpa_…...

编程日记 2025/2/12 20:34:28

Sealos的k8s高可用集群搭建

Sealos 介绍](https://sealos.io/zh-Hans/docs/Intro) Sealos 是一个 Go 语言开发的简单干净且轻量的 Kubernetes 集群部署工具，能很好的支持在生产环境中部署高可用的 Kubernetes 集群。 Sealos 特性与优势支持离线安装，工具与部署资源包分离&#…...

编程日记 2025/2/12 20:33:27

1 Linux Android日志系统 1.1 内核logger机制 drivers/staging/android/logger.c static size_t logger_offset( struct logger_log *log, size_t n) { return n & (log->size - 1); } 写的off存在logger_log中（即内核内存buffer）&am…...

编程日记 2025/2/12 20:32:26

【openresty服务器】：源码编译openresty支持ssl，增加service系统服务，开机启动，自己本地签名证书，配置https访问

1，openresty 源码安装，带ssl模块 https://openresty.org/cn/download.html （1）PCRE库 PCRE库支持正则表达式。如果我们在配置文件nginx.conf中使用了正则表达式，那么在编译Nginx时就必须把PCRE库编译进Nginx&#xf…...

编程日记 2025/2/12 20:29:23

如何将网站提交百度收录完整SEO教程

百度收录是中文网站获取流量的重要渠道。本文以我的网站，www.mnxz.fun（当然现在没啥流量） 为例，详细讲解从提交收录到自动化维护的全流程。一、百度收录提交方法 1. 验证网站所有权 1、登录百度搜索资源平台 2、选择「用户中心…...

编程日记 2025/2/12 20:28:21

【STM32】ADC|多通道ADC采集

本次实现的是ADC实现数字信号与模拟信号的转化，数字信号时不连续的，模拟信号是连续的。 1.ADC转化的原理模拟-数字转换技术使用的是逐次逼近法，使用二分比较的方法来确定电压值当单片机对应的参考电压为3.3v时，0~ 3.3v(模拟信…...

编程日记 2025/2/12 20:24:14

蓝桥杯算法日记|贪心、双指针

3412 545 2928 2128 贪心学习总结： 1、一般经常用到sort（a，an）；【a[n]】排序，可以给整数排，也可以给字符串按照字典序排序 2、每次选最优双指针有序数组、字符串、二分查找、数字之和、反转字…...

编程日记 2025/2/12 20:23:11

ArcGIS Pro SDK （二十七）自定义许可

ArcGIS Pro SDK （二十七）自定义许可环境：Visual Studio 2022 + .NET6 + ArcGIS Pro SDK 3.0 文章目录 ArcGIS Pro SDK （二十七）自定义许可1 在Config.xaml中添加扩展配置2 在Module1.cs中实现接口IExtensionConfig1 在Config.xaml中添加扩展配置 <modules><inse…...

编程日记 2025/2/12 20:17:04

通过客户端Chatbox或OpenwebUI访问识别不到本地ollama中的模型等问题的解决

Chatbox和Open WebUI 等无法获取到 Ollama里的模型，主要是由以下原因导致： Ollama 服务未正确暴露给 Docker 容器或客户端模型未正确下载或名称不匹配网络配置或权限问题排查以上问题的思路首先排查ollama服务是否启动，然后再看端口号使…...

编程日记 2025/2/12 20:06:52

速度超越DeepSeek！Le Chat 1100tok/s闪电回答，ChatGPT 4o和DeepSeek R1被秒杀？

2023年，当全球科技界还在ChatGPT引发的AI狂潮中沉浮时，一场来自欧洲的"静默革命"正悄然改变游戏规则。法国人工智能公司Mistral AI推出的聊天机器人Le Chat以"比ChatGPT快10倍"的惊人宣言震动业界，其背后承载的不仅是技术…...

编程日记 2025/2/12 20:04:50

JVM速成=。=

JVM跨平台原理跨平台：一次编译，到处运行本质：不同操作系统上运行的JVM不一样，只需要把java程序编译成一份字节码文件，JVM执行不同的字节码文件。 Java是高级语言，提前编译一下（变成字节码文件…...

编程日记 2025/2/12 20:03:49

Packer 手动修复安装腾讯云插件

文章目录 Packer [腾讯云插件文档](https://developer.hashicorp.com/packer/integrations/hashicorp/tencentcloud) 提供的版本：v1.2.0，目前 Packer 构建镜像时，不支持现有2种[硬盘类型](https://www.tencentcloud.com/zh/document/product/…...

编程日记 2025/2/12 20:01:47

学习总结三十

下头论文 # P10605 下头论文题目背景莲子一直在苦恼关于论文的灵感。她为此花了太多时间，以至于没有时间理会她的伙伴梅莉。题目描述一天，莲子发现了一个绝妙的点子，并希望通过实验等过程将其完善。具体来说，她需要依次完成 n…...

编程日记 2025/2/12 20:00:45

开发完的小程序如何分包

好几次了，终于想起来写个笔记记一下我最开始并不会给小程序分包，然后我就各种搜，发现讲的基本上都是开发之前的小程序分包，可是我都开发完要发布了，提示我说主包太大需要分包，所以我就不会了。。。好了…...

编程日记 2025/2/12 19:57:40

Flutter PIP 插件 ---- Android

在 Flutter Android 应用中实现画中画功能画中画(Picture-in-Picture, PiP)模式允许您的应用在一个固定在屏幕角落的小窗口中运行,同时用户可以与其他应用进行交互。本指南将介绍如何在 Flutter Android 应用中实现画中画功能,包括其局限性和解决方案。项目地址 flutter_p…...

编程日记 2025/2/12 19:56:39

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧一、链表基础概念与内核链表优势1.1 为什么使用链表？1.2 Linux 内核链表与用户态链表的区别二、内核链表结构与宏解析常用宏/函数三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

编程新知 2025/6/21 5:31:03

模型参数、模型存储精度、参数与显存

模型参数量衡量单位 M：百万（Million） B：十亿（Billion） 1 B 1000 M 1B 1000M 1B1000M 参数存储精度模型参数是固定的，但是一个参数所表示多少字节不一定，需要看这个参数以什么…...

编程新知 2025/6/18 8:29:05

2025年能源电力系统与流体力学国际会议 (EPSFD 2025)

2025年能源电力系统与流体力学国际会议（EPSFD 2025）将于本年度在美丽的杭州盛大召开。作为全球能源、电力系统以及流体力学领域的顶级盛会，EPSFD 2025旨在为来自世界各地的科学家、工程师和研究人员提供一个展示最新研究成果、分享实践经验及…...

编程新知 2025/7/7 15:45:25

【入坑系列】TiDB 强制索引在不同库下不生效问题

文章目录背景SQL 优化情况线上SQL运行情况分析怀疑1：执行计划绑定问题？尝试：SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景项目中使用 TiDB 数据库，并对 SQL 进行优化了，添加了强制索引。 UAT 环境已经生效，但 PROD 环境强制索…...

编程新知 2025/7/7 23:29:41

3.3.1_1 检错编码（奇偶校验码）

从这节课开始，我们会探讨数据链路层的差错控制功能，差错控制功能的主要目标是要发现并且解决一个帧内部的位错误，我们需要使用特殊的编码技术去发现帧内部的位错误，当我们发现位错误之后，通常来说有两种解决方案。第一…...

编程新知 2025/7/8 2:39:45

JVM垃圾回收机制全解析

Java虚拟机（JVM）中的垃圾收集器（Garbage Collector，简称GC）是用于自动管理内存的机制。它负责识别和清除不再被程序使用的对象，从而释放内存空间，避免内存泄漏和内存溢出等问题。垃圾收集器在Ja…...

编程新知 2025/6/23 2:48:54

搭建DNS域名解析服务器(正向解析资源文件)

正向解析资源文件 1）准备工作服务端及客户端都关闭安全软件 [rootlocalhost ~]# systemctl stop firewalld [rootlocalhost ~]# setenforce 0 2）服务端安装软件：bind 1.配置yum源 [rootlocalhost ~]# cat /etc/yum.repos.d/base.repo [Base…...

编程新知 2025/7/7 11:11:19

【C++进阶篇】智能指针

C内存管理终极指南：智能指针从入门到源码剖析一. 智能指针1.1 auto_ptr1.2 unique_ptr1.3 shared_ptr1.4 make_shared 二. 原理三. shared_ptr循环引用问题三. 线程安全问题四. 内存泄漏4.1 什么是内存泄漏4.2 危害4.3 避免内存泄漏五. 最后一. 智能指针智能指…...

编程新知 2025/7/6 21:03:27