当前位置：首页 > news >正文

Scrapy爬取heima论坛所有页面内容并保存到数据库中

news 2025/11/5 2:08:46

前期准备：

Scrapy入门_win10安装scrapy-CSDN博客

新建 Scrapy项目

scrapy startproject mySpider03 # 项目名为mySpider03

进入到spiders目录

cd mySpider03/mySpider03/spiders

创建爬虫

scrapy genspider heima bbs.itheima.com # 爬虫名为heima ，爬取域为bbs.itheima.com

制作爬虫

items.py:

import scrapyclass heimaItem(scrapy.Item):title = scrapy.Field()url = scrapy.Field()

heima.py:

import scrapy
from scrapy.selector import Selector
from mySpider03.items import heimaItemclass HeimaSpider(scrapy.Spider):name = 'heima'allowed_domains = ['bbs.itheima.com']start_urls = ['http://bbs.itheima.com/forum-425-1.html']def parse(self, response):print('response.url: ', response.url)selector = Selector(response)node_list = selector.xpath("//th[@class='new forumtit'] | //th[@class='common forumtit']")for node in node_list:# 文章标题title = node.xpath('./a[1]/text()')[0].extract()# 文章链接url = node.xpath('./a[1]/@href')[0].extract()# 创建heimaItem类item = heimaItem()item['title'] = titleitem['url'] = urlyield item

pipelines.py:

from itemadapter import ItemAdapter
from pymongo import MongoClientclass heimaPipeline:def open_spider(self, spider):# MongoDB 连接设置  self.MONGO_URI = 'mongodb://localhost:27017/'  self.DB_NAME = 'heima'  # 数据库名称  self.COLLECTION_NAME = 'heimaNews'  # 集合名称self.client = MongoClient(self.MONGO_URI)self.db = self.client[self.DB_NAME]self.collection = self.db[self.COLLECTION_NAME]# 如果集合中已有数据，清空集合self.collection.delete_many({})print('爬取开始')def process_item(self, item, spider):title = item['title']url = item['url']# 将item转换为字典item_dict = {'title': title,'url': url,}# 插入数据self.collection.insert_one(item_dict)return item   def close_spider(self, spider):print('爬取结束，显示数据库中所有元素')cursor = self.collection.find()for document in cursor:print(document)self.client.close()

settings.py，解开ITEM_PIPELINES的注释，并修改其内容:

ITEM_PIPELINES = {

'mySpider03.pipelines.heimaPipeline': 300,

}

创建run.py:

from scrapy import cmdlinecmdline.execute("scrapy crawl heima -s LOG_ENABLED=False".split())# cd mySpider03/mySpider03/spiders

运行run.py文件，即可实现爬取第一页'http://bbs.itheima.com/forum-425-1.html'内容并保存到数据库中的功能。

结果如下图：

爬取到了50条数据。

爬取所有页面

方法一：通过获取下一页url地址的方法爬取所有页面。

在heima.py的parse方法结尾加上以下内容：

# 获取下一页的链接

if '下一页' in response.text:

next_url = selector.xpath("//a[@class='nxt']/@href").extract()[0]

yield scrapy.Request(next_url, callback=self.parse)

即heima.py：

import scrapy
from scrapy.selector import Selector
from mySpider03.items import heimaItemclass HeimaSpider(scrapy.Spider):name = 'heima'allowed_domains = ['bbs.itheima.com']start_urls = ['http://bbs.itheima.com/forum-425-1.html']def parse(self, response):print('response.url: ', response.url)selector = Selector(response)node_list = selector.xpath("//th[@class='new forumtit'] | //th[@class='common forumtit']")for node in node_list:# 文章标题title = node.xpath('./a[1]/text()')[0].extract()# 文章链接url = node.xpath('./a[1]/@href')[0].extract()# 创建heimaItem类item = heimaItem()item['title'] = titleitem['url'] = urlyield item# 获取下一页的链接if '下一页' in response.text:next_url = selector.xpath("//a[@class='nxt']/@href").extract()[0]yield scrapy.Request(next_url, callback=self.parse)

爬取结果：

爬取到了70页，一共3466条数据。

# 在cmd中输入以下命令，查看数据库中的数据：
> mongosh # 启动mongoDB
> show dbs # 查看所有数据库
> use heima # 使用heima数据库
> db.stats() # 查看当前数据库的信息
> db.heimaNews.find() # 查看heimaNews集合中的所有文档

方法二：使用crawlspider提取url链接

新建crawlspider类的爬虫

scrapy genspider -t crawl heimaCrawl bbs.itheima.com

# 爬虫名为heimaCrawl ，爬取域为bbs.itheima.com

2.1在rules中通过xpath提取链接

修改heimaCrawl.py文件：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from mySpider03.items import heimaItemclass HeimacrawlSpider(CrawlSpider):name = 'heimaCrawl'allowed_domains = ['bbs.itheima.com']start_urls = ['http://bbs.itheima.com/forum-425-1.html']rules = (Rule(LinkExtractor(restrict_xpaths=r'//a[@class="nxt"]'), callback='parse_item', follow=True),)# 处理起始页面内容，如果不重写该方法，则只爬取满足rules规则的链接，不会爬取起始页面内容def parse_start_url(self, response):# 调用 parse_item 处理起始页面return self.parse_item(response)def parse_item(self, response):print('CrawlSpider的response.url: ', response.url)node_list = response.xpath("//th[@class='new forumtit'] | //th[@class='common forumtit']")for node in node_list:# 文章标题title = node.xpath('./a[1]/text()')[0].extract()# 文章链接url = node.xpath('./a[1]/@href')[0].extract()# 创建heimaItem类item = heimaItem()item['title'] = titleitem['url'] = urlyield item

修改run.py:

# heimaCrawl

cmdline.execute("scrapy crawl heimaCrawl -s LOG_ENABLED=False".split())

爬取结果：

爬取到全部70页，一共3466条数据。

2.2在rules中通过正则表达式提取链接

修改heimaCrawl.py文件：

rules = (

Rule(LinkExtractor(allow=r'forum-425-\d+\.html'), callback='parse_item', follow=True),

)

结果：

一共爬取到3516条数据。

Scrapy爬取heima论坛所有页面内容并保存到数据库中

前期准备： Scrapy入门_win10安装scrapy-CSDN博客新建 Scrapy项目 scrapy startproject mySpider03 # 项目名为mySpider03 进入到spiders目录 cd mySpider03/mySpider03/spiders 创建爬虫 scrapy genspider heima bbs.itheima.com # 爬虫名为heima &#…...

编程日记 2024/11/12 13:19:35

Kafka参数了解

Kafka配置参数完整说明 1. 基础配置参数名说明推荐值参考值broker.idbroker的唯一标识符每个节点唯一的整数1delete.topic.enable是否允许删除topictruetruelistenersbroker监听地址SASL_PLAINTEXT://host:9092SASL_PLAINTEXT://172.24.77.15:9092advertised.listeners对外发…...

编程日记 2024/11/12 13:17:33

sql专题之 where和join on

文章目录前言where介绍使用过滤结果集关联两个表连接外连接内连接自然连接使用inner join和直接使用where关联两个表的区别总结前言从数据库查询数据时，一张表不足以查询到我们想要的数据，更多的时候我们需要联表查询。联表查询我们一般会使用连接…...

编程日记 2024/11/12 13:14:30

day12:版本控制器

版本控制使用到的命令： ls -al查看当前目录下的文件及文件夹mkdir新建目录rm -rf递归强制删除文件夹一、安装配置 1、下载地址 Git 2、初始配置 #用户名 git config --global user.name "自定义用户名" #邮箱（公司的联系方式--追责&…...

编程日记 2024/11/12 13:13:29

第四十一章 Vue之初识VueX

目录一、引言 1.1. vuex的概念 1.2. vuex使用场景 1.3. 优势二、创建演示项目 2.1. 构建项目步骤 2.2. 项目最终生成结构 2.3. 创建项目文件 2.3.1. App.vue 2.3.2. Son1.vue 2.3.3. Son2.vue 三、创建一个空仓库 3.1. 安装vuex 3.2. 新建仓库 3.3. 挂载仓库…...

编程日记 2024/11/12 13:10:25

GIT的基本使用与进阶

GIT的简单入门一.什么是git？ Git 是一个开源的分布式版本控制系统，用于跟踪文件更改、管理代码版本以及协作开发。它主要由 Linus Torvalds 于 2005 年创建，最初是为 Linux 内核开发而设计的。如今，Git 已经成为现代软件开发中…...

编程日记 2024/11/12 13:09:23

【Linux系统】—— 基本指令（二）

【Linux系统】—— 基本指令（二） 1 「alias」命令1.1 「ll」命令1.2 「alias」命令 2 「rmdir」指令与「rm」指令2.1 「rmdir」2.2 「rm」2.2.1 「rm」删除普通文件2.2.2 「rm」删除目录2.2.3 『 * 』通配符 3 「man」指令4 「cp」指令4.1 拷贝普通…...

编程日记 2024/11/12 13:08:22

MFC工控项目实例三十实现一个简单的流程

启动按钮夹紧密闭，时间0到平衡进气，时间1到进气关，时间2到平衡关检测，时间3到平衡排气，时间4到夹紧开、密闭开、排气关。相关代码 void CSEAL_PRESSUREDlg::OnTimer_2(UINT nIDEvent_2) {// if (nIDEvent_21 &am…...

编程日记 2024/11/12 13:07:21

【Android、IOS、Flutter、鸿蒙、ReactNative 】文本点击事件

Android Studio 版本 Android Java TextView 实现点击事件参考 import androidx.appcompat.app.AppCompatActivity; import android.os.Bundle; import android.util.Log; import android.view.View; import android.widget.TextView; import android.widget.Toast;public c…...

编程日记 2024/11/12 13:06:20

json转excel，读取json文件写入到excel中【rust语言】

一、rust代码将json文件写入到 excel中。（保持json ：key原始顺序） use indexmap::IndexMap; use serde::Deserialize; use serde_json::{Value, from_str}; use std::error::Error; use std::io::{self, Write}; use std::path::{Path}; u…...

编程日记 2024/11/12 13:05:19

Java面试要点06 - static关键字、静态属性与静态方法

本文目录一、引言二、静态属性（Static Fields）三、静态方法（Static Methods）四、静态代码块（Static Blocks）五、静态内部类（Static Nested Classes）六、静态导入（Static…...

编程日记 2024/11/12 13:03:16

动态规划-背包问题——416.分割等和子集

1.题目解析题目来源 416.分割等和子集——力扣测试用例 2.算法原理 1.状态表示这里背包问题基本上和母题的思路大相径庭，母题请见 [模板]01.背包 ，这里的状态表示与装满背包的情况类似，第二个下标就是当选择的物品体积直接等于j时是否可…...

编程日记 2024/11/12 13:01:14

Pr：视频过渡快速参考（合集 · 2025版）

Adobe Premiere Pro 自带七组约四十多个视频过渡 Video Transitions效果，包含不同风格和用途，可在两个剪辑之间创造平滑、自然的转场，用来丰富时间、地点或情绪的变化。恰当地应用过渡可让观众更好地理解故事或人物。提示： 点击下…...

编程日记 2024/11/12 13:00:13

网络安全---安全见闻2

网络安全—安全见闻拓宽视野不仅能够丰富我们的知识体系，也是自我提升和深造学习的重要途径！！！ 设备漏洞问题操作系统漏洞渗透测试视角：硬件设备上的操作系统可能存在各种漏洞，攻击者可以利用这些漏洞…...

编程日记 2024/11/12 12:58:11

解决因为TortoiseSVN未安装cmmand line client tools组件，导致idea无法使用svn更新、提交代码

一.错误信息 1.更新代码时：SVN: 更新错误找不到要更新的版本管理目录。 2.提交代码：检测不到任何更新（实际上有代码修改）。 3.Cannot run program "svn"。二.原因分析在电脑上新安装的的客户端TortoiseSVN、ide…...

编程日记 2024/11/12 12:57:10

Ubuntu 20.04安装CUDA 11.0、cuDNN 8.0.5

不知道咋弄的ubuntu20.04电脑的cuda驱动丢了，无奈需装PyTorch环境，只有CUDA11.0以上版本才支持Ubuntu20.04，所以安装了CUDA11.0、cuDNN8.0.5 为防止频繁在浏览器检索对应的贴子，今天记录一下。一. 驱动安装为防止驱动安装后没…...

编程日记 2024/11/12 12:53:06

鸿蒙 APP 发布上架

证书创建与打包： https://developer.huawei.com/consumer/cn/doc/app/agc-help-releaseharmony-0000001933963166 不同环境多渠道打包： //todo 备案相关一、除了发布应用商店以外，还有3个渠道，都适合小规模内测。【1】开放式测试：发给指定白名单用户【2】发布企业内…...

编程日记 2024/11/12 12:52:05

【C++笔记】C++三大特性之继承

【C笔记】C三大特性之继承 🔥个人主页：大白的编程日记 🔥专栏：C笔记文章目录【C笔记】C三大特性之继承前言一.继承的概念及定义1.1 继承的概念1.2继承的定义1.3继承基类成员访问方式的变化1.4继承类模板二.基类和派生类间的转…...

编程日记 2024/11/12 12:51:04

如何在CentOS 7上搭建SMB服务

如何在CentOS 7上搭建SMB服务因项目测试需求，需要自行搭建SMB服务，**SMB（Server Message Block）**协议是一种常用的文件共享方式，它可以让不同操作系统之间共享文件、打印机等资源。本文将带你一步步搭建一个简单的S…...

编程日记 2024/11/12 12:49:02

linux详解，基本网络枚举

基本网络枚举一、基本网络工具 ifconfig ifconfig是一个用于配置和显示网络接口信息的命令行工具。它可以显示网络接口的P地址、子网掩码、MC地址等信息，还可以用于启动、停止或配置网络接口。 ip ip也是用于查看和管理网络接口的命令。它提供了比ifconfig更…...

编程日记 2024/11/12 12:48:01

多模态2025：技术路线“神仙打架”，视频生成冲上云霄

文｜魏琳华编｜王一粟一场大会，聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度。其中，…...

编程新知 2025/11/3 3:19:23

ESP32读取DHT11温湿度数据

芯片：ESP32 环境：Arduino 一、安装DHT11传感器库红框的库，别安装错了二、代码注意，DATA口要连接在D15上 #include "DHT.h" // 包含DHT库#define DHTPIN 15 // 定义DHT11数据引脚连接到ESP32的GPIO15 #define D…...

编程新知 2025/11/3 4:13:05

【2025年】解决Burpsuite抓不到https包的问题

环境：windows11 burpsuite:2025.5 在抓取https网站时，burpsuite抓取不到https数据包，只显示： 解决该问题只需如下三个步骤： 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

编程新知 2025/11/3 3:53:34

初学 pytest 记录

安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...

编程新知 2025/11/2 6:24:51

在Mathematica中实现Newton-Raphson迭代的收敛时间算法（一般三次多项式）

考察一般的三次多项式，以r为参数： p[z_, r_] : z^3 (r - 1) z - r; roots[r_] : z /. Solve[p[z, r] 0, z]； 此多项式的根为： 尽管看起来这个多项式是特殊的，其实一般的三次多项式都是可以通过线性变换化为这个形式…...

编程新知 2025/10/28 10:00:33

iview框架主题色的应用

1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题，无需引入，直接可…...

编程新知 2025/10/29 17:36:05

Git 3天2K星标：Datawhale 的 Happy-LLM 项目介绍（附教程）

引言在人工智能飞速发展的今天，大语言模型（Large Language Models, LLMs）已成为技术领域的焦点。从智能写作到代码生成，LLM 的应用场景不断扩展，深刻改变了我们的工作和生活方式。然而，理解这些模型的内部…...

编程新知 2025/10/31 3:15:41

脑机新手指南（七）：OpenBCI_GUI：从环境搭建到数据可视化（上）

一、OpenBCI_GUI 项目概述 （一）项目背景与目标 OpenBCI 是一个开源的脑电信号采集硬件平台，其配套的 OpenBCI_GUI 则是专为该硬件设计的图形化界面工具。对于研究人员、开发者和学生而言，首次接触 OpenBCI 设备时，往…...

编程新知 2025/10/28 15:30:31

十九、【用户管理与权限 - 篇一】后端基础：用户列表与角色模型的初步构建

【用户管理与权限 - 篇一】后端基础：用户列表与角色模型的初步构建前言准备工作第一部分：回顾 Django 内置的 `User` 模型第二部分：设计并创建 `Role` 和 `UserProfile` 模型第三部分：创建 Serializers第四部分：创建 ViewSets第五部分：注册 API 路由第六部分：后端初步测…...

编程新知 2025/9/24 1:06:11

前端高频面试题2：浏览器/计算机网络

本专栏相关链接前端高频面试题1：HTML/CSS 前端高频面试题2：浏览器/计算机网络前端高频面试题3：JavaScript 1.什么是强缓存、协商缓存？ 强缓存： 当浏览器请求资源时，首先检查本地缓存是否命中。如果命…...

编程新知 2025/7/16 2:01:36