当前位置：首页 > news >正文

使用scrapy框架爬取微博热搜榜

news 2026/2/11 4:46:01

注：在使用爬虫抓取网站数据之前，非常重要的一点是确保遵守相关的法律、法规以及目标网站的使用条款。

（最底下附下载链接）

准备工作：

安装依赖：

确保已经安装了Python环境。

使用pip安装scrapy：pip install scrapy。

创建Scrapy项目：

打开命令行工具，在期望的位置创建一个新的Scrapy项目：scrapy startproject weiboHotSearch。

进入项目目录：cd weiboHotSearch。

设置User-Agent和其他headers：

修改settings.py文件中的USER_AGENT以及其他可能需要自定义的headers，模拟真实浏览器访问。

编写爬虫

1.创建Spider

2. 定义Item

在items.py文件中定义你想要抓取的数据字段。对于微博热搜榜单，我们可能需要如下字段：


import scrapyclass WeiboHotsearchItem(scrapy.Item):rank = scrapy.Field()        # 排名keyword = scrapy.Field()     # 热搜关键词url = scrapy.Field()         # 关键词链接hot_index = scrapy.Field()   # 热度指数category = scrapy.Field()    # 类别（如置顶、实时上升等）

3. 编写Spider

使用genspider命令生成一个爬虫模板并编辑它：

1. 导入必要的库

import scrapy
from ..items import WeiboHotsearchItem
from urllib.parse import urljoin
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

2. 爬虫类定义


class HotSearchSpider(scrapy.Spider):name = 'hot_search'allowed_domains = ['s.weibo.com']start_urls = ['https://s.weibo.com/top/summary']

3. 初始化方法


def __init__(self, *args, **kwargs):super(HotSearchSpider, self).__init__(*args, **kwargs)chrome_options = Options()chrome_options.add_argument("--headless")  # 无头模式运行chrome_options.add_argument("--disable-gpu")chrome_options.add_argument("--no-sandbox")self.driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()), options=chrome_options)

目的：初始化爬虫实例时，配置并启动一个无界面（headless）模式的Chrome浏览器实例，以避免在执行过程中弹出浏览器窗口。

4. 解析方法


def parse(self, response):self.driver.get(response.url)# 显式等待，直到所有的tr元素都出现wait = WebDriverWait(self.driver, 20)wait.until(EC.presence_of_all_elements_located((By.XPATH, '//table/tbody/tr')))# 滚动页面到底部以触发更多内容加载last_height = self.driver.execute_script("return document.body.scrollHeight")while True:self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")time.sleep(2)  # 等待新内容加载new_height = self.driver.execute_script("return document.body.scrollHeight")if new_height == last_height:breaklast_height = new_heightfor sel in self.driver.find_elements(By.XPATH, '//table/tbody/tr'):item = WeiboHotsearchItem()item['rank'] = sel.find_element(By.XPATH, './/td[@class="td-01"]').text if sel.find_elements(By.XPATH,'.//td[@class="td-01"]') else Noneitem['keyword'] = sel.find_element(By.XPATH, './/td[@class="td-02"]/a').text if sel.find_elements(By.XPATH,'.//td[@class="td-02"]/a') else Nonehref = sel.find_element(By.XPATH, './/td[@class="td-02"]/a').get_attribute('href') if sel.find_elements(By.XPATH, './/td[@class="td-02"]/a') else Noneitem['url'] = urljoin('https://s.weibo.com', href) if href else Noneitem['hot_index'] = sel.find_element(By.XPATH, './/td[@class="td-02"]/span').text if sel.find_elements(By.XPATH, './/td[@class="td-02"]/span') else Noneitem['category'] = sel.find_element(By.XPATH, './/td[@class="td-03"]/i').text if sel.find_elements(By.XPATH,'.//td[@class="td-03"]/i') else Noneyield item

目的：

使用Selenium加载网页并等待所有目标元素加载完成。

实现页面滚动以加载动态内容，确保获取完整数据。

遍历每个搜索结果项，提取排名、关键词、链接、热度指数和类别等信息，封装到WeiboHotsearchItem对象中，并将其生成为输出。

5. 关闭方法

def closed(self, reason):self.driver.quit()

目的：当爬虫关闭时，确保释放由Selenium创建的浏览器资源，即关闭浏览器实例。

4.配置Pipeline以保存至MongoDB


import pymongoclass MongoDBPipeline:collection_name = 'weibo_hotsearch'def __init__(self, mongo_uri, mongo_db):self.mongo_uri = mongo_uriself.mongo_db = mongo_db@classmethoddef from_crawler(cls, crawler):return cls(mongo_uri=crawler.settings.get('MONGO_URI'),mongo_db=crawler.settings.get('MONGO_DATABASE', 'items'))def open_spider(self, spider):self.client = pymongo.MongoClient(self.mongo_uri)self.db = self.client[self.mongo_db]def close_spider(self, spider):self.client.close()def process_item(self, item, spider):self.db[self.collection_name].insert_one(dict(item))return item

5. 更新Settings

# 启用pipelines
ITEM_PIPELINES = {'weibo_hotsearch.pipelines.MongoDBPipeline': 300,
}# MongoDB连接设置
MONGO_URI = 'mongodb://localhost:27017/'
MONGO_DATABASE = 'weibo'# 其他可选设置
ROBOTSTXT_OBEY = False  # 如果网站有robots.txt且不允许爬取，请谨慎设置为True
DOWNLOAD_DELAY = 1      # 设置下载延迟避免触发反爬虫机制# 禁用默认的下载器中间件
DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}

6．查看Mongodb保存结果

mongodb-windows-x86下载

源码下载

使用scrapy框架爬取微博热搜榜

注：在使用爬虫抓取网站数据之前，非常重要的一点是确保遵守相关的法律、法规以及目标网站的使用条款。 （最底下附下载链接） 准备工作： 安装依赖： 确保已经安装了Python环境。使用pip安装scrapy&#xff…...

编程日记 2024/12/25 6:14:19

瑞吉外卖项目学习笔记(七)新增菜品、(批量)删除菜品

瑞吉外卖项目学习笔记(一)准备工作、员工登录功能实现瑞吉外卖项目学习笔记(二)Swagger、logback、表单校验和参数打印功能的实现瑞吉外卖项目学习笔记(三)过滤器实现登录校验、添加员工、分页查询员工信息瑞吉外卖项目学习笔记(四)TableField(fill FieldFill.INSERT)公共字…...

编程日记 2024/12/25 6:13:18

es快速扫描

介绍 Elasticsearch简称es，一款开源的分布式全文检索引擎可组建一套上百台的服务器集群，处理PB级别数据可满足近实时的存储和检索倒排索引跟正排索引相对，正排索引是根据id进行索引，所以查询效率非常高，但是模糊…...

编程日记 2024/12/25 6:11:16

前端对页面数据进行缓存

页面录入信息，退出且未提交状态下，前端对页面数据进行存储前端做缓存，一般放在local、session和cookies里面，但是都有大小限制，如果页面东西多，比如有上传的图片、视频，浏览器会抛出一个Quota…...

编程日记 2024/12/25 6:09:14

leetCode322.零钱兑换

题目： 给你一个整数数组coins,表示不同面额的硬币；以及一个整数amount,表示总金额。计算并返回可以凑成总金额所需的最少的硬币个数。如果没有任何一种硬币组合能组成总金额，返回-1。你可以认为每种硬币的数量是无限的。示例1&#xff1…...

编程日记 2024/12/25 6:07:12

jsp-servlet开发

STS中开发步骤建普通jsp项目过程 1.建项目（非Maven项目） new----project----other----Web----Dynamic Web Project 2.下载包放到LIB目录中,如果是Maven项目可以自动导包（pom.xml中设置好） 3.设置工作空间，网页…...

编程日记 2024/12/25 6:06:11

从零玩转CanMV-K230（7）-I2C例程

文章目录前言一、IIC API二、示例总结前言 K230内部包含5个I2C硬件模块，支持标准100kb/s，快速400kb/s模式，高速模式3.4Mb/s。通道输出IO配置参考IOMUX模块。一、IIC API I2C类位于machine模块下。 i2c I2C(id, freq100000) 【参数】…...

编程日记 2024/12/25 6:05:10

n阶Legendre多项式正交性的证明

前言在《n次Legendre(勒让德)多项式在区间(-1, 1)上根的分布及证明》这篇文章中，我们阐述了Legendre多项式在 [ − 1 , 1 ] [-1,1] [−1,1]上的根分布情况并给出了证明。本文将证明Legendre多项式在 [ − 1 , 1 ] [-1,1] [−1,1]上的正交性质。正交多项式的定义…...

编程日记 2024/12/25 6:04:09

HarmonyOS NEXT - Dialog 和完全自定义弹框

demo 地址: https://github.com/iotjin/JhHarmonyDemo 组件对应代码实现地址代码不定时更新，请前往github查看最新代码在demo中这些组件和工具类都通过module实现了，具体可以参考HarmonyOS NEXT - 通过 module 模块化引用公共组件和utils HarmonyOS NE…...

编程日记 2024/12/25 6:03:08

内容与资讯API优质清单

作为开发者，拥有一套API合集是必不可少的。这个开发者必备的API合集汇集了各种实用的API资源，为你的开发工作提供了强大的支持！无论你是在构建网站、开发应用还是进行数据分析，这个合集都能满足你的需求。你可以通过这些免费API获…...

编程日记 2024/12/25 6:02:07

开源 JS PDF 库比较

原文查看：开源JavaScript PDF Library对比对于需要高性能、复杂功能或强大支持处理复杂 PDF 的项目，建议选择商业 PDF 库, 如ComPDFKit for Web。但是，如果您的目标只是在 Web 应用程序中显示 PDF，则可以使用几个可靠的开源…...

编程日记 2024/12/25 5:57:02

AnaPico信号源在通信测试中的应用案例

AnaPico信号源在通信测试中的应用案例广泛，涉及多种通信技术和测试需求。以下是一些具体的应用实例： 1. APPH系列信号源分析仪（相位噪声分析仪） APPH系列是一款高性能相位噪声分析仪和VCO测试仪，其不同型号的频率范围…...

编程日记 2024/12/25 5:55:01

《智启新材：人工智能重塑分子结构设计蓝图》

在当今科技飞速发展的时代，新材料的研发宛如一场激烈的竞赛，而人工智能（AI）作为一匹黑马，正以前所未有的速度和力量驰骋于这片赛场，为新材料的分子结构设计带来了革命性的突破，成为推动行业发展…...

编程日记 2024/12/25 5:52:58

进阶岛-L2G5000

茴香豆：企业级知识库问答工具茴香豆本地标准版搭建环境搭建安装茴香豆知识库创建测试知识助手 Gradio UI 界面测试...

编程日记 2024/12/25 5:51:56

单点登录平台Casdoor搭建与使用，集成gitlab同步创建删除账号

一，简介一般来说，公司有很多系统使用，为了实现统一的用户名管理和登录所有系统（如 GitLab、Harbor 等），并在员工离职时只需删除一个主账号即可实现权限清除，可以采用单点登录 (SSO) 和集中式…...

编程日记 2024/12/25 5:50:56

PaddlePaddle飞桨Linux系统Docker版安装

PaddlePaddle飞桨Linux系统Docker版安装最近学习和了解PP飞桨，一切从安装开始。官网的安装教程很详细： https://www.paddlepaddle.org.cn/install/quick?docurl/documentation/docs/zh/install/docker/linux-docker.html 记录我在安装过程中遇到的问题…...

编程日记 2024/12/25 5:49:55

一款基于.NET开发的简易高效的文件转换器

前言今天大姚给大家分享一款基于.NET开发的免费（GPL-3.0 license）、简易、高效的文件转换器，允许用户通过Windows资源管理器的上下文菜单来转换和压缩一个或多个文件：FileConverter。使用技术栈 ffmpeg：作为文件转换…...

编程日记 2024/12/25 5:46:52

Spring Boot教程之三十一：入门 Web

Spring Boot – 入门 Web 如今，大多数应用程序都需要模型-视图-控制器(MVC) 架构来满足各种需求，例如处理用户数据、提高应用程序效率、为应用程序提供动态特性。它主要用于构建桌面图形用户界面 (GUI)，但现在越来越流行用于构建基于 Web 的…...

编程日记 2024/12/25 5:45:52

青少年编程与数学 02-004 Go语言Web编程 20课题、单元测试

青少年编程与数学 02-004 Go语言Web编程 20课题、单元测试一、单元测试（Unit Testing）二、集成测试（Integration Testing）三、区别四、Go Web单元测试使用testing包使用testify框架使用GoConvey框架五、应用示例步骤 1: 创建HTT…...

编程日记 2024/12/25 5:44:50

概率论期末笔记

第一章随机事件及其概率利用“四大公式”求事件概率全概率公式与贝叶斯公式伯努利概型求概率习题推导一维随机变量及其分布离散型随机变量（R.V）求分布律利用常见离散型分布求概率连续型R.V相关计算利用常见连续型分布的计算均匀分布正态…...

编程日记 2024/12/25 5:42:48

定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...

编程新知 2025/9/10 5:36:56

高频面试之3Zookeeper

高频面试之3Zookeeper 文章目录高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个？3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制半数机制（过半机制&#xff0…...

编程新知 2026/1/25 13:13:20

【机器视觉】单目测距——运动结构恢复

ps：图是随便找的，为了凑个封面前言在前面对光流法进行进一步改进，希望将2D光流推广至3D场景流时，发现2D转3D过程中存在尺度歧义问题，需要补全摄像头拍摄图像中缺失的深度信息，否则解空间不收敛&#xf…...

编程新知 2026/2/8 3:03:01

什么是库存周转？如何用进销存系统提高库存周转率？

你可能听说过这样一句话： “利润不是赚出来的，是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业，很多企业看着销售不错，账上却没钱、利润也不见了，一翻库存才发现： 一堆卖不动的旧货…...

编程新知 2026/1/26 13:21:10

有限自动机到正规文法转换器v1.0

1 项目简介这是一个功能强大的有限自动机（Finite Automaton, FA）到正规文法（Regular Grammar）转换器，它配备了一个直观且完整的图形用户界面，使用户能够轻松地进行操作和观察。该程序基于编译原理中的经典…...

编程新知 2026/1/31 13:13:32

视频行为标注工具BehaviLabel（源码+使用介绍+Windows.Exe版本）

前言： 最近在做行为检测相关的模型，用的是时空图卷积网络（STGCN），但原有kinetic-400数据集数据质量较低，需要进行细粒度的标注，同时粗略搜了下已有开源工具基本都集中于图像分割这块&#xff0c…...

编程新知 2026/2/6 5:04:18

通过 Ansible 在 Windows 2022 上安装 IIS Web 服务器

拓扑结构这是一个用于通过 Ansible 部署 IIS Web 服务器的实验室拓扑。前提条件： 在被管理的节点上安装WinRm 准备一张自签名的证书开放防火墙入站tcp 5985 5986端口准备自签名证书 PS C:\Users\azureuser> $cert New-SelfSignedCertificate -DnsName &…...

编程新知 2026/2/10 0:52:03

rknn toolkit2搭建和推理

安装Miniconda Miniconda - Anaconda Miniconda 选择一个新的版本 ，不用和RKNN的python版本保持一致使用 ./xxx.sh进行安装下面配置一下载源 # 清华大学源（最常用） conda config --add channels https://mirrors.tuna.tsinghua.edu.cn…...

编程新知 2026/2/7 7:52:41

前端开发者常用网站

Can I use网站：一个查询网页技术兼容性的网站一个查询网页技术兼容性的网站Can I use：Can I use... Support tables for HTML5, CSS3, etc (查询浏览器对HTML5的支持情况) 权威网站：MDN JavaScript权威网站：JavaScript | MDN...

编程新知 2026/2/11 1:17:44

加密通信 + 行为分析：运营商行业安全防御体系重构

在数字经济蓬勃发展的时代，运营商作为信息通信网络的核心枢纽，承载着海量用户数据与关键业务传输，其安全防御体系的可靠性直接关乎国家安全、社会稳定与企业发展。随着网络攻击手段的不断升级，传统安全防护体系逐渐暴露出局限性&a…...

编程新知 2025/9/9 18:03:51

使用scrapy框架爬取微博热搜榜

创建Scrapy项目：

1.创建Spider

2. 定义Item

3. 编写Spider

4.配置Pipeline以保存至MongoDB

5. 更新Settings

6．查看Mongodb保存结果

相关文章：

使用scrapy框架爬取微博热搜榜

瑞吉外卖项目学习笔记(七)新增菜品、(批量)删除菜品

es快速扫描

前端对页面数据进行缓存

leetCode322.零钱兑换

jsp-servlet开发

从零玩转CanMV-K230（7）-I2C例程

n阶Legendre多项式正交性的证明

HarmonyOS NEXT - Dialog 和完全自定义弹框

内容与资讯API优质清单

开源 JS PDF 库比较

AnaPico信号源在通信测试中的应用案例

《智启新材：人工智能重塑分子结构设计蓝图》

进阶岛-L2G5000

单点登录平台Casdoor搭建与使用，集成gitlab同步创建删除账号

PaddlePaddle飞桨Linux系统Docker版安装

一款基于.NET开发的简易高效的文件转换器

Spring Boot教程之三十一：入门 Web

青少年编程与数学 02-004 Go语言Web编程 20课题、单元测试

概率论期末笔记

Admin.Net中的消息通信SignalR解释

高频面试之3Zookeeper

【机器视觉】单目测距——运动结构恢复

什么是库存周转？如何用进销存系统提高库存周转率？

有限自动机到正规文法转换器v1.0

视频行为标注工具BehaviLabel（源码+使用介绍+Windows.Exe版本）

通过 Ansible 在 Windows 2022 上安装 IIS Web 服务器

rknn toolkit2搭建和推理

前端开发者常用网站

加密通信 + 行为分析：运营商行业安全防御体系重构