当前位置：首页 > news >正文

用python从零开始做一个最简单的小说爬虫带GUI界面（3/3）

news 2026/2/9 21:57:04

上一章内容

前言

出现的一些问题

requests包爬取小说的不便之处

利用aiohttp包来异步爬取小说

介绍

代码

main.py

test_1.py

test_3.py

代码大致讲解

注意

系列总结

上一章内容

用python从零开始做一个最简单的小说爬虫带GUI界面（2/3）_木木em哈哈的博客-CSDN博客前一章博客我们讲了怎么通过PyQt5来制作图形化界面，并且进行一些基本设置接下来两章我们主要讲核心爬虫代码的实现。https://blog.csdn.net/mumuemhaha/article/details/132457770?spm=1001.2014.3001.5501

前言

本章内容讲的是给出了小说文章链接的情况下，如何爬取小说

出现的一些问题

requests包爬取小说的不便之处

在最开始的时候包括我前段时间写的博客都是利用requests包进行爬取

但是这回出现一个问题

简单来说就是request是顺序执行的

必须要等到上一个网络的请求返回后才会执行下一个步骤

假设我要爬取的小说有2000个章节

每次返回请求并且处理信息都需要1秒的时间

那么总共就需要2000秒也就是半个多小时

要是中间再来个返回超时出现错误的

心态直接要爆炸

返回超时我们可以设置超时等待时间

但是占据大部分时间的依然是网络请求的延迟

那有什么方法可以解决呢

利用aiohttp包来异步爬取小说

介绍

异步是一种比多线程高效得多的并发模型，是无序的，为了完成某个任务，在执行的过程中，不同程序单元之间过程中无需通信协调，也能完成任务的方式，也就是说不相关的程序单元之间可以是异步的。

简单来说就是可以类比小学的一种数学——你可以再烧开水的时候洗菜，在煮饭的时候切菜的那类问题

在python程序中就是你在等待网络回复的数据包时候可以继续发送其他的数据包

起到资源利用趋于最大化的趋势

代码

具体的代码在这

这里只做初步介绍，具体包的使用不展开细讲

main.py

import sys
# PyQt5中使用的基本控件都在PyQt5.QtWidgets模块中
from PyQt5.QtWidgets import QApplication, QMainWindow
# 导入designer工具生成的login模块
from win import Ui_MainWindow
from test_1 import *
from test_3 import *
import time
class MyMainForm(QMainWindow, Ui_MainWindow):def __init__(self, parent=None):super(MyMainForm, self).__init__(parent)self.setupUi(self)self.Button_close.clicked.connect(self.close)self.Button_run.clicked.connect(self.F_run)def F_run(self):link_1=self.line_link.text()title_1=F_gettitle(link_1)self.text_result.setText(f"标题获取成功——{title_1}")# file_1=open(f'{title_1}.txt',mode='w',encoding='utf-8  ')test_1=F_getyuan(link_1)self.text_result.append("提取源代码成功")time.sleep(1)search_1=F_searchlink(test_1)self.text_result.append("提取文章链接成功")pachong(search_1,title_1)if __name__ == "__main__":# 固定的，PyQt5程序都需要QApplication对象。sys.argv是命令行参数列表，确保程序可以双击运行app = QApplication(sys.argv)# 初始化myWin = MyMainForm()# 将窗口控件显示在屏幕上myWin.show()# 程序运行，sys.exit方法确保程序完整退出。sys.exit(app.exec_())

test_1.py

import requests
import re
import numpy as np
from lxml import etree
#获取文章标题
def F_gettitle(link_0):head_qb={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36'}test_1=requests.get(url=link_0,headers=head_qb)test_yuan=test_1.textdom=etree.HTML(test_yuan)test_2=dom.xpath('/html/body/article[1]/div[2]/div[2]/h1/text()')return test_2[0]#提取源代码
def F_getyuan(link_1):head_qb={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36'}test_1=requests.get(url=link_1,headers=head_qb)test_yuan=test_1.texttest_yuan=str(test_yuan)return test_yuan#查询所有小说章节链接
def F_searchlink(link_2):re_1='<a id="haitung" href="(.*?)" rel="chapter">'re_1=re.compile(re_1)link_3=re.findall(re_1,link_2)link_max=np.array([])for link_1 in link_3:link_4=f'http://www.biquge66.net{link_1}'link_max=np.append(link_max,link_4)return link_max# #输出文章内容
# def F_edittxt(link_3):
#     head_qb={
#         'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36'
#     }
#     trytimes = 3
#     for i in range(trytimes):
#         try:
#             proxies = None
#             test_1=requests.get(url=link_3,headers=head_qb, verify=False, proxies=None, timeout=3)
#             if test_1.status_code == 200:
#                 break
#         except:
#             print(f'requests failed {i} time')
#     #提取文章链接
#     re_2='<p>(.*?)</p>'
#     re_2=re.compile(re_2)
#     #提取文章标题
#     re_3='<h1 class="bookname">(.*?)</h1>'
#     re.compile(re_3)
#     test_2=np.array([])
#     test_3=np.array([])
#     test_2=re.findall(re_2,test_1.text)
#     test_3 = re.findall(re_3, test_1.text)
#     #放在数组的最后一个
#     test_2=np.append(test_3,test_2)
#     return test_2

test_3.py

import asyncio
import aiohttp
import re
import numpy as nptitle=''async def F_2(session,url):head_qb = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36'}async with session.get(url,verify_ssl=False,headers=head_qb) as resqonse:global titletext=await resqonse.text()text=str(text)re_2 = '<p>(.*?)</p>'re_2 = re.compile(re_2)# 提取文章标题re_3 = '<h1 class="bookname">(.*?)</h1>'re.compile(re_3)test_2 = np.array([])test_3 = np.array([])test_2 = re.findall(re_2, text)test_3 = re.findall(re_3, text)test_2 = np.append(test_3, test_2)for test_max in test_2:with open(f'{title}.txt',mode='a',encoding='utf-8') as file:file.writelines(test_max)async def F_1(urls):async with aiohttp.ClientSession() as session:tasks=[asyncio.create_task(F_2(session,url)) for url in urls]await asyncio.wait(tasks)def pachong(urls_1,title_1):global titletitle=title_1asyncio.run(F_1(urls_1))title=title_1

代码大致讲解

主函数中传入的pachong(）的两个参数，一个是文章链接的总列表，一个是小说的名字（用于创建txt文件的名称）

在等待网络回复时继续发送请求

之后利用re库来提取源代码中的文章文字最后写入txt中

注意

利用这种方法爬取的内容小说章节是无序的，但是可以通过章节名来进行排序（好难写，不想写了）

系列总结

本次文章初步了解了GUI图形界面的制作，并且了解了另外一种爬虫爬取的方法——异步爬虫

用python从零开始做一个最简单的小说爬虫带GUI界面（3/3）

目录上一章内容前言出现的一些问题 requests包爬取小说的不便之处利用aiohttp包来异步爬取小说介绍代码 main.py test_1.py test_3.py 代码大致讲解注意系列总结上一章内容用python从零开始做一个最简单的小说爬虫带GUI界面（2/3）_…...

编程日记 2023/8/28 7:03:01

SpringBoot+Vue如何写一个HelloWorld

一、SpringBoot介绍 Spring Boot是一个用于创建独立且可执行的Spring应用程序的框架。它简化了基于Spring框架的应用程序的开发过程，并提供了一种快速和简便的方式来构建Java应用程序。 Spring Boot提供了自动配置机制，通过引入适当的依赖项&#xff0…...

编程日记 2023/8/28 7:01:59

深度强化学习。介绍。深度 Q 网络（DQN）算法

马库斯布赫霍尔茨一. 引言深度强化学习的起源是纯粹的强化学习，其中问题通常被框定为马尔可夫决策过程（MDP）。MDP 由一组状态 S 和操作 A 组成。状态之间的转换使用转移概率 P、奖励 R 和贴现因子 gamma 执行。概率转换P（系统动…...

编程日记 2023/8/28 7:00:58

【C++随笔02】左值和右值

【C随笔02】左值和右值一、左值和右值1、字面理解——左值、右值2、字面理解的问题3、左值、右值4、左值的特征5、右值的特征6、x和x是左值还是右值7、复合例子8、通常字面量都是一个右值，除字符串字面量以外： 二、左值引用和右值引用三、左值引用1、常…...

编程日记 2023/8/28 6:59:56

几个nlp的小任务(多选问答)

@TOC 安装库多选问答介绍定义参数、导入加载函数缓存数据集随机选择一些数据展示进行数据预处理部分(tokenizer) 调用t...

编程日记 2023/8/28 6:58:55

【C++学习记录】为什么需要异常处理，以及Try Catch的使用方法

1.什么是异常，什么是错误？ 程序无法保证100%正确运行，万无一失。有的错误在编译时能发现，比如：关键字拼写、变量名未定义、括号不配对、语句末尾缺分号等。这是在编译阶段发现的，称为编译错误。有的能正常…...

编程日记 2023/8/28 6:57:53

孪生网络（Siamese Network）

基本概念孪生网络（Siamese Network）是一类神经网络结构，它是由两个或更多个完全相同的网络组成的。孪生网络通常被用于解决基于相似度比较的任务，例如人脸识别、语音识别、目标跟踪等问题。孪生网络的基本思想是将输入数据同时…...

编程日记 2023/8/28 6:56:52

【Redis】Redis是什么、能干什么、主要功能和工作原理的详细讲解

🚀欢迎来到本文🚀 🍉个人简介：陈童学哦，目前学习C/C、算法、Python、Java等方向，一个正在慢慢前行的普通人。 🏀系列专栏：陈童学的日记 💡其他专栏：CSTL&…...

编程日记 2023/8/28 6:55:51

8月26日，每日信息差

1、上海发布两项支持高级别自动驾驶的5G网络标准，在上海市通管局的指导下，由上海移动和中国信息通信研究院牵头组织二十余家标准起草单位共同参与编写的《支持高级别自动驾驶的5G网络规划建设和验收要求》和《支持高级别自动驾驶的5G网络性能要求》等两项…...

编程日记 2023/8/28 6:54:49

云和恩墨面试（部分）

一面软件架构设计方案应该包含哪些内容，哪些维度二面架构师如何保证软件产品质量线程屏障(或者说线程栅栏)是什么，为什么要使用线程屏障事务传播⾏为为NESTED时，当内部事务发生异常时，外部事务会回滚吗？newBing:…...

编程日记 2023/8/28 6:53:48

volatile 关键字详解

目录 volatile volatile 关键用在什么场景下： volatile 关键字防止编译器优化： volatile 是一个在许多编程语言中（包括C和C）用作关键字的标识符。它用于告诉编译器不要对带有该关键字修饰的变量进行优化，以确保变量在…...

编程日记 2023/8/28 6:52:47

Ceph入门到精通-大流量10GB/s LVS+OSPF 高性能架构

LVS 和 LVSkeepalived 这两种架构在平时听得多了，最近才接触到另外一个架构LVSOSPF。这个架构实际上是LVSKeepalived 的升级版本，我们所知道LVSKeepalived 架构是这样子的： 随着业务的扩展，我们可以对web服务器做水平扩展&#xf…...

编程日记 2023/8/28 6:51:45

Unity光照相关

1. 光源类型 Unity支持多种类型的光源，包括： 1. 点光源（Point Light）：从一个点向四周发射光线，适用于需要突出物体的光源。 2. 平行光（Directional Light）：从无限远处…...

编程日记 2023/8/28 6:50:45

Qt基本类型

QT基本数据类型定义在#include <QtGlobal> 中，QT基本数据类型有： 类型名称注释备注qint8signed char有符号8位数据qint16signed short16位数据类型qint32signed short32位有符号数据类型qint64long long int 或(__int64)64位有符号数据类型&#x…...

编程日记 2023/8/28 6:49:43

前端基础（Element、vxe-table组件库的使用）

前言：在前端项目中，实际上，会用到组件库里的很多组件，本博客主要介绍Element、vxe-table这两个组件如何使用。目录 Element 引入element 使用组件的步骤使用对话框的示例代码效果展示 vxe-table 引入vxe-table 成果展…...

编程日记 2023/8/28 6:48:42

C++学习记录——이십팔 C++11（4）

文章目录包装器1、functional2、绑定这一篇比较简短，只是因为后要写异常和智能指针，所以就把它单独放在了一篇博客，后面新开几篇博客来写异常和智能指针包装器 1、functional 包装器是一个类模板，对可调用对象类型进行再封装…...

编程日记 2023/8/28 6:47:41

UE学习记录03----UE5.2 使用拖拽生成模型

0.创建蓝图控件，自己想要展示的样子 1.侦测鼠标拖动 2.创建拖动操作 3.拖动结束时生成模型 3.1创建actor , 创建变量EntityMesh设为可编辑生成Actor，创建变量EntityMesh设为可编辑屏幕鼠标位置转化为3D场景位置 4.将texture设置为变量并设为可编辑&am…...

编程日记 2023/8/28 6:46:39

Spring Cache框架（缓存）

1、介绍： Spring Cache 是一个框架，实现了基于注解的缓存功能，只需要简单加个注解，就能实现缓存功能。它提供了一层抽象，底层可以切换不同的cache实现。具体就是通过CacheManager 接口来实现不同的缓存技术。针对不同…...

编程日记 2023/8/28 6:45:38

Linux学习之Ubuntu 20使用systemd管理OpenResty服务

sudo cat /etc/issue可以看到操作系统的版本是Ubuntu 20.04.4 LTS，sudo lsb_release -r可以看到版本是20.04，sudo uname -r可以看到内核版本是5.5.19，sudo make -v可以看到版本是GNU Make 4.2.1。需要先参考我的博客《Linux学习之Ubuntu 2…...

编程日记 2023/8/28 6:44:36

[数据集][目标检测]疲劳驾驶数据集VOC格式4类别-4362张

数据集格式：Pascal VOC格式(不包含分割的txt文件，仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数)：4362 标注数量(xml文件个数)：4362 标注类别数：4 标注类别名称:["closed_eye","closed_mouth"…...

编程日记 2023/8/28 6:43:35

微信小程序 - 手机震动

一、界面 <button type"primary" bindtap"shortVibrate">短震动</button> <button type"primary" bindtap"longVibrate">长震动</button> 二、js逻辑代码注：文档 https://developers.weixin.qq…...

编程新知 2026/1/29 8:41:55

在Ubuntu中设置开机自动运行（sudo）指令的指南

在Ubuntu系统中，有时需要在系统启动时自动执行某些命令，特别是需要 sudo权限的指令。为了实现这一功能，可以使用多种方法，包括编写Systemd服务、配置 rc.local文件或使用 cron任务计划。本文将详细介绍这些方法，并提供…...

编程新知 2025/12/23 11:20:24

【Java学习笔记】BigInteger 和 BigDecimal 类

BigInteger 和 BigDecimal 类二者共有的常见方法方法功能add加subtract减multiply乘divide除注意点：传参类型必须是类对象一、BigInteger 1. 作用：适合保存比较大的整型数 2. 使用说明创建BigInteger对象传入字符串 3. 代码示例 import j…...

编程新知 2025/11/8 15:39:00

【LeetCode】3309. 连接二进制表示可形成的最大数值（递归|回溯|位运算）

LeetCode 3309. 连接二进制表示可形成的最大数值（中等） 题目描述解题思路Java代码题目描述题目链接：LeetCode 3309. 连接二进制表示可形成的最大数值（中等） 给你一个长度为 3 的整数数组 nums。现以某种顺序连接…...

编程新知 2025/7/5 18:01:05

认识CMake并使用CMake构建自己的第一个项目

1.CMake的作用和优势跨平台支持：CMake支持多种操作系统和编译器，使用同一份构建配置可以在不同的环境中使用简化配置：通过CMakeLists.txt文件，用户可以定义项目结构、依赖项、编译选项等，无需手动编写复杂的构建脚本…...

编程新知 2026/2/7 19:54:51

《Docker》架构

文章目录架构模式单机架构应用数据分离架构应用服务器集群架构读写分离/主从分离架构冷热分离架构垂直分库架构微服务架构容器编排架构什么是容器，docker，镜像，k8s 架构模式单机架构单机架构其实就是应用服务器和单机服务器都部署在同一…...

编程新知 2026/2/4 16:31:26

AxureRP-Pro-Beta-Setup_114413.exe （6.0.0.2887）

Name：3ddown Serial：FiCGEezgdGoYILo8U/2MFyCWj0jZoJc/sziRRj2/ENvtEq7w1RH97k5MWctqVHA 注册用户名：Axure 序列号：8t3Yk/zu4cX601/seX6wBZgYRVj/lkC2PICCdO4sFKCCLx8mcCnccoylVb40lP...

编程新知 2026/2/4 19:42:20