当前位置：首页 > news >正文

一条爬虫抓取一个小网站所有数据

news 2026/4/6 10:06:24

一条爬虫抓取一个小网站所有数据

今天闲来无事，写一个爬虫来玩玩。在网上冲浪的时候发现了一个搞笑的段子网，发现里面的内容还是比较有意思的，于是心血来潮，就想着能不能写一个Python程序，抓取几条数据下来看看，一不小心就把这个网站的所有数据都拿到了。

别逗了(biedoul.com)

这个网站主要的数据都是详情在HTML里面的，可以采用lxml模块的xpath对HTML标签的内容解析，获取到自己想要的数据，然后再保存在本地文件中，整个过程是一气呵成的。能够抓取到一页的数据之后，加一个循环就可以抓取到所有页的数据，下面的就是数据展示。

数据展示

废话少说，直接上Python代码

import requests
import csv
from lxml import etree
import timeclass Page:def __init__(self):self.pre_url = "https://www.biedoul.com"self.start_page = 1self.end_page = 15233def askHTML(self, current_page, opportunity):print("=============================== current page => " + str(current_page) + "===============================")try:pre_url = self.pre_url + "/index/" + str(current_page)page = requests.get(url=pre_url)html = etree.HTML(page.content)articles = html.xpath('/html/body/div/div/div/dl')return articlesexcept Exception as e:if opportunity > 0:time.sleep(500)print("=============================== retry => " + str(opportunity) + "===============================")return self.askHTML(current_page, opportunity - 1)else:return Nonedef analyze(self, articles):lines = []for article in articles:data = {}data["link"] = article.xpath("./span/dd/a/@href")[0]data["title"] = article.xpath("./span/dd/a/strong/text()")[0]data["content"] = self.analyze_content(article)picture_links = article.xpath("./dd/img/@src")if (picture_links is not None and len(picture_links) > 0):# print(picture_links)data["picture_links"] = picture_linkselse:data["picture_links"] = []# data["good_zan"] = article.xpath("./div/div/a[@class='pinattn good']/p/text()")[0]# data["bad_bs"] = article.xpath("./div/div/a[@class='pinattn bad']/p/text()")[0]data["good_zan"] = self.analyze_zan(article, "good")# article.xpath("./div/div/a[@class='pinattn good']/p/text()")[0]data["bad_bs"] = self.analyze_zan(article, "bad")# article.xpath("./div/div/a[@class='pinattn bad']/p/text()")[0]lines.append(data)return lines# 解析文章内容def analyze_content(self, article):# 1. 判断dd标签下是否为文本内容content = article.xpath("./dd/text()")if content is not None and len(content) > 0 and not self.is_empty_list(content):return contentcontent = []p_list = article.xpath("./dd")for p in p_list:# 2. 判断dd/.../font标签下是否为文本内容if len(content) <= 0 or content is None:fonts = p.xpath(".//font")for font_html in fonts:font_content = font_html.xpath("./text()")if font_content is not None and len(font_content) > 0:content.append(font_content)# 3. 判断dd/.../p标签下是否为文本内容if len(content) <= 0 or content is None:fonts = p.xpath(".//p")for font_html in fonts:font_content = font_html.xpath("./text()")if font_content is not None and len(font_content) > 0:content.append(font_content)return contentdef analyze_zan(self, article, type):num = article.xpath("./div/div/a[@class='pinattn " + type + "']/p/text()")if num is not None and len(num) > 0:return num[0]return 0def do_word(self):fieldnames = ['index', 'link', 'title', 'content', 'picture_links', 'good_zan', 'bad_bs']with open('article.csv', 'a', encoding='UTF8', newline='') as f:writer = csv.DictWriter(f, fieldnames=fieldnames)# writer.writeheader()for i in range(self.start_page, self.end_page):articles = self.askHTML(i, 3)if articles is None:continuearticle_list = self.analyze(articles)self.save(writer, article_list)# 保存到文件中def save(self, writer, lines):print("##### 保存中到文件中...")# python2可以用file替代openprint(lines)writer.writerows(lines)print("##### 保存成功...")def is_empty_list(self, list):for l in list:if not self.empty(l):return Falsereturn Truedef empty(self, content):result = content.replace("\r", "").replace("\n", "")if result == "":return Truereturn False# 递归解析文章内容def analyze_font_content(self, font_html, depth):content = []print(depth)font_content_list = font_html.xpath("./font/text()")if font_content_list is not None and len(font_content_list) > 0 and not self.is_empty_list(font_content_list):for font_content in font_content_list:content.append(font_content)else:if depth < 0:return []return self.analyze_font_content(font_html.xpath("./font"), depth - 1)return contentif __name__ == '__main__':page = Page()page.do_word()

在运行下面的代码之前，需要先按照好requests、lxml两个模块，安装命令为：

pip installl requests
pip install lxml

大家对这个爬虫有什么疑问，欢迎给我留言。如果大家对于我这个爬虫创意还不错的话，记得关注微信公众号【智享学习】哟，后续我会分享更多有意思的编程项目。

本文由博客一文多发平台 OpenWrite 发布！

一条爬虫抓取一个小网站所有数据

一条爬虫抓取一个小网站所有数据

相关文章：

一条爬虫抓取一个小网站所有数据

八大排序——快速排序

【ES】笔记-Class类剖析

数学建模--Seaborn库绘图基础的Python实现

lv3 嵌入式开发-2 linux软件包管理

智能小区与无线网络技术

如何传输文件流给前端

Spring Security OAuth2 远程命令执行漏洞

Python之并发编程介绍

GO语言网络编程（并发编程）并发介绍，Goroutine

英语连词总结

LeetCode 92. Reverse Linked List II【链表,头插法】中等

【图论】Floyd

SpringCloudAlibaba Gateway(三)-整合Sentinel功能路由维度、API维度进行流控

【笔试强训选择题】Day38.习题（错题）解析

DAY08_MyBatisPlus——入门案例标准数据层开发CRUD-Lombok-分页功能DQL编程控制DML编程控制乐观锁快速开发-代码生成器

分光棱镜BS、PB、NPBS的区别

人工智能论文通用创新点（一）——ACMIX 卷积与注意力融合、GCnet(全局特征融合)、Coordinate_attention、SPD（可替换下采样）

您的计算机已被[new_day@torguard.tg].faust 勒索病毒感染？恢复您的数据的方法在这里！

18--Elasticsearch

专业术语统计报告_多种能源发电协同发展管控模型及大数据分析研究

BetterJoy控制器配置终极指南：从零开始快速掌握Switch手柄PC使用技巧

软件测试实战：忍者像素绘卷API接口自动化测试用例设计

零信任实践：OpenClaw+SecGPT-14B构建个人安全决策引擎

OpenClaw权限管控：安全使用SecGPT-14B的5条黄金法则

OpenClaw配置备份指南：gemma-3-12b-it模型迁移与快速恢复

关键词SEO服务对网站排名有什么影响_关键词SEO服务与移动端优化有什么关系

GLM-4.1V-9B-Base部署指南：模型权重校验+SHA256完整性验证流程

【OpenClaw】测试工程师如何使用 OpenClaw 参与测试流程

告别手动备份！用Power Automate Desktop自动备份桌面重要文件并生成日志