爬虫解析代码结构
在设计中加入一个顶层接口是有益的,特别是当您希望实现统一的接口来处理所有类型的排行榜数据时。这样做可以提供更好的灵活性和扩展性,同时保持代码的整洁和易于维护。
设计概述
- 接口: 定义一个
RankingDataCollector接口,它定义了所有数据收集器应该遵循的方法签名。 - 抽象基类: 定义一个抽象基类
RankingPageParser,它包含所有解析器共有的方法和属性。 - 具体解析器: 每个数据来源都有一个对应的子类,如
ToutiaoRankingParser、WeiboRankingParser等。 - 工厂模式: 使用工厂模式来根据数据来源创建相应的解析器实例。
classDiagramclass RankingDataCollector{+List<String> collectData(String url)}class RankingPageParser{+String url+Document parsePage()abstract +List<String> extractTitles()}class ToutiaoRankingParser{+RankingPageParser(url: String)+List<String> extractTitles()}class WeiboRankingParser{+RankingPageParser(url: String)+List<String> extractTitles()}class RankingParserFactory{+static RankingPageParser createParser(String platform, String url)}RankingPageParser <|-- ToutiaoRankingParserRankingPageParser <|-- WeiboRankingParserRankingDataCollector <|-- ToutiaoRankingParserRankingDataCollector <|-- WeiboRankingParser
Java 实现示例
1. 接口 RankingDataCollector
public interface RankingDataCollector {List<String> collectData(String url);
}
2. 抽象基类 RankingPageParser
public abstract class RankingPageParser implements RankingDataCollector {protected String url;public RankingPageParser(String url) {this.url = url;}public Document parsePage() throws IOException {return Jsoup.connect(url).get();}public abstract List<String> extractTitles();@Overridepublic List<String> collectData(String url) {this.url = url;return extractTitles();}
}
3. 具体解析器
public class ToutiaoRankingParser extends RankingPageParser {public ToutiaoRankingParser(String url) {super(url);}@Overridepublic List<String> extractTitles() {List<String> titles = new ArrayList<>();try {Document doc = parsePage();Elements titleWraps = doc.select(".list-container .title-wrap");for (Element titleWrap : titleWraps) {String titleText = titleWrap.text();titles.add(titleText);}} catch (IOException e) {e.printStackTrace();}return titles;}
}public class WeiboRankingParser extends RankingPageParser {public WeiboRankingParser(String url) {super(url);}@Overridepublic List<String> extractTitles() {List<String> titles = new ArrayList<>();try {Document doc = parsePage();Elements titleElements = doc.select(".weibo-rank .rank-item .title");for (Element titleElement : titleElements) {String titleText = titleElement.text();titles.add(titleText);}} catch (IOException e) {e.printStackTrace();}return titles;}
}
4. 工厂模式
public class RankingParserFactory {public static RankingPageParser createParser(String platform, String url) {switch (platform) {case "toutiao":return new ToutiaoRankingParser(url);case "weibo":return new WeiboRankingParser(url);default:throw new IllegalArgumentException("Unsupported platform: " + platform);}}
}
5. 使用示例
public class Main {public static void main(String[] args) {String url = "https://example.com/toutiao-ranking";RankingDataCollector collector = RankingParserFactory.createParser("toutiao", url);List<String> titles = collector.collectData(url);System.out.println("Collected Titles: " + titles);}
}
通过这样的设计,您可以轻松地添加新的数据来源或更改现有数据源的解析逻辑,只需实现 RankingPageParser 抽象类或扩展 RankingDataCollector 接口即可。这种设计模式使得代码更加模块化和易于维护。
相关文章:
爬虫解析代码结构
在设计中加入一个顶层接口是有益的,特别是当您希望实现统一的接口来处理所有类型的排行榜数据时。这样做可以提供更好的灵活性和扩展性,同时保持代码的整洁和易于维护。 设计概述 接口: 定义一个 RankingDataCollector 接口,它定义了所有数…...
day 23 进程间通信—管道
注意事项: 1、如果管道中至少有一个写端: 如果管道中有数据,直接读出 如果管道中没有数据,会阻塞等待直到有数据写入后读出 2、如果管道中没有写端: 如果管道中有数据,直接…...
Python酷库之旅-第三方库Pandas(073)
目录 一、用法精讲 296、pandas.Series.dt.as_unit方法 296-1、语法 296-2、参数 296-3、功能 296-4、返回值 296-5、说明 296-6、用法 296-6-1、数据准备 296-6-2、代码示例 296-6-3、结果输出 297、pandas.Series.dt.days属性 297-1、语法 297-2、参数 297-3、…...
使用easyexcel导出,发生了Exception: could not find acceptable repesentation
报错信息: 原因以及解决方案: 原因是我的代码使用Resp响应返回实体,其实使用EasyExcel导出已经设置了响应编码,导致重复了。 当你通过 HttpServletResponse 的输出流写入文件时,你已经直接控制了响应体。如果此时还尝…...
android display 笔记(五)HWC(Hardware Composer)
HWC 简单来说HWC是用来合成图形和显示图形的,可以把多个图形缓存传给硬件混合渲染器,让硬件混合渲染器执行合成操作,显示图形就是直接将图形缓存显示到屏幕。 android 14 /hardware/interfaces/graphics/composer/2.1/IComposer.hal 19 im…...
【模电笔记】——集成运算放大电路
tips:本章节的笔记已经打包到word文档里啦,建议大家下载文章顶部资源(有时看不到是在审核中,等等就能下载了。手机端下载后里面的插图可能会乱,建议电脑下载,兼容性更好且易于观看),…...
Android Studio Gradle多渠道打包
原理使用Android Studio打一次渠道包,用反编译工具反编译后,修改渠道信息重新编译 准备文件 分渠道配置文件:channel.txt ↓ # 多渠道配置里“统计平台”、“市场名称”、“渠道编号”分别代表什么意思? # 统计平台:…...
什么是DNS缓存?DNS缓存有哪些作用和危害?
在互联网世界的运转机制中,DNS(域名系统)是其中的关键,而DNS缓存则是这一系统的重要环节。它既能加快网站的访问速度,同时也会对网络安全造成影响,因此了解DNS缓存对于网站的日常管理至关重要。 什么是DNS…...
web基础与http协议与配置
目录 一、web基础 1.1 DNS与域名(详解看前面章节) 1.2 网页的概念(HTTP/HTTPS) 1.2.1 基本概念 1.2.2 HTML文档结构(了解) 1.2.3 web相关重点 1.2.4 静态资源和动态资源 二、http协议 2.1 概述 2.2 cookie和session&…...
机械学习—零基础学习日志(python编程2)
零基础为了学人工智能,正在艰苦的学习 这里把,函数以及类相关的知识做一个笔记,放在这里。 期待与大家交流~ 变量作用域 Python 中,程序的变量并不是在哪个位置都可以访问的,访问权限决定于这个变量是在哪里赋值的…...
element-plus的表单输入框有清除按钮的,文字输入前后宽度不一致怎么解决
输入内容之后多了一个可清除的图标,输入框的宽度也被撑开了 根据输入前后的dom对比发现,多了一个图标的span标签 :deep(.el-input__wrapper) {position: relative;.el-input__inner {padding-right: 18px;}.el-input__suffix {position: absolute;right:…...
解决Docker拉取镜像时 i/o timeout错误
目录 一,设置Docker镜像源(推荐) 1.1 解决方案1:配置加速地址 1.2 解决方案2:使用代理拉取镜像 1.3 解决方案3:备用办法:直接传送镜像 二,目前可用的镜像源 一,设置…...
面壁的智能开源 MiniCPM-V 2.6 边缘人工智能多模态功能与 GPT-4V 不相上下
"MiniCPM-V2.6 "是一个边缘多模态人工智能模型,仅拥有 80 亿个参数,却在单图像、多图像和视频理解任务中取得了低于 200 亿个参数的三项 SOTA(艺术境界)成绩,显著增强了边缘多模态能力,并与 GPT-…...
dhcp+checkkickstar的实验理解
文章目录 实验介绍使用的服务介绍PXE服务dhcp服务Kickstart 服务tftp服务 第一部分(基础部分)代码展示注意点第一点第二点 结果展示 第二部分(…...
Android网络安全:如何防止中间人攻击
文章目录 引言一、中间人攻击概述二、预防中间人攻击的方法2.1 使用HTTPS2.2 证书锁定(Certificate Pinning)2.3 使用SSL/TLS最佳实践2.4 验证主机名 三、总结 引言 中间人攻击(Man-in-the-Middle,简称MITM)是一种常见…...
NOI Linux 2.0 的安装说明以及使用指南
关于 NOI Linux 2.0 NOI Linux 是 NOI 竞赛委员会基于 Ubuntu 操作系统开发的一款 Linux 桌面发行版,是一套免费的、专门为信息学奥林匹克竞赛选手设计的操作系统,是 NOI 系列赛事指定操作系统,适用于常见笔记本电脑和桌面电脑。 新建虚拟机…...
07、MySQL-多表查询
目录 1、内连接 1.1 隐式内连接 1.2 显式内连接 2、外连接 2.1 左外连接 2.2 右外连接 3、自连接 4、联合查询 5、子查询 5.1 标量子查询 5.2 列子查询 5.3 行子查询 5.4 表子查询 1、内连接 概念:相当于查询A、B表交集的部分数据 1.1 隐式内连接 语法&…...
20240809 每日AI必读资讯
乒乓球AI机器人赢了人类!正反手灵活转换,擦网球高球都能接 - 谷歌发布首个达到人类竞技水平的机器人Agent,挑战乒乓球赛场。 - 机器人通过学习大量乒乓球状态数据,掌握了正手上旋球、反手瞄准等技能,展现出高速运动…...
《投资的原理》阅读笔记一
这是我准备集中学习投资类书籍后阅读的第8本书,但是是第一本读到一半决定从新开始、每章都写笔记的第一本书。 《投资的原理》的作者陈嘉禾先生是一位资深的价值投资者,书中也是大力弘扬着价值投资,跟我倾向于量化投资方向的想法并不合拍&am…...
金九银十,全网最详细的软件测试面试题总结
前面看到了一些面试题,总感觉会用得到,但是看一遍又记不住,所以我把面试题都整合在一起,都是来自各路大佬的分享,为了方便以后自己需要的时候刷一刷,不用再到处找题,今天把自己整理的这些面试题…...
全介质超构透镜模型实现偏振成像:实时分离聚焦与偏振信息解码
偏振成像 超构透镜模型 超表面 FDTD仿真 复现论文:2019年 APL Midinfrared real-time polarization imaging with all-dielectric metasurfaces 论文介绍:全介质实时偏振聚焦成像超构透镜模型,可以实现X Y RCP LCP四个偏振态的实时分离和聚焦…...
实战应用全流程:基于快马平台从零到一构建并部署龙虾openclaw官网
实战应用全流程:基于快马平台从零到一构建并部署龙虾openclaw官网 最近在做一个AI工具库的开源项目,需要搭建一个展示官网。作为独立开发者,从零开始构建一个完整的官网涉及很多环节,幸好发现了InsCode(快马)平台,帮我…...
快速原型设计:基于快马平台构建openclaw专业卸载工具的全流程交互demo
今天想和大家分享一个特别实用的开发经验——如何用InsCode(快马)平台快速搭建专业软件卸载工具的原型。最近正好在研究openclaw这款专业软件的卸载流程,发现市面上很多卸载工具都太简单粗暴,于是决定自己动手做个更完善的方案。 原型设计思路 专业软件的…...
如何判断你的Linux系统能否运行displaylink-debian?驱动适配全攻略
如何判断你的Linux系统能否运行displaylink-debian?驱动适配全攻略 【免费下载链接】displaylink-debian DisplayLink driver installer for Debian and Ubuntu based Linux distributions. 项目地址: https://gitcode.com/gh_mirrors/di/displaylink-debian …...
基于圣女司幼幽-造相Z-Turbo的实时交互应用开发:构建在线AI绘画工坊
基于圣女司幼幽-造相Z-Turbo的实时交互应用开发:构建在线AI绘画工坊 想象一下,你正在一个在线工具里创作一幅画。你输入“星空下的鲸鱼”,点击生成,然后…就是漫长的等待。你不知道它画到哪一步了,是卡住了࿰…...
AI专著撰写实用指南:优质工具推荐,开启高效写作之旅
学术专著写作的挑战与AI工具解决方案 学术专著的严谨性,离不开大量的资料和数据支持。收集和整合这些资料与数据却是写作过程中最繁琐也是最耗时的部分。研究者需要全面查阅国内外最新文献,这不仅要求文献具备权威性和相关性,还要追溯原始来…...
微信聊天记录数据管理:WeChatMsg开源工具的完整应用指南
微信聊天记录数据管理:WeChatMsg开源工具的完整应用指南 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeC…...
开源工具DS4Windows:PS手柄Windows协议转换与手柄适配全指南
开源工具DS4Windows:PS手柄Windows协议转换与手柄适配全指南 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows DS4Windows作为一款开源工具,其核心功能在于实现PS手柄…...
高效智能合规:抖音无水印视频批量采集工具的技术突破与多场景落地
高效智能合规:抖音无水印视频批量采集工具的技术突破与多场景落地 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fal…...
保姆级教程:手把手教你用nav2_map_server在ROS2 Humble中加载并显示PGM地图
保姆级教程:手把手教你用nav2_map_server在ROS2 Humble中加载并显示PGM地图 在机器人导航开发中,地图加载是最基础却最容易出错的环节之一。很多ROS2初学者在从ROS1迁移到ROS2时,会发现原本顺畅的地图显示流程突然变得棘手——明明按照ROS1的…...
