免费爬虫软件“HyperlinkCollector超链采集器v0.1”
HyperlinkCollector超链采集器单机版v0.1
软件采用python的pyside2和selenium开发,暂时只支持window环境,抓取方式支持普通程序抓取和selenium模拟浏览器抓取。软件遵守robots协议。
首先下载后解压缩,然后运行app目录下的HyperlinkCollector.exe
运行后,我们先创建一个采集项目。

主要是填写项目名称和起始页url,如果采集多个列表页,可以添加完成后在“设置起始页”中进行修改。

创建好项目后,我们右键选择一个起始页,然后选择“抓取测试”,运行后,会在下面显示抓取到的url。
这里我以抓取东方财富网新闻为例:我们要抓取文章的内容,设置一下内容页URL的规则,比如这里我们在“url必须包含”中填写“finance.eastmoney.com/a/”。

然后再重新右键选择起始页进行抓取测试。这时候获取的url就是根据我们设置的规则获取的内容url。然后继续选择其中一条内容url,右键选择“抓取测试”。这时候,测试结果里会显示抓取的内容字段(系统默认添加了一个title和一个body)。
点击切换到“预览”标签,这里显示的是内容页url的预览 ,可以鼠标划取要抓取的内容部分,比如我们要抓取文章内容,我们可以只划取内容开头的一段文字,这时候会弹出一个快捷菜单,可以获取所选内容的xpath或者css选择器名称。

我这里以css选择器为例,点击“获取css选择器”之后,弹出窗口中,显示了包含所选内容的所有”css选择器名称”,这里可以对给出的css选择器进行测试,我们选择其中一个对应的。这里需要注意:获取的css选择器是当前选择内容的css选择器,实际中可能需要的是它的父级,这个要根据实际情况进行调节。比如我要抓取整篇文章,但划取后给出的css选择器是“html>body>div.main>div.contentwrap>div.contentbox>div.mainleft>div.zwinfos>div.txtinfos>p” ,只是其中我划取的那一段。这时候可以直接在文本框中修改,使用当前的父级“html>body>div.main>div.contentwrap>div.contentbox>div.mainleft>div.zwinfos>div.txtinfos”,然后再点击测试按钮,看看获取的内容是否正确。

设置完成后,选择”添加到采集字段”,将设置的 “css选择器”添加到采集字段

然后写一个字段名称保存。然后可以再进行一次测试看是否正常。
最后选择”保存当前项目设置”,设置任何修改后,要记得保存,否则采集时还是按以前的规则采集。
做完上面设置后,我们可以在左边的 项目列表中,右键选择刚刚设置的项目,然后选择“运行所选项目”
然后软件就会进行抓取。
数据保存,可以设置保存为excel或导出到接口,默认情况时保存到excel。但实际应用中更实用的时通过一个接口程序保存,以便根据自己的需求对采集数据进行二次加工处理。保存到接口时,数据是以json格式post提交的。设置中给了一个php接收的示例,您可以根据实际情况进行修改。
CSDN下载地址:
免费爬虫软件“HyperlinkCollector超链采集器v0.1”单机版
软件现在免费使用,有些功能还在不断完善中,如果您在使用软件中有什么问题,或者有开发需求,可以与我联系。
相关文章:
免费爬虫软件“HyperlinkCollector超链采集器v0.1”
HyperlinkCollector超链采集器单机版v0.1 软件采用python的pyside2和selenium开发,暂时只支持window环境,抓取方式支持普通程序抓取和selenium模拟浏览器抓取。软件遵守robots协议。 首先下载后解压缩,然后运行app目录下的HyperlinkCollector.exe 运行…...
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案
在第二届拯救者杯OPENAIGC开发者大赛中,涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到,我们特意开设了优秀作品报道专栏,旨在展示其独特之处和开发者的精彩故事。 无论您是技术专家还是爱好者,希望能带给您…...
k8s(kubernetes)的PV / PVC / StorageClass(理论+实践)
NFS总是不支持PVC扩容 先来个一句话总结:PV、PVC是K8S用来做存储管理的资源对象,它们让存储资源的使用变得可控,从而保障系统的稳定性、可靠性。StorageClass则是为了减少人工的工作量而去自动化创建PV的组件。所有Pod使用存储只有一个原则&…...
前端Excel热成像数据展示及插值算法
🎬 江城开朗的豌豆:个人主页 🔥 个人专栏:《 VUE 》 《 javaScript 》 📝 个人网站 :《 江城开朗的豌豆🫛 》 ⛺️生活的理想,就是为了理想的生活! 目录 📘 前言 📘一、热成像数…...
VBA_NZ系列工具NZ01: VBA二维码应用技术
我的教程一共九套及VBA汉英手册一部,分为初级、中级、高级三大部分。是对VBA的系统讲解,从简单的入门,到数据库,到字典,到高级的网抓及类的应用。大家在学习的过程中可能会存在困惑,这么多知识点该如何组织…...
小明震惊OpenAI 的新模型 01
在硅谷的中心,繁忙的咖啡馆和创业中心周围,年轻的软件工程师小明坐在他的办公桌前,面露困惑。科技界一直在盛传一项新的AI突破,但他持怀疑态度,不敢抱太大希望。他认为AI泡沫即将破灭,炒作列车即将出轨&…...
Clickhouse使用笔记
clickhouse官方文档:https://clickhouse.com/docs/zh/sql-reference/data-types/decimal 一,建表 create table acitivity_user_record ( id String DEFAULT generateUUIDv4(), -- 主键自增 activityId String, userId String, userName Nullable(Strin…...
基于高通主板的ARM架构服务器
一、ARM架构服务器的崛起 (一)市场需求推动 消费市场寒冬,全球消费电子需求下行,服务器成半导体核心动力之一。Arm 加速布局服务器领域,如 9 月推出 Neoverse V2。长久以来,x86 架构主导服务器市场&#…...
AV1 Bitstream Decoding Process Specification--[2]:符号和缩写术语
原文地址:https://aomediacodec.github.io/av1-spec/av1-spec.pdf没有梯子的下载地址:AV1 Bitstream & Decoding Process Specification摘要:这份文档定义了开放媒体联盟(Alliance for Open Media)AV1视频编解码器…...
【Python爬虫系列】_022.异步文件操作aiofiles
课 程 推 荐我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈PyQt5 系 列 教 程:👉👉 Python GUI(PyQt5)文章合集 👈👈...
GD32E230 RTC报警中断功能使用
GD32E230 RTC报警中断使用 GD32E230 RTC时钟源有3个,一个是内部RC振动器产生的40KHz作为时钟源,或者是有外部32768Hz晶振.,或者外部高速时钟晶振分频作为时钟源。 🔖个人认为最难理解难点的就是有关RTC时钟异步预分频和同步预分频的计算。在对…...
C/C++语言基础--从C到C++的不同(上)
本专栏目的 更新C/C的基础语法,包括C的一些新特性 前言 之前更新的C语言,感谢大家的点赞收藏关注,接下来我们逐步也开始更新C;C语言后面也会继续更新知识点,如内联汇编;本人现在正在写一个C语言的图书管理系…...
自动驾驶自动泊车场景应用总结
自动泊车技术是当前智能驾驶技术的一个重要分支,其目标是通过车辆自身的感知、决策和控制系统,实现车辆在有限空间内的自主泊车操作。目前自动泊车可分为半自动泊车、全自动泊车、记忆泊车、自主代客泊车四种产品形态,其中, 根据搭载传感器和使用场景的不同,全自动泊车又可…...
redis常见的数据类型?
参考:一文读懂Redis五种数据类型及应用场景 - 知乎 (zhihu.com) String 类型 String 类型:Redis 最基本的数据类型,它是二进制安全的,意味着你可以用它来存储任何类型的数据,如图片、序列化对象等。使用场景ÿ…...
TCP Analysis Flags 之 TCP ZeroWindow
前言 默认情况下,Wireshark 的 TCP 解析器会跟踪每个 TCP 会话的状态,并在检测到问题或潜在问题时提供额外的信息。在第一次打开捕获文件时,会对每个 TCP 数据包进行一次分析,数据包按照它们在数据包列表中出现的顺序进行处理。可…...
[产品管理-16]:NPDP新产品开发 - 14 - 产品创新流程 - 产品创新流程模型比较:门径、IPD、精益生产、敏捷、系统工程、设计思维、精益创业
目录 一、精益开发与敏捷开发的比较 1、核心理念 2、实践方式 3、应用场景 4、总结 二、门径流程 VS 敏捷方法 1、定义与特点 门径管理流程 敏捷方法 2、应用场景 3、比较 4、总结 三、集成产品开发 VS 系统工程 VS 设计思维 1、集成产品开发(IPD&…...
postgresql 导出CSV格式数据
方法一 psql -c 导出 导出的文件存放在执行psql的客户端。 psql -h 127.0.0.1 -p 5432 -U postgres postgres -Atqc "select oid,relname,relnamespace from tmp_t0 " --csv -o /tmp/test.csv方法二 psql -f 导出 导出的文件存放在执行psql的客户端。 如果查询很长…...
【C++】STL--string(上)
前言 C语言中,字符串是以\0结尾的一些字符的集合,为了操作方便,C标准库中提供了一些str系列的库函数,但是这些库函数与字符串是分离开的,不太符合OOP的思想,而且底层空间需要用户自己管理,稍不留…...
【C++】Stack
个人主页~ Stack 一、Stack的介绍和使用1、stack的介绍2、stack的使用3、stack的模拟实现 二、容器适配器1、什么是适配器2、容器适配器的使用 三、deque1、原理介绍2、deque的使用3、deque的缺陷 一、Stack的介绍和使用 1、stack的介绍 stack详细解释 stack是一种容器适配器…...
“药乡”怀化,按下产业向海“加速键”
怀化,这座被火车拖来的城市,拥有什么独特的产业优势吗? 很多人不知道的是,怀化在整个医药领域可是大名鼎鼎的“中国道地药材之乡”,中药材资源蕴藏量居湖南省第一。尤其是怀化靖州,这里年集散茯苓11万吨&a…...
HunyuanVideo-Foley在智能家居场景的落地:让智能设备拥有更自然的语音反馈
HunyuanVideo-Foley在智能家居场景的落地:让智能设备拥有更自然的语音反馈 1. 智能家居音效的现状与痛点 清晨6点半,刺耳的"滴滴滴"闹铃声把你从睡梦中惊醒;晚上关灯时,突然的"咔哒"断电声让人心头一紧——…...
灵感画廊实际作品:基于‘纪实瞬间’预设的城市街景写实图像生成
灵感画廊实际作品:基于‘纪实瞬间’预设的城市街景写实图像生成 “见微知著,凝光成影。将梦境的碎片,凝结为永恒的视觉诗篇。” 今天,我们不谈复杂的参数,也不讲枯燥的部署。我想带你走进一个特别的创作空间——灵感画…...
Python预测家庭用电趋势,高并发内存池(六):释放内存全过程搭建。
Python 家庭用电数据分析与 Prophet 预测 数据准备与预处理 家庭用电数据通常包含时间戳和用电量两列,数据可能来源于智能电表或电力公司。使用 Pandas 读取 CSV 或 Excel 文件,确保时间列转换为 datetime 格式。 import pandas as pd df pd.read_csv(h…...
零代码建站!免费源码网快速上手
在数字化浪潮席卷各行各业的今天,拥有一个专业网站已成为个人展示、企业宣传、产品推广的标配。然而,传统网站开发需要专业的技术团队、高昂的开发成本和漫长的建设周期,这让许多初创企业、个人站长望而却步。幸运的是,随着"…...
STM32串口通信优化:环形队列防数据丢失方案
1. STM32 串口数据接收的痛点与环形队列解决方案在嵌入式开发中,串口通信是最基础也最常用的外设之一。但新手常会遇到这样的问题:当大量数据快速涌入时,传统的串口接收方式很容易丢失数据。我曾经在一个工业传感器项目中就吃过这个亏——传感…...
极验滑动验证码自动化实战:背景提取、缺口定位与Playwright滑动模拟
滑动验证码自动化实战:背景提取、缺口定位与Playwright滑动模拟 一、前言 在爬虫自动化、Web端自动化测试、业务流程自动化等场景中,人机验证是保障系统安全的重要防线,也是自动化流程中最常见的“拦路虎”。极验(Geetest&#…...
AI 为什么不认识 Excel 文件?——用 SpreadJS 与 GCExcel 打通 AI 与数据的鸿沟
在技术领域,我们常常被那些闪耀的、可见的成果所吸引。今天,这个焦点无疑是大语言模型技术。它们的流畅对话、惊人的创造力,让我们得以一窥未来的轮廓。然而,作为在企业一线构建、部署和维护复杂系统的实践者,我们深知…...
Agent间数据流与控制流分离:构建可复用的协作架构
Agent间数据流与控制流分离:构建可复用的协作架构 一、 摘要/引言 1.1 开门见山:从一场“失控的Multi-Agent协作”讲起 上周六,我帮同事复盘他们团队的电商智能客服Agent集群上线事故——那天下午6点到8点,正好是618预热的第三波“整点蹲优惠券码”活动,负责规则推理优惠…...
设计键盘键帽个性替换件,精准适配,输出,客制化键盘低成本平替。
如何低成本获得独一无二的键帽。项目方案:基于Python的键盘键帽激光雕刻参数化生成系统一、 实际应用场景描述想象一下,你是一个 VIM 党,或者是一个重度使用 Figma 的设计师。你对键盘有着极致的追求:你想把 "ESC" 键换…...
Spring Boot 3.0升级实战:从2.x迁移到3.x的完整避坑指南
Spring Boot 3.0升级实战:从2.x迁移到3.x的完整避坑指南 Spring Boot 3.0的发布为Java开发者带来了诸多令人振奋的新特性,但同时也意味着从2.x版本升级并非简单的版本号变更。本文将深入剖析升级过程中的关键挑战,提供一套经过实战验证的迁移…...
