数据挖掘 | 零代码采集房源数据,支持自动翻页、数据排重等
1 前言
城市规划、商业选址等应用场景中经常会对地区房价、地域价值进行数据分析,其中地区楼盘房价是分析数据中重要的信息参考点,一些互联网网站上汇聚了大量房源信息,通过收集此类数据,能够对地区房价的分析提供参考依据。
如何收集此类数据呢,互联网上提供了众多工具或代码,然后对于普通用户均有较高的使用门槛,并且需要调试用户体验不太理想,工作量也较大。
下面以目标网址为例:
上海楼盘网,上海新房一手房,上海房产网信息网,新开楼盘在售上海楼盘信息 - 安居客
为解决此类用户需求痛点,本着“所见所得”的设计理念,小O历时半年时间,重新对小O网兜软件进行重构,摈弃原有的使用思路,提升软件功能的同时,更加提升软件应用的灵活性,力求为用户提供更加实用的网页信息收集软件,这个过程中,反复测试,适配多种类型网页,面对及其复杂的网页内容结构,反复修改功能,再多次自我使用、测试、颠覆的状态中,终于发布新版本 0231,功能上超越之前版本,更加灵活可配置。
复杂功能和易用性有时难两全,软件在使用操作方面仍然有一定的门槛,好在软件也提供了数据模板功能,通过下载配置好的模板,用户可以跳过配置直接启动采集(不断扩充模板...),希望新版能够满足您数据采集上的需求,助力提升工作效率。
下文将以采集二手房源信息为例,带领大家感受软件功能。
本文操作流程概览
2 操作步骤
下载软件
登录官网 www.gis9.com ,首页往下滚动,下载【小O网兜】。
软件无需安装,下载后直接运行,可能会被防火墙或者软件管家之类的软件拦截,请将软件添加到信任列表里。
软件启动后进入主界面如图,请注册登录后使用软件。
新建任务
点击软件左上方网格球图标,打开任务向导窗口,可以新建和打开xop扩展名的任务文件。
当然,也可以直接从模板库中下载模板。
注意:任务文件保存着采集目标网页、采集的数据等信息,请妥善保存好。
本例子选择新建采集任务,设置任务文件保存目录,软件打开空的任务界面。如下图
打开目标网址,并新建采集规则,自动创建一组采集动作。
配置任务
依次配置每个动作的参数
【打开页面】
-- 该动作是让浏览器打开目标网址。
切换至动作参数,将当前网址复制到网址集合参数项里。如下图,点击批量生成后,会在列表页中新增网址记录。
【扫描页面】
-- 自动扫描页面所有元素,此动作无需配置。
如果目标页面带有向下滚动加载数据,可将超时参数设置大些,以便让程序自动将页面向下滚动,加载更多数据。
- 滚动幅度:控制页面向下滚动的速度,值越大则越快。
- 运行超时:控制页面滚动时长,可适当调大。
【读取数据】
-- 该动作从页面读取数据并保存至表格中。
- (一) 点击【数据表】,弹出界面配置,新建存储表,默认会有一个表存储数据。如有需求,可以新建新表存储数据。
- (二) 在读取数据Tab页中,点击数据块 / 新建菜单,新建读取数据块,如下图依次选择保存字段。对照页面设置需要采集的字段。
- (三) 配置字段采集的数据,如下图,依次点击,使用[选择元素],在页面上右键选中目标元素,定位到[网页树]节点,在节点右键菜单,选[设置字段目标元素],设置目标元素至选中的字段。
- (四) 选中[读数据块1],上图中 1 位置,需设置读取数据块和数据行。
- (五) 点击字段,在页面下方有取值预览,调整参数获得想要的数据结果。
- -- 设置参数[目标元素],在网页树选中节点,右键菜单,设置目标元素。
- -- 设置取值参数,对值进行处理,预览值显示在下方。
- (六) 点击表格,在页面下方能预览所有表格数据,页面中数据正确预览在表格中。
【翻页动作】
-- 设置翻页动作,执行后页面会自动翻页,提供多种方式翻页
查找和设置目标元素设置同上
设置翻页页码
- 点下一页按钮:设置下一页翻页,设置下一页目标元素,每次模拟翻页,可设置翻页执行次数。
- 逐个页码:设置页码翻页,设置翻页元素和页码,在页码中找到元素后执行翻页。
设置完成后, 可点击动作鼠标右键,单步执行该动作,验证页码是否翻页。
至此所有动作均配置完成。
执行任务
可挨个动作点击右键,执行单步,逐一执行动作。
也可以点击执行(循环),循环执行多有动作。下图,程序会进行运行直到结束。
异常情况,运行期间可能会出现异常情况,
1、 网页反扒,需要人工点击,此时可能会导致动作执行失效,人工点击验证后,再从任务点击右键继续循环执行。
2、 目标元素为找到,导致无法翻页。
导出数据
执行完毕后,打开【数据表】窗口,对采集数据进行处理后,导出CSV文件,可应用再其他软件中。
导出前,可对数据进行简单处理
--- 删除重复记录:选择 页码URL和标题作为唯一值进行排重
--- 导出数据:将表格数据导出CSV文件,可在EXCEL软件中打开表格。
到此就是小O网兜复制网页信息的全过程,感兴趣的朋友可登陆官网下载软件。
3 小结
小O网兜除了提供模板任务供用户直接下载并采集数据,也提供自定义配置功能,由用户自助式实现采集流程。本文以房源数据为例,介绍采集房源数据的操作流程,通过本文用户能够掌握房源数据采集任务的配置过程,满足中介、科研机构、高校研究等用户自定义采集需求。小O网兜提供开放式、可视化、配置化的采集功能,能够采集绝大多数网页的列表数据和自动翻页操作,实现无人留守自动采集。
后续作者还将继续对标其他优秀同类软件,新增更多操作简便、实用、易用的软件功能。
相关文章:

数据挖掘 | 零代码采集房源数据,支持自动翻页、数据排重等
1 前言 城市规划、商业选址等应用场景中经常会对地区房价、地域价值进行数据分析,其中地区楼盘房价是分析数据中重要的信息参考点,一些互联网网站上汇聚了大量房源信息,通过收集此类数据,能够对地区房价的分析提供参考依据。 如何…...
迪米特法则
迪米特法则,也称为最少知识原则(Law of Demeter),是面向对象设计中的一个原则,旨在降低对象之间的耦合性,提高系统的可维护性和可扩展性。该原则强调一个类不应该直接与其它不相关的类相互交互,…...
云积天赫|AIGC+营销的排头兵
AIGC生成式人工智能,正逐渐成为人们关注的焦点。AIGC的出现,标志着人工智能已经进入了一个全新的时代。AIGC的出现,也为营销行业带来了新的活力。那么企业该怎么利用这次AIGC浪潮,成为AIGC营销的排头兵呢? “…...
Oracle 数据库备份
1、使用管理员账号创建对应的directory目录 登录数据库 sqlplus / as sysdba 创建directory create or replace directory dumpdir as F:\container; 2、给用户赋予使用该目录的权限 grant read,write on directory dumpdir to Scott; 查看创建的目录位置 select * fro…...

【C++】模板template
🔥🔥 欢迎来到小林的博客!! 🛰️博客主页:✈️林 子 🛰️博客专栏:✈️ C 🛰️社区 :✈️ 进步学堂 🛰️欢…...

智能工厂:适应不断变化的制造世界
制造业已经从过去传统的装配线工艺流程中走了很长一段路。随着技术的进步和工业 4.0 的兴起,制造业正在迅速发展,以满足现代世界不断变化的需求。近年来出现的一个关键概念就是“智能工厂”。在这篇文章中,我们将探讨什么是智能工厂、它是如何…...

大数据课程I3——Kafka的消息流与索引机制
文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 掌握Kafka的消息流处理; ⚪ 掌握Kafka的索引机制; ⚪ 掌握Kafka的消息系统语义; 一、Kafka消息流处理 1. Producer 写入消息 流程说明: 1. producer 要向Kafka生产消息,需要先通过…...

LVGL学习笔记 28 - 键盘keyboard
目录 1. 设置关联文本框 2. 设置模式 2.1 LV_KEYBOARD_MODE_TEXT_LOWER 2.2 LV_KEYBOARD_MODE_TEXT_UPPER 2.3 LV_KEYBOARD_MODE_SPECIAL 2.4 LV_KEYBOARD_MODE_NUMBER 2.5 LV_KEYBOARD_MODE_USER_1 ~ LV_KEYBOARD_MODE_USER_4 3. 使能弹窗模式 4. 更改按键布局 5. 事…...

【Microsoft 支持】【数据库-MySql】当您尝试从大于 5000 的 TCP 端口连接时收到错误 WSAENOBUFS (10055)
一、转载原文 When you try to connect from TCP ports greater than 5000 you receive the error ‘WSAENOBUFS (10055)’ Symptoms If you try to set up TCP connections from ports that are greater than 5000, the local computer responds with the following WSAE…...

【学会动态规划】最长湍流子数组(23)
目录 动态规划怎么学? 1. 题目解析 2. 算法原理 1. 状态表示 2. 状态转移方程 3. 初始化 4. 填表顺序 5. 返回值 3. 代码编写 写在最后: 动态规划怎么学? 学习一个算法没有捷径,更何况是学习动态规划, 跟我…...

【网络编程·网络层】IP协议
目录 一、IP协议的概念 二、IP协议的报头 1、四位首部长度 2、16位总长度(解包) 3、8位协议(分用) 4、16位首部校验和 5、8位生存时间 6、32位源IP和32位目的IP 7、4位版本/8位服务类型 8、16位标识 9、3位标志 10、1…...

HTML详解连载(7)
HTML详解连载(7) 专栏链接 [link](http://t.csdn.cn/xF0H3)下面进行专栏介绍 开始喽结构伪类选择器作用 :nth-child(公式)作用举例 伪元素选择器作用注意: PxCoook作用盒子模型-重要组成部分 盒子模型-边框线属性名属性…...
一文打通redis中的String类型
目录 基本介绍 基本语法 常用命令解读 概述 SETNX key value SETNX key value GETRANGE key start end GETSET key value GETBIT key offset MGET key1 [key2..] STRLEN key 基本介绍 ①String是Redis最基本的类型,一个key对应一个value。 ②String类型是二进制…...

优测云服务平台|【压力测试功能升级】轻松完成压测任务
一、本次升级主要功能如下: 1.多份报告对比查看测试结果 2.报告新增多种下载格式 Word格式Excel格式 3.新增多种编排复杂场景的控制器 漏斗控制器并行控制器事务控制器仅一次控制器分组控制器集合点 4.新增概览页面,包含多种统计维度 二、报告对比…...
UseEffect中使用setState更新后获取的值为何依然是更新前
刚开始学习React的新手经常遇到这样的问题,使用useState去更新某个数据,然后再取更新后的数据,取发现数据并没有更新。 在 React 中,useState 的更新确实是异步的,这是由 React 的内部机制所决定的。React 会对多次状…...

去掉鼠标系列之一: 语雀快捷键使用指南
其实应该是系列之二了,因为前面写了一个关于Interlij IDEA的快捷键了。 为什么要写这个了,主要是觉得一会儿用鼠标,一会儿键盘,一点儿不酷,我希望可以一直用键盘,抛开鼠标。后面陆续记录一下各个软件的快捷…...

【Linux】Reactor模式
Reactor模式 Reactor模式的定义 Reactor反应器模式,也叫做分发者模式或通知者模式,是一种将就绪事件派发给对应服务处理程序的事件设计模式。 Reactor模式的角色构成 Reactor主要由以下五个角色构成: reactor模式的角色 角色解释Handle(句…...
【LeetCode 算法】Merge Two Binary Trees 合并二叉树
文章目录 Merge Two Binary Trees 合并二叉树问题描述:分析代码PreOrder DFSPreOrder Tag Merge Two Binary Trees 合并二叉树 问题描述: 给你两棵二叉树: root1 和 root2 。 想象一下,当你将其中一棵覆盖到另一棵之上时&#…...
系统架构设计师---2017年下午试题1分析与解答(试题五)
2017年下午试题1分析与解答 试题五 阅读以下关于Web系统架构设计的叙述,在答题纸上回答问题1至问题3. 【说明】 某电子商务企业因发展良好,客户量逐步增大,企业业务不断扩充,导致其原有的B2C商品交易平台己不能满足现有业务需求。因此,该企业委托某软件公司重新开发一套…...

el-table实现静态和动态合并单元格 以及内容显示的问题
实现效果图 <el-tablev-loading"loading":data"tableData"style"width: 100%":row-class-name"tableRowClassName"size"small"><el-table-column fixed label"序号" width"50"><el-tab…...

华为云AI开发平台ModelArts
华为云ModelArts:重塑AI开发流程的“智能引擎”与“创新加速器”! 在人工智能浪潮席卷全球的2025年,企业拥抱AI的意愿空前高涨,但技术门槛高、流程复杂、资源投入巨大的现实,却让许多创新构想止步于实验室。数据科学家…...

大数据学习栈记——Neo4j的安装与使用
本文介绍图数据库Neofj的安装与使用,操作系统:Ubuntu24.04,Neofj版本:2025.04.0。 Apt安装 Neofj可以进行官网安装:Neo4j Deployment Center - Graph Database & Analytics 我这里安装是添加软件源的方法 最新版…...

手游刚开服就被攻击怎么办?如何防御DDoS?
开服初期是手游最脆弱的阶段,极易成为DDoS攻击的目标。一旦遭遇攻击,可能导致服务器瘫痪、玩家流失,甚至造成巨大经济损失。本文为开发者提供一套简洁有效的应急与防御方案,帮助快速应对并构建长期防护体系。 一、遭遇攻击的紧急应…...

P3 QT项目----记事本(3.8)
3.8 记事本项目总结 项目源码 1.main.cpp #include "widget.h" #include <QApplication> int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); } 2.widget.cpp #include "widget.h" #include &q…...

学习STC51单片机31(芯片为STC89C52RCRC)OLED显示屏1
每日一言 生活的美好,总是藏在那些你咬牙坚持的日子里。 硬件:OLED 以后要用到OLED的时候找到这个文件 OLED的设备地址 SSD1306"SSD" 是品牌缩写,"1306" 是产品编号。 驱动 OLED 屏幕的 IIC 总线数据传输格式 示意图 …...
Spring AI 入门:Java 开发者的生成式 AI 实践之路
一、Spring AI 简介 在人工智能技术快速迭代的今天,Spring AI 作为 Spring 生态系统的新生力量,正在成为 Java 开发者拥抱生成式 AI 的最佳选择。该框架通过模块化设计实现了与主流 AI 服务(如 OpenAI、Anthropic)的无缝对接&…...
Linux离线(zip方式)安装docker
目录 基础信息操作系统信息docker信息 安装实例安装步骤示例 遇到的问题问题1:修改默认工作路径启动失败问题2 找不到对应组 基础信息 操作系统信息 OS版本:CentOS 7 64位 内核版本:3.10.0 相关命令: uname -rcat /etc/os-rele…...
Go 并发编程基础:通道(Channel)的使用
在 Go 中,Channel 是 Goroutine 之间通信的核心机制。它提供了一个线程安全的通信方式,用于在多个 Goroutine 之间传递数据,从而实现高效的并发编程。 本章将介绍 Channel 的基本概念、用法、缓冲、关闭机制以及 select 的使用。 一、Channel…...

计算机基础知识解析:从应用到架构的全面拆解
目录 前言 1、 计算机的应用领域:无处不在的数字助手 2、 计算机的进化史:从算盘到量子计算 3、计算机的分类:不止 “台式机和笔记本” 4、计算机的组件:硬件与软件的协同 4.1 硬件:五大核心部件 4.2 软件&#…...
Spring AI Chat Memory 实战指南:Local 与 JDBC 存储集成
一个面向 Java 开发者的 Sring-Ai 示例工程项目,该项目是一个 Spring AI 快速入门的样例工程项目,旨在通过一些小的案例展示 Spring AI 框架的核心功能和使用方法。 项目采用模块化设计,每个模块都专注于特定的功能领域,便于学习和…...