当前位置: 首页 > news >正文

数据挖掘 | 零代码采集房源数据,支持自动翻页、数据排重等

1 前言

城市规划、商业选址等应用场景中经常会对地区房价、地域价值进行数据分析,其中地区楼盘房价是分析数据中重要的信息参考点,一些互联网网站上汇聚了大量房源信息,通过收集此类数据,能够对地区房价的分析提供参考依据。

如何收集此类数据呢,互联网上提供了众多工具或代码,然后对于普通用户均有较高的使用门槛,并且需要调试用户体验不太理想,工作量也较大。

下面以目标网址为例:

上海楼盘网,上海新房一手房,上海房产网信息网,新开楼盘在售上海楼盘信息 - 安居客

为解决此类用户需求痛点,本着“所见所得”的设计理念,小O历时半年时间,重新对小O网兜软件进行重构,摈弃原有的使用思路,提升软件功能的同时,更加提升软件应用的灵活性,力求为用户提供更加实用的网页信息收集软件,这个过程中,反复测试,适配多种类型网页,面对及其复杂的网页内容结构,反复修改功能,再多次自我使用、测试、颠覆的状态中,终于发布新版本 0231,功能上超越之前版本,更加灵活可配置。

复杂功能和易用性有时难两全,软件在使用操作方面仍然有一定的门槛,好在软件也提供了数据模板功能,通过下载配置好的模板,用户可以跳过配置直接启动采集(不断扩充模板...),希望新版能够满足您数据采集上的需求,助力提升工作效率。

下文将以采集二手房源信息为例,带领大家感受软件功能。

本文操作流程概览

2 操作步骤

下载软件

登录官网 www.gis9.com ,首页往下滚动,下载【小O网兜】。

软件无需安装,下载后直接运行,可能会被防火墙或者软件管家之类的软件拦截,请将软件添加到信任列表里。

软件启动后进入主界面如图,请注册登录后使用软件。

新建任务

点击软件左上方网格球图标,打开任务向导窗口,可以新建和打开xop扩展名的任务文件。

当然,也可以直接从模板库中下载模板。

注意:任务文件保存着采集目标网页、采集的数据等信息,请妥善保存好。

本例子选择新建采集任务,设置任务文件保存目录,软件打开空的任务界面。如下图

打开目标网址,并新建采集规则,自动创建一组采集动作。

配置任务

依次配置每个动作的参数

【打开页面】

-- 该动作是让浏览器打开目标网址。

切换至动作参数,将当前网址复制到网址集合参数项里。如下图,点击批量生成后,会在列表页中新增网址记录。

【扫描页面】

-- 自动扫描页面所有元素,此动作无需配置。

如果目标页面带有向下滚动加载数据,可将超时参数设置大些,以便让程序自动将页面向下滚动,加载更多数据。

  • 滚动幅度:控制页面向下滚动的速度,值越大则越快。
  • 运行超时:控制页面滚动时长,可适当调大。

【读取数据】

-- 该动作从页面读取数据并保存至表格中。

  • (一) 点击【数据表】,弹出界面配置,新建存储表,默认会有一个表存储数据。如有需求,可以新建新表存储数据。

  • (二) 在读取数据Tab页中,点击数据块 / 新建菜单,新建读取数据块,如下图依次选择保存字段。对照页面设置需要采集的字段。

  • (三) 配置字段采集的数据,如下图,依次点击,使用[选择元素],在页面上右键选中目标元素,定位到[网页树]节点,在节点右键菜单,选[设置字段目标元素],设置目标元素至选中的字段。

  • (四) 选中[读数据块1],上图中 1 位置,需设置读取数据块和数据行。

  • (五) 点击字段,在页面下方有取值预览,调整参数获得想要的数据结果。
  • -- 设置参数[目标元素],在网页树选中节点,右键菜单,设置目标元素。
  • -- 设置取值参数,对值进行处理,预览值显示在下方。

  • (六) 点击表格,在页面下方能预览所有表格数据,页面中数据正确预览在表格中。

【翻页动作】

-- 设置翻页动作,执行后页面会自动翻页,提供多种方式翻页

查找和设置目标元素设置同上

设置翻页页码

  1. 点下一页按钮:设置下一页翻页,设置下一页目标元素,每次模拟翻页,可设置翻页执行次数。
  2. 逐个页码:设置页码翻页,设置翻页元素和页码,在页码中找到元素后执行翻页。

设置完成后, 可点击动作鼠标右键,单步执行该动作,验证页码是否翻页。

至此所有动作均配置完成。

执行任务

可挨个动作点击右键,执行单步,逐一执行动作。

也可以点击执行(循环),循环执行多有动作。下图,程序会进行运行直到结束。

异常情况,运行期间可能会出现异常情况,

1、 网页反扒,需要人工点击,此时可能会导致动作执行失效,人工点击验证后,再从任务点击右键继续循环执行。

2、 目标元素为找到,导致无法翻页。

导出数据

执行完毕后,打开【数据表】窗口,对采集数据进行处理后,导出CSV文件,可应用再其他软件中。

导出前,可对数据进行简单处理

--- 删除重复记录:选择 页码URL和标题作为唯一值进行排重

--- 导出数据:将表格数据导出CSV文件,可在EXCEL软件中打开表格。

到此就是小O网兜复制网页信息的全过程,感兴趣的朋友可登陆官网下载软件。

3 小结

小O网兜除了提供模板任务供用户直接下载并采集数据,也提供自定义配置功能,由用户自助式实现采集流程。本文以房源数据为例,介绍采集房源数据的操作流程,通过本文用户能够掌握房源数据采集任务的配置过程,满足中介、科研机构、高校研究等用户自定义采集需求。小O网兜提供开放式、可视化、配置化的采集功能,能够采集绝大多数网页的列表数据和自动翻页操作,实现无人留守自动采集。

后续作者还将继续对标其他优秀同类软件,新增更多操作简便、实用、易用的软件功能。

相关文章:

数据挖掘 | 零代码采集房源数据,支持自动翻页、数据排重等

1 前言 城市规划、商业选址等应用场景中经常会对地区房价、地域价值进行数据分析,其中地区楼盘房价是分析数据中重要的信息参考点,一些互联网网站上汇聚了大量房源信息,通过收集此类数据,能够对地区房价的分析提供参考依据。 如何…...

迪米特法则

迪米特法则,也称为最少知识原则(Law of Demeter),是面向对象设计中的一个原则,旨在降低对象之间的耦合性,提高系统的可维护性和可扩展性。该原则强调一个类不应该直接与其它不相关的类相互交互,…...

云积天赫|AIGC+营销的排头兵

AIGC生成式人工智能,正逐渐成为人们关注的焦点。AIGC的出现,标志着人工智能已经进入了一个全新的时代。AIGC的出现,也为营销行业带来了新的活力。那么企业该怎么利用这次AIGC浪潮,成为AIGC营销的排头兵呢?      “…...

Oracle 数据库备份

1、使用管理员账号创建对应的directory目录 登录数据库 sqlplus / as sysdba 创建directory create or replace directory dumpdir as F:\container; 2、给用户赋予使用该目录的权限 grant read,write on directory dumpdir to Scott; 查看创建的目录位置 select * fro…...

【C++】模板template

🔥🔥 欢迎来到小林的博客!!       🛰️博客主页:✈️林 子       🛰️博客专栏:✈️ C       🛰️社区 :✈️ 进步学堂       🛰️欢…...

智能工厂:适应不断变化的制造世界

制造业已经从过去传统的装配线工艺流程中走了很长一段路。随着技术的进步和工业 4.0 的兴起,制造业正在迅速发展,以满足现代世界不断变化的需求。近年来出现的一个关键概念就是“智能工厂”。在这篇文章中,我们将探讨什么是智能工厂、它是如何…...

大数据课程I3——Kafka的消息流与索引机制

文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 掌握Kafka的消息流处理; ⚪ 掌握Kafka的索引机制; ⚪ 掌握Kafka的消息系统语义; 一、Kafka消息流处理 1. Producer 写入消息 流程说明: 1. producer 要向Kafka生产消息,需要先通过…...

LVGL学习笔记 28 - 键盘keyboard

目录 1. 设置关联文本框 2. 设置模式 2.1 LV_KEYBOARD_MODE_TEXT_LOWER 2.2 LV_KEYBOARD_MODE_TEXT_UPPER 2.3 LV_KEYBOARD_MODE_SPECIAL 2.4 LV_KEYBOARD_MODE_NUMBER 2.5 LV_KEYBOARD_MODE_USER_1 ~ LV_KEYBOARD_MODE_USER_4 3. 使能弹窗模式 4. 更改按键布局 5. 事…...

【Microsoft 支持】【数据库-MySql】当您尝试从大于 5000 的 TCP 端口连接时收到错误 WSAENOBUFS (10055)

​ 一、转载原文 When you try to connect from TCP ports greater than 5000 you receive the error ‘WSAENOBUFS (10055)’ Symptoms If you try to set up TCP connections from ports that are greater than 5000, the local computer responds with the following WSAE…...

【学会动态规划】最长湍流子数组(23)

目录 动态规划怎么学? 1. 题目解析 2. 算法原理 1. 状态表示 2. 状态转移方程 3. 初始化 4. 填表顺序 5. 返回值 3. 代码编写 写在最后: 动态规划怎么学? 学习一个算法没有捷径,更何况是学习动态规划, 跟我…...

【网络编程·网络层】IP协议

目录 一、IP协议的概念 二、IP协议的报头 1、四位首部长度 2、16位总长度(解包) 3、8位协议(分用) 4、16位首部校验和 5、8位生存时间 6、32位源IP和32位目的IP 7、4位版本/8位服务类型 8、16位标识 9、3位标志 10、1…...

HTML详解连载(7)

HTML详解连载(7) 专栏链接 [link](http://t.csdn.cn/xF0H3)下面进行专栏介绍 开始喽结构伪类选择器作用 :nth-child(公式)作用举例 伪元素选择器作用注意: PxCoook作用盒子模型-重要组成部分 盒子模型-边框线属性名属性…...

一文打通redis中的String类型

目录 基本介绍 基本语法 常用命令解读 概述 SETNX key value SETNX key value GETRANGE key start end GETSET key value GETBIT key offset MGET key1 [key2..] STRLEN key 基本介绍 ①String是Redis最基本的类型,一个key对应一个value。 ②String类型是二进制…...

优测云服务平台|【压力测试功能升级】轻松完成压测任务

一、本次升级主要功能如下: 1.多份报告对比查看测试结果 2.报告新增多种下载格式 Word格式Excel格式 3.新增多种编排复杂场景的控制器 漏斗控制器并行控制器事务控制器仅一次控制器分组控制器集合点 4.新增概览页面,包含多种统计维度 二、报告对比…...

UseEffect中使用setState更新后获取的值为何依然是更新前

刚开始学习React的新手经常遇到这样的问题,使用useState去更新某个数据,然后再取更新后的数据,取发现数据并没有更新。 在 React 中,useState 的更新确实是异步的,这是由 React 的内部机制所决定的。React 会对多次状…...

去掉鼠标系列之一: 语雀快捷键使用指南

其实应该是系列之二了,因为前面写了一个关于Interlij IDEA的快捷键了。 为什么要写这个了,主要是觉得一会儿用鼠标,一会儿键盘,一点儿不酷,我希望可以一直用键盘,抛开鼠标。后面陆续记录一下各个软件的快捷…...

【Linux】Reactor模式

Reactor模式 Reactor模式的定义 Reactor反应器模式,也叫做分发者模式或通知者模式,是一种将就绪事件派发给对应服务处理程序的事件设计模式。 Reactor模式的角色构成 Reactor主要由以下五个角色构成: reactor模式的角色 角色解释Handle(句…...

【LeetCode 算法】Merge Two Binary Trees 合并二叉树

文章目录 Merge Two Binary Trees 合并二叉树问题描述:分析代码PreOrder DFSPreOrder Tag Merge Two Binary Trees 合并二叉树 问题描述: 给你两棵二叉树: root1 和 root2 。 想象一下,当你将其中一棵覆盖到另一棵之上时&#…...

系统架构设计师---2017年下午试题1分析与解答(试题五)

2017年下午试题1分析与解答 试题五 阅读以下关于Web系统架构设计的叙述,在答题纸上回答问题1至问题3. 【说明】 某电子商务企业因发展良好,客户量逐步增大,企业业务不断扩充,导致其原有的B2C商品交易平台己不能满足现有业务需求。因此,该企业委托某软件公司重新开发一套…...

el-table实现静态和动态合并单元格 以及内容显示的问题

实现效果图 <el-tablev-loading"loading":data"tableData"style"width: 100%":row-class-name"tableRowClassName"size"small"><el-table-column fixed label"序号" width"50"><el-tab…...

STM32F40X系列FSMC8路驱动LCD显示屏(LY-TFT30-39P-1509 芯片hx8352)

hx8352_8080_8bit_FMSC板级驱动 1.LCD相关1.1LCD参数1.2 LCD引脚1.3 LCD实物1.4 LCD引脚解释 2.接线关系3.STM32F40x基于FMSC16bit修改1)地址偏移2)删除多余GPIO3)修改FMSC的配置4&#xff09;LCD初始化寄存器 3.板驱动程序4.运行结果 1.LCD相关 1.1LCD参数 LCD控制芯片&…...

小象课堂在线授课教育系统

此项目包含后端全部代码&#xff0c;前端包括后台和web界面的源码&#xff0c;数据库用的mysql,可当作课设或者毕设&#xff0c;还可写入自己的简历中 web界面展示&#xff1a; 前端后台界面展示&#xff1a; 用户管理 课程管理 内容配置 订单管理 系统管理 系统监控...

Android 电池容量获取

Android 原生设置电池容量是在 power_profile.xml 中配置&#xff0c;此文件默认在 frameworks 目录下&#xff0c;也可能有 overlay 目录文件。 <!-- This is the battery capacity in mAh (measured at nominal voltage) --><item name"battery.capacity"…...

无涯教程-Perl - tell函数

描述 此函数返回指定FILEHANDLE中读取指针的当前位置(以字节为单位)。如果省略FILEHANDLE,则它将返回上次访问的文件中的位置。 语法 以下是此函数的简单语法- tell FILEHANDLEtell返回值 此函数以字节为单位返回当前文件位置。 例 以下是显示其基本用法的示例代码,要检…...

【论文综述】Transformer 综述

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_中科院AI算法工程师的博客-CSDN博客 Transformer综述大全&#xff08;1&#xff09;【A Survey of Visual Transformers】_香博士的博客-CSDN博客 Transformer综述大全&#xff08;2&#xff09;【A Survey of Vi…...

博客摘录「 佛祖保佑,永无bug——springboot启动图案的修改方法」2023年6月8日

挺有意思的。佛祖保佑永无BUG 神兽护体 代码注释(各种版本)_风流 少年的博客-CSDN博客...

【JavaEE进阶】SpringBoot 日志

文章目录 一. 日志有什么用?二. 自定义日志打印1. 日志的使用与打印 三. 日志级别1. 日志级别有什么用?2. 日志级别的分类及使用 四. 日志持久化五. 更简单的日志输出---Lombok1. Lombok的使用2. lombok原理解释2.1 Lombok更多注解说明 一. 日志有什么用? 在Java中&#xf…...

conda - 调研介绍

介绍: conda 是一个工具, 也是一个可执行命令, 其核心功能是管理包与环境. conda 支持多种语言, 用来管理Python包是绰绰有余的. 这里注意区分conda和pip, pip命令可以在任何环境中安装Python包, 而conda则是在conda环境中安装任何语言包. 接触过的conda主要有miniconda与anac…...

keepalived集群

keepalived概述 keepalived软件就是通过vrrp协议来实现高可用功能。 VRRP通信原理 VRRP就是虚拟路由冗余协议&#xff0c;它的出现就是为了解决静态路由的单点故障。 VRRP是通过一种竞选一种协议机制来将路由交个某台VRRP路由器。 VRRP 用IP多播的方式&#xff08;多播地…...

CentOS系统环境搭建(八)——CentOS7开机自动执行脚本(以MySQL为例)

CentOS7开机自动执行脚本 文章目录 CentOS7开机自动执行脚本第一步&#xff1a;新建一个脚本run.sh第二步&#xff1a;脚本添加可执行权限第三步&#xff1a;执行如下命令将/etc/rc.d/rc.local文标记为可执行文件第四步&#xff1a;打开/etc/rc.d/rc.local文件&#xff0c;在最…...