当前位置: 首页 > news >正文

Golang爬虫封装

引言

爬虫是一种自动化地从网页中提取信息的程序,它在现代互联网的数据获取和分析中扮演着重要的角色。Golang作为一门强大的编程语言,也提供了丰富的工具和库来实现爬虫功能。在本文中,我们将探讨如何使用Golang来封装一个灵活、高效的爬虫程序。

1. Golang爬虫概述

在开始讨论封装爬虫之前,我们先来了解一下Golang中的爬虫概念和基本原理。爬虫通常由以下几个组件组成:

  • 网页下载器:负责从URL中下载网页内容。
  • 网页解析器:负责解析网页内容,提取所需的数据。
  • 数据存储器:负责将提取的数据存储到本地或者数据库中。

Golang提供了许多强大的库和工具来实现这些组件,如net/http库用于下载网页,goquery库用于解析HTML,database/sql库用于数据存储等。

2. 封装爬虫功能模块

为了提高代码的可读性和可维护性,我们将爬虫功能模块进行封装。以下是一个简单的爬虫封装示例:

package crawlerimport ("fmt""io/ioutil""net/http"
)type Crawler struct {
}func (c *Crawler) Download(url string) ([]byte, error) {resp, err := http.Get(url)if err != nil {return nil, err}defer resp.Body.Close()body, err := ioutil.ReadAll(resp.Body)if err != nil {return nil, err}return body, nil
}func (c *Crawler) Parse(body []byte) {// 解析网页内容// 提取所需的数据
}func (c *Crawler) Store(data string) {// 存储数据到本地或数据库
}func (c *Crawler) Run(url string) {body, err := c.Download(url)if err != nil {fmt.Println("下载网页失败:", err)return}c.Parse(body)c.Store("提取的数据")
}

在上面的示例中,我们定义了一个Crawler结构体,其中包含了下载、解析和存储等功能。Download方法负责从给定的URL下载网页内容,并返回字节切片。Parse方法负责解析网页内容,提取所需的数据。Store方法负责将提取的数据存储到本地或数据库中。Run方法是爬虫的入口,负责调用其他功能方法来完成整个爬取流程。

3. 使用爬虫封装模块

使用封装的爬虫模块非常简单,只需实例化Crawler结构体并调用Run方法即可。以下是一个使用示例:

package mainimport "crawler"func main() {c := crawler.Crawler{}c.Run("http://example.com")
}

在上面的示例中,我们导入了封装的爬虫模块,实例化Crawler结构体并调用Run方法来启动爬虫程序。这样就完成了一个简单的爬虫任务。

4. 爬虫的进一步封装

上面的示例只是一个简单的爬虫封装模块,实际应用中可能需要更多的功能和扩展。下面是一些可以进一步封装的功能点:

并发爬取

使用Golang的并发特性,可以实现爬虫的并发执行,提高爬取效率。我们可以使用goroutinechannel来实现并发爬取,例如使用一个WorkPool来控制并发数量,每个goroutine负责一个URL的下载、解析和存储。

定时爬取

如果需要定时执行爬取任务,可以使用Golang的time包来实现定时任务。可以创建一个定时器,在每个时间间隔内执行爬取任务。

动态配置

为了增加灵活性,可以将爬虫的配置参数进行动态化。可以使用Golang的flag包来定义命令行参数,或者使用配置文件来配置爬虫的各项参数。

错误处理

在爬虫过程中可能会遇到网络异常、解析错误等问题,我们需要对这些错误进行恰当的处理。可以使用Golang的error类型来表示错误,并进行适当的错误处理和日志记录。

5. 案例1:爬取图片链接

在这个案例中,我们将演示如何使用封装的爬虫模块来爬取网页中的图片链接。我们将使用goquery库来解析HTML并提取图片链接。

首先,我们在Parse方法中添加以下代码来解析网页并提取图片链接:

func (c *Crawler) Parse(body []byte) {doc, err := goquery.NewDocumentFromReader(bytes.NewReader(body))if err != nil {log.Fatal(err)}doc.Find("img").Each(func(i int, s *goquery.Selection) {link, exists := s.Attr("src")if exists {fmt.Println(link)}})
}

在上述代码中,我们使用goquery库的NewDocumentFromReader方法将HTML内容解析为Document对象。然后,我们使用Find方法和选择器img来找到网页中的所有图片元素。然后,我们使用Attr方法获取图片元素的src属性值,即图片链接。最后,我们将图片链接打印出来。

接下来,我们在main函数中添加以下代码来运行爬虫:

func main() {crawler := NewCrawler()crawler.Run("https://www.example.com")
}

这个案例将爬取https://www.example.com网页中的所有图片链接,并将其打印出来。

6. 案例2:爬取文章标题和内容

在这个案例中,我们将使用封装的爬虫模块来爬取网页中的文章标题和内容。我们将使用goquery库来解析HTML并提取文章标题和内容。

首先,我们在Parse方法中添加以下代码来解析网页并提取文章标题和内容:

func (c *Crawler) Parse(body []byte) {doc, err := goquery.NewDocumentFromReader(bytes.NewReader(body))if err != nil {log.Fatal(err)}title := doc.Find("h1").Text()fmt.Println("标题:", title)content := doc.Find("div.content").Text()fmt.Println("内容:", content)
}

在上述代码中,我们使用goquery库的NewDocumentFromReader方法将HTML内容解析为Document对象。然后,我们使用Find方法和选择器h1来找到网页中的标题元素,使用Text方法获取标题文本,并将其打印出来。接着,我们使用Find方法和选择器div.content来找到网页中的内容元素,使用Text方法获取内容文本,并将其打印出来。

接下来,我们在main函数中添加以下代码来运行爬虫:

func main() {crawler := NewCrawler()crawler.Run("https://www.example.com/article/1")
}

这个案例将爬取https://www.example.com/article/1网页中的文章标题和内容,并将其打印出来。

7. 案例3:爬取商品信息

在这个案例中,我们将使用封装的爬虫模块来爬取网页中的商品信息。我们将使用goquery库来解析HTML并提取商品信息。

首先,我们定义一个Product结构体来表示商品信息:

type Product struct {Name  stringPrice string
}

然后,我们在Parse方法中添加以下代码来解析网页并提取商品信息:

func (c *Crawler) Parse(body []byte) {doc, err := goquery.NewDocumentFromReader(bytes.NewReader(body))if err != nil {log.Fatal(err)}doc.Find("div.product").Each(func(i int, s *goquery.Selection) {name := s.Find("h3").Text()price := s.Find("span.price").Text()product := Product{Name:  name,Price: price,}fmt.Println("商品:", product)})
}

在上述代码中,我们使用goquery库的NewDocumentFromReader方法将HTML内容解析为Document对象。然后,我们使用Find方法和选择器div.product来找到网页中的所有商品元素。然后,我们使用Find方法和选择器h3来找到商品元素中的名称元素,使用Text方法获取名称文本。接着,我们使用Find方法和选择器span.price来找到商品元素中的价格元素,使用Text方法获取价格文本。最后,我们将商品名称和价格组成一个Product对象,并将其打印出来。

接下来,我们在main函数中添加以下代码来运行爬虫:

func main() {crawler := NewCrawler()crawler.Run("https://www.example.com/products")
}

这个案例将爬取https://www.example.com/products网页中的所有商品信息,并将其打印出来。

结论

Golang提供了丰富的库和工具来实现爬虫功能。通过封装爬虫模块,我们可以提高代码的可读性和可维护性,并实现更多的功能扩展。希望本文对你理解和使用Golang爬虫封装有所帮助。

参考文献

  • “Building a Web Scraper with Golang” - https://towardsdatascience.com/building-a-web-scraper-with-golang-3f8605543051
  • “An Introduction to Web Scraping with Golang” - https://www.scrapingbee.com/blog/web-scraping-golang/
  • “Web scraping in Go, the easy way” - https://hackernoon.com/web-scraping-in-go-the-easy-way-93a34f3278c7

相关文章:

Golang爬虫封装

引言 爬虫是一种自动化地从网页中提取信息的程序,它在现代互联网的数据获取和分析中扮演着重要的角色。Golang作为一门强大的编程语言,也提供了丰富的工具和库来实现爬虫功能。在本文中,我们将探讨如何使用Golang来封装一个灵活、高效的爬虫…...

技术分享 | 抓包分析 TCP 协议

TCP 协议是在传输层中,一种面向连接的、可靠的、基于字节流的传输层通信协议。 环境准备 对接口测试工具进行分类,可以如下几类: 网络嗅探工具:tcpdump,wireshark代理工具:fiddler,charles&a…...

基于前馈神经网络完成鸢尾花分类

目录 1 小批量梯度下降法 1.0 展开聊一聊~ 1.1 数据分组 1.2 用DataLoader进行封装 1.3 模型构建 1.4 完善Runner类 1.5 模型训练 1.6 模型评价 1.7 模型预测 思考 总结 参考文献 首先基础知识铺垫~ 继续使用第三章中的鸢尾花分类任务,将Softm…...

软考高级系统架构设计师系列之:UML建模、设计模式和软件架构设计章节选择题详解

软考高级系统架构设计师系列之:UML建模、设计模式和软件架构设计章节选择题详解 一、设计模式二、4+1模型三、面向对象的分析模型四、构件五、基于架构的软件设计六、4+1视图七、软件架构风格八、特定领域软件架构九、虚拟机十、架构评估十一、敏感点和权衡点十二、分层结构十…...

成集云 | 电商平台、ERP、WMS集成 | 解决方案

电商平台ERPWMS 方案介绍 电商平台即是一个为企业或个人提供网上交易洽谈的平台。企业电子商务平台是建立在Internet网上进行商务活动的虚拟网络空间和保障商务顺利运营的管理环境;是协调、整合信息流、货物流、资金流有序、关联、高效流动的重要场所。企业、商家…...

吴恩达《机器学习》4-6->4-7:正规方程

一、正规方程基本思想 正规方程是一种通过数学推导来求解线性回归参数的方法,它通过最小化代价函数来找到最优参数。 代价函数 J(θ) 用于度量模型预测值与实际值之间的误差,通常采用均方误差。 二、步骤 准备数据集,包括特征矩阵 X 和目标…...

VO、DTO

DTO DTO(Data Transfer Object) 数据传输对象【前后端交互】 也就是后端开发过程中,用来接收前端传过来的参数,一般会创建一个Java对应的DTO类(UserDTO等等) 因为前端一般传来的是Json格式的数据&#xf…...

RK3566上运行yolov5模型进行图像识别

一、简介 本文记录了依靠RK官网的文档,一步步搭建环境到最终在rk3566上把yolov5 模型跑起来。最终实现的效果如下: 在rk3566 板端运行如下app: ./rknn_yolov5_demo model/RK356X/yolov5s-640-640.rknn model/bus.jpg其中yolov5s-640-640.r…...

汽车标定技术(一):XCP概述

目录 1.汽车标定概述 2.XCP协议由来及版本介绍 3.XCP技术通览 3.1 XCP上下机通信模型 3.2 XCP指令集 3.2.1 XCP帧结构定义 3.2.2 标准指令集 3.2.3 标定指令集 3.2.4 页切换指令集 3.2.5 数据采集指令集 3.2.6 刷写指令集 3.3 ECU描述文件(A2L)概述 3.3.1 标定上位…...

短视频的运营方法

尊敬的用户们,你们好!今天我将为大家带来一篇关于短视频运营的专业文章。在当今互联网时代,短视频已经成为了一个重要的流量入口,掌握正确的运营方法对于企业的发展至关重要。接下来,我将通过以下几个方面为大家详细介…...

GitLab CI/CD 持续集成/部署 SpringBoot 项目

一、GitLab CI/CD 介绍 GitLab CI/CD(Continuous Integration/Continuous Deployment)是 GitLab 提供的一种持续集成和持续部署的解决方案。它可以自动化软件的构建、测试和部署过程,以便开发者更快地、更频繁地发布可靠的产品。 整体过程如…...

第二证券:政策效应逐步显现 A股修复行情有望持续演绎

上星期,A股商场延续企稳反弹的态势,上证指数震荡上涨0.43%;沪深两市日均成交额回升至8700亿元左右;北向资金近一个月初次转为周净买入5.57亿元。 安排观点一起认为,在稳增加、稳预期相关政策持续发力,上市…...

sql逻辑优化

1.分页 通常使用每页条数及第一页作为参数 开发接口 GetMapping("/querySystemList") public List<SystemAduit> querySystemList(RequestParam("keyword") String keyword,RequestParam(name "offset", defaultValue "0") i…...

【数据结构】树与二叉树(一):树(森林)的基本概念:父亲、儿子、兄弟、后裔、祖先、度、叶子结点、分支结点、结点的层数、路径、路径长度、结点的深度、树的深度

文章目录 5.1 树的基本概念5.1.1 树的定义树有序树、无序树 5.1.2 森林的定义5.1.3 树的术语1. 父亲&#xff08;parent&#xff09;、儿子&#xff08;child&#xff09;、兄弟&#xff08;sibling&#xff09;、后裔&#xff08;descendant&#xff09;、祖先&#xff08;anc…...

2024 Android Framework学习大纲之基础理论篇

2024 Android Framework学习大纲之基础理论篇 受到当前经济影响&#xff0c;互联网越来越不景气了,因此Android App开发也是越来越不景气&#xff0c;中小型公司越来越偏向跨平台开发&#xff0c;比如Flutter&#xff0c;这样能节省成本&#xff0c;笔者也曾经是一名6年多工作经…...

【深度学习】Yolov8 区域计数

git&#xff1a;https://github.com/ultralytics/ultralytics/blob/main/examples/YOLOv8-Region-Counter/readme.md 很长时间没有做yolov的项目了&#xff0c;最近一看yolov8有一个区域计数的功能&#xff0c;不得不说很实用啊。 b站&#xff1a;https://www.bilibili.com/vid…...

Windows 系统服务器部署jar包时,推荐使用winsw,将jar包注册成服务,并设置开机启动。

一、其他方式不推荐的原因 1、Spring Boot生成的jar包&#xff0c;可以直接用java -jar运行&#xff0c;但是前提是需要登录用户&#xff0c;而且注销用户后会退出程序&#xff0c;所以不可用。 2、使用计划任务&#xff0c;写一个bat处理文件&#xff0c;里面写java -jar运行…...

npm 包管理

1. 命令 // 查看是否登录 npm who am i // 登录&#xff1a;输入用户名、密码、邮箱、一次性登录密码&#xff08;邮箱接收&#xff09; npm login // 创建 npm init // 快速创建 npm init -y // 发包 npm publish // 发包&#xff08;开源&#xff09; npm publish --access …...

力扣370周赛 -- 第三题(树形DP)

该题的方法&#xff0c;也有点背包的意思&#xff0c;如果一些不懂的朋友&#xff0c;可以从背包的角度去理解该树形DP 问题 题解主要在注释里 //该题是背包问题树形dp问题的结合版&#xff0c;在树上解决背包问题 //背包问题就是选或不选当前物品 //本题求的是最大分数 //先转…...

GPT学习笔记

百度的文心一言 阿里的通义千问 通过GPT能力&#xff0c;提升用户体验和产品力 GPT的出现是AI的iPhone时刻。2007年1月9日&#xff0c;第一代iPhone发布&#xff0c;开启移动互联网时代。新一轮的产业革命。 GPT模型发展时间线&#xff1a; Copilot - 副驾驶 应用&#xf…...

浏览器访问 AWS ECS 上部署的 Docker 容器(监听 80 端口)

✅ 一、ECS 服务配置 Dockerfile 确保监听 80 端口 EXPOSE 80 CMD ["nginx", "-g", "daemon off;"]或 EXPOSE 80 CMD ["python3", "-m", "http.server", "80"]任务定义&#xff08;Task Definition&…...

Cesium1.95中高性能加载1500个点

一、基本方式&#xff1a; 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...

ssc377d修改flash分区大小

1、flash的分区默认分配16M、 / # df -h Filesystem Size Used Available Use% Mounted on /dev/root 1.9M 1.9M 0 100% / /dev/mtdblock4 3.0M...

FastAPI 教程:从入门到实践

FastAPI 是一个现代、快速&#xff08;高性能&#xff09;的 Web 框架&#xff0c;用于构建 API&#xff0c;支持 Python 3.6。它基于标准 Python 类型提示&#xff0c;易于学习且功能强大。以下是一个完整的 FastAPI 入门教程&#xff0c;涵盖从环境搭建到创建并运行一个简单的…...

【机器视觉】单目测距——运动结构恢复

ps&#xff1a;图是随便找的&#xff0c;为了凑个封面 前言 在前面对光流法进行进一步改进&#xff0c;希望将2D光流推广至3D场景流时&#xff0c;发现2D转3D过程中存在尺度歧义问题&#xff0c;需要补全摄像头拍摄图像中缺失的深度信息&#xff0c;否则解空间不收敛&#xf…...

抖音增长新引擎:品融电商,一站式全案代运营领跑者

抖音增长新引擎&#xff1a;品融电商&#xff0c;一站式全案代运营领跑者 在抖音这个日活超7亿的流量汪洋中&#xff0c;品牌如何破浪前行&#xff1f;自建团队成本高、效果难控&#xff1b;碎片化运营又难成合力——这正是许多企业面临的增长困局。品融电商以「抖音全案代运营…...

佰力博科技与您探讨热释电测量的几种方法

热释电的测量主要涉及热释电系数的测定&#xff0c;这是表征热释电材料性能的重要参数。热释电系数的测量方法主要包括静态法、动态法和积分电荷法。其中&#xff0c;积分电荷法最为常用&#xff0c;其原理是通过测量在电容器上积累的热释电电荷&#xff0c;从而确定热释电系数…...

【7色560页】职场可视化逻辑图高级数据分析PPT模版

7种色调职场工作汇报PPT&#xff0c;橙蓝、黑红、红蓝、蓝橙灰、浅蓝、浅绿、深蓝七种色调模版 【7色560页】职场可视化逻辑图高级数据分析PPT模版&#xff1a;职场可视化逻辑图分析PPT模版https://pan.quark.cn/s/78aeabbd92d1...

用鸿蒙HarmonyOS5实现中国象棋小游戏的过程

下面是一个基于鸿蒙OS (HarmonyOS) 的中国象棋小游戏的实现代码。这个实现使用Java语言和鸿蒙的Ability框架。 1. 项目结构 /src/main/java/com/example/chinesechess/├── MainAbilitySlice.java // 主界面逻辑├── ChessView.java // 游戏视图和逻辑├──…...

云安全与网络安全:核心区别与协同作用解析

在数字化转型的浪潮中&#xff0c;云安全与网络安全作为信息安全的两大支柱&#xff0c;常被混淆但本质不同。本文将从概念、责任分工、技术手段、威胁类型等维度深入解析两者的差异&#xff0c;并探讨它们的协同作用。 一、核心区别 定义与范围 网络安全&#xff1a;聚焦于保…...