Go 爬虫三种框架的基本使用介绍
目录
- Go 爬虫三种框架的基本使用介绍
- 1. Colly
- 2. Golang.org/x/net/html
- 3. GoQuery
- Go 爬虫示例
- 使用Go中的http包进行爬虫
- Step 1:导入包
- Step 2:发送请求
- Step 3:读取响应
- Step 4:解析HTML
- Step 5:总结
- 使用Colley爬虫
- 结语
当今互联网时代,数据已经成为了一种非常宝贵的资源。而爬虫技术则是获取这些数据的一种重要手段。Go 作为一门现代化的编程语言,其在爬虫领域也有着广泛的应用。在本篇博客文章中,我们将会介绍一些常用的 Go 爬虫框架,并且会通过一个简单的示例来演示如何使用这些框架。
Go 爬虫三种框架的基本使用介绍
1. Colly
Colly 是一个简单而又强大的 Go 爬虫框架,其使用起来非常方便。在 Colly 中,我们可以通过注册回调函数来处理页面中的数据,同时还可以使用 CSS 选择器进行页面元素的定位。Colly 还支持异步请求、代理、Cookie 管理等功能,是一个非常实用的爬虫框架。
2. Golang.org/x/net/html
Golang.org/x/net/html 是 Go 语言标准库中的一个子库,其提供了一系列操作 HTML 的函数和类型。使用这个库可以方便地解析 HTML 页面,并且可以通过 CSS 选择器定位页面元素。但是需要注意的是,由于其只提供了 HTML 解析的功能,因此在使用过程中需要自己实现网络请求等功能。
3. GoQuery
GoQuery 是一个类似于 jQuery 的 Go 库,其提供了类似于 jQuery 中的选择器语法,可以方便地对 HTML 页面中的元素进行定位和操作。同时,GoQuery 还支持链式调用、筛选器等功能,使用起来非常方便。
Go 爬虫示例
使用Go中的http包进行爬虫
爬虫是一项很有趣的技能,它可以帮助我们快速地获取大量的数据并进行分析、挖掘。Go语言中的http包提供了非常强大的网络访问功能,我们可以很容易地使用它来实现一个简单的爬虫。
在本文中,我们将使用Go语言的http包创建一个简单的爬虫程序。我们将使用http包来获取任何网页的内容,并将其解析为可读性更好的格式,以便进行数据分析和挖掘。
Step 1:导入包
我们首先需要导入Go语言的http和fmt包,分别用于进行网络请求和打印输出:
package mainimport ("fmt""net/http"
)
Step 2:发送请求
我们需向目标网站发起请求,获取数据后再进行分析。这里我们选择获取百度首页的HTML代码。
func main() {resp, err := http.Get("https://www.baidu.com")if err != nil {fmt.Println("请求失败:", err)}defer resp.Body.Close()
}
我们使用http包中的Get()方法,传入带有协议头的网址,如果请求失败则打印错误信息。我们使用defer语句保证在函数退出时关闭响应,以释放资源。
Step 3:读取响应
接下来我们需要使用ioutil包来读取响应体内的内容,并将其储存在一个字符串变量中。
package mainimport ("fmt""io/ioutil""net/http"
)func main() {resp, err := http.Get("https://www.baidu.com")if err != nil {fmt.Println("请求失败:", err)}defer resp.Body.Close()body, err := ioutil.ReadAll(resp.Body)if err != nil {fmt.Println("读取响应失败:", err)}fmt.Println(string(body))
}
我们首先导入ioutil包,然后使用ReadAll()函数读取响应体的内容,并将其储存在一个字节切片中。最后,我们使用fmt.Println()将这些内容打印到终端。
Step 4:解析HTML
我们已成功地获取了网页的HTML代码,但在继续进行数据分析和挖掘之前,我们必须将其解析为可读性更好的格式。我们可以使用正则匹配的方式查找网页内容。我们这里使用第三方包goquery,它提供了一些实用程序来帮助我们解析HTML和XML文档。
package mainimport ("fmt""net/http""github.com/PuerkitoBio/goquery"
)func main() {resp, err := http.Get("https://www.baidu.com")if err != nil {fmt.Println("请求失败:", err)}defer resp.Body.Close()doc, err := goquery.NewDocumentFromReader(resp.Body)if err != nil {fmt.Println("解析HTML失败:", err)}fmt.Println(doc.Find("title").Text())
}
我们使用NewDocumentFromReader()函数将响应体数据转换为goquery.Document类型,该类型是能够读取并查询HTML和XML文档的类型。最后,我们使用Find()函数在整个文档中查找title元素,然后使用Text()函数将其文本内容输出到控制台。
Step 5:总结
我们已经成功地使用Go语言的http包和goquery包创建了一个简单的网页爬虫。我们首先使用http包发起了GET请求,接下来使用ioutil包读取响应体的内容,并使用goquery包解析了HTML代码。这个爬虫程序可以作为你学习更高级的Go语言爬虫程序的一个很好的起点。
使用Colley爬虫
下面我们将通过一个简单的示例来演示如何使用 Colly 来实现一个简单的爬虫。我们将会爬取某个网站上的所有图片,并且将其保存到本地。
package mainimport ("fmt""github.com/gocolly/colly"
)func main() {c := colly.NewCollector()// 在访问页面之前执行的回调函数c.OnRequest(func(r *colly.Request) {fmt.Println("Visiting", r.URL.String())})// 在访问页面之后执行的回调函数c.OnResponse(func(r *colly.Response) {fmt.Println("Visited", r.Request.URL.String())})// 在访问页面时发生错误时执行的回调函数c.OnError(func(r *colly.Response, err error) {fmt.Println("Error:", err)})// 在访问页面时发生重定向时执行的回调函数c.OnRedirect(func(r *colly.Response) {fmt.Println("Redirected to", r.Request.URL.String())})// 在访问页面时发现图片时执行的回调函数c.OnHTML("img", func(e *colly.HTMLElement) {url := e.Attr("src")if url != "" {fmt.Println("Found image:", url)// TODO: 下载图片并保存到本地}})// 发起访问 输入你要访问的网址c.Visit("https://example.com")
}
在上面的示例中,我们首先通过 colly.NewCollector()
创建了一个新的 Collector 对象。然后我们通过 c.OnRequest
、c.OnResponse
、c.OnError
、c.OnRedirect
等方法注册了一些回调函数,用于处理在访问页面时可能发生的各种情况。最后,我们通过 c.OnHTML
方法注册了一个回调函数,用于处理页面中的图片元素。
在实际使用中,我们还需要在 c.OnHTML
回调函数中下载图片并保存到本地。这里我们可以使用 Go 标准库中的 net/http
包来实现下载图片的功能。在 c.OnHTML
回调函数中,我们可以使用 http.Get
方法来下载图片,并且可以使用 os.Create
方法来创建一个新的文件,并将下载到的图片数据写入到这个文件中。
// 在访问页面时发现图片时执行的回调函数
c.OnHTML("img", func(e *colly.HTMLElement) {url := e.Attr("src")if url != "" {fmt.Println("Found image:", url)resp, err := http.Get(url)if err != nil {fmt.Println("Error:", err)return}defer resp.Body.Close()file, err := os.Create("image.jpg")if err != nil {fmt.Println("Error:", err)return}defer file.Close()io.Copy(file, resp.Body)fmt.Println("Image saved to", file.Name())}
})
在上面的代码中,我们首先使用 http.Get
方法下载了图片,并且使用 defer
关键字来确保在函数返回时关闭响应体。然后我们使用 os.Create
方法创建了一个新的文件,并且使用 defer
关键字来确保在函数返回时关闭文件。最后,我们使用 io.Copy
方法将响应体中的数据写入到文件中,并且打印出保存文件的路径。
结语
在本篇博客文章中,我们介绍了一些常用的 Go 爬虫框架,并且通过一个简单的示例演示了如何使用 goquery和colly 来实现一个简单的爬虫。当然,在实际使用中,我们还需要考虑一些其他的因素,比如如何处理反爬虫机制、如何使用代理、如何使用 Cookie 管理等问题。但是通过本文的介绍,相信大家已经对 Go 爬虫有了更深入的了解,可以在实际项目中灵活应用。
相关文章:
Go 爬虫三种框架的基本使用介绍
目录 Go 爬虫三种框架的基本使用介绍1. Colly2. Golang.org/x/net/html3. GoQuery Go 爬虫示例使用Go中的http包进行爬虫Step 1:导入包Step 2:发送请求Step 3:读取响应Step 4:解析HTMLStep 5:总结 使用Colley爬虫 结语…...
python实现斐波那契数列详解(黄金分割)
今天给各位分享一个常见的题目:求斐波那契数列前n项分别是什么(也称为黄金分割数列),整个数列需满足一个条件即第三项的值等于前两项相加的和,如第一项是1、第二项是1、第三项是2、第四项是 3、第五项是5... 满足公式…...

整合营销和内容营销哪个好,有什么区别
如果想做自媒体运营,不管是品牌还是个体从业者,其实都要学会如何去营销。这个也分为很多种方式,比如整合营销和内容营销。今天,来和大家谈谈整合营销和内容营销哪个好,如何才能将他们应用好? 要想回答这个问题&#x…...

C# | [二进制字符串] 与 [字节数组] 互相转换,一行代码就搞定! - CodePlus系列
C#二进制字符串与字节数组互相转换 文章目录 C#二进制字符串与字节数组互相转换前言示例代码实现思路扩展方法说明引用CodePlus库结束语 前言 开发中有时需要将二进制数据转换为字符串或相反。虽然.NET提供了一些用于二进制数据操作的类库,但是它们的使用有时候会比…...
Java 细节汇总(5)-Comparator#compare() 升降序确定
文章目录 1. Comparator#compare() 升降序确定升序分析 1. Comparator#compare() 升降序确定 Java 语言中 Comparator#compare(T o1, T o2) 方法的实现可以决定排序元素的升序降序,但是许多人对升降序如何确定完全没有概念。要理解升降序是如何确定的,首…...
湖北棒球发展报告·棒球5号位
湖北棒球的发展报告与办法应该考虑以下几个因素: 1. 借助政策支持。湖北棒球要想发展,政策支持是必不可少的。政府需要提供足够的资金和政策支持,以帮助俱乐部提高运营能力和加强比赛的组织。获得政府的政策支持,可以促进湖北棒球…...

使用Eclipse 进行远程 Debug 调试
Eclipse远程调试 Java自身支持调试功能,并提供了一个简单的调试工具--JDB,类似于功能强大的GDB,JDB也是一个字符界面的调试环境,并支持设置断点,支持线程线级的调试。 由于部署环境的差异性&am…...
记第一次出差得出的经验
文章目录 1:背景2:过程3:心得 1:背景 由于上家公司的某种原因,离职来到了新公司,内中原因不足道也。新公司业务方向暂且不说,入职后,个人看着以前的产品视频学习了不到两周…...

第12章:视图
一、视图 1.常见的数据库对象 ①表table:表是存储数据的逻辑单元,行和列形式存在。列是字段,行是记录。 ②数据字典:系统表,存放数据库相关信息的表。系统表的数据通常是数据库系统维护。 ③约束constraint&#x…...
Word控件Aspose.Words教程:操作 XPS 和 EPS 文档
Aspose.Words 是一种高级Word文档处理API,用于执行各种文档管理和操作任务。API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsoft Word。 Aspose API 支持流行文件格式处理,…...
java并发-Exchanger
## 简介 Exchanger是Java并发包中提供的一个用于线程间数据交换的工具类。它允许在两个并发任务之间进行交换对象,当第一个任务调用exchange()方法时,它会阻塞等待另一个任务也调用这个方法,然后双方交换对象,并返回结果…...

毫米波雷达系列 | 传统CFAR检测(自适应类)
毫米波雷达系列 | 传统CFAR检测(自适应类) VI-CFAR [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dV34CKJt-1684215839850)(毫米波雷达系列 传统CFAR检测(自适应类).assets/image-20230516131206695…...

【2023/05/19】NFA
Hello!大家好,我是霜淮子,2023倒计时第14天。 非确定有限状态自动机(NFA)是一种模拟复杂系统行为的数学模型 目录 一、基本概念和理论 二、优点和缺点 三、应用场景 四、问题和挑战 五、重要性、作用和使用价值 …...

汽车功能安全
前言 近些年来,功能安全在汽车传统底盘域和动力域的应用已较为成熟,各大汽车企业功能安全意识也逐渐增强。在辅助驾驶和自动驾驶爆发式增长的大趋势下,现代汽车的功能安全在目前尤为复杂的电子电气系统中就显得更为重要,功能安全…...

【Python】数据分析与可视化实践:收支日统计数据可视化的实现
Python数据分析与可视化实践:收支日统计数据可视化的实现 Author:萌狼蓝天 Date:2023-5-7 数据读入与基本处理 上图是原始数据的一部分,存放于excel中,首先使用pd读入数据。读入数据后,删除不是收入&#x…...
Halcon 中_xld算子的概念与应用? select_shape_std 和 select_shape_xld区别?
文章目录 1 halcon中XLD的概念与应用1.1 halcon中什么是XLD?1. 2 XLD相关算子1.2 XLD的应用1.2.1 生成XLD的操作1.2.2 选取特定xld1.2.3 3.3 XLD的合并操作2 select_shape_std 和 select_shape_xld区别2.1 select_shape_std 算子介绍2.2 select_shape_xld算子介绍2.3 select_s…...

[pgrx开发postgresql数据库扩展]7.返回序列的函数编写(3)多行表序列
前文再续,书接上一回。 上一回我们解析了如何通过pgrx编写srf,返回一个TableIterator,但是在具体应用的时候,我们还是针对一条记录返回了一行数据(多个字段的一行,也还是一行),并没…...

刚入职,就想跑路了...
刚入职一家公司,想离职又怕找不到新工作。 说实话,这个问题还是蛮常见的,很多时候,入职的公司并不是自己最满意的,即使是最满意的,入职后总会遇到各种各样的不顺心,公司制度不规范啊࿰…...

如何让技术架构师具有预知未来业务发展的能力
大家好,今天我们来分享业务架构,但是我们并不是以产品经理角度讲述一个业务架构是什么以及如何做?而是以一个技术架构师的角度,讲述如何承接业务架构或在没有业务架构的时候,如何判断业务变化趋势而对系统架构提前做出…...

卷麻了,新来的00后实在是太卷了...
在程序员职场上,什么样的人最让人反感呢? 是技术不好的人吗?并不是。技术不好的同事,我们可以帮他。 是技术太强的人吗?也不是。技术很强的同事,可遇不可求,向他学习还来不及呢。 真正让人反感的,是技术平平&…...

盘古信息PCB行业解决方案:以全域场景重构,激活智造新未来
一、破局:PCB行业的时代之问 在数字经济蓬勃发展的浪潮中,PCB(印制电路板)作为 “电子产品之母”,其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透,PCB行业面临着前所未有的挑战与机遇。产品迭代…...
在Ubuntu24上采用Wine打开SourceInsight
1. 安装wine sudo apt install wine 2. 安装32位库支持,SourceInsight是32位程序 sudo dpkg --add-architecture i386 sudo apt update sudo apt install wine32:i386 3. 验证安装 wine --version 4. 安装必要的字体和库(解决显示问题) sudo apt install fonts-wqy…...

七、数据库的完整性
七、数据库的完整性 主要内容 7.1 数据库的完整性概述 7.2 实体完整性 7.3 参照完整性 7.4 用户定义的完整性 7.5 触发器 7.6 SQL Server中数据库完整性的实现 7.7 小结 7.1 数据库的完整性概述 数据库完整性的含义 正确性 指数据的合法性 有效性 指数据是否属于所定…...

【C++进阶篇】智能指针
C内存管理终极指南:智能指针从入门到源码剖析 一. 智能指针1.1 auto_ptr1.2 unique_ptr1.3 shared_ptr1.4 make_shared 二. 原理三. shared_ptr循环引用问题三. 线程安全问题四. 内存泄漏4.1 什么是内存泄漏4.2 危害4.3 避免内存泄漏 五. 最后 一. 智能指针 智能指…...
日常一水C
多态 言简意赅:就是一个对象面对同一事件时做出的不同反应 而之前的继承中说过,当子类和父类的函数名相同时,会隐藏父类的同名函数转而调用子类的同名函数,如果要调用父类的同名函数,那么就需要对父类进行引用&#…...
LOOI机器人的技术实现解析:从手势识别到边缘检测
LOOI机器人作为一款创新的AI硬件产品,通过将智能手机转变为具有情感交互能力的桌面机器人,展示了前沿AI技术与传统硬件设计的完美结合。作为AI与玩具领域的专家,我将全面解析LOOI的技术实现架构,特别是其手势识别、物体识别和环境…...
跨平台商品数据接口的标准化与规范化发展路径:淘宝京东拼多多的最新实践
在电商行业蓬勃发展的当下,多平台运营已成为众多商家的必然选择。然而,不同电商平台在商品数据接口方面存在差异,导致商家在跨平台运营时面临诸多挑战,如数据对接困难、运营效率低下、用户体验不一致等。跨平台商品数据接口的标准…...
6.9本日总结
一、英语 复习默写list11list18,订正07年第3篇阅读 二、数学 学习线代第一讲,写15讲课后题 三、408 学习计组第二章,写计组习题 四、总结 明天结束线代第一章和计组第二章 五、明日计划 英语:复习l默写sit12list17&#…...

ABAP设计模式之---“Tell, Don’t Ask原则”
“Tell, Don’t Ask”是一种重要的面向对象编程设计原则,它强调的是对象之间如何有效地交流和协作。 1. 什么是 Tell, Don’t Ask 原则? 这个原则的核心思想是: “告诉一个对象该做什么,而不是询问一个对象的状态再对它作出决策。…...
十二、【ESP32全栈开发指南: IDF开发环境下cJSON使用】
一、JSON简介 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,具有以下核心特性: 完全独立于编程语言的文本格式易于人阅读和编写易于机器解析和生成基于ECMAScript标准子集 1.1 JSON语法规则 {"name"…...