go 语言爬虫库goquery介绍
文章目录
- 爬虫介绍
- goquery介绍
- 利用NewDocumentFromReader方法获取主页信息
- Document介绍
- 通过查询获取文章信息
- css选择器介绍
- goquery中的选择器
- 获取主页中的文章链接
- 爬取
- 总结
爬虫介绍
爬虫,又称网页抓取、网络蜘蛛或网络爬虫,是一种自动浏览互联网并从网站上获取信息的程序或脚本。它通过模拟人类浏览器的行为,按照预设的规则和策略遍历互联网上的网页,并将所获取的数据存储下来进行进一步处理和分析。
爬虫在我们生活中可以产生的东西有很多
-
搜索引擎索引构建:搜索引擎会使用爬虫抓取互联网上的网页,分析其内容并建立索引,以便用户在搜索时能够快速找到相关结果。
-
数据分析与研究:数据分析师和研究人员可以编写爬虫来收集特定领域的信息,如电子商务网站的商品价格、评论等,用于市场趋势分析、竞品监测、消费者行为研究等。
-
新闻聚合:新闻聚合类应用通过爬虫从多个新闻网站获取最新的文章标题、摘要以及链接,为用户提供一站式的新闻阅读体验。
-
社交媒体监控:针对社交媒体平台的爬虫可以抓取公开的帖子、评论等内容,用于舆情分析、热点话题追踪、品牌口碑监测等。
-
企业信息抓取:商业情报机构或公司可能需要抓取工商注册、专利申请、招聘信息等公开的企业数据,进行行业分析、潜在客户挖掘等工作。
-
教育资源整理:教育领域中,爬虫可以用来搜集网络课程资源、学术论文、图书资料等,并进行整理归类。
-
网站性能检测:某些类型的爬虫(例如蜘蛛侠)用于模拟大量用户访问以测试网站性能,检查是否存在服务器响应延迟、页面加载慢等问题。
-
法律合规审计:在网络合规性审查中,爬虫可以用于查找非法或侵权内容,协助监管部门进行网络环境净化。
在生活中爬虫其实可以做很多事情,鉴于本文是一个入门教程,就接下来会以一个爬取csdn网页增加流量的列子逐步介绍和完善我们的爬虫程序。
goquery介绍
GoQuery是专为Go(Golang)语言设计的一个强大的HTML解析和查询库。它模仿了jQuery的API风格,使得在Go中处理HTML文档变得简单且直观。
GoQuery主要用于网页抓取(Web Scraping),能够通过CSS选择器来定位、遍历和操作HTML元素。你可以使用它来提取网页中的特定数据、修改DOM结构或进行其他与HTML文档相关的操作。
利用NewDocumentFromReader方法获取主页信息
NewDocumentFromReader 是GoQuery库中的一个函数,用于从io.Reader接口读取的HTML数据创建一个新的文档对象。对于文档对象是什么我们会在下文经性讲解。
func NewDocumentFromReader(reader io.Reader) (*Document, error)
以下我们查找主页信息的代码,studycodeday是博主本人的主页,想要访问自己的主页,只需要把studycodeday改成自己的用户id就行。
func main() {// 通过http发送get请求req, err := http.Get("https://blog.csdn.net/studycodeday")if err != nil {slog.Error("访问主页失败")}defer req.Body.Close()// 解析请求体doc, err := goquery.NewDocumentFromReader(req.Body)// 让请求体按照html格式输出,也有Text()按照文本输出的方法fmt.Println(doc.Html())
}
效果
Document介绍
在GoQuery库中,Document是代表整个HTML文档的对象。它是对原始HTML内容解析后形成的DOM树的抽象表示,提供了与jQuery类似的接口来操作和查询HTML元素。
*goquery.Document主要有以下特点和功能:
- 初始化:
从本地文件或io.Reader读取:使用goquery.NewDocumentFromReader(reader io.Reader)从任何实现了io.Reader接口的对象(如文件、HTTP响应体等)创建一个Document对象。 - 查找元素:
使用CSS选择器进行查找:doc.Find(selector string)返回一个新的Selection对象,该对象包含了所有匹配给定CSS选择器的元素。 - 遍历和操作元素:
Each(func(int, *goquery.Selection))方法用于迭代选区中的每个元素,并对其执行回调函数。
提供了类似jQuery的方法,如.Children()获取子元素、.Parents()获取父元素等。 - 属性操作:
Attr(name string) (string, bool):获取首个匹配元素的指定属性值及其是否存在。
SetAttr(name, value string):为所有匹配元素设置指定属性的值。 - 文本和HTML内容操作:
Text() string:获取所有匹配元素的合并文本内容。
Html() string:获取首个匹配元素的HTML内容。
其他功能:
goquery.Document对象是GoQuery库的核心组成部分,它封装了对HTML文档进行各种复杂查询和操作的能力。
通过查询获取文章信息
css选择器介绍
获取文章需要我们通过查询的方式,goquery提供了能够通过CSS选择器来定位元素。
其类型包括但不限于以下几种:
- 基本选择器:
- *:匹配所有元素。
- element:匹配所有指定类型的元素,如 div、span 等。
- .class:匹配具有指定类名的元素,如 .myClass。
- #id:匹配ID为指定值的元素,如 #header。
- 属性选择器:
- [attribute]:匹配具有指定属性的元素,不论该属性值为何。
- [attribute=value]:匹配属性值等于指定值的元素,如 [href=“http://example.com”]。
- [attribute^=value]、[attribute$=value]、[attribute*=value]:分别匹配属性值以指定值开头、结尾或包含指定值的元素。
- 层次选择器:
- parent > child:匹配作为指定父元素直接子元素的所有child元素。
- ancestor descendant:匹配在ancestor元素内的所有descendant元素(无论嵌套多深)。
- prev + next:匹配紧跟在prev元素之后的next元素。
- prev ~ siblings:匹配prev元素之后的所有同辈siblings元素。
- 伪类选择器:
- :first-child、:last-child、:nth-child(n):匹配某个元素在其父元素内是第一个、最后一个或第n个子元素的情况。
- :not(selector):排除匹配给定选择器的元素。
goquery中的选择器
Find():
doc.Find(selector string)
根据给定的CSS选择器在当前选区(Selection)中查找匹配的元素。例如,doc.Find(“h1”)会找到所有
标签。
Filter():
selection.Filter(selector string)
在当前选区中过滤出符合指定CSS选择器的元素子集。
Eq():
selection.Eq(index int)
返回当前选区中索引为index的单个元素。索引从0开始。
First() 和 Last():
selection.First()
selection.Last()
分别返回当前选区中的第一个或最后一个元素。
Next() 和 Prev():
selection.NextAll()
selection.PrevAll()
获取当前元素之后的所有同辈元素或之前的所有同辈元素。
Children():
selection.Children()
获取当前选区中所有直接子元素。
Parents() 和 Closest():
selection.Parents()
selection.Closest(selector string)
Parents()返回当前选区中所有父级元素,而Closest()返回最近的且匹配给定CSS选择器的祖先元素。
Attr():
attr, exists := selection.Attr(attributeName string)
获取当前选区中首个元素的属性值,exists用于判断该属性是否存在。
Each():
selection.Each(func(i int, s *goquery.Selection) {})
遍历当前选区中的每一个元素,并对每个元素执行一个函数。
获取主页中的文章链接
首先我们要打开f12调试工具,找到我们需要爬取数据的所在的具体位置。
由上图可知我们的文章连接在拥有class=“mainContent” 的div盒子里,这个盒子包括了二十个含有 class=“blog-list-box” 的article标签,我们所需要的内容就在article标签下面的a标签的herf中。
这里我们采用层次原则器 ancestor descendant:匹配在ancestor元素内的所有descendant元素(无论嵌套多深)。把文章盒子提取来之后我们还需要通过Each方法遍历输出a标签中的href属性的值
// 通过http发送get请求req, err := http.Get("https://blog.csdn.net/studycodeday")if err != nil {slog.Error("访问主页失败")}defer req.Body.Close()// 解析请求体doc, err := goquery.NewDocumentFromReader(req.Body)//fmt.Println(doc.Find(".mainContent .blog-list-box").Length())doc.Find(".mainContent .blog-list-box").Each(func(i int, s *goquery.Selection) {fmt.Println(s.Find("a").Attr("href"))})
效果
爬取
以上我们就完成了主页文章信息的爬取,我们只需要吧内容存在数组中,经行爬取访问即可。
代码
func main() {var urls = make([]string, 0, 20)// 通过http发送get请求req, err := http.Get("https://blog.csdn.net/studycodeday")if err != nil {slog.Error("访问主页失败")}defer req.Body.Close()// 解析请求体doc, err := goquery.NewDocumentFromReader(req.Body)//fmt.Println(doc.Find(".mainContent .blog-list-box").Length())doc.Find(".mainContent .blog-list-box").Each(func(i int, s *goquery.Selection) {url, _ := s.Find("a").Attr("href")//添加到数组中urls = append(urls, url)})for _, url := range urls {_, err = http.Get(url)if err != nil {slog.Error("访问网页失败:" + url)}fmt.Println("访问成功:" + url)time.Sleep(time.Duration(rand.Int31n(60)) * time.Second)}
}
效果
总结
虽然我们实现了爬取csdn网页,但是仍然存在许多问题:
- 没有代理频繁访问容易封ip,造成无法访问csdn
- 爬取只能爬取前二十篇文章,该解决方法是参考该api,只需要把username改成自己的id即可https://blog.csdn.net/community/home-api/v1/get-business-list?page=2&size=20&businessType=lately&noMore=false&username=studycodeday"
- 没有进行请求伪装,随时可能被封
相关文章:

go 语言爬虫库goquery介绍
文章目录 爬虫介绍goquery介绍利用NewDocumentFromReader方法获取主页信息Document介绍通过查询获取文章信息css选择器介绍goquery中的选择器获取主页中的文章链接 爬取总结 爬虫介绍 爬虫,又称网页抓取、网络蜘蛛或网络爬虫,是一种自动浏览互联网并从网…...

解决 Navicat 在笔记本外接显示器分辨率自适应展示问题
前言 有时候我们使用自己的笔记本电脑会外接一个显示器,但是显示器的分辨率和笔记本又不一样,所以就会导致 Navicat 基于分辨率的问题变得字体很小。具体操作可点击这里: Navicat 分辨率调整...

网络安全产品之认识入侵检测系统
随着计算机网络技术的快速发展和网络攻击的不断增多,单纯的防火墙策略已经无法满足对安全高度敏感的部门的需要,网络的防卫必须采用一种纵深的、多样的手段。因此,入侵检测系统作为新一代安全保障技术,成为了传统安全防护措施的必…...

牛客周赛 Round 10 解题报告 | 珂学家 | 三分模板 + 计数DFS + 回文中心扩展
前言 整体评价 T2真是一个折磨人的小妖精,写了两版DFS,第二版计数DFS才过。T3是三分模板,感觉也可以求导数。T4的数据规模才n1000,因此中心扩展的 O ( n 2 ) O(n^2) O(n2)当仁不让。 A. 游游的最长稳定子数组 滑窗经典题 从某个…...

SpringBoot 更新业务场景下,如何区分null是清空属性值 还是null为vo属性默认值?
先看歧义现象 值为null 未传递此属性 所以此时如何区分null 时传递进来的的null,还是属性的默认值null? 引入方案 引入过滤器,中间截获requestBodyData并保存到HttpServletRequest,业务层从HttpServletRequest 获取到requestBodyData辅…...

【深度学习每日小知识】NLP 自然语言处理
自然语言处理 (NLP) 是人工智能 (AI) 的一个子领域,处理计算机和人类(自然)语言之间的交互。它涉及使用算法和统计模型使计算机能够理解、解释和生成人类语言。 NLP 是人工智能领域的重要工具,广泛应用于语言翻译、文本分类和聊天…...

一文理解Python选择语句
在编程领域中,条件判断和选择是非常基础而且重要的一个部分。Python 作为一种被广泛应用的编程语言,提供了多种选择语句来满足不同的条件判断需求。本文将深入探讨 Python 中的选择语句,包括 if 语句、elif 语句、else 语句、简写的条件表达式…...

MyBatis XML 映射文件中的 SQL 语句可以分为动态语句和静态语句
目录 静态查询: 动态查询: 静态更新: 动态更新: 静态删除: 动态删除: 动态语句和静态语句在 MyBatis 中的作用如下: 静态查询: 静态查询是指在 SQL 语句中执行固定的查询操作…...

Flask用于生产环境
Flask是一个用Python编写的轻量级Web应用框架,可以用于开发和部署Web服务。要安装Flask,您需要以下步骤: - 安装Python和pip,如果您还没有的话。 - 创建一个虚拟环境,以便隔离您的Flask应用程序和其他Python项目。 - …...

程序员如何向上管理,升职加薪
向上管理 多向领导展示自己的工作量。 解决完问题,可以把领导拉到群里,不然你解决了问题,领导都不知道。 积极向领导汇报,及时反馈任务进度,反馈遇到的问题。 要学会表现自己,光说不干假把式,…...

Microsoft Word 删除空行
Microsoft Word 删除空行 1. 删除空行1.1. 替换1.2. 段落标记 References 1. 删除空行 1.1. 替换 1.2. 段落标记 特殊格式 -> 段落标记 References [1] Yongqiang Cheng, https://yongqiang.blog.csdn.net/...

基于一次应用卡死问题所做的前端性能评估与优化尝试
问题背景 在上个月,由于客户反馈客户端卡死现象但我们远程却难以复现此现象,于是我们组织了一次现场上门故障排查,并希望基于此次观察与优化,为客户端开发提供一些整体的优化升级。当然,在尝试过程中,也发…...

JVM(上)
目录 一、JVM概述 一、JVM作用 二、JVM整体组成部分 二、JVM结构-类加载 一、类加载子系统概述 二、类加载过程 1.加载 2.链接 3.初始化(类加载过程中的初始化) 三、类加载器分类 大致分两类: 细致分类: 四、双亲委派机制 五、打…...

【js】js 异步机制详解 Generator / Async / Promise
三种语法功能放在一起,是因为他们都有相似特点: 维护某种状态在未来恢复状态并执行 本文重点回答以下几个问题: 为什么 Generator 和 Async 函数的 代码执行流 都可以简化成树形结构?async 函数为什么返回一个 promise…...

【动态规划】【数学】【C++算法】805 数组的均值分割
作者推荐 【动态规划】【数学】【C算法】18赛车 本文涉及知识点 动态规划 数学 805 数组的均值分割 给定你一个整数数组 nums 我们要将 nums 数组中的每个元素移动到 A 数组 或者 B 数组中,使得 A 数组和 B 数组不为空,并且 average(A) average(B)…...

Django笔记(五):模型models
首 Django中的模型对应数据库中的一张表格。 定义模型 player.py from django.db import modelsclass Player(models.Model):idx models.IntegerField(uniqueTrue)def __str__(self):return str(self.id)每个模型需要继承models类,如上Player模型定义了一个整形…...

一个golang小白使用vscode搭建Ununtu20.04下的go开发环境
文章目录 前言搭建go环境下载go安装包解压go压缩包完成安装配置环境变量编写一个helloword程序 安装VSCode插件安装智能提示插件安装go依赖包修改代理并重新安装依赖包 go.mod 和 go.workgo.modgo.work小试一下go.work 总结 前言 先交代一下背景,距离正式接触golan…...

【复现】Hytec Inter HWL 2511 SS路由器RCE漏洞_25
目录 一.概述 二 .漏洞影响 三.漏洞复现 1. 漏洞一: 四.修复建议: 五. 搜索语法: 六.免责声明 一.概述 Hytec Inter HWL 2511 SS是日本Hytec Inter 公司的一款工业级 LTE 路由器,可用于远程数据传输,例如收集传…...

Kafka系列(四)
本文接kafka三,代码实践kafkaStream的应用,用来完成流式计算。 kafkastream 关于流式计算也就是实时处理,无时间概念边界的处理一些数据。想要更有性价比地和java程序进行结合,因此了解了kafka。但是本人阅读了kafka地官网&#…...

【Linux学习】进程信号
目录 十七.进程信号 导言 17.1 linux中的信号列表 17.2 标准信号与实时信号 17.3 信号的产生 17.3.1 通过终端按键产生信号 17.3.2 调用系统函数产生信号 17.3.3 软件条件产生信号 17.3.4 硬件异常产生信号 17.3.5 【补充】核心转储 Core Dump 17.4 信号的阻塞 17.4.1 信号相关…...

机器学习没那么难,Azure AutoML帮你简单3步实现自动化模型训练
在Machine Learning 这个领域,通常训练一个业务模型的难点并不在于算法的选择,而在于前期的数据清理和特征工程这些纷繁复杂的工作,训练过程中的问题在于参数的反复迭代优化。 AutoML 是 Azure Databricks 的一项功能,它自动的对…...

数学建模实战Matlab绘图
二维曲线、散点图 绘图命令:plot(x,y,’line specifiers’,’PropertyName’,PropertyValue) 例子:绘图表示年收入与年份的关系 ‘--r*’:--设置线型;r:设置颜色为红色;*节点型号 ‘linewidth’:设置线宽࿱…...

TypeError the JSON object must be str, bytes or bytearray, not ‘list‘
在使用python的jason库时,偶然碰到以下问题 TypeError: the JSON object must be str, bytes or bytearray, not ‘list’ 通过如下代码可复现问题 >>> a [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] >>> import json >>> ra json.loads(a) Trac…...

数字IC后端设计实现 | PR工具中到底应该如何控制density和congestion?(ICC2Innovus)
吾爱IC社区星友提问:请教星主和各位大佬,对于一个模块如果不加干预工具会让inst挤成一团,后面eco修时序就没有空间了。如果全都加instPadding会导致面积不够overlap,大家一般怎么处理这种问题? 在数字IC后端设计实现中…...

产品经理与产品运营的区别和联系
一、两者的职责区别 产品经理的目的:是创造有价值的产品 产品运营的目的:是让产品能有效的发挥出它应有的价值 二、两者的工作内容区别产品经理的工作内容 产品的经理的目的是创造有价值的产品,因此产品经理的所有工作都是围绕着…...

CMU15-445-Spring-2023-分布式DBMS初探(lec21-24)
Lecture #21_ Introduction to Distributed Databases Distributed DBMSs 分布式 DBMS 将单个逻辑数据库划分为多个物理资源。应用程序(通常)并不知道数据被分割在不同的硬件上。系统依靠单节点 DBMS 的技术和算法来支持分布式环境中的事务处理和查询执…...

Arch linux 安装
Arch linux 安装 介绍下载制作iSO启动盘安装arch linux设置字体连接互联网 安装过程磁盘分区设置设置镜像源设置引导文件挂载点安装base等基础软件生成fatab文件更改时区更改编码、语言更改编码更改语言 用户管理设置root密码新建普通用户 安装grub启动网络服务/GDM查看系统网络…...

最新ChatGPT/GPT4科研应用与AI绘图及论文高效写作
详情点击链接:最新ChatGPT/GPT4科研应用与AI绘图及论文高效写作 一OpenAI 1.最新大模型GPT-4 Turbo 2.最新发布的高级数据分析,AI画图,图像识别,文档API 3.GPT Store 4.从0到1创建自己的GPT应用 5. 模型Gemini以及大模型Clau…...

【leetcode】移除元素
大家好,我是苏貝,本篇博客带大家刷题,如果你觉得我写的还不错的话,可以给我一个赞👍吗,感谢❤️ 目录 一.暴力求解法二.使用额外数组三.原地修改数组 点击查看题目 一.暴力求解法 若我们不考虑时间复杂度…...

Spring Boot整合Redis的高效数据缓存实践
引言 在现代Web应用开发中,数据缓存是提高系统性能和响应速度的关键。Redis作为一种高性能的缓存和数据存储解决方案,被广泛应用于各种场景。本文将研究如何使用Spring Boot整合Redis,通过这个强大的缓存工具提高应用的性能和可伸缩性。 整合…...