go 语言爬虫库goquery介绍
文章目录
- 爬虫介绍
- goquery介绍
- 利用NewDocumentFromReader方法获取主页信息
- Document介绍
- 通过查询获取文章信息
- css选择器介绍
- goquery中的选择器
- 获取主页中的文章链接
- 爬取
- 总结
爬虫介绍
爬虫,又称网页抓取、网络蜘蛛或网络爬虫,是一种自动浏览互联网并从网站上获取信息的程序或脚本。它通过模拟人类浏览器的行为,按照预设的规则和策略遍历互联网上的网页,并将所获取的数据存储下来进行进一步处理和分析。
爬虫在我们生活中可以产生的东西有很多
-
搜索引擎索引构建:搜索引擎会使用爬虫抓取互联网上的网页,分析其内容并建立索引,以便用户在搜索时能够快速找到相关结果。
-
数据分析与研究:数据分析师和研究人员可以编写爬虫来收集特定领域的信息,如电子商务网站的商品价格、评论等,用于市场趋势分析、竞品监测、消费者行为研究等。
-
新闻聚合:新闻聚合类应用通过爬虫从多个新闻网站获取最新的文章标题、摘要以及链接,为用户提供一站式的新闻阅读体验。
-
社交媒体监控:针对社交媒体平台的爬虫可以抓取公开的帖子、评论等内容,用于舆情分析、热点话题追踪、品牌口碑监测等。
-
企业信息抓取:商业情报机构或公司可能需要抓取工商注册、专利申请、招聘信息等公开的企业数据,进行行业分析、潜在客户挖掘等工作。
-
教育资源整理:教育领域中,爬虫可以用来搜集网络课程资源、学术论文、图书资料等,并进行整理归类。
-
网站性能检测:某些类型的爬虫(例如蜘蛛侠)用于模拟大量用户访问以测试网站性能,检查是否存在服务器响应延迟、页面加载慢等问题。
-
法律合规审计:在网络合规性审查中,爬虫可以用于查找非法或侵权内容,协助监管部门进行网络环境净化。
在生活中爬虫其实可以做很多事情,鉴于本文是一个入门教程,就接下来会以一个爬取csdn网页增加流量的列子逐步介绍和完善我们的爬虫程序。
goquery介绍
GoQuery是专为Go(Golang)语言设计的一个强大的HTML解析和查询库。它模仿了jQuery的API风格,使得在Go中处理HTML文档变得简单且直观。
GoQuery主要用于网页抓取(Web Scraping),能够通过CSS选择器来定位、遍历和操作HTML元素。你可以使用它来提取网页中的特定数据、修改DOM结构或进行其他与HTML文档相关的操作。
利用NewDocumentFromReader方法获取主页信息
NewDocumentFromReader 是GoQuery库中的一个函数,用于从io.Reader接口读取的HTML数据创建一个新的文档对象。对于文档对象是什么我们会在下文经性讲解。
func NewDocumentFromReader(reader io.Reader) (*Document, error)
以下我们查找主页信息的代码,studycodeday是博主本人的主页,想要访问自己的主页,只需要把studycodeday改成自己的用户id就行。
func main() {// 通过http发送get请求req, err := http.Get("https://blog.csdn.net/studycodeday")if err != nil {slog.Error("访问主页失败")}defer req.Body.Close()// 解析请求体doc, err := goquery.NewDocumentFromReader(req.Body)// 让请求体按照html格式输出,也有Text()按照文本输出的方法fmt.Println(doc.Html())
}
效果

Document介绍
在GoQuery库中,Document是代表整个HTML文档的对象。它是对原始HTML内容解析后形成的DOM树的抽象表示,提供了与jQuery类似的接口来操作和查询HTML元素。
*goquery.Document主要有以下特点和功能:
- 初始化:
从本地文件或io.Reader读取:使用goquery.NewDocumentFromReader(reader io.Reader)从任何实现了io.Reader接口的对象(如文件、HTTP响应体等)创建一个Document对象。 - 查找元素:
使用CSS选择器进行查找:doc.Find(selector string)返回一个新的Selection对象,该对象包含了所有匹配给定CSS选择器的元素。 - 遍历和操作元素:
Each(func(int, *goquery.Selection))方法用于迭代选区中的每个元素,并对其执行回调函数。
提供了类似jQuery的方法,如.Children()获取子元素、.Parents()获取父元素等。 - 属性操作:
Attr(name string) (string, bool):获取首个匹配元素的指定属性值及其是否存在。
SetAttr(name, value string):为所有匹配元素设置指定属性的值。 - 文本和HTML内容操作:
Text() string:获取所有匹配元素的合并文本内容。
Html() string:获取首个匹配元素的HTML内容。
其他功能:
goquery.Document对象是GoQuery库的核心组成部分,它封装了对HTML文档进行各种复杂查询和操作的能力。
通过查询获取文章信息
css选择器介绍
获取文章需要我们通过查询的方式,goquery提供了能够通过CSS选择器来定位元素。
其类型包括但不限于以下几种:
- 基本选择器:
- *:匹配所有元素。
- element:匹配所有指定类型的元素,如 div、span 等。
- .class:匹配具有指定类名的元素,如 .myClass。
- #id:匹配ID为指定值的元素,如 #header。
- 属性选择器:
- [attribute]:匹配具有指定属性的元素,不论该属性值为何。
- [attribute=value]:匹配属性值等于指定值的元素,如 [href=“http://example.com”]。
- [attribute^=value]、[attribute$=value]、[attribute*=value]:分别匹配属性值以指定值开头、结尾或包含指定值的元素。
- 层次选择器:
- parent > child:匹配作为指定父元素直接子元素的所有child元素。
- ancestor descendant:匹配在ancestor元素内的所有descendant元素(无论嵌套多深)。
- prev + next:匹配紧跟在prev元素之后的next元素。
- prev ~ siblings:匹配prev元素之后的所有同辈siblings元素。
- 伪类选择器:
- :first-child、:last-child、:nth-child(n):匹配某个元素在其父元素内是第一个、最后一个或第n个子元素的情况。
- :not(selector):排除匹配给定选择器的元素。
goquery中的选择器
Find():
doc.Find(selector string)
根据给定的CSS选择器在当前选区(Selection)中查找匹配的元素。例如,doc.Find(“h1”)会找到所有
标签。
Filter():
selection.Filter(selector string)
在当前选区中过滤出符合指定CSS选择器的元素子集。
Eq():
selection.Eq(index int)
返回当前选区中索引为index的单个元素。索引从0开始。
First() 和 Last():
selection.First()
selection.Last()
分别返回当前选区中的第一个或最后一个元素。
Next() 和 Prev():
selection.NextAll()
selection.PrevAll()
获取当前元素之后的所有同辈元素或之前的所有同辈元素。
Children():
selection.Children()
获取当前选区中所有直接子元素。
Parents() 和 Closest():
selection.Parents()
selection.Closest(selector string)
Parents()返回当前选区中所有父级元素,而Closest()返回最近的且匹配给定CSS选择器的祖先元素。
Attr():
attr, exists := selection.Attr(attributeName string)
获取当前选区中首个元素的属性值,exists用于判断该属性是否存在。
Each():
selection.Each(func(i int, s *goquery.Selection) {})
遍历当前选区中的每一个元素,并对每个元素执行一个函数。
获取主页中的文章链接
首先我们要打开f12调试工具,找到我们需要爬取数据的所在的具体位置。

由上图可知我们的文章连接在拥有class=“mainContent” 的div盒子里,这个盒子包括了二十个含有 class=“blog-list-box” 的article标签,我们所需要的内容就在article标签下面的a标签的herf中。
这里我们采用层次原则器 ancestor descendant:匹配在ancestor元素内的所有descendant元素(无论嵌套多深)。把文章盒子提取来之后我们还需要通过Each方法遍历输出a标签中的href属性的值
// 通过http发送get请求req, err := http.Get("https://blog.csdn.net/studycodeday")if err != nil {slog.Error("访问主页失败")}defer req.Body.Close()// 解析请求体doc, err := goquery.NewDocumentFromReader(req.Body)//fmt.Println(doc.Find(".mainContent .blog-list-box").Length())doc.Find(".mainContent .blog-list-box").Each(func(i int, s *goquery.Selection) {fmt.Println(s.Find("a").Attr("href"))})
效果

爬取
以上我们就完成了主页文章信息的爬取,我们只需要吧内容存在数组中,经行爬取访问即可。
代码
func main() {var urls = make([]string, 0, 20)// 通过http发送get请求req, err := http.Get("https://blog.csdn.net/studycodeday")if err != nil {slog.Error("访问主页失败")}defer req.Body.Close()// 解析请求体doc, err := goquery.NewDocumentFromReader(req.Body)//fmt.Println(doc.Find(".mainContent .blog-list-box").Length())doc.Find(".mainContent .blog-list-box").Each(func(i int, s *goquery.Selection) {url, _ := s.Find("a").Attr("href")//添加到数组中urls = append(urls, url)})for _, url := range urls {_, err = http.Get(url)if err != nil {slog.Error("访问网页失败:" + url)}fmt.Println("访问成功:" + url)time.Sleep(time.Duration(rand.Int31n(60)) * time.Second)}
}
效果

总结
虽然我们实现了爬取csdn网页,但是仍然存在许多问题:
- 没有代理频繁访问容易封ip,造成无法访问csdn
- 爬取只能爬取前二十篇文章,该解决方法是参考该api,只需要把username改成自己的id即可https://blog.csdn.net/community/home-api/v1/get-business-list?page=2&size=20&businessType=lately&noMore=false&username=studycodeday"
- 没有进行请求伪装,随时可能被封
相关文章:
go 语言爬虫库goquery介绍
文章目录 爬虫介绍goquery介绍利用NewDocumentFromReader方法获取主页信息Document介绍通过查询获取文章信息css选择器介绍goquery中的选择器获取主页中的文章链接 爬取总结 爬虫介绍 爬虫,又称网页抓取、网络蜘蛛或网络爬虫,是一种自动浏览互联网并从网…...
解决 Navicat 在笔记本外接显示器分辨率自适应展示问题
前言 有时候我们使用自己的笔记本电脑会外接一个显示器,但是显示器的分辨率和笔记本又不一样,所以就会导致 Navicat 基于分辨率的问题变得字体很小。具体操作可点击这里: Navicat 分辨率调整...
网络安全产品之认识入侵检测系统
随着计算机网络技术的快速发展和网络攻击的不断增多,单纯的防火墙策略已经无法满足对安全高度敏感的部门的需要,网络的防卫必须采用一种纵深的、多样的手段。因此,入侵检测系统作为新一代安全保障技术,成为了传统安全防护措施的必…...
牛客周赛 Round 10 解题报告 | 珂学家 | 三分模板 + 计数DFS + 回文中心扩展
前言 整体评价 T2真是一个折磨人的小妖精,写了两版DFS,第二版计数DFS才过。T3是三分模板,感觉也可以求导数。T4的数据规模才n1000,因此中心扩展的 O ( n 2 ) O(n^2) O(n2)当仁不让。 A. 游游的最长稳定子数组 滑窗经典题 从某个…...
SpringBoot 更新业务场景下,如何区分null是清空属性值 还是null为vo属性默认值?
先看歧义现象 值为null 未传递此属性 所以此时如何区分null 时传递进来的的null,还是属性的默认值null? 引入方案 引入过滤器,中间截获requestBodyData并保存到HttpServletRequest,业务层从HttpServletRequest 获取到requestBodyData辅…...
【深度学习每日小知识】NLP 自然语言处理
自然语言处理 (NLP) 是人工智能 (AI) 的一个子领域,处理计算机和人类(自然)语言之间的交互。它涉及使用算法和统计模型使计算机能够理解、解释和生成人类语言。 NLP 是人工智能领域的重要工具,广泛应用于语言翻译、文本分类和聊天…...
一文理解Python选择语句
在编程领域中,条件判断和选择是非常基础而且重要的一个部分。Python 作为一种被广泛应用的编程语言,提供了多种选择语句来满足不同的条件判断需求。本文将深入探讨 Python 中的选择语句,包括 if 语句、elif 语句、else 语句、简写的条件表达式…...
MyBatis XML 映射文件中的 SQL 语句可以分为动态语句和静态语句
目录 静态查询: 动态查询: 静态更新: 动态更新: 静态删除: 动态删除: 动态语句和静态语句在 MyBatis 中的作用如下: 静态查询: 静态查询是指在 SQL 语句中执行固定的查询操作…...
Flask用于生产环境
Flask是一个用Python编写的轻量级Web应用框架,可以用于开发和部署Web服务。要安装Flask,您需要以下步骤: - 安装Python和pip,如果您还没有的话。 - 创建一个虚拟环境,以便隔离您的Flask应用程序和其他Python项目。 - …...
程序员如何向上管理,升职加薪
向上管理 多向领导展示自己的工作量。 解决完问题,可以把领导拉到群里,不然你解决了问题,领导都不知道。 积极向领导汇报,及时反馈任务进度,反馈遇到的问题。 要学会表现自己,光说不干假把式,…...
Microsoft Word 删除空行
Microsoft Word 删除空行 1. 删除空行1.1. 替换1.2. 段落标记 References 1. 删除空行 1.1. 替换 1.2. 段落标记 特殊格式 -> 段落标记 References [1] Yongqiang Cheng, https://yongqiang.blog.csdn.net/...
基于一次应用卡死问题所做的前端性能评估与优化尝试
问题背景 在上个月,由于客户反馈客户端卡死现象但我们远程却难以复现此现象,于是我们组织了一次现场上门故障排查,并希望基于此次观察与优化,为客户端开发提供一些整体的优化升级。当然,在尝试过程中,也发…...
JVM(上)
目录 一、JVM概述 一、JVM作用 二、JVM整体组成部分 二、JVM结构-类加载 一、类加载子系统概述 二、类加载过程 1.加载 2.链接 3.初始化(类加载过程中的初始化) 三、类加载器分类 大致分两类: 细致分类: 四、双亲委派机制 五、打…...
【js】js 异步机制详解 Generator / Async / Promise
三种语法功能放在一起,是因为他们都有相似特点: 维护某种状态在未来恢复状态并执行 本文重点回答以下几个问题: 为什么 Generator 和 Async 函数的 代码执行流 都可以简化成树形结构?async 函数为什么返回一个 promise…...
【动态规划】【数学】【C++算法】805 数组的均值分割
作者推荐 【动态规划】【数学】【C算法】18赛车 本文涉及知识点 动态规划 数学 805 数组的均值分割 给定你一个整数数组 nums 我们要将 nums 数组中的每个元素移动到 A 数组 或者 B 数组中,使得 A 数组和 B 数组不为空,并且 average(A) average(B)…...
Django笔记(五):模型models
首 Django中的模型对应数据库中的一张表格。 定义模型 player.py from django.db import modelsclass Player(models.Model):idx models.IntegerField(uniqueTrue)def __str__(self):return str(self.id)每个模型需要继承models类,如上Player模型定义了一个整形…...
一个golang小白使用vscode搭建Ununtu20.04下的go开发环境
文章目录 前言搭建go环境下载go安装包解压go压缩包完成安装配置环境变量编写一个helloword程序 安装VSCode插件安装智能提示插件安装go依赖包修改代理并重新安装依赖包 go.mod 和 go.workgo.modgo.work小试一下go.work 总结 前言 先交代一下背景,距离正式接触golan…...
【复现】Hytec Inter HWL 2511 SS路由器RCE漏洞_25
目录 一.概述 二 .漏洞影响 三.漏洞复现 1. 漏洞一: 四.修复建议: 五. 搜索语法: 六.免责声明 一.概述 Hytec Inter HWL 2511 SS是日本Hytec Inter 公司的一款工业级 LTE 路由器,可用于远程数据传输,例如收集传…...
Kafka系列(四)
本文接kafka三,代码实践kafkaStream的应用,用来完成流式计算。 kafkastream 关于流式计算也就是实时处理,无时间概念边界的处理一些数据。想要更有性价比地和java程序进行结合,因此了解了kafka。但是本人阅读了kafka地官网&#…...
【Linux学习】进程信号
目录 十七.进程信号 导言 17.1 linux中的信号列表 17.2 标准信号与实时信号 17.3 信号的产生 17.3.1 通过终端按键产生信号 17.3.2 调用系统函数产生信号 17.3.3 软件条件产生信号 17.3.4 硬件异常产生信号 17.3.5 【补充】核心转储 Core Dump 17.4 信号的阻塞 17.4.1 信号相关…...
【NoC片上网络 On-Chip Network】从总线到NoC:多核芯片通信架构的演进与设计权衡
1. 多核芯片的通信困境与架构演进 记得我第一次接触多核芯片设计是在2013年,当时还在用传统的总线架构连接四个ARM Cortex-A9核心。调试时经常遇到总线争用导致的性能瓶颈,就像早高峰时所有车辆挤在一条单车道上的场景。这种体验让我深刻理解了为什么芯片…...
为什么JavaScript无法访问用户电脑的硬件信息
JavaScript和硬件信息访问:安全和信任的博弈许多人想知道:为什么JavaScript不能访问用户计算机的硬件信息?答案与安全和信任机制密切相关。虽然本地客户端软件可以访问硬件信息,但这是基于用户对软件的信任和授权。浏览器和客户端…...
AI模型下载加速实战指南:突破ComfyUI大文件传输瓶颈
AI模型下载加速实战指南:突破ComfyUI大文件传输瓶颈 【免费下载链接】ComfyUI-Manager 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-Manager 在AI模型训练与部署流程中,模型文件的高效获取常常成为制约工作流效率的关键环节。当面对动…...
【限时开源】某金融级TCC事务中间件核心模块源码解析(含TCC-Coordinator状态机设计文档V2.3)
第一章:【限时开源】某金融级TCC事务中间件核心模块源码解析(含TCC-Coordinator状态机设计文档V2.3)本章聚焦于已开源的金融级TCC事务中间件核心协调器(TCC-Coordinator)的实现细节,重点剖析其高可用状态机…...
Z-Image-Turbo-rinaiqiao-huiyewunv快速上手:Streamlit交互界面操作详解
Z-Image-Turbo-rinaiqiao-huiyewunv快速上手:Streamlit交互界面操作详解 1. 工具简介 Z-Image Turbo (辉夜大小姐-日奈娇)是一款基于Tongyi-MAI Z-Image底座模型开发的专属二次元人物绘图工具。它通过注入辉夜大小姐(日奈娇)微调权重,提供了高度优化的…...
Bioconductor注释包全解析:从缩写规则到实战应用
1. Bioconductor注释包入门指南 第一次接触Bioconductor注释包时,我完全被那些奇怪的缩写搞懵了。Hs、Mm、Rn这些看起来像密码的字母组合,其实是生物信息学分析中最常用的工具标识。就像医生需要熟悉药品缩写一样,搞生物数据分析也得掌握这套…...
向量化计算失效的7大隐性陷阱,深度解析HotSpot向量编译器决策逻辑
第一章:向量化计算失效的7大隐性陷阱,深度解析HotSpot向量编译器决策逻辑HotSpot JVM 的向量化编译(Vector API 编译支持与循环自动向量化)并非在所有场景下都能生效。其背后由C2编译器的向量化决策引擎驱动,该引擎基于…...
Cyber Engine Tweaks:解锁《赛博朋克2077》终极模组开发能力的5大核心功能 [特殊字符]
Cyber Engine Tweaks:解锁《赛博朋克2077》终极模组开发能力的5大核心功能 🚀 【免费下载链接】CyberEngineTweaks Cyberpunk 2077 tweaks, hacks and scripting framework 项目地址: https://gitcode.com/gh_mirrors/cy/CyberEngineTweaks Cyber…...
Vercel预览部署的隐藏玩法:除了看UI,还能这样测API和监控性能
Vercel预览部署的隐藏玩法:除了看UI,还能这样测API和监控性能 当大多数开发者将Vercel的预览部署视为前端UI的"展示橱窗"时,一个更强大的应用场景正被悄然忽视——它完全可以成为全栈开发的预发布验证平台。想象一下:在…...
Todo 时代结束了:当 AI 开始自己管项目,人类管理者该管什么?
AI 不再只是执行你的指令,它开始管理自己的项目了。这是 Anthropic Claude Code 团队成员 Thariq Shihipar 在 2026 年悄悄发出的一条技术更新公告里,藏着的一个巨大信号。大多数人划过去了,没有停下来。Claude Code 宣布:将 Todo…...
