Go语言网络爬虫工程经验分享:pholcus库演示抓取头条新闻的实例
网络爬虫是一种自动从互联网上获取数据的程序,它可以用于各种目的,如数据分析、信息检索、竞争情报等。网络爬虫的实现方式有很多,不同的编程语言和框架都有各自的优势和特点。在本文中,我将介绍一种使用Go语言和pholcus库的网络爬虫工程,以抓取头条新闻的数据为例,展示pholcus库的功能和用法。
Go语言是一种开源的静态类型的编译型语言,它具有简洁、高效、并发和跨平台的特点,适合开发高性能的网络应用。pholcus库是一个基于Go语言的高并发、分布式、重量级网络爬虫软件,它提供了丰富的API和界面,支持多种输出方式,如MySQL、MongoDB、Excel、CSV等,可以轻松实现各种复杂的网络爬虫需求。
为了演示pholcus库的使用,我将以抓取头条新闻的数据为例,编写一个简单的网络爬虫程序。头条新闻是一个综合性的新闻平台,提供了各种类别的新闻,如国际、国内、娱乐、体育等。我将从头条新闻的网站上获取每个类别的最新的10条新闻的标题、链接、来源和时间,并将结果保存到Excel文件中。
1. 概述pholcus库
首先,我们简要介绍一下pholcus库。Pholcus是一款基于Go语言的分布式高并发爬虫软件,具有强大的自定义特性和高效的爬取性能。它支持定时任务、分布式部署,并且易于扩展,是一个理想的爬虫工具。
2. 安装pholcus库
在开始之前,确保你已经安装了Go语言环境。通过以下命令安装pholcus库:
go get -u github.com/henrylee2cn/pholcus
3. 构建爬虫任务
我们通过以下步骤构建一个简单的爬虫任务,以抓取头条新闻为例。
package mainimport ("fmt""github.com/henrylee2cn/pholcus/config""github.com/henrylee2cn/pholcus/downloader/context""github.com/henrylee2cn/pholcus/library/collector/data""github.com/henrylee2cn/pholcus/logs""github.com/henrylee2cn/pholcus/output""github.com/henrylee2cn/pholcus/spider""github.com/henrylee2cn/pholcus/spider/common/pool""github.com/henrylee2cn/pholcus/spider/downloader""github.com/henrylee2cn/pholcus/spider/library""github.com/henrylee2cn/pholcus/storage""time"
)func main() {// 初始化配置config.Init()// 设置日志级别logs.Log.SetLogLevel(logs.DEBUG)// 设置亿牛云 爬虫代理 代理服务器信息proxyIP := "www.16yun.cn"//代理服务器proxyPort := "8181"//端口proxyUsername := "16YUN"//用户proxyPassword := "16IP"//密码// 设置代理IPdownloader.SetProxy(func(ctx *context.Context) (*collector.Proxy, error) {return &collector.Proxy{Host: proxyIP,Port: proxyPort,Username: proxyUsername,Password: proxyPassword,}, nil})// 创建爬虫任务task := spider.NewTask()// 添加规则,这里选择了头条新闻的国际、国内、娱乐和体育四个类别task.AddRule("头条新闻", "https://www.toutiao.com/ch/news_%s/", "国际", "国内", "娱乐", "体育")// 设置抓取数量task.SetLimit(10)// 设置全局超时时间task.SetTimeout(time.Second * 30)// 运行爬虫task.Run()// 输出结果printResult()
}// 输出结果
func printResult() {defer func() {if err := recover(); err != nil {fmt.Println("程序异常退出:", err)}}()// 初始化输出结果到Excel文件out, err := output.New("excel", nil)if err != nil {fmt.Println("初始化输出错误:", err)return}// 添加输出字段out.AddField([]string{"标题", "链接", "来源", "时间"})// 设置输出路径out.SetOutPath("result.xlsx")// 打印输出结果fmt.Println("输出结果:")output.Print(out)
}
4. 代理IP设置
在代码中,我们通过proxy.Set
方法设置了代理IP,确保在爬取头条新闻时能够绕过一些反爬虫机制,保持高效稳定的数据爬取。
proxy.Set(proxy.Proxy{Host: "域名",Port: "端口",Username: "用户名",Password: "密码",
})
请替换域名、端口、用户名和密码为你的代理IP信息。
5. 运行爬虫
在完成代码编写和代理IP设置后,运行程序,爬虫将开始工作。你将看到输出结果中包含了头条新闻的相关信息。
结语
通过本文,我们详细介绍了如何使用Go语言中的pholcus库构建一个网络爬虫工程,实现对头条新闻的数据抓取。同时,我们强调了代理IP的重要性,以应对一些反爬虫策略,确保爬取过程的稳定性。希望这个实例对你了解和应用网络爬虫技术有所帮助。
相关文章:

Go语言网络爬虫工程经验分享:pholcus库演示抓取头条新闻的实例
网络爬虫是一种自动从互联网上获取数据的程序,它可以用于各种目的,如数据分析、信息检索、竞争情报等。网络爬虫的实现方式有很多,不同的编程语言和框架都有各自的优势和特点。在本文中,我将介绍一种使用Go语言和pholcus库的网络爬…...

Git安装
简单粗暴,跟着步骤一步一步来 右键就会有了...

以太网通讯协议小结--持续更新中
一、以太网介绍 以太网是一种产生较早,使用相当广泛的局域网技术,局域网就是一个区域的网络互联,可以使办公室也可以是学校等等,大小规模不一。 目前以太网根据速度等级分类大概分为:标准以太网(10Mbit/s…...
Excel换不了行怎么解决?
方法一: 使用Alt Enter键 在Excel中,输入文字时按下回车键,光标将会移到下一个单元格,如果想要换行,可以尝试使用Alt Enter键。具体操作如下: 1.在单元格中输入文字; 2.想要换行时,在需要换行的位置按下Alt Enter键; 3…...

Flink CDC -Sqlserver to Sqlserver java 模版编写
1.基本环境 <flink.version>1.17.0</flink.version> 2. 类文件 package com.flink.tablesql;import org.apache.commons.io.FileUtils; import org.apache.commons.lang3.StringUtils; import org.apache.flink.streaming.api.environment.StreamExecutionEnviro…...

4.前端--HTML标签-表格列表表单【2023.11.25】
1.表格 1.1表格的作用 表格的作用:表格主要用于显示、展示数据 1.2表格的基本格式 <table><tr><td>单元格内的文字</td><td>单元格内的文字</td>...</tr>... </table><table> </table> 是用于定义表…...

MySQL的Redo Log跟Binlog
文章目录 概要Redo Log日志Redo Log的作用Redo Log的写入机制 Binlog日志Binlog的作用Binlog写入机制 两段提交 概要 Redo Log和Binlog是MySQL日志系统中非常重要的两种机制,也有很多相似之处,本文主要介绍两者细节和区别。 Redo Log日志 Redo Log的作…...

定制手机套餐---python序列
if __name__ __main__:print("定制手机套餐")print("")#定义电话时长:字典callTimeOptions{1:0分钟,2:50分钟,3:100分钟,4:300分钟,5:不限量}callTimeInputinput("请输入电话时长的选择编号:")callTimeResultcallTimeOpt…...

线性分类器--数据处理
数据集划分 通常按照 70%,20% ,10% 来分数据集 数据处理 斯坦福的线性分类器体验 http://vision.stanford.edu/teaching/cs231n-demos/linear-classify/...
一些可能被忽视的 Vue3 API 附带案例
Vue3 是 Vue.js 的最新版本,它引入了许多新的 API 和改进。以下是一些可能被忽视的 Vue3 API: reactive:这是 Vue3 中用于创建响应式对象的函数。与 Vue2 中的 data 不同,reactive 返回的对象是响应式的,这意味着当对…...

Linux git
1.Git 初识 不知道你⼯作或学习时,有没有遇到这样的情况:我们在编写各种⽂档时,为了防止文档丢失,更改失误,失误后能恢复到原来的版本,不得不复制出⼀个副本,⽐如: “报告-v1”? …...

136. 只出现一次的数字
136. 只出现一次的数字 题目: 给你一个 非空 整数数组 nums ,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。 你必须设计并实现线性时间复杂度的算法来解决此问题,且该算法只使用常量额外空…...

redis的性能管理及集群架构(主从复制、哨兵模式)
一、redis的性能管理 1、内存指标info memory 内存指标(重要) used_memory:853736 数据占用的内存 used_memory_rss:10551296 redis向操作系统申请的内存 used_memory_peak:853736 redis使用内存的峰值 注:单位:字节 系…...
【自然语言处理】正向最大匹配算法(FMM),反向最大匹配算法(BMM)和双向最大匹配算法(BM)原理及实现
目录 一,正向最大匹配算法(FMM) 二,反向最大匹配算法(RMM) 一,正向最大匹配算法(FMM) 正向最大匹配分词(Forward maximum matching segmentation)通常简称为…...

数据结构 | 堆排序
数据结构 | 堆排序 文章目录 数据结构 | 堆排序建立大堆排序结果以及全部代码 如果没有看过堆的实现的话可以先看前面的一章堆的实现,然后再来看这个堆排序,都是比较简单的~~ 这里堆排序首先建堆,建堆是要建小堆还是大堆呢? 在堆排…...
编程语言发展史:Go语言的设计和特点
一、前言 Go语言是一种由Google开发的编程语言,于2007年开始设计,2009年首次发布。Go语言是一种面向对象、静态类型、编译型的语言,具有高效、简单、安全等特点,可用于开发各种类型的应用程序。Go语言的设计和特点使其成为越来越…...

FinGPT:金融垂类大模型架构
Overview 动机 架构 底座模型: Llama2Chatglm2 Lora训练 技术路径 自动收集数据并整理 指令微调 舆情分析 搜新闻然后相似搜索 检索增强架构 智能投顾 Hugging face 地址 学术成果及未来方向 参考资料...

24. 深度学习进阶 - 矩阵运算的维度和激活函数
Hi,你好。我是茶桁。 咱们经过前一轮的学习,已经完成了一个小型的神经网络框架。但是这也只是个开始而已,在之后的课程中,针对深度学习我们需要进阶学习。 我们要学到超参数,优化器,卷积神经网络等等。看…...

杰发科技AC7801——keil工程移植到IAR
0、简介 发现AC7801的代码只有keil工程的,IAR和Eclipse的代码只有一个例程,于是在从Keil移植到IAR时候遇到的问题记录下。 正常情况下,直接把keil的usr用户代码移植到iar的文件夹下面,删除原本的文件再添加新加进来的文件即可。…...

Word怎么看字数?简单教程分享!
“我在写文章时,总是想看看写了多少字。但是我发现我的Word无法看到字数。在Word中应该怎么查看字数呢?请帮帮我!” Word是一个广泛使用的文档编辑工具。在我们编辑文章时,如果想查看写了多少字,也是可以轻松完成的。 …...

【入坑系列】TiDB 强制索引在不同库下不生效问题
文章目录 背景SQL 优化情况线上SQL运行情况分析怀疑1:执行计划绑定问题?尝试:SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景 项目中使用 TiDB 数据库,并对 SQL 进行优化了,添加了强制索引。 UAT 环境已经生效,但 PROD 环境强制索…...

如何在看板中体现优先级变化
在看板中有效体现优先级变化的关键措施包括:采用颜色或标签标识优先级、设置任务排序规则、使用独立的优先级列或泳道、结合自动化规则同步优先级变化、建立定期的优先级审查流程。其中,设置任务排序规则尤其重要,因为它让看板视觉上直观地体…...

centos 7 部署awstats 网站访问检测
一、基础环境准备(两种安装方式都要做) bash # 安装必要依赖 yum install -y httpd perl mod_perl perl-Time-HiRes perl-DateTime systemctl enable httpd # 设置 Apache 开机自启 systemctl start httpd # 启动 Apache二、安装 AWStats࿰…...
镜像里切换为普通用户
如果你登录远程虚拟机默认就是 root 用户,但你不希望用 root 权限运行 ns-3(这是对的,ns3 工具会拒绝 root),你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案:创建非 roo…...

用机器学习破解新能源领域的“弃风”难题
音乐发烧友深有体会,玩音乐的本质就是玩电网。火电声音偏暖,水电偏冷,风电偏空旷。至于太阳能发的电,则略显朦胧和单薄。 不知你是否有感觉,近两年家里的音响声音越来越冷,听起来越来越单薄? —…...

人工智能(大型语言模型 LLMs)对不同学科的影响以及由此产生的新学习方式
今天是关于AI如何在教学中增强学生的学习体验,我把重要信息标红了。人文学科的价值被低估了 ⬇️ 转型与必要性 人工智能正在深刻地改变教育,这并非炒作,而是已经发生的巨大变革。教育机构和教育者不能忽视它,试图简单地禁止学生使…...

AirSim/Cosys-AirSim 游戏开发(四)外部固定位置监控相机
这个博客介绍了如何通过 settings.json 文件添加一个无人机外的 固定位置监控相机,因为在使用过程中发现 Airsim 对外部监控相机的描述模糊,而 Cosys-Airsim 在官方文档中没有提供外部监控相机设置,最后在源码示例中找到了,所以感…...
08. C#入门系列【类的基本概念】:开启编程世界的奇妙冒险
C#入门系列【类的基本概念】:开启编程世界的奇妙冒险 嘿,各位编程小白探险家!欢迎来到 C# 的奇幻大陆!今天咱们要深入探索这片大陆上至关重要的 “建筑”—— 类!别害怕,跟着我,保准让你轻松搞…...

破解路内监管盲区:免布线低位视频桩重塑停车管理新标准
城市路内停车管理常因行道树遮挡、高位设备盲区等问题,导致车牌识别率低、逃费率高,传统模式在复杂路段束手无策。免布线低位视频桩凭借超低视角部署与智能算法,正成为破局关键。该设备安装于车位侧方0.5-0.7米高度,直接规避树枝遮…...

9-Oracle 23 ai Vector Search 特性 知识准备
很多小伙伴是不是参加了 免费认证课程(限时至2025/5/15) Oracle AI Vector Search 1Z0-184-25考试,都顺利拿到certified了没。 各行各业的AI 大模型的到来,传统的数据库中的SQL还能不能打,结构化和非结构的话数据如何和…...