当前位置: 首页 > news >正文

Go语言网络爬虫工程经验分享:pholcus库演示抓取头条新闻的实例

亿牛云.png

网络爬虫是一种自动从互联网上获取数据的程序,它可以用于各种目的,如数据分析、信息检索、竞争情报等。网络爬虫的实现方式有很多,不同的编程语言和框架都有各自的优势和特点。在本文中,我将介绍一种使用Go语言和pholcus库的网络爬虫工程,以抓取头条新闻的数据为例,展示pholcus库的功能和用法。
Go语言是一种开源的静态类型的编译型语言,它具有简洁、高效、并发和跨平台的特点,适合开发高性能的网络应用。pholcus库是一个基于Go语言的高并发、分布式、重量级网络爬虫软件,它提供了丰富的API和界面,支持多种输出方式,如MySQL、MongoDB、Excel、CSV等,可以轻松实现各种复杂的网络爬虫需求。
为了演示pholcus库的使用,我将以抓取头条新闻的数据为例,编写一个简单的网络爬虫程序。头条新闻是一个综合性的新闻平台,提供了各种类别的新闻,如国际、国内、娱乐、体育等。我将从头条新闻的网站上获取每个类别的最新的10条新闻的标题、链接、来源和时间,并将结果保存到Excel文件中。

1. 概述pholcus库

首先,我们简要介绍一下pholcus库。Pholcus是一款基于Go语言的分布式高并发爬虫软件,具有强大的自定义特性和高效的爬取性能。它支持定时任务、分布式部署,并且易于扩展,是一个理想的爬虫工具。

2. 安装pholcus库

在开始之前,确保你已经安装了Go语言环境。通过以下命令安装pholcus库:

go get -u github.com/henrylee2cn/pholcus

3. 构建爬虫任务

我们通过以下步骤构建一个简单的爬虫任务,以抓取头条新闻为例。

package mainimport ("fmt""github.com/henrylee2cn/pholcus/config""github.com/henrylee2cn/pholcus/downloader/context""github.com/henrylee2cn/pholcus/library/collector/data""github.com/henrylee2cn/pholcus/logs""github.com/henrylee2cn/pholcus/output""github.com/henrylee2cn/pholcus/spider""github.com/henrylee2cn/pholcus/spider/common/pool""github.com/henrylee2cn/pholcus/spider/downloader""github.com/henrylee2cn/pholcus/spider/library""github.com/henrylee2cn/pholcus/storage""time"
)func main() {// 初始化配置config.Init()// 设置日志级别logs.Log.SetLogLevel(logs.DEBUG)// 设置亿牛云 爬虫代理 代理服务器信息proxyIP := "www.16yun.cn"//代理服务器proxyPort := "8181"//端口proxyUsername := "16YUN"//用户proxyPassword := "16IP"//密码// 设置代理IPdownloader.SetProxy(func(ctx *context.Context) (*collector.Proxy, error) {return &collector.Proxy{Host:     proxyIP,Port:     proxyPort,Username: proxyUsername,Password: proxyPassword,}, nil})// 创建爬虫任务task := spider.NewTask()// 添加规则,这里选择了头条新闻的国际、国内、娱乐和体育四个类别task.AddRule("头条新闻", "https://www.toutiao.com/ch/news_%s/", "国际", "国内", "娱乐", "体育")// 设置抓取数量task.SetLimit(10)// 设置全局超时时间task.SetTimeout(time.Second * 30)// 运行爬虫task.Run()// 输出结果printResult()
}// 输出结果
func printResult() {defer func() {if err := recover(); err != nil {fmt.Println("程序异常退出:", err)}}()// 初始化输出结果到Excel文件out, err := output.New("excel", nil)if err != nil {fmt.Println("初始化输出错误:", err)return}// 添加输出字段out.AddField([]string{"标题", "链接", "来源", "时间"})// 设置输出路径out.SetOutPath("result.xlsx")// 打印输出结果fmt.Println("输出结果:")output.Print(out)
}

4. 代理IP设置

在代码中,我们通过proxy.Set方法设置了代理IP,确保在爬取头条新闻时能够绕过一些反爬虫机制,保持高效稳定的数据爬取。

proxy.Set(proxy.Proxy{Host:     "域名",Port:     "端口",Username: "用户名",Password: "密码",
})

请替换域名、端口、用户名和密码为你的代理IP信息。

5. 运行爬虫

在完成代码编写和代理IP设置后,运行程序,爬虫将开始工作。你将看到输出结果中包含了头条新闻的相关信息。

结语

通过本文,我们详细介绍了如何使用Go语言中的pholcus库构建一个网络爬虫工程,实现对头条新闻的数据抓取。同时,我们强调了代理IP的重要性,以应对一些反爬虫策略,确保爬取过程的稳定性。希望这个实例对你了解和应用网络爬虫技术有所帮助。

相关文章:

Go语言网络爬虫工程经验分享:pholcus库演示抓取头条新闻的实例

网络爬虫是一种自动从互联网上获取数据的程序,它可以用于各种目的,如数据分析、信息检索、竞争情报等。网络爬虫的实现方式有很多,不同的编程语言和框架都有各自的优势和特点。在本文中,我将介绍一种使用Go语言和pholcus库的网络爬…...

Git安装

简单粗暴,跟着步骤一步一步来 右键就会有了...

以太网通讯协议小结--持续更新中

一、以太网介绍 以太网是一种产生较早,使用相当广泛的局域网技术,局域网就是一个区域的网络互联,可以使办公室也可以是学校等等,大小规模不一。 目前以太网根据速度等级分类大概分为:标准以太网(10Mbit/s…...

Excel换不了行怎么解决?

方法一: 使用Alt Enter键 在Excel中,输入文字时按下回车键,光标将会移到下一个单元格,如果想要换行,可以尝试使用Alt Enter键。具体操作如下: 1.在单元格中输入文字; 2.想要换行时,在需要换行的位置按下Alt Enter键; 3…...

Flink CDC -Sqlserver to Sqlserver java 模版编写

1.基本环境 <flink.version>1.17.0</flink.version> 2. 类文件 package com.flink.tablesql;import org.apache.commons.io.FileUtils; import org.apache.commons.lang3.StringUtils; import org.apache.flink.streaming.api.environment.StreamExecutionEnviro…...

4.前端--HTML标签-表格列表表单【2023.11.25】

1.表格 1.1表格的作用 表格的作用&#xff1a;表格主要用于显示、展示数据 1.2表格的基本格式 <table><tr><td>单元格内的文字</td><td>单元格内的文字</td>...</tr>... </table><table> </table> 是用于定义表…...

MySQL的Redo Log跟Binlog

文章目录 概要Redo Log日志Redo Log的作用Redo Log的写入机制 Binlog日志Binlog的作用Binlog写入机制 两段提交 概要 Redo Log和Binlog是MySQL日志系统中非常重要的两种机制&#xff0c;也有很多相似之处&#xff0c;本文主要介绍两者细节和区别。 Redo Log日志 Redo Log的作…...

定制手机套餐---python序列

if __name__ __main__:print("定制手机套餐")print("")#定义电话时长&#xff1a;字典callTimeOptions{1:0分钟,2:50分钟,3:100分钟,4:300分钟,5:不限量}callTimeInputinput("请输入电话时长的选择编号&#xff1a;")callTimeResultcallTimeOpt…...

线性分类器--数据处理

数据集划分 通常按照 70%&#xff0c;20% &#xff0c;10% 来分数据集 数据处理 斯坦福的线性分类器体验 http://vision.stanford.edu/teaching/cs231n-demos/linear-classify/...

一些可能被忽视的 Vue3 API 附带案例

Vue3 是 Vue.js 的最新版本&#xff0c;它引入了许多新的 API 和改进。以下是一些可能被忽视的 Vue3 API&#xff1a; reactive&#xff1a;这是 Vue3 中用于创建响应式对象的函数。与 Vue2 中的 data 不同&#xff0c;reactive 返回的对象是响应式的&#xff0c;这意味着当对…...

Linux git

1.Git 初识 不知道你⼯作或学习时&#xff0c;有没有遇到这样的情况&#xff1a;我们在编写各种⽂档时&#xff0c;为了防止文档丢失&#xff0c;更改失误&#xff0c;失误后能恢复到原来的版本&#xff0c;不得不复制出⼀个副本&#xff0c;⽐如&#xff1a; “报告-v1”? …...

136. 只出现一次的数字

136. 只出现一次的数字 题目&#xff1a; 给你一个 非空 整数数组 nums &#xff0c;除了某个元素只出现一次以外&#xff0c;其余每个元素均出现两次。找出那个只出现了一次的元素。 你必须设计并实现线性时间复杂度的算法来解决此问题&#xff0c;且该算法只使用常量额外空…...

redis的性能管理及集群架构(主从复制、哨兵模式)

一、redis的性能管理 1、内存指标info memory 内存指标&#xff08;重要&#xff09; used_memory:853736 数据占用的内存 used_memory_rss:10551296 redis向操作系统申请的内存 used_memory_peak:853736 redis使用内存的峰值 注&#xff1a;单位&#xff1a;字节 系…...

【自然语言处理】正向最大匹配算法(FMM),反向最大匹配算法(BMM)和双向最大匹配算法(BM)原理及实现

目录 一&#xff0c;正向最大匹配算法&#xff08;FMM&#xff09; 二&#xff0c;反向最大匹配算法&#xff08;RMM) 一&#xff0c;正向最大匹配算法&#xff08;FMM&#xff09; 正向最大匹配分词&#xff08;Forward maximum matching segmentation&#xff09;通常简称为…...

数据结构 | 堆排序

数据结构 | 堆排序 文章目录 数据结构 | 堆排序建立大堆排序结果以及全部代码 如果没有看过堆的实现的话可以先看前面的一章堆的实现&#xff0c;然后再来看这个堆排序&#xff0c;都是比较简单的~~ 这里堆排序首先建堆&#xff0c;建堆是要建小堆还是大堆呢&#xff1f; 在堆排…...

编程语言发展史:Go语言的设计和特点

一、前言 Go语言是一种由Google开发的编程语言&#xff0c;于2007年开始设计&#xff0c;2009年首次发布。Go语言是一种面向对象、静态类型、编译型的语言&#xff0c;具有高效、简单、安全等特点&#xff0c;可用于开发各种类型的应用程序。Go语言的设计和特点使其成为越来越…...

FinGPT:金融垂类大模型架构

Overview 动机 架构 底座模型&#xff1a; Llama2Chatglm2 Lora训练 技术路径 自动收集数据并整理 指令微调 舆情分析 搜新闻然后相似搜索 检索增强架构 智能投顾 Hugging face 地址 学术成果及未来方向 参考资料...

24. 深度学习进阶 - 矩阵运算的维度和激活函数

Hi&#xff0c;你好。我是茶桁。 咱们经过前一轮的学习&#xff0c;已经完成了一个小型的神经网络框架。但是这也只是个开始而已&#xff0c;在之后的课程中&#xff0c;针对深度学习我们需要进阶学习。 我们要学到超参数&#xff0c;优化器&#xff0c;卷积神经网络等等。看…...

杰发科技AC7801——keil工程移植到IAR

0、简介 发现AC7801的代码只有keil工程的&#xff0c;IAR和Eclipse的代码只有一个例程&#xff0c;于是在从Keil移植到IAR时候遇到的问题记录下。 正常情况下&#xff0c;直接把keil的usr用户代码移植到iar的文件夹下面&#xff0c;删除原本的文件再添加新加进来的文件即可。…...

Word怎么看字数?简单教程分享!

“我在写文章时&#xff0c;总是想看看写了多少字。但是我发现我的Word无法看到字数。在Word中应该怎么查看字数呢&#xff1f;请帮帮我&#xff01;” Word是一个广泛使用的文档编辑工具。在我们编辑文章时&#xff0c;如果想查看写了多少字&#xff0c;也是可以轻松完成的。 …...

《jEasyUI 格式化列》

《jEasyUI 格式化列》 引言 jEasyUI 是一款流行的开源jQuery UI库&#xff0c;旨在简化Web用户界面&#xff08;UI&#xff09;的开发。在jEasyUI中&#xff0c;格式化列是一种常见且强大的功能&#xff0c;它允许开发者根据需要自定义表格列的显示格式。本文将详细介绍jEasyUI…...

python基于智能推荐算法的全屋定制平台网站设计_07y1pcxm

前言随着人们对家居环境品质的追求不断提高&#xff0c;全屋定制平台应运而生。本文介绍的基于智能推荐算法的全屋定制平台网站设计&#xff0c;旨在为用户提供一站式的家居定制解决方案。采用 Python 语言结合 Django 框架进行开发&#xff0c;以 MySQL 数据库作为数据存储核心…...

C++ 智能指针的线程安全问题

C智能指针的线程安全问题探析 在现代C开发中&#xff0c;智能指针作为资源管理的利器&#xff0c;极大简化了内存管理。当多线程环境遇上智能指针&#xff0c;其线程安全问题便成为开发者必须直面的挑战。本文将深入探讨智能指针在多线程场景下的潜在风险&#xff0c;帮助开发…...

Composite(组合)模式

意图:将对象组合成树形结构以表示“部分-整体”的层次结构。Composite使得用户对单个对象和组合对象的使用具有一致性 结构: 适用性:表示对象的部分-整体层欠结构&#xff0c;使得用户忽略组合对象与单个对象的不同&#xff0c;方便软件开发者统一地使用组合结构中的所有对象。…...

Go Context 控制流与生命周期管理

Go Context 控制流与生命周期管理 在现代分布式系统中&#xff0c;控制流与生命周期管理是开发者必须面对的核心挑战之一。Go语言通过context包提供了一种优雅的解决方案&#xff0c;帮助开发者管理请求的取消、超时和跨协程的数据传递。无论是微服务调用、数据库查询还是HTTP…...

OneTime-BH1750:超低功耗单次测量光照传感器驱动库

1. 项目概述OneTime-BH1750 是一款专为资源受限嵌入式平台设计的轻量级 BH1750 光照传感器驱动库。其核心设计哲学并非追求功能堆砌&#xff0c;而是围绕“极简、极省、极稳”三大工程目标展开&#xff1a;在保证功能完整性的前提下&#xff0c;将代码体积压缩至最小&#xff0…...

Obsidian个性化首页配置指南:从零开始构建高效知识管理中心

Obsidian个性化首页配置指南&#xff1a;从零开始构建高效知识管理中心 【免费下载链接】obsidian-homepage Obsidian homepage - Minimal and aesthetic template (with my unique features) 项目地址: https://gitcode.com/gh_mirrors/obs/obsidian-homepage 在信息爆…...

解决网易云音乐加密NCM文件播放限制的完整实践指南

解决网易云音乐加密NCM文件播放限制的完整实践指南 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换&#xff0c;Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾经遇到过这样的情况&#xff1a;从网易云音乐下载的…...

零基础玩转PowerPaint-V1:手把手教你用Gradio实现智能修图,小白也能轻松上手

零基础玩转PowerPaint-V1&#xff1a;手把手教你用Gradio实现智能修图&#xff0c;小白也能轻松上手 你是不是也遇到过这样的烦恼&#xff1f;拍了一张很满意的照片&#xff0c;但背景里总有个碍眼的垃圾桶&#xff1b;或者找到一张完美的素材图&#xff0c;偏偏有个大大的水印…...

ai赋能安装:让快马智能推荐openclaw本地部署的最优配置方案

最近在折腾OpenClaw的本地安装&#xff0c;发现这个爬虫框架虽然强大&#xff0c;但配置起来真是让人头大——不同的硬件环境和应用场景需要完全不同的参数组合。好在发现了InsCode(快马)平台的AI辅助开发功能&#xff0c;用它做了个智能配置工具&#xff0c;分享下实现思路和实…...