Go语言多线程爬虫万能模板它来了!
对于长期从事爬虫行业的技术员来说,通过技术手段实现抓取海量数据并且做到可视化处理,我在想如果能写一个万能的爬虫模板,后期遇到类似的工作只要套用模板就能解决大部分的问题,如此提高工作效率何乐而不为?
以下是一个基本的 Go 爬虫程序的示例,用于爬取网站并做可视化处理。这个爬虫使用了多线程来提高效率,并使用了代理信息来避免被网站反爬虫机制封锁。
package mainimport ("fmt""net/http""os""strings""sync"
)const (proxyHost = "www.duoip.cn"proxyPort = 8000
)func main() {// 创建一个字典来存储商品信息productMap := make(map[string]string)// 创建一个锁来保护商品字典
锁 := sync.Mutex{}// 创建一个队列来存储要爬取的页面queue := make(chan string)// 创建一个信号量来控制并发数量sem := make(chan int, 10)// 创建一个信号量来控制线程数量threads := make(chan int, 10)// 创建一个信号量来控制线程数量complete := make(chan bool)// 启动一个线程来处理队列go handleQueue(queue, sem, productMap, lock, complete)// 启动10个线程来爬取页面for i := 0; i < 10; i++ {threads <- i}// 关闭信号量来停止线程close(threads)// 关闭信号量来停止线程close(sem)// 关闭信号量来停止爬取close(queue)// 等待所有线程完成for i := 0; i < 10; i++ {<-complete}// 打印商品信息for _, product := range productMap {fmt.Println(product)}
}func handleQueue(queue chan string, sem chan int, productMap map[string]string, lock sync.Mutex, complete chan bool) {// 获取信号量来控制并发数量sem <- 1defer func() {<-sem}()// 从队列中取出一个页面page := <-queue// 使用代理信息进行网络请求resp, err := http.Get(fmt.Sprintf("http://%s:%d/%s", proxyHost, proxyPort, page))if err != nil {fmt.Println(err)return}defer resp.Body.Close()// 检查响应是否成功if resp.StatusCode != http.StatusOK {fmt.Println("Error:", resp.Status)return}// 解析响应体中的商品信息var product stringif err := http.StripPrefix("/product/", resp.Body, &product); err != nil {fmt.Println(err)return}// 使用锁保护商品字典
锁.Lock()defer 锁.Unlock()// 将商品信息添加到字典中productMap[product] = ""// 将信号量发送给下一个线程sem <- 1
}func parsePage(page string) {// 使用正则表达式解析页面中的商品信息// 这里只是一个示例,实际的解析逻辑可能会更复杂var product, price stringif match := strings.MustCompile(`商品名称: (\w+), 价格: (\d+)`).FindStringSubmatch(page); match != nil {product = match[1]price = match[2]}
}
这个程序首先创建了一个商品字典和一个锁来保护字典。然后,它创建了一个队列和一个信号量来控制并发数量和线程数量。接下来,它启动了一个线程来处理队列,以及10个线程来爬取页面。在每个爬取线程中,它从队列中取出一个页面,使用代理信息进行网络请求,解析响应体中的商品信息,并将商品信息添加到商品字典中。
在每个爬取线程完成后,它将信号量发送给下一个线程,以控制并发数量。最后,程序打印出所有爬取到的商品信息。需要注意的是,这只是一个基本的示例,实际的爬虫程序可能会更复杂,需要处理更多的异常情况和错误。
上面的详细程序步骤,是多线程并且可视化处理的爬虫通用模板。利用模版可以解决效率问题,爬虫IP的辅助可以让数据爬取更快捷。如果爬虫代码问题以及爬虫ip问题都可以一起讨论讨论。
相关文章:

Go语言多线程爬虫万能模板它来了!
对于长期从事爬虫行业的技术员来说,通过技术手段实现抓取海量数据并且做到可视化处理,我在想如果能写一个万能的爬虫模板,后期遇到类似的工作只要套用模板就能解决大部分的问题,如此提高工作效率何乐而不为? 以下是一个…...

【RTP】RTPSenderAudio::SendAudio
RTPSenderAudio 可以将一个opus帧封装为rtp包进行发送,以下是其过程:RTPSenderAudio::SendAudio :只需要提供payload部分 创建RtpPacketToSend 并写入各个部分 填充payload部分 sender 本身分配全session唯一的twcc序号 if (!rtp_sender_->...

Linux反弹SHell与检测思路
免责声明 文章仅做经验分享用途,利用本文章所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任,一旦造成后果请自行承担!!! 反弹shell payload在线生成 https://www.chinabaiker.com/Hack-Tools/ Online - Reverse Shell G…...

【Netty专题】Netty调优及网络编程中一些问题补充(面向面试学习)
目录 前言阅读对象阅读导航笔记正文一、如何选择序列化框架1.1 基本介绍1.2 在网络编程中如何选择序列化框架1.3 常用Java序列化框架比较 二、Netty调优2.1 CONNECT_TIMEOUT_MILLIS:客户端连接时间2.2 SO_BACKLOG:最大同时连接数2.3 TCP_NODELAY…...

Ubuntu20.04 install pnpm
npm install -g pnpm referrence link: Installation | pnpmPrerequisiteshttps://pnpm.io/installation...

【网络】DNS协议、ICMP协议、NAT技术
DNS协议、ICMP协议、NAT技术 一、DNS协议1、产生背景2、域名简介3、域名解析的工作流程4、使用dig工具分析DNS过程 二、ICMP协议1、ICMP介绍2、ICMP协议格式3、ping命令4、traceroute命令 三、NAT技术1、NAT技术背景2、NAT IP转换过程3、地址转换表4、NAPT技术5、重新理解路由器…...

Python编写的爬虫为什么受欢迎?
每每回想起我当初学习python爬虫的经历,当初遇到的各种困难险阻至今都历历在目。即便当初道阻且长,穷且益坚,我也从来没有想过要放弃。今天我将以我个人经历,和大家聊一聊有关Python语音编写的爬虫的事情。谈一谈为什么最近几年py…...
使用Ruby过滤目录容量大小
实际使用的,显示大于某种容量的目录或文件。 #encoding:utf-8input STDIN.read input.lines.each do |line|num line.gsub(/^([0-9\.])G.*$/,"\\1")if num.to_i > ARGV[0].to_iputs lineend end使用如下命令运行: $ du -hs * 2>/dev…...
【LeeCode】27. 移除元素
给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。 不要使用额外的数组空间,你必须仅使用 O(1) 额外空间并原地修改输入数组。 元素的顺序可以改变。你不需要考虑数组中超出新长度后面的…...

Java多态:多态多态,多么变态
👑专栏内容:Java⛪个人主页:子夜的星的主页💕座右铭:前路未远,步履不停 目录 一、重写1、重写的规则2、重写与重载的区别 二、多态1、多态的概念2、多态的实现3、向上转移和向下转型Ⅰ、向上转型Ⅱ、向下转…...

寄存器、缓存、内存之间的关系和区别
https://blog.csdn.net/m0_46761060/article/details/124689209 目录 关系1、寄存器2、缓存(Cache) 2.1、寄存器和缓存的区别2.2、一级缓存和二级缓存3、内存 3.1、只读存储器 ROM(Read Only Memory)3.2、随机存储器 RAM…...
音视频项目—基于FFmpeg和SDL的音视频播放器解析(二十二)
介绍 在本系列,我打算花大篇幅讲解我的 gitee 项目音视频播放器,在这个项目,您可以学到音视频解封装,解码,SDL渲染相关的知识。您对源代码感兴趣的话,请查看基于FFmpeg和SDL的音视频播放器 如果您不理解本…...

单片机AT89C51直流电机控制电路PWM设计
wx供重浩:创享日记 对话框发送:直流电机 获取论文报告源码源程序原理图 此文将介绍一种直流电机,详细阐述了用单片机输出口所给占空比的不同实现电机的调速的设计方法;着重讨论L298用于电机驱动时特有的优势。直流电机调速具有…...
Python面经【2】
一、赋值、浅拷贝和深拷贝的区别 赋值 在python中,对象的赋值就是简单的对象引用。 1. a [1,2,"hello",[python, C]]2. b a 在上述情况下,a和b是一样的,它们指向同一片内存,b不过是a的别名,是引用。 赋值…...

邮政快递查询,邮政快递单号查询,用表格导出查询好的物流信息
批量查询邮政快递单号的物流信息,以表格的形式导出查询好的物流信息。 所需工具: 一个【快递批量查询高手】软件 邮政快递单号若干 操作步骤: 步骤1:运行【快递批量查询高手】软件,并登录 步骤2:点击主界…...

【经典小练习】输出文件路径名
文章目录 🌹问题✨思路🍔代码🛸读取文件,并把文件名保存到文件中 对指定目录下的所有 Java 文件进行编译、打包等处理; 查找指定目录下所有包含特定字符串的 Java 文件; 统计指定目录下所有 Java 文件的行数…...

【Python】【Torch】神经网络中各层输出的特征图可视化详解和示例
本文对神经网络各层特征图可视化的过程进行运行示例,方便大家使用,有助于更好的理解深度学习的过程,尤其是每层的结果。 神经网络各层特征图可视化的好处和特点如下: 可视化过程可以了解网络对图像像素的权重分布,可…...

接口测试学习路线
接口测试分为两种: 测试外部接口:系统和外部系统之间的接口 如:电商网站:支付宝支付 测试内部接口:系统内部的模块之间的联调,或者子系统之间的数据交互 测试重点:测试接口参数传递的正确性&…...

蓝桥杯官网算法赛(蓝桥小课堂)
问题描述 蓝桥小课堂开课啦! 海伦公式(Herons formula),也称为海伦-秦九韶公式,是用于计算三角形面积的一种公式,它可以通过三条边的长度来确定三角形的面积,而无需知道三角形的高度。 海伦公…...

求集合的笛卡尔乘积
求集合的笛卡尔乘积 一:【实验目的】二:【实验内容】三:【实验原理】四:代码实现: 一:【实验目的】 通过编实现给定集合A和B的笛卡尔积CAA,DAB,EBA,FAAB,GA(A*B). 二:【实验内容】…...
conda相比python好处
Conda 作为 Python 的环境和包管理工具,相比原生 Python 生态(如 pip 虚拟环境)有许多独特优势,尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处: 一、一站式环境管理:…...
mongodb源码分析session执行handleRequest命令find过程
mongo/transport/service_state_machine.cpp已经分析startSession创建ASIOSession过程,并且验证connection是否超过限制ASIOSession和connection是循环接受客户端命令,把数据流转换成Message,状态转变流程是:State::Created 》 St…...
postgresql|数据库|只读用户的创建和删除(备忘)
CREATE USER read_only WITH PASSWORD 密码 -- 连接到xxx数据库 \c xxx -- 授予对xxx数据库的只读权限 GRANT CONNECT ON DATABASE xxx TO read_only; GRANT USAGE ON SCHEMA public TO read_only; GRANT SELECT ON ALL TABLES IN SCHEMA public TO read_only; GRANT EXECUTE O…...
在鸿蒙HarmonyOS 5中使用DevEco Studio实现企业微信功能
1. 开发环境准备 安装DevEco Studio 3.1: 从华为开发者官网下载最新版DevEco Studio安装HarmonyOS 5.0 SDK 项目配置: // module.json5 {"module": {"requestPermissions": [{"name": "ohos.permis…...
根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的----NTFS源代码分析--重要
根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的 第一部分: 0: kd> g Breakpoint 9 hit Ntfs!ReadIndexBuffer: f7173886 55 push ebp 0: kd> kc # 00 Ntfs!ReadIndexBuffer 01 Ntfs!FindFirstIndexEntry 02 Ntfs!NtfsUpda…...
Kafka主题运维全指南:从基础配置到故障处理
#作者:张桐瑞 文章目录 主题日常管理1. 修改主题分区。2. 修改主题级别参数。3. 变更副本数。4. 修改主题限速。5.主题分区迁移。6. 常见主题错误处理常见错误1:主题删除失败。常见错误2:__consumer_offsets占用太多的磁盘。 主题日常管理 …...

ubuntu系统文件误删(/lib/x86_64-linux-gnu/libc.so.6)修复方案 [成功解决]
报错信息:libc.so.6: cannot open shared object file: No such file or directory: #ls, ln, sudo...命令都不能用 error while loading shared libraries: libc.so.6: cannot open shared object file: No such file or directory重启后报错信息&…...

一些实用的chrome扩展0x01
简介 浏览器扩展程序有助于自动化任务、查找隐藏的漏洞、隐藏自身痕迹。以下列出了一些必备扩展程序,无论是测试应用程序、搜寻漏洞还是收集情报,它们都能提升工作流程。 FoxyProxy 代理管理工具,此扩展简化了使用代理(如 Burp…...
《Offer来了:Java面试核心知识点精讲》大纲
文章目录 一、《Offer来了:Java面试核心知识点精讲》的典型大纲框架Java基础并发编程JVM原理数据库与缓存分布式架构系统设计二、《Offer来了:Java面试核心知识点精讲(原理篇)》技术文章大纲核心主题:Java基础原理与面试高频考点Java虚拟机(JVM)原理Java并发编程原理Jav…...

何谓AI编程【02】AI编程官网以优雅草星云智控为例建设实践-完善顶部-建立各项子页-调整排版-优雅草卓伊凡
何谓AI编程【02】AI编程官网以优雅草星云智控为例建设实践-完善顶部-建立各项子页-调整排版-优雅草卓伊凡 背景 我们以建设星云智控官网来做AI编程实践,很多人以为AI已经强大到不需要程序员了,其实不是,AI更加需要程序员,普通人…...