当前位置: 首页 > news >正文

PHP爬虫类的并发与多线程处理技巧

php爬虫类的并发与多线程处理技巧

PHP爬虫类的并发与多线程处理技巧

引言:
随着互联网的快速发展,大量的数据信息存储在各种网站上,获取这些数据已经成为很多业务场景下的需求。而爬虫作为一种自动化获取网络信息的工具,被广泛应用于数据采集、搜索引擎、舆情分析等领域。本文将介绍一种基于PHP的爬虫类的并发与多线程处理技巧,并通过代码示例来说明其实现方式。

一、爬虫类的基本结构
在实现爬虫类的并发与多线程处理前,我们先来看一下一个基本的爬虫类的结构。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

class Crawler {

    private $startUrl;

    public function __construct($startUrl) {

        $this->startUrl = $startUrl;

    }

    public function crawl() {

        // 获取初始页面的内容

        $content = $this->getContent($this->startUrl);

        // 解析页面内容,获取需要的信息

        $data = $this->parseContent($content);

        // 处理获取到的信息,进行业务逻辑处理或存储

        $this->processData($data);

        // 获取页面中的链接,并递归抓取

        $urls = $this->getUrls($content);

        foreach ($urls as $url) {

            $content = $this->getContent($url);

            $data = $this->parseContent($content);

            $this->processData($data);

        }

    }

    private function getContent($url) {

        // 发起HTTP请求,获取页面内容

        // ...

        return $content;

    }

    private function parseContent($content) {

        // 解析页面内容,提取需要的信息

        // ...

        return $data;

    }

    private function processData($data) {

        // 处理获取到的信息,进行逻辑处理或存储

        // ...

    }

    private function getUrls($content) {

        // 获取页面中的链接

        // ...

        return $urls;

    }

}

上述代码中,我们首先定义一个Crawler类,通过构造函数传入一个起始URL。在crawl()方法中,我们首先获取起始页面的内容,然后解析页面内容,提取需要的信息。之后,我们可以对获取到的信息进行处理,比如存储到数据库中。最后,我们获取页面中的链接,并递归抓取其他页面。

二、并发处理
通常情况下,爬虫需要处理大量的URL,而网络请求的IO操作非常耗时。如果我们采用顺序执行的方式,一个请求完毕后再请求下一个,会极大地降低我们的抓取效率。为了提高并发处理能力,我们可以采用PHP的多进程扩展来实现。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

class ConcurrentCrawler {

    private $urls;

    public function __construct($urls) {

        $this->urls = $urls;

    }

    public function crawl() {

        $workers = [];

        $urlsNum = count($this->urls);

        $maxWorkersNum = 10; // 最大进程数

        for ($i = 0; $i < $maxWorkersNum; $i++) {

            $pid = pcntl_fork();

            if ($pid == -1) {

                die('fork failed');

            } else if ($pid == 0) {

                for ($j = $i; $j < $urlsNum; $j += $maxWorkersNum) {

                    $this->processUrl($this->urls[$j]);

                }

                exit();

            } else {

                $workers[$pid] = true;

            }

        }

        while (count($workers)) {

            $pid = pcntl_wait($status, WUNTRACED);

            if ($status == 0) {

                unset($workers[$pid]);

            } else {

                $workers[$pid] = false;

            }

        }

    }

    private function processUrl($url) {

        // 发起HTTP请求,获取页面内容

        // ...

        // 解析页面内容,获取需要的信息

        // ...

        // 处理获取到的信息,进行逻辑处理或存储

        // ...

    }

}

上述代码中,我们首先定义了一个ConcurrentCrawler类,通过构造函数传入一组需要抓取的URL。在crawl()方法中,我们使用了多进程的方式来进行并发处理。通过使用pcntl_fork()函数,在每个子进程中处理一部分URL,而父进程负责管理子进程。最后,通过pcntl_wait()函数等待所有子进程的结束。

三、多线程处理
除了使用多进程进行并发处理,我们还可以利用PHP的Thread扩展实现多线程处理。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

class MultithreadCrawler extends Thread {

    private $url;

    public function __construct($url) {

        $this->url = $url;

    }

    public function run() {

        // 发起HTTP请求,获取页面内容

        // ...

        // 解析页面内容,获取需要的信息

        // ...

        // 处理获取到的信息,进行逻辑处理或存储

        // ...

    }

}

class Executor {

    private $urls;

    public function __construct($urls) {

        $this->urls = $urls;

    }

    public function execute() {

        $threads = [];

        foreach ($this->urls as $url) {

            $thread = new MultithreadCrawler($url);

            $thread->start();

            $threads[] = $thread;

        }

        foreach ($threads as $thread) {

            $thread->join();

        }

    }

}

上述代码中,我们首先定义了一个MultithreadCrawler类,继承自Thread类,并重写了run()方法作为线程的主体逻辑。在Executor类中,我们通过循环创建多个线程,并启动它们执行。最后,通过join()方法等待所有线程的结束。

结语:
通过对PHP爬虫类的并发与多线程处理技巧的介绍,我们可以发现并发处理和多线程处理都能够大大提高爬虫的抓取效率。不过,在实际开发过程中,我们需要根据具体的情况选择合适的处理方式。同时,为了保证多线程或多进程的安全性,我们还需要在处理过程中进行适当的同步操作。

相关文章:

PHP爬虫类的并发与多线程处理技巧

PHP爬虫类的并发与多线程处理技巧 引言&#xff1a; 随着互联网的快速发展&#xff0c;大量的数据信息存储在各种网站上&#xff0c;获取这些数据已经成为很多业务场景下的需求。而爬虫作为一种自动化获取网络信息的工具&#xff0c;被广泛应用于数据采集、搜索引擎、舆情分析…...

用Python将PowerPoint演示文稿转换到图片和SVG

PowerPoint演示文稿作为展示创意、分享知识和表达观点的重要工具&#xff0c;被广泛应用于教育、商务汇报及个人项目展示等领域。然而&#xff0c;面对不同的分享场景与接收者需求&#xff0c;有时需要我们将PPT内容以图片形式保存与传播。这样能够避免软件兼容性的限制&#x…...

机电公司管理小程序的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;用户管理&#xff0c;管理员管理&#xff0c;客户管理&#xff0c;公告管理&#xff0c;考勤管理&#xff0c;请假管理 微信端账号功能包括&#xff1a;系统首页&#xff0c;公告&#xff0c;机电零件&…...

SQL中的子查询和CTE(with ....as..)

第一次看到with as 这种类似于python中读文件的写法还是挺疑惑的&#xff0c;其实它是CTE&#xff0c;功能和子查询很类似但又有不同点&#xff0c;在实际应用场景中具有着独特作用。 子查询 子查询是在主查询中的嵌套查询&#xff0c;可以出现在SELECT、FROM、WHERE等子句中…...

Cesium 基本概念:创建实体和相机控制

基本概念 Entity // 创建一个实体 const entity_1 viewer.entities.add({position: new Cesium.Cartesian3(0, 0, 10000000),point: {pixelSize: 10,color: Cesium.Color.BLUE} });// 通过经纬度创建实体 const position Cesium.Cartesian3.fromDegrees(180.0, 0.0); // 创…...

vue使用scrollreveal和animejs实现页面滑动到指定位置后再开始执行动画效果

效果图 效果链接&#xff1a;http://website.livequeen.top 介绍 一、Scrollreveal ScrollReveal 是一个 JavaScript 库&#xff0c;用于在元素进入/离开视口时轻松实现动画效果。 ScrollReveal 官网链接&#xff1a;ScrollReveal 二、animejs animejs是一个好用的动画库…...

在Ubuntu 16.04上安装和配置GitLab的方法

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站。 简介 GitLab CE&#xff08;Community Edition&#xff09;是一个开源应用程序&#xff0c;主要用于托管 Git 仓库&#xff0c;并提供额…...

STM32的SPI通信

1 SPI协议简介 SPI&#xff08;Serial Peripheral Interface&#xff09;协议是由摩托罗拉公司提出的通信协议&#xff0c;即串行外围设备接口&#xff0c;是一种高速全双工的通信总线。它被广泛地使用在ADC、LCD等设备与MCU间&#xff0c;使用于对通信速率要求较高的场合。 …...

机器学习引领教育革命:智能教育的新时代

&#x1f4dd;个人主页&#x1f339;&#xff1a;Eternity._ &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; ❀目录 &#x1f4d2;1. 引言&#x1f4d9;2. 机器学习在教育中的应用&#x1f31e;个性化学习&#x1f319;评估与反馈的智能化⭐教学资源的优…...

6月29日,每日信息差

第一、位于四川省绵阳市的中广核质子治疗装备制造基地正式通过竣工验收&#xff0c;为全球装机数量和治疗患者数量最多的国际领先质子治疗系统全面国产化奠定了坚实基础。质子治疗作为目前全球最尖端的肿瘤放射治疗技术之一&#xff0c;与传统放疗技术相比&#xff0c;质子治疗…...

SpringCloud中复制模块然后粘贴,文件图标缺少蓝色方块

再maven中点击&#xff0b;号&#xff0c;把当前pom文件交给maven管理即可...

JS乌龟吃鸡游戏

代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>乌龟游戏</title><script type"text/javascript">function move(obj){//乌龟图片高度var wuGui_height 67;…...

第十节:学习ConfigurationProperties类来配置pojo实体类参数(自学Spring boot 3.x的第二天)

大家好&#xff0c;我是网创有方 。这节记录下如何使用ConfigurationProperties来实现自动注入配置值。。实现将配置文件里的application.properties的参数赋值给实体类并且打印出来。 第一步&#xff1a;新建一个实体类WechatConfig package cn.wcyf.wcai.config;import org…...

如何学习Node.js

Node.js是一个开源、跨平台的JavaScript运行环境&#xff0c;它允许你在服务器端使用JavaScript。以下是一些步骤和资源&#xff0c;可以帮助你开始学习Node.js&#xff1a; ### 1. 基础知识 首先&#xff0c;确保你熟悉JavaScript语言的基础。Node.js是基于JavaScript的&…...

云计算基础知识

前言&#xff1a; 随着ICT技术的高速发展&#xff0c;企业架构对计算、存储、网络资源的需求更高&#xff0c;急需一种新的架构来承载业务&#xff0c;以获得持续&#xff0c;高速&#xff0c;高效的发展&#xff0c;云计算应运而生。 云计算背景 信息大爆炸时代&#xff1a…...

基于单片机光纤测距系统的设计与实现

摘要 &#xff1a; 光纤由于其频带宽 、 损耗低及抗干扰能力强等优点已被广泛地应用在通信 、 电子及电力方面 &#xff0c; 是我们生产生活中必不可少的媒介。 在实际的光纤实验 、 安装 、 运营和维护工作中 &#xff0c; 一种精准 、 轻便和易操作的光纤测距系统显得尤为重…...

python项目实战——人生重开模拟器

文章目录 1.菜单栏的编写2.玩家确定颜值、体质、智力、家境3.生成性别4.设定角色出生点5.各个年龄段的变化5.1 幼年阶段5.2 青年阶段5.3中年阶段5.4 晚年阶段 6.整体代码 人生重开模拟器是一款文字类小游戏. 玩家可根据提示输入角色的初始属性之后, 就可以开启不同的人生经历. …...

小时候的子弹击中了现在的我-hive进阶:案例解析(第18天)

系列文章目录 一、Hive表操作 二、数据导入和导出 三、分区表 四、官方文档&#xff08;了解&#xff09; 五、分桶表&#xff08;熟悉&#xff09; 六、复杂类型&#xff08;熟悉&#xff09; 七、Hive乱码解决&#xff08;操作。可以不做&#xff0c;不影响&#xff09; 八、…...

电影票房预测管理系统设计

电影票房预测管理系统的开发涉及多个层面的设计&#xff0c;包括但不限于数据收集、数据分析、预测模型构建、用户界面设计和系统集成。以下是一个基本的系统设计框架&#xff1a; 1. 数据收集模块&#xff1a;这是整个系统的基础。需要收集的数据可能包括历史票房数据、上映电…...

正则表达式与Pyhton

一、正则表达式的规则 1、支持普通字符匹配 2、元字符&#xff0c;一个符号匹配一堆字符 \d 匹配数字 \w 匹配数字、字母、下划线 \D \d的取反&#xff0c;除了数字全部匹配 \W \w的取反 [abc] 匹配字母a、b、c [^abc] [abc]的取反&#xf…...

【ZYNQ】AXI4总线协议实战:从握手时序到PS-PL高效通信

1. AXI4总线协议基础&#xff1a;从握手信号到通道架构 第一次接触ZYNQ的PS-PL通信时&#xff0c;我被AXI4协议里那些VALID/READY信号搞得头晕眼花。直到在示波器上抓到真实的握手波形&#xff0c;才突然理解这个看似复杂的协议其实像极了我们日常的对话机制——只有当说话方准…...

怎么判断一家工厂还在不在正常生产?6 类活跃度信号,从纸面到现场

跑工厂的销售员都遇到过这种事&#xff1a;手机里存着一份名单&#xff0c;导航开两小时&#xff0c;到门口才发现卷帘门焊死、车间长草、保安说"厂子去年就搬了"。 问题出在哪&#xff1f;大多数人判断"这家工厂在不在"&#xff0c;靠的是工商登记——执照…...

基于CircuitPython与NeoPixel打造可编程LED亚克力灯牌:从硬件选型到代码实现

1. 项目概述&#xff1a;打造你的专属可编程光之铭牌在创客和电子爱好者的世界里&#xff0c;总有一些项目能完美地融合软件编程的灵活性与硬件制作的实体成就感。今天要分享的&#xff0c;就是这样一个让我爱不释手的小玩意儿&#xff1a;一个基于CircuitPython和NeoPixel的可…...

数据质量保证:确保数据准确性和可靠性

数据质量保证&#xff1a;确保数据准确性和可靠性 一、数据质量保证概述 1.1 数据质量保证的定义 数据质量保证是指通过一系列技术和流程&#xff0c;确保数据的准确性、完整性、一致性和及时性的过程。它涉及数据采集、存储、处理和使用的各个环节&#xff0c;确保数据符合业务…...

云原生安全工具:保护云原生环境

云原生安全工具&#xff1a;保护云原生环境 一、云原生安全工具概述 1.1 云原生安全工具的定义 云原生安全工具是指专为云原生环境设计的安全工具和解决方案。它们用于保护容器、Kubernetes集群、微服务和Serverless应用的安全。 1.2 云原生安全工具的价值 安全防护&#xff1a…...

EmoLLM:大语言模型的情感增强训练与部署实践

1. 项目概述&#xff1a;当大语言模型学会“察言观色”最近在折腾一个挺有意思的开源项目&#xff0c;叫SmartFlowAI/EmoLLM。光看名字你大概能猜到&#xff0c;这玩意儿跟“情绪”和“大语言模型”有关。没错&#xff0c;它的核心目标就是让冷冰冰的LLM&#xff08;Large Lang…...

Midjourney Ash印相参数白皮书(含Adobe RGB/ProPhoto RGB双色域适配矩阵及ICC Profile嵌入规范)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;Midjourney Ash印相技术演进与核心定位 Midjourney Ash印相&#xff08;Ash Toning&#xff09;并非传统暗房化学工艺的简单复刻&#xff0c;而是基于生成式AI图像合成模型的一套语义化风格映射机制。它…...

告别3D-DNA的卡顿:用Chromap+Yahs快速搞定植物Hi-C辅助组装(附完整代码)

植物基因组Hi-C辅助组装新方案&#xff1a;ChromapYahs全流程解析 在植物基因组研究中&#xff0c;Hi-C技术已成为提升组装连续性的重要手段。然而传统3D-DNA流程在植物数据上的表现常令研究者头疼——运行速度缓慢、内存占用高&#xff0c;且对植物特有的重复序列处理效果欠佳…...

为什么你的旁遮普语语音听起来像“机械诵经”?ElevenLabs隐藏参数`stability=0.35`+`similarity_boost=0.72`调优公式首次披露

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;旁遮普语语音合成的“机械诵经”现象本质 当旁遮普语&#xff08;Gurmukhi script&#xff09;文本被输入主流TTS系统时&#xff0c;常出现一种高度重复、节奏僵硬、缺乏韵律起伏的输出效果——业内戏称…...

从YOLOv5到Detectron2:COCO数据集在不同CV框架下的加载与预处理实战

从YOLOv5到Detectron2&#xff1a;COCO数据集跨框架加载与预处理实战指南 在计算机视觉领域&#xff0c;COCO数据集已成为目标检测和实例分割任务的事实标准。但对于开发者而言&#xff0c;面对PyTorch生态中YOLOv5、MMDetection和Detectron2等不同框架时&#xff0c;数据加载和…...