当前位置: 首页 > news >正文

Python并发与异步编程

Python的并发与异步编程是两个不同的概念,但它们经常一起使用,以提高程序的性能和响应能力。以下是对这两个概念的详细讲解:

并发编程 (Concurrency)
并发编程是指在程序中同时执行多个任务的能力。Python提供了几种实现并发的机制:

1. 多线程 (Threading):
   - Python的`threading`模块允许你创建线程,从而在同一时间内执行多个操作。
   - 由于Python的全局解释器锁(GIL),真正的并行执行在多线程中受到限制,这意味着在任何给定时间点,只有一个线程可以执行Python字节码。
   - 多线程适合I/O密集型任务,例如网络请求或文件操作。

2. 多进程 (Multiprocessing):
   - `multiprocessing`模块提供了创建多个进程的方法,每个进程有自己的Python解释器和内存空间。
   - 由于进程之间没有GIL的限制,因此它们可以实现真正的并行执行。
   - 多进程适合CPU密集型任务,但进程间通信和创建进程的开销较大。

3. 协程 (Coroutines):
   - 协程是一种更轻量级的并发机制,通过`asyncio`库实现。
   - 协程允许你编写看似同步的代码,而实际上是异步执行的,这使得I/O操作更加高效。

异步编程 (Asynchronous Programming)
异步编程是一种编程范式,允许程序在等待操作完成时继续执行其他任务。Python中的异步编程主要通过`asyncio`库实现:

1. asyncio:
   - `asyncio`是一个用于编写单线程并发代码的库,使用`async`和`await`关键字。
   - `async def`用于定义一个异步函数,它可以包含`await`表达式。
   - `await`用于等待另一个异步操作完成,同时允许其他异步操作运行。
   - `asyncio`提供了事件循环(event loop),它是运行异步任务的核心。2. 使用asyncio的例子:
   ```python
   

import asyncioasync def fetch_data():# 模拟I/O操作await asyncio.sleep(2)return {"data": 1}async def main():# 获取事件循环引用data = await fetch_data()print(data)asyncio.run(main())


   ```

3. 异步I/O:
   - 除了`asyncio`,Python还提供了用于异步I/O操作的库,如`aiohttp`用于异步HTTP请求。

并发与异步的结合
在Python中,可以结合使用并发和异步编程来最大化性能。例如,可以使用`asyncio`进行异步编程,同时利用`multiprocessing`来实现CPU密集型任务的并行处理。

注意事项
- 并发编程可能会引入竞态条件和死锁,需要仔细设计。
- 异步编程的代码可能难以理解和调试,特别是对于初学者。
- 选择哪种并发或异步模型取决于具体的应用场景和性能要求。

多线程在爬虫程序中的应用可以显著提高数据抓取的效率。以下是一个使用Python的`threading`模块实现的简单多线程爬虫案例的详细讲解:

 1. 准备工作
在开始编写多线程爬虫之前,需要准备以下内容:
目标网站**:确定要爬取的网站和数据。
请求库**:如`requests`,用于发送网络请求。
解析库**:如`BeautifulSoup`,用于解析HTML页面。
线程模块**:`threading`,用于创建和管理线程。

 2. 安装必要的库
如果尚未安装`requests`和`BeautifulSoup`,可以通过以下命令安装:
```bash

pip install requests beautifulsoup4


```

 3. 编写爬虫函数
编写一个基本的爬虫函数,用于请求网页并解析数据。```python

import requests
from bs4 import BeautifulSoupdef crawl(url):try:response = requests.get(url)response.raise_for_status()  # 检查请求是否成功soup = BeautifulSoup(response.text, 'html.parser')# 假设我们爬取的是网页标题title = soup.find('title').get_text()print(f"页面标题: {title}")except requests.RequestException as e:print(f"请求错误: {e}")except Exception as e:print(f"解析错误: {e}")


```

 4. 创建线程工作函数
编写一个线程工作函数,它将作为线程执行的主体。

```python

def worker(url):crawl(url)


```

 5. 管理线程
创建一个函数来管理线程的创建和启动。```python

def manage_threads(urls):threads = []for url in urls:thread = threading.Thread(target=worker, args=(url,))threads.append(thread)thread.start()# 等待所有线程完成for thread in threads:thread.join()# 爬取的URL列表
urls = ['http://example.com','http://example.org','http://example.net',# 添加更多URL...
]


```

 6. 运行爬虫
调用`manage_threads`函数并传入URL列表。

```python

if __name__ == "__main__":manage_threads(urls)


```

 7. 注意事项
GIL限制**:由于Python的GIL,多线程在执行CPU密集型任务时可能不会带来太大的性能提升。但对于I/O密集型任务,如网络请求,多线程可以显著提高效率。
线程安全**:在多线程环境下,共享数据时需要注意线程安全问题,避免竞态条件。
资源限制**:过多的线程可能会导致资源竞争和调度问题,需要合理控制线程数量。
异常处理**:每个线程都应该能够妥善处理异常,避免线程崩溃导致整个程序异常。

 8. 扩展功能
限制速率**:可以引入时间延迟来遵守网站的爬虫政策。
用户代理**:设置用户代理(User-Agent)来模拟浏览器请求。
Cookies处理**:处理Cookies以维持会话状态。
重试机制**:对失败的请求实施重试策略。

这个案例展示了多线程爬虫的基本结构和实现方法。在实际应用中,你可能需要根据目标网站的特点和反爬措施进行相应的调整和优化。

让我们继续扩展上面的例子,创建一个更完整的多线程爬虫案例。这个案例将包括以下功能:

1. 多线程爬取网页
2. 解析网页内容
3. 限制请求速率
4. 简单的错误处理和日志记录

首先,我们需要安装所需的库(如果尚未安装):

```bash

pip install requests beautifulsoup4


```

然后,我们将创建一个更完整的多线程爬虫程序:```python

import requests
from bs4 import BeautifulSoup
import threading
import time
import logging
from queue import Queue# 配置日志
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')# 请求队列
url_queue = Queue()
# 存放结果的队列
result_queue = Queue()def crawl(url):try:response = requests.get(url, timeout=5)response.raise_for_status()  # 检查请求是否成功soup = BeautifulSoup(response.text, 'html.parser')# 假设我们爬取的是网页的标题和一些链接title = soup.find('title').get_text()links = [a['href'] for a in soup.find_all('a', href=True)]result_queue.put((url, title, links))logging.info(f"成功爬取: {url}")except requests.RequestException as e:logging.error(f"请求错误: {url} - {e}")except Exception as e:logging.error(f"解析错误: {url} - {e}")def worker():while not url_queue.empty():url = url_queue.get()crawl(url)# 模拟网络延迟time.sleep(1)def manage_threads(url_list, thread_count=5):# 将URL加入队列for url in url_list:url_queue.put(url)# 创建并启动线程threads = []for _ in range(thread_count):thread = threading.Thread(target=worker)threads.append(thread)thread.start()# 等待所有线程完成for thread in threads:thread.join()# 打印结果while not result_queue.empty():url, title, links = result_queue.get()print(f"URL: {url}, Title: {title}, Links: {links}")# 爬取的URL列表
urls = ['http://example.com','http://example.org','http://example.net',# 添加更多URL...
]if __name__ == "__main__":manage_threads(urls, thread_count=10)


```

### 案例详解:

- 日志记录:使用`logging`模块记录日志,方便跟踪爬虫的状态和错误。
- 请求队列:使用`Queue`来管理URL列表,线程安全地在多个线程间传递任务。
- 结果队列:同样使用`Queue`来存放爬取的结果。
- 速率限制:通过`time.sleep(1)`模拟网络延迟,限制请求速率,避免对目标网站造成过大压力。
- 线程管理:`manage_threads`函数负责初始化队列、启动线程和收集结果。

### 注意事项:

- 线程数量:创建的线程数量应根据目标网站和服务器性能进行调整。
- 异常处理:每个线程都应该能够处理请求和解析过程中可能出现的异常。
- 队列处理:确保队列在所有线程中正确地被管理,避免竞态条件。
- 资源管理:确保所有网络请求和线程都正确地被管理,避免资源泄露。

这个案例提供了一个基本的多线程爬虫框架,可以根据具体需求进行扩展和优化。

相关文章:

Python并发与异步编程

Python的并发与异步编程是两个不同的概念,但它们经常一起使用,以提高程序的性能和响应能力。以下是对这两个概念的详细讲解: 并发编程 (Concurrency) 并发编程是指在程序中同时执行多个任务的能力。Python提供了几种实现并发的机制&#xff…...

动态内存管理—C语言通讯录

目录 一,动态内存函数的介绍 1.1 malloc和free 1.2 calloc 1.3 realloc 1.4C/C程序的内存开辟 二,通讯录管理系统 动态内存函数的介绍 malloc free calloc realloc 一,动态内存函数的介绍 1.1 malloc和free void* malloc (…...

美光EMMC芯片丝印型号查询 8LK17/D9PSK, OXA17/JY997

问题说明 最近在使用美光EMMC的时候,发现通过芯片丝印查询不到 芯片的规格说明书; 经过查阅资料,发现美光的EMMC芯片 “由于空间限制,FBGA 封装组件具有与部件号不同的缩写部件标记”,需要通过官网查询丝印的FBGA cod…...

win32-鼠标消息、键盘消息、计时器消息、菜单资源

承接前文: win32窗口编程windows 开发基础win32-注册窗口类、创建窗口win32-显示窗口、消息循环、消息队列 本文目录 键盘消息键盘消息的分类WM_CHAR 字符消息 鼠标消息鼠标消息附带信息 定时器消息 WM_TIMER创建销毁定时器 菜单资源资源相关菜单资源使用命令消息的…...

springboot项目部署到linux服务器

springboot后端 修改前 修改后 vue前端 修改前 将地址中的 localhost改为 ip 重新生成war包 war上传到linux的tomcat的webapps下 其他环境配置和macOS大差不差 Tomcat安装使用与部署Web项目的三种方法_tomcat部署web项目-CSDN博客...

MagicLens:新一代图像搜索技术和产品形态

MagicLens:Self-Supervised Image Retrieval with Open-Ended Instructions MagicLens: 自监督图像检索与开放式指令 作者:Kai Zhang, Yi Luan, Hexiang Hu, Kenton Lee, Siyuan Qiao, Wenhu …...

[9] CUDA性能测量与错误处理

CUDA性能测量与错误处理 讨论如何通过CUDA事件来测量它的性能如何通过CUDA代码进行调试 1.测量CUDA程序的性能 1.1 CUDA事件 CPU端的计时器可能无法给出正确的内核执行时间CUDA事件等于是在你的CUDA应用运行的特定时刻被记录的时间戳,通过使用CUDA事件API&#…...

Java学习四

Random 随机数 数组 静态初始化数组 数组在计算机中的基本原理 数组的访问 什么是遍历 数组的动态初始化 动态初始化数组元素默认值规则 Java内存分配介绍 数组在计算机中的执行原理 使用数组时常见的一个问题 案例求数组元素最大值 public class Test1 {public static void ma…...

Vue 父组件使用refs来直接访问和修改子组件的属性或调用子组件的方法

步骤 1: 在子组件中定义要被修改的属性或方法 首先,在子组件中定义你想要父组件能够修改或调用的属性或方法。例如,我们有一个名为MyChildComponent的子组件,它有一个名为childData的数据属性和一个名为updateData的方法。 // 子组件 MyChi…...

范罗士、希喂、安德迈爆款宠物空气净化器哪款好?深度对比测评

作为一名深受养猫过敏困扰的铲屎官,我经常提醒新手铲屎官重视家里的空气环境。宠物的浮毛和皮屑不仅会引发过敏,还可能传播细菌和病毒。很多人以为普通空气净化器能解决问题,但这些产品并未针对宠物家庭的特殊需求。经过多次研究和测试&#…...

SAP OBYC自动记账 详解

在MM模块的许多操作都能实现在FI模块自动过账,如PO收货、发票验证、工单发料、向生产车间发料等等。不用说,一定需要在IMG中进行配置才可以实现自动处理。但SAP实现的这种自动配置的机制是怎样的呢?其实也并不复杂,让我们先以一种最简单的情况来了解实现原理和实现流程,然…...

《NoSQL数据库技术与应用》 MongoDB副本集

《NoSQL数据库技术与应用》 教学设计 课程名称:NoSQL数据库技术与应用 授课年级: 20xx年级 授课学期: 20xx学年第一学期 教师姓名: 某某老师 2020年5月6日 课题 名称 第4章 MongoDB副本集 计划学时 8课时 内容 分析 独立模式可…...

Flutter 中的 DropdownButtonFormField 小部件:全面指南

Flutter 中的 DropdownButtonFormField 小部件:全面指南 在Flutter中,DropdownButtonFormField是一个特殊的表单字段小部件,它结合了下拉选择框(DropdownButton)和表单字段(FormField)的功能。…...

哈希算法教程(个人总结版)

背景 哈希算法(Hash Algorithm)是一种将任意长度的输入(也称为消息)转换为固定长度的输出(也称为哈希值、散列值、摘要)的算法。哈希算法在计算机科学中有着广泛的应用,包括数据存储、数据检索…...

Nocobase快速上手 -第一个collection

本文记录Nocobase中如何创建collection,以及如何将collection展示到页面中,并且配置CRUD相应的操作. Collection 在NocoBase中,collection(集合)是用来组织和存储各种数据的容器,如订单、产品、用户、评论…...

吴恩达2022机器学习专项课程C2W2:2.19 sigmoid函数的替代方案 2.20如何选择激活函数 2.21 激活函数的重要性

这里写目录标题 引言sigmoid激活函数的局限1.回顾需求案例2.ReLU激活函数 常用的激活函数1.线性激活函数的解释 如何选择激活函数?1.选择输出层的激活函数2.选择隐藏层的激活函数 选择激活函数的总结1.输出层总结2.隐藏层总结3.TensorFlow设置激活函数 激活函数多样…...

循序渐进Docker Compose

文章目录 1.概述1.1 Docker Compose 定义1.2 Docker Compose背景1.3 Docker Compose核心概念 2.安装2.1 Official Repos2.2 Manual Installation2.3 v1.x 兼容性 3. YAML 配置说明3.1 Services3.2 Volumes & Networks 4. 解析 Service4.1 Pulling一个Image4.2 Building一个…...

怎样查看JavaScript中没有输出结果的数组值?

在JavaScript中,可以方便地定义和使用数组,对于已经定义的数组,怎样查看其值呢? 看下面的示例,并运行它。 上面的示例中,标签不完整,请补充完整再试运行。你知道少了什么标签么? 注…...

强化学习学习笔记-李宏毅

Policy Gradient actorenvreward function,env和reward是不能控制的,唯一可以变的是actor,Policy π \pi π是一个网络,参数为 θ \theta θ,输入是当前的观察,输出是采取的行为,例如游戏中输…...

吴恩达深度学习笔记:超 参 数 调 试 、 Batch 正 则 化 和 程 序 框 架(Hyperparameter tuning)3.8-3.9

目录 第二门课: 改善深层神经网络:超参数调试、正 则 化 以 及 优 化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)第三周: 超 参 数 调 试 、 Batch 正 则 化 和 程 序 框 架(Hyperparameter …...

python/java环境配置

环境变量放一起 python: 1.首先下载Python Python下载地址:Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个,然后自定义,全选 可以把前4个选上 3.环境配置 1)搜高级系统设置 2…...

五年级数学知识边界总结思考-下册

目录 一、背景二、过程1.观察物体小学五年级下册“观察物体”知识点详解:由来、作用与意义**一、知识点核心内容****二、知识点的由来:从生活实践到数学抽象****三、知识的作用:解决实际问题的工具****四、学习的意义:培养核心素养…...

OkHttp 中实现断点续传 demo

在 OkHttp 中实现断点续传主要通过以下步骤完成,核心是利用 HTTP 协议的 Range 请求头指定下载范围: 实现原理 Range 请求头:向服务器请求文件的特定字节范围(如 Range: bytes1024-) 本地文件记录:保存已…...

相机从app启动流程

一、流程框架图 二、具体流程分析 1、得到cameralist和对应的静态信息 目录如下: 重点代码分析: 启动相机前,先要通过getCameraIdList获取camera的个数以及id,然后可以通过getCameraCharacteristics获取对应id camera的capabilities(静态信息)进行一些openCamera前的…...

Spring是如何解决Bean的循环依赖:三级缓存机制

1、什么是 Bean 的循环依赖 在 Spring框架中,Bean 的循环依赖是指多个 Bean 之间‌互相持有对方引用‌,形成闭环依赖关系的现象。 多个 Bean 的依赖关系构成环形链路,例如: 双向依赖:Bean A 依赖 Bean B,同时 Bean B 也依赖 Bean A(A↔B)。链条循环: Bean A → Bean…...

JS设计模式(4):观察者模式

JS设计模式(4):观察者模式 一、引入 在开发中,我们经常会遇到这样的场景:一个对象的状态变化需要自动通知其他对象,比如: 电商平台中,商品库存变化时需要通知所有订阅该商品的用户;新闻网站中&#xff0…...

从“安全密码”到测试体系:Gitee Test 赋能关键领域软件质量保障

关键领域软件测试的"安全密码":Gitee Test如何破解行业痛点 在数字化浪潮席卷全球的今天,软件系统已成为国家关键领域的"神经中枢"。从国防军工到能源电力,从金融交易到交通管控,这些关乎国计民生的关键领域…...

协议转换利器,profinet转ethercat网关的两大派系,各有千秋

随着工业以太网的发展,其高效、便捷、协议开放、易于冗余等诸多优点,被越来越多的工业现场所采用。西门子SIMATIC S7-1200/1500系列PLC集成有Profinet接口,具有实时性、开放性,使用TCP/IP和IT标准,符合基于工业以太网的…...

鸿蒙HarmonyOS 5军旗小游戏实现指南

1. 项目概述 本军旗小游戏基于鸿蒙HarmonyOS 5开发,采用DevEco Studio实现,包含完整的游戏逻辑和UI界面。 2. 项目结构 /src/main/java/com/example/militarychess/├── MainAbilitySlice.java // 主界面├── GameView.java // 游戏核…...

【把数组变成一棵树】有序数组秒变平衡BST,原来可以这么优雅!

【把数组变成一棵树】有序数组秒变平衡BST,原来可以这么优雅! 🌱 前言:一棵树的浪漫,从数组开始说起 程序员的世界里,数组是最常见的基本结构之一,几乎每种语言、每种算法都少不了它。可你有没有想过,一组看似“线性排列”的有序数组,竟然可以**“长”成一棵平衡的二…...