python 进程池的基本使用
Python 进程池:Pool任务调度实现
在现代计算机系统重,处理器核心数量的增加为并行计算提供了强大的硬件基础。Python的 multiprocessing 模块中的进程池(Pool)机制,为开发者提供了
一个高效且易用的并行处理框架。
通过进程池,可以轻松地将计算密集型任务分配到多个处理器核心上执行,显著提升程序的执行效率。
进程池是一种预先创建多个进程实例的并行处理机制。它通过维护一组工作进程,避免了频繁创建和销毁进程带来的系统开销。当有新的任务需要执行时,进程池会自动
将任务分配给空闲的工作进程,实现任务的并行处理。这种机制特别适合需要重复执行相似任务的场景,如批量数据处理、并行计算等。
1. 任务调度原理
1.1 任务分配机制
Pool 的任务调度采用了工作队列模式,它维护了一个任务队列和结果队列。当我们提交任务时,任务会被放入任务队列;工作进程会从队列中获取任务并执行,执行结果则
被放入结果队列。这个过程是自动进行的,开发者无需关系具体的调度细节。
1.2. 进程池管理策略
进程池在创建时就会初始化指定数量的工作进程,这些进程在整个池的生命周期内持续存在。当某个进程在执行任务时发生异常,进程池会自动创建新的进程来替代它,
确保可用进程数量的稳定性。
from multiprocessing import Pool
import time
import osdef work_function(x):"""工作函数:模拟耗时计算任务"""print(f"进程 {os.getpid()} 开始处理任务 {x}")time.sleep(3)result = x * xprint(f"进程 {os.getpid()} 完成任务 {x}")return resultdef main():# 创建进程池,使用4个工作进程with Pool(4) as pool:tasks = range(10)# 使用 map 方法并行处理任务results = pool.map(work_function, tasks)print("所有任务完成,结果:", results)if __name__ == '__main__':
1.3 高级任务提交方法
1.3.1 异步任务处理
除了同步的map 方法,Pool还提供了异步任务的提交方式。
通过apply_async 和 map_async方法,可以实现更灵活的任务调度:
from multiprocessing import Pool
import time
import osdef long_time_task(name):"""模拟长时间运行的任务"""print(f"运行任务 {name} ({os.getpid()})")time.sleep(2)return f"任务 {name} 的结果"def process_async_tasks():with Pool(4) as pool:# 使用 apply_async 提交多个任务results = []for i in range(5):result = pool.apply_async(long_time_task, args=(i,))results.append(result)# 获取所有任务结果for result in results:print(f"获取结果:", result.get(timeout=3))if __name__ == '__main__':start_time = time.time()process_async_tasks()end_time = time.time()print(f"总执行时间: {end_time - start_time:.2f}秒")
1.3.2 任务回调机制
Pool 支持异步任务设置回调函数,这在处理任务完成后的后续操作时非常有用:
from multiprocessing import Pool
import time
import osdef task(x):"""执行主要计算任务"""time.sleep(1)return x * xdef callback_func(result):"""任务完成后的回调函数"""print(f"任务完成,结果为:{result}")def main_with_callback():with Pool(3) as pool:for i in range(5):pool.apply_async(task, args=(i,),callback = callback_func)# 等待所有任务完成pool.close()pool.join()if __name__ == '__main__':start_time = time.time()main_with_callback()end_time = time.time()print(f"总执行时间: {end_time - start_time:.2f}秒")
2.实际应用场景
2.1 批量文件处理系统
from multiprocessing import Pool
import time
import osdef task(x):"""执行主要计算任务"""time.sleep(1)return x * xdef callback_func(result):"""任务完成后的回调函数"""print(f"任务完成,结果为:{result}")def main_with_callback():with Pool(3) as pool:for i in range(5):pool.apply_async(task, args=(i,),callback = callback_func)# 等待所有任务完成pool.close()pool.join()if __name__ == '__main__':start_time = time.time()main_with_callback()end_time = time.time()print(f"总执行时间: {end_time - start_time:.2f}秒")
3.性能优化
进程数量的选择对性能有重要影响。一般建议将进程数设置为CPU核心数或略高于核心数。但在IO密集型任务中,可以适当增加进程数。过多的进程反而会因为上下文切换导致性能下降。
对于不同类型的任务,应选择合适的任务提交方式。计算密集型任务适合使用map方法,而IO密集型任务可能更适合使用apply_async。这是因为map方法会阻塞等待所有任务完成,而apply_async允许更灵活的任务调度。
在处理大量小任务时,应考虑任务分块来减少调度开销。可以将多个小任务合并为一个大任务,减少进程间通信的次数:
from multiprocessing import Pool
import timedef process_chunk(chunk):"""处理一组任务"""return [x * x for x in chunk]def chunked_processing(data, chunk_size=1000):# 将数据分块chunks = [data[i:i + chunk_size] for i in range(0, len(data), chunk_size)]with Pool() as pool:# 处理数据块results = pool.map(process_chunk, chunks)# 合并结果return [item for sublist in results for item in sublist]# 使用示例
if __name__ == '__main__':large_data = range(10000)result = chunked_processing(large_data)
相关文章:
python 进程池的基本使用
Python 进程池:Pool任务调度实现 在现代计算机系统重,处理器核心数量的增加为并行计算提供了强大的硬件基础。Python的 multiprocessing 模块中的进程池(Pool)机制,为开发者提供了 一个高效且易用的并行处理框架。 通…...
从零开始学 Rust:基本概念——变量、数据类型、函数、控制流
文章目录 Variables and MutabilityShadowing Data TypesScalar TypesCompound Types FunctionsFunction Parameters CommentsControl FlowRepetition with Loops Variables and Mutability fn main() {let mut x 5;println!("The value of x is: {}", x);x 6;pri…...
记录一次SpringMVC的406错误
原生态的406错误 1. 错误起因2. 解决办法解决方式一 检查是否有导入jackson依赖解决方式二 检查web.xml中是否有配置.html 3. 再次测试 1. 错误起因 最近博主准备重新撸一遍SSM以及SpringBoot的源码,于是用原始的SpringMVC写了一个demo,并且用Tomcat进行…...
Github 2025-02-23 php开源项目日报 Top9
根据Github Trendings的统计,今日(2025-02-23统计)共有9个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量PHP项目9JavaScript项目2Shell项目1TypeScript项目1Blade项目1Java项目1ASP项目1Vue项目1Laravel:表达力和优雅的 Web 应用程序框架 创建周期:…...
一、初始爬虫
1.爬虫的相关概念 1.1 什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地爬取互联网信息的程序。 原则上,只要是浏览器…...
《A++ 敏捷开发》- 16 评审与结对编程
客户:我们的客户以银行为主,他们很注重质量,所以一直很注重评审。他们对需求评审、代码走查等也很赞同,也能找到缺陷,对提升质量有作用。但他们最困惑的是通过设计评审很难发现缺陷。 我:你听说过敏捷的结对…...
jar、war、pom
1. <packaging>jar</packaging> 定义与用途 用途:默认打包类型,生成 JAR 文件(Java Archive),适用于普通 Java 应用或库。 场景: 开发工具类库(如 commons-lang.jar)。…...
WSL2安装过程记录
WSL2安装过程记录 1 先决条件2 安装WSL3 安装Linux4 图形化界面 因为命令安装的时候会直接将linux发行版安装到C盘,对于系统盘容量小和介意不能自定义安装位置的用户来说,非常不友好,所以我这里采用手动安装的方式, 命令安装可以参…...
HTML列表,表格和表单
列表 在 HTML 中,列表(List)是常见的一种布局方式。列表分为两种类型:有序列表(Ordered List)和无序列表(Unordered List)。 无序列表 无序列表(Unordered List&#…...
Mysql进阶篇
存储引擎 Mysql体系结构 1). 连接层 最上层是一些客户端和链接服务,包含本地sock 通信和大多数基于客户端/服务端工具实现的类似于TCP/IP的通信。主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程池的概念,为通过认证安全…...
Spring-JAVA
针对你的问题(211本科、Java开发方向),以下是中级Java开发工程师的晋升时间、薪资水平及技术要求的详细说明,结合国内一线/二线城市现状(数据基于2023年行业调研): 一、晋升中级开发工程师的时间…...
sql的索引与性能优化相关
之前面试的时候,由于在简历上提到优化sql代码,老是会被问到sql索引和性能优化问题,用这个帖子学习记录一下。 1.为什么要用索引 ------------------------------------------------------------------------------------------------------…...
【Git版本控制器】第四弹——分支管理,合并冲突,--no-ff,git stash
🎁个人主页:我们的五年 🔍系列专栏:Linux网络编程 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 相关笔记: https://blog.csdn.net/djd…...
Elasticsearch除了用作查找以外,还能可以做什么?
前言 Elasticsearch用于实时数据分析、日志存储、业务智能等。还有日志与监控、多租户和安全性。以及应用场景包括日志分析、公共数据采集、全文搜索、事件数据、数据可视化。处理错误拼写和支持变体,不过这些可能还是属于搜索优化。企业搜索、日志管理、应用监控、…...
Gradio全解11——使用transformers.agents构建Gradio UI(6)
大模型WebUI:Gradio全解11——使用transformers.agents构建Gradio UI(6) 前言本篇摘要11. 使用transformers.agents构建Gradio UI11.6 通过agents构建Gradio UI11.6.1 ChatMessage数据类1. 数据结构2. 例程11.6.2 构建Gradio UI示例1. 代码及运行2. 代码解读参考文献前言 本…...
自定义实现简版状态机
状态机(State Machine)是一种用于描述系统行为的数学模型,广泛应用于计算机科学、工程和自动化等领域。它通过定义系统的状态、事件和转移来模拟系统的动态行为。 基本概念 状态(State):系统在某一时刻的特…...
算法常见八股问题整理
1.极大似然估计和交叉熵有什么关系 在分类问题中,当我们使用softmax函数作为输出层时,最大化对数似然函数实际上等价于最小化交叉熵损失函数。具体来说,在多分类情况下,最大化该样本的对数似然等价于最小化该样本的交叉熵损失。 交…...
关于GeoPandas库
geopandas buildings gpd.read_file(shapefile_path) GeoDataFrame 对象有一个属性叫做 sindex 空间索引通常是基于 R-树 或其变体构建的,这些数据结构专为空间查询优化,可以显著提高查询效率,尤其是在处理大型数据集时。 buildings_sin…...
【漫话机器学习系列】103.学习曲线(Learning Curve)
学习曲线(Learning Curve)详解 1. 什么是学习曲线? 学习曲线(Learning Curve)是机器学习和深度学习领域中用于评估模型性能随训练过程变化的图示。它通常用于分析模型的学习能力、是否存在过拟合或欠拟合等问题。 从…...
电商运营中私域流量的转化与变现:以开源AI智能名片2+1链动模式S2B2C商城小程序为例
摘要 电商运营的核心目标在于高效地将产品推向市场,实现私域流量的转化和变现。本文以“罗辑思维”的电商实践为背景,探讨了私域流量变现的重要性,并深入分析了开源AI智能名片21链动模式S2B2C商城小程序在电商运营中的应用与价值。通过该模式…...
从Feistel网络到CBC模式:图解DES加密的16轮‘炼金术’
从Feistel网络到CBC模式:图解DES加密的16轮‘炼金术’ 在数字世界的暗流中,数据加密如同现代炼金术,将普通信息转化为安全的密文。DES算法作为这项技艺的经典代表,其精妙之处不仅在于数学变换,更在于将复杂操作转化为可…...
Phi-3.5-mini-instruct快速验证:3条shell命令确认vLLM服务健康状态与可用性
Phi-3.5-mini-instruct快速验证:3条shell命令确认vLLM服务健康状态与可用性 1. 模型简介 Phi-3.5-mini-instruct 是一个轻量级的开放模型,属于Phi-3模型家族。它基于高质量的训练数据构建,包括合成数据和经过筛选的公开网站数据,…...
终极指南:3分钟解锁鸣潮120FPS体验的免费工具箱
终极指南:3分钟解锁鸣潮120FPS体验的免费工具箱 【免费下载链接】WaveTools 🧰鸣潮工具箱 项目地址: https://gitcode.com/gh_mirrors/wa/WaveTools 鸣潮工具箱是一款专为《鸣潮》玩家设计的开源性能优化工具,能够轻松突破游戏内置的6…...
《微软开源工具PowerToys实战指南:30+效率工具解析与Windows工作流优化》
📌 大家好,我是弈曜软体库,每天分享好用实用且智能的开源项目,以及在JAVA语言开发中遇到的问题,如果本篇文章对您有所帮助,请帮我点个小赞小收藏小关注吧,谢谢喲!😘 博主…...
赛博朋克2077存档编辑器:3步解锁夜之城无限可能
赛博朋克2077存档编辑器:3步解锁夜之城无限可能 【免费下载链接】CyberpunkSaveEditor A tool to edit Cyberpunk 2077 sav.dat files 项目地址: https://gitcode.com/gh_mirrors/cy/CyberpunkSaveEditor 你是否厌倦了在夜之城为金钱发愁?是否想要…...
2026年污水处理用聚丙烯酰胺:权威定义与横向数据解析
2026年,当我们深入探讨污水处理,聚丙烯酰胺作为絮凝剂的选择已不再是简单的品牌采购。笔者发现,行业焦点正从模糊的厂家宣传转向清晰的参数对标与性能评估。这种转变背后,是用户对处理效率、成本控制及长期稳定性的更高追求。因此…...
保姆级教程:在安富莱STM32-V7开发板上跑通RT-Thread(基于STM32H743)
保姆级教程:在安富莱STM32-V7开发板上跑通RT-Thread(基于STM32H743) 第一次接触RT-Thread和STM32H743时,面对复杂的开发环境和陌生的工具链,很多开发者都会感到无从下手。本文将带你从零开始,一步步完成开发…...
从专业地图到分析底图:Arcgis经纬网格的‘隐身’与‘高光’艺术
ArcGIS经纬网格设计美学:从专业地图到分析底图的视觉平衡术 当你面对一张即将交付印刷的科研地图,或是需要嵌入报告的分析底图时,经纬网格的呈现方式往往决定了整张图的专业度与实用性。这不是简单的"显示或隐藏"选择题,…...
R语言数据处理:别再只会用==了,试试grep()和grepl()精准匹配字符串
R语言数据处理:别再只会用了,试试grep()和grepl()精准匹配字符串 你是否曾经在R语言中处理文本数据时,被简单的等值匹配()折磨得焦头烂额?想象一下这样的场景:你手头有一份包含上万条商品描述的…...
OFA模型与数据库课程设计结合:构建智能图库管理系统
OFA模型与数据库课程设计结合:构建智能图库管理系统 每次做数据库课程设计,是不是都觉得选题老套,提不起劲?不是学生信息管理就是图书借阅系统,感觉像是把十年前的作业又抄了一遍。今天咱们聊点不一样的,一…...
