当前位置: 首页 > article >正文

Python 为什么这么慢?真凶不只是 GIL

Python 为什么这么慢真凶不只是 GIL你在网上可能听过无数遍“Python 慢是因为有 GIL全局解释器锁。”于是你心安理得地想哦那等到多解释器出来或者我用多进程它就该快起来了吧真的不是这样。GIL 只负责让你在多核心上“有劲使不上”但 Python 单线程跑计算本身就慢得不正常。同样的纯计算任务C 比 Python 快 10~50 倍Rust 快几十倍就连同样动态类型的 JavaScript也能比 Python 快 2~5 倍。这些速度差异和 GIL 没有任何关系——因为单线程不受锁的影响。今天我们就用讲故事的方式把 Python “基因里的慢”彻底拆解开。即使你没有计算机体系结构基础看完也能明白原来 Python 的慢是刻在它最根本的设计哲学里的。一、所有东西都是“盒子里的盒子”——Python 对象的真面目从 C 语言的整数说起在 C 语言里定义一个整数int a 42;只做两件事在内存里划出 4 个字节通常直接存下数字 42。这 4 个字节可以放在 CPU 的寄存器里或者紧挨着其他变量放在栈上访问速度极快。C 语言的数据就像一张便利贴写上数字直接贴在电脑桌面上随时能看。Python 的整数一个庞大的档案袋在 Python 里写a 42底层发生的事要复杂得多。CPython官方 Python 解释器会创建一个类型为PyLongObject的结构体它至少包含三样东西引用计数ob_refcnt8 字节 —— 记录有多少个变量在用它。类型指针ob_type8 字节 —— 指向“我是整数”这件事的说明书。真正的数值ob_ival8 字节 —— 存着 42。而且这个结构体并不是直接放在紧邻着其他数据的地方而是从操作系统的“堆”内存里单独申请一块空间就像你每次需要一张纸条都跑去仓库领一个标准公文袋再把纸条装进去。整个公文袋至少 28 字节为了存一个 42。这个画面是不是已经很可怕了但这才刚刚开始。为什么说“堆分配”是性能灾难当你建立一个包含 1000 个整数的列表时C 语言一个连续的 4000 字节数组所有数字肩并肩躺在内存里。Python1000 个独立的“公文袋”散落在内存各处列表本身存的是 1000 个指针就是公文袋的地址。当你需要遍历这个列表把每个数加起来C 语言CPU 可以一次预读一大块数据到缓存顺序访问就像生产线上的零件排好队流过来。PythonCPU 先读一个指针根据地址去找公文袋打开公文袋翻出数字再放下去找下一个地址……每一次访问都可能跳到内存里完全不相干的位置。现代 CPU 缓存对此根本无法预测会频繁发生“缓存未命中”cache miss每次未命中都好比工厂要停工一百多个时钟周期去仓库取料生产线立刻慢成乌龟。这就是你听到的“所有数据都在堆上很难放进 CPU 缓存”的通俗解释。Python 对象的内存布局天生就是碎片化、胖存储的这是它慢的第一重根源。二、动态类型的代价——每一步都在“猜”猜错就倒大霉加法到底怎么做CPU 猜得头疼对于a bC 语言在编译时就能确定a、b 都是int直接生成一条加法机器指令CPU 到达这里二话不说就加上流水线畅通无阻。Python 则完全不同。因为变量没有固定类型上一秒a是整数下一秒可能变成字符串所以 CPython 执行a b时必须走一个极其曲折的流程找到a的公文袋看它的类型指针哦是个整数。找到b的类型指针也是整数好调用整数加法函数。但如果b是字符串呢那就得抛异常或者调用不同类型对应的函数。哪怕都是整数加法内部还要检查会不会溢出要不要把结果从“小整数”升级成“长整数”对象。这个过程的每一步在 CPU 眼里都是条件分支if-else。现代 CPU 为了高速执行会像赌徒一样提前猜一条路跑下去这叫“分支预测”。如果猜对了流水线继续飞起如果猜错了已经跑到一半的指令全部作废清空流水线重新加载代价十几到几十个时钟周期。Python 这种动态分发每次操作的类型都可能不同CPU 的分支预测器根本建立不起规律预测失败率高得惊人流水线反复被打断。这就是“操作造成流水线停顿、分支预测失效”的真实含义。用生活场景比喻快递分拣员想象你是一个快递分拣员面前有过不完的包裹。每个包裹外面都贴着“易碎品”“普通件”“冷藏”等标签你需要根据标签把包裹送去不同通道。静态类型语言C/Rust上午所有包裹都是“普通件”你看都不用看闭着眼睛往右扔就对了。动作极其顺畅。动态类型语言Python每个包裹都可能换标签你每拿起一个都得翻过来仔细看标签判断送去哪条通道而这个判断本身就要暂停手上的动作思考一下。要是偶尔判断错了还得追回来重来。Python 的程序执行过程就是这样频繁地停顿、判断、改道自然快不起来。三、字节码分发——翻译官逐字念稿的效率CPython 是个“解释器”不是“编译器”当你的 Python 代码运行时CPython 并不是直接转化成 CPU 能懂的机器码而是先变成一套叫作“字节码”的中间指令然后在一个巨大的循环里一条一条执行。这个循环在 CPython 源码里叫ceval.c就是著名的“解释器主循环”。可以这样比喻编译语言如 C、Rust是直接把剧本交给演员演员拿到的是详细的、现成的动作指令上台就演。解释型 Python则是一个翻译官他看着剧本读一句“LOAD_FAST 0”然后自己理解一下哦是把本地变量 0 取出来压到栈上“BINARY_ADD”哦是把栈顶两个数加起来……每一步都要经过“取指令→理解指令→执行”的过程。这个翻译官读剧本本身要花时间而且读每条指令都要在那个巨大循环里跳转又是一大堆分支。这就是“字节码分发开销”。为什么 JavaScript 能快那么多JavaScript 也是动态类型脚本语言但它背后有 V8Chrome 的 JS 引擎这样的高性能虚拟机。V8 做了几件 CPython 没做的事情JIT 即时编译检测到热点代码比如一个循环被跑了很多次直接把这段代码编译成本地机器码下次再执行就跳过翻译官直接给演员剧本。字节码分发开销一下子就没了。隐藏类和内联缓存V8 发现“这个对象总是被当成同一种结构使用”就偷偷给它分配一个固定布局把属性访问变成固定偏移量的内存读取省掉了反复查字典、做分支判断的过程。而 CPython 仍然老老实实每次查字典。小整数优化V8 把常用的小整数直接编码到指针里不用单独创建对象完全省掉了堆分配和内存碎片。这些优化正好是对症下药地解决了我们前面说的“堆分配、动态类型、分支预测”问题。所以 JavaScript 比 Python 快 2~5 倍是完全合理的它用工程能力在很大程度上抵消了动态语言的先天劣势而 CPython 为了简单、可维护性刻意没有加入这些复杂优化。四、整合起来看单线程 Python 到底慢在哪我们现在可以把“让你 Python 单线程跑得慢”的三个元凶排成一列肥胖的对象与糟糕的缓存局部性一切数据都是堆上的对象紧凑的数据消失了CPU 缓存总是白忙碌访存成为瓶颈。无处不在的动态分发与分支预测失败每次操作都要查类型、选函数CPU 流水线被频繁打断预测失败不断发生。解释器循环的固定门票每条字节码都要经过主循环分发额外吃掉一层指令开销而没有 JIT 加速。当这三者叠加哪怕是最简单的整数循环Python 花在“读懂指令、找对象、判断类型”上的精力远大于真正做加法的那一下。这就是为什么有 C 程序员调侃“Python 是一个极好的抽象层只不过为了这份抽象你要付几十倍的税。”五、GIL 呢它在这些慢面前只是“配角”现在你应该能区分开了GIL是一个同步锁导致多线程在 CPU 密集任务上无法利用多核心。上述三个原因则是 Python 解释器执行本身的效率低下让你单核就跑得慢。如果把 Python 比喻成一辆车GIL 是车上装了个限速器使得在高速公路上多核你也只能占用一条车道。而对象的堆分配、动态分派、解释循环决定了这辆车本身就是一辆大货车自重三吨发动机还是小排量在市区单核跑也远远跑不过别人家的小轿车。所以即便 Python 3.13/3.14 开始有办法绕过 GIL自由线程、多解释器Python 单线程的计算速度也不会因此质变仍需要寄望于“Faster CPython”这类项目在解释器层面优化那些根因。而如果你想做数值密集型计算现实的最优解依旧是用NumPy底层用 C 写成规避 CPython 的对象开销或者直接写 C 扩展。结语慢是选择而非缺陷Python 的“慢”根植于它最宝贵的特性极致的动态性、高度一致的“一切皆对象”模型以及解释器实现的简单可维护性。这种设计让 Python 变得易学、易写、易读但代价就是 CPU 时间的浪费。理解这些底层原因后你就不会再奇怪为什么一个简单的循环比 C 慢几十倍也不会寄希望于某个新特性能瞬间让 Python 变成火箭。你会更明智地知道什么时候该用 NumPy什么时候该换 PyPy什么时候该把性能敏感部分用 C/Rust 重写什么时候就安心接受 Python 的便利用它的慢来换你的开发效率。毕竟工具的选择永远是权衡。而我们已经清楚知道天平的两端到底放着什么。

相关文章:

Python 为什么这么慢?真凶不只是 GIL

Python 为什么这么慢?真凶不只是 GIL 你在网上可能听过无数遍:“Python 慢是因为有 GIL(全局解释器锁)。” 于是你心安理得地想:哦,那等到多解释器出来,或者我用多进程,它就该快起来…...

2026年Hermes/OpenClaw怎么部署?华为云搭建及token Plan配置全攻略

2026年Hermes/OpenClaw怎么部署?华为云搭建及token Plan配置全攻略。OpenClaw和Hermes Agent是什么?OpenClaw和Hermes Agent怎么部署?如何部署OpenClaw/Hermes Agent?2026年还在为部署OpenClaw和Hermes Agent到处找教程踩坑吗&…...

PocketSphinx语音识别技术深度解析:轻量级离线语音识别的5大核心特性

PocketSphinx语音识别技术深度解析:轻量级离线语音识别的5大核心特性 【免费下载链接】pocketsphinx A small speech recognizer 项目地址: https://gitcode.com/gh_mirrors/po/pocketsphinx PocketSphinx是卡内基梅隆大学开发的开源大词汇量、说话人无关的连…...

Java的java.util.random并行计算

Java并行计算中的随机数生成艺术 在多线程编程领域,Java的java.util.Random类及其子类长期以来是生成随机数的核心工具。但随着并行计算需求的增长,传统随机数生成器的线程安全问题逐渐凸显。本文将探讨如何在高并发场景下高效利用Java的随机数API&…...

Java开发的ERP管理系统(含SQL脚本+完整源码)|SpringBoot后端 + Vue前端一体化项目

温馨提示:文末有联系方式项目技术架构说明 本ERP管理系统采用主流企业级技术栈构建:后端基于SpringBoot框架,使用Java语言开发,具备高稳定性与可扩展性;前端采用Vue.js实现响应式交互界面,前后端分离设计&a…...

AI生成PPT工具怎么选?豆包vs秒出全面对比

如果你生活遇到了不清楚的问题,你会先做什么?以前我们会先去搜索百度,而现在,我更倾向于直接询问AI,而我们的国名级AI就是豆包。那么,如果我们想要做一个PPT,豆包能不能帮我们完成呐&#xff1f…...

2026年3款专业外贸CRM系统推荐

摘要:2026年,外贸企业数字化转型加速,CRM系统成为提升客户管理效率、优化销售流程的核心工具。面对市场上纷繁复杂的CRM产品,如何选对外贸CRM系统,成为企业数字化转型的核心课题。本文推荐三款专业外贸CRM系统&#xf…...

车载DMS为什么成为安全刚需?移远通信全栈边缘AI模组给出答案

据相关统计,大约20%的交通事故与驾驶员疲劳或分心有关。当驾驶员出现打哈欠、视线偏离、长时间闭眼等行为时,若车辆能实时监测并主动预警,可大幅降低事故风险。这正是车载DMS(驾驶员监控系统)的核心价值——通过摄像头…...

告别“盲盒式”带团队:如何用局域网内网管理软件,把散漫的办公室变回高效战场?

作为管理者,你是否经常有这种“无力感”?坐在办公室里,放眼望去,员工们个个盯着屏幕,手指在键盘上飞舞,看起来忙得不可开交。但月底复盘,项目进度依然像老牛拉破车,加班费没少发&…...

网盘直链下载助手终极指南:一键获取八大网盘真实下载链接

网盘直链下载助手终极指南:一键获取八大网盘真实下载链接 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天…...

从数据盲区到战斗专家:GBFR Logs如何重塑你的《碧蓝幻想:Relink》游戏体验

从数据盲区到战斗专家:GBFR Logs如何重塑你的《碧蓝幻想:Relink》游戏体验 【免费下载链接】gbfr-logs GBFR Logs lets you track damage statistics with a nice overlay DPS meter for Granblue Fantasy: Relink. 项目地址: https://gitcode.com/gh_…...

3分钟解锁Steam创意工坊宝藏:WorkshopDL免费下载器终极指南

3分钟解锁Steam创意工坊宝藏:WorkshopDL免费下载器终极指南 【免费下载链接】WorkshopDL WorkshopDL - The Best Steam Workshop Downloader 项目地址: https://gitcode.com/gh_mirrors/wo/WorkshopDL 你是否在Epic Games或GOG平台购买了游戏,却发…...

如何5分钟完成Windows和Office永久激活:KMS智能激活工具完整指南

如何5分钟完成Windows和Office永久激活:KMS智能激活工具完整指南 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 对于许多Windows和Office用户来说,系统激活一直是个令人…...

抖音批量下载神器:高效去水印,免费获取视频、音乐和封面素材

抖音批量下载神器:高效去水印,免费获取视频、音乐和封面素材 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and brows…...

20260429给万象奥科的开发板HD-RK3576-PI适配瑞芯微原厂的Android14时删除全部的.git目录

find . -name ".git" -type d # 查看列表 find . -name ".git" -type d -exec rm -rf {} # 确认后删除20260429给万象奥科的开发板HD-RK3576-PI适配瑞芯微原厂的Android14时删除全部的.git目录 2026/4/29 16:24缘起:在析取SDK之后&…...

Windows 11终极优化指南:用免费开源工具Win11Debloat提升51%运行速度

Windows 11终极优化指南:用免费开源工具Win11Debloat提升51%运行速度 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to de…...

猫抓Cat-Catch:重新定义浏览器资源获取的智能捕手

猫抓Cat-Catch:重新定义浏览器资源获取的智能捕手 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否曾遇到过这样的场景&#xff1…...

OBS多平台直播终极指南:3步安装obs-multi-rtmp插件实现一键多平台推流

OBS多平台直播终极指南:3步安装obs-multi-rtmp插件实现一键多平台推流 【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン 项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否还在为每次直播需要在多个平台重复配置而烦恼&a…...

除了SET命令,MySQL只读模式还有哪些你不知道的触发原因和排查姿势?

MySQL只读模式深度解析:超越SET命令的隐藏触发机制与排查体系 引言 当你深夜收到告警短信,发现生产环境的MySQL突然拒绝所有写入请求时,"read-only"这个状态可能成为压垮运维人员的最后一根稻草。大多数开发者对SET GLOBAL read_on…...

淘金币自动化脚本:每天5分钟轻松赚取淘宝金币的终极指南

淘金币自动化脚本:每天5分钟轻松赚取淘宝金币的终极指南 【免费下载链接】taojinbi 淘宝淘金币自动执行脚本,包含蚂蚁森林收取能量,芭芭农场全任务,解放你的双手 项目地址: https://gitcode.com/gh_mirrors/ta/taojinbi 还…...

从C语言转Verilog踩过的坑:逻辑运算‘真值’判定,差点让我电路跑飞

从C语言转Verilog踩过的坑:逻辑运算‘真值’判定差点让我电路跑飞 第一次用Verilog写状态机时,我遭遇了职业生涯最诡异的bug——仿真波形显示状态跳转完全随机,而RTL代码看起来毫无问题。直到深夜盯着波形图突然发现,当计数器值为…...

2025年全国日均词元调用量从超万亿到100万亿,数据资源强力赋能AI创新

2025年词元调用量呈指数级增长:从超万亿到100万亿《全国数据资源调查报告(2025年)》显示,2025年全国日均词元调用量从年初的超万亿增长到年末的100万亿,呈现指数级增长,全年词元累计调用量达到约21100万亿。…...

PMOS管在关闭状态下Vgs和Vds过压损坏分析

PMOS通常用在高端开关、源极接电源、栅极驱动电压相对源极为负,且工作在关闭状态下电压应力最大,容易导致Vgs过压(栅源击穿)、Vds(漏源击穿)。以下分别分析两者被击穿的原因: 核心状态&#xff…...

告别代码!Lang-SAM的Web UI玩法:上传图片输入文字就能精准抠图

Lang-SAM零代码图像分割:设计师的智能抠图神器 在数字创意领域,精准的图像分割一直是耗时费力的技术活。传统Photoshop中的钢笔工具、魔术棒或许能解决简单场景,但遇到复杂边缘或细微物体时,设计师们往往需要投入数小时进行手动调…...

Swoole协程如何扛住LLM流式响应?揭秘高可用长连接插件:含源码编译避坑清单、SSL双向认证配置模板,限免领取最后48小时

更多请点击: https://intelliparadigm.com 第一章:PHP Swoole 结合 LLM 长连接方案 插件下载与安装 为构建低延迟、高并发的 LLM 服务代理层,推荐采用 Swoole 作为 PHP 的协程化运行时,配合自研插件实现与大语言模型后端&#xf…...

ArcMAP合并shp文件,在输入文件时一定要把显示类型改成要素类

如果点击合并了gis没有反应,点击地理处理->地理处理选项->后台处理把启用前面小方框√关掉...

猫抓资源嗅探扩展深度解析:网页媒体资源一键获取实战宝典

猫抓资源嗅探扩展深度解析:网页媒体资源一键获取实战宝典 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否经常在浏览网页时遇到心…...

终极免费在线PPT制作工具:如何在浏览器中打造专业级演示文稿

终极免费在线PPT制作工具:如何在浏览器中打造专业级演示文稿 【免费下载链接】PPTist PowerPoint-ist(/pauəpɔintist/), An online presentation application that replicates most of the commonly used features of MS PowerPoint, allow…...

告别卡顿!用Unreal 5的Niagara+顶点动画,轻松渲染上万“人群”(附Flocks插件实战)

突破性能极限:Unreal 5 Niagara与顶点动画实现万人同屏渲染实战 在大型游戏场景中,如何实现成千上万角色同时渲染而不掉帧,一直是开发者面临的重大挑战。传统骨骼动画在面对大规模群体时,CPU计算开销呈指数级增长,帧率…...

2026 主流云服务器性价比与实战性能深度横评

① 核心参数规格拆解与优惠力度量化对比 在 2026 年这个时间节点,云服务器市场的竞争已经进入了一个“深水区”。对于开发者和中小企业来说,面对各大云厂商琳琅满目的配置单和复杂的计费规则,如何一眼看穿本质,找到真正的性价比之…...