d跨语言链接优化
原文
使用LDC
的(LTO)
链接时优化
的简短文章,包含演示了如何提高程序性能
的简单
示例.因为LTO
在LLVMIR
级别工作,因此可跨越C++/D
语言优化!
重要提示:LDC/LLVM
的LTO
在窗口
上不可用.
链接时优化
(LTO)
链接时优化是指链接时
的程序优化.链接器提取
所有目标文件在一起,并合并
到一个程序
中.链接器
可看见整个程序,因此可分析和优化整个
程序.
但是,一般链接器只有在程序已转换为机器码
时才可见程序.在该级别上,应仍可优化
,但这很难.不能使用GCC
或LLVM
的优化器.
与GCC
相同,LLVM
的LTO
机制基于传递LLVM
优化器可理解的(LLVMIR)
代码给链接器
,从而可在链接过程中执行全程序分析和优化
.
所谓的"完整"LTO
组合单独
目标文件的所有LLVMIR
代码到一个大的LLVM
模块中,然后优化它并如常生成
机器码.
"ThinLTO"
分开模块,但从其他模块
按需导入函数,并并行
优化和生成机器码
.更多
可在一次编译
调用中改进全LTO
的所有优化,一次编译
就可.一次编译所有是配音(dub)
,也是目前LDC
自身(D
部分)的构建方式.
LTO
而不是一次
编译的优点是,LTO
的(部分
)编译是并行
完成的.对完整的LTO(-flto=full)
,只有语义
分析是并行完成的,而优化
和生成机器码
是在单线程中完成的.
对ThinLTO(-flto=thin)
,除全局
分析步骤外,所有步骤
都是并行
完成的.因此,ThinLTO
比全LTO
或一次
编译快得多,尤其是在拥有多个可用内核
机器时.
要使用LTO
,只需要在命令行
上指定-flto=thin
或-flto=full
!
链接器支持
LTO
的工作方式是,编译器输出的目标
文件不是普通
目标文件:它们是LLVMIR
位码文件,仅由目标文件扩展名
伪装成目标文件.表明
链接器必须支持此LLVM的LTO
机制.
在MacOSX
上,LLVM/Clang
用作系统
编译器,链接器知道如何用libLTO.DYLIB
库处理LTO
.适合MacOSX
的LDC
包附带
此库,因此它是LDC
的LLVM
版本的最新版本.
在Linux
上,黄金
链接器支持
插件,LLVM
黄金插件用来处理LTO
.
然后,可复制二进制文件
到LDC
的lib
目录,或传递-flto-binary=<pluginfile>
给LDC
,以便链接器可找到它.
LTO
选项(如增量
构建的ThinLTO
缓存)可像一般的链接器选项
一样传递:
OS X: ldc2 -L-cache_path_lto -L/path/to/cache ...
gold: ldc2 -L-plugin-opt=cache-dir=/path/to/cache ...
简单示例
考虑以下示例,代码
分布在(lto_a.d
和lto_b.d
)两个文件中:
// File lto_b.d
//用`extern(C++)`来允许用`C++`定义它
extern(C++) void doesNothing() {}
// File lto_a.d
extern(C++) void doesNothing(); //仅声明void main() {for (ulong i = 0; i < 1_000_000_000; ++i) {doesNothing();}
}
先编译lto_b.d
为lto_b.o
,然后再编译lto_a.d
,并与lto_b.o
链接.该程序闲着
,优化器应可弄清楚这一点,但是,优化器不能.编译lto_a.d
时,它不知道Nothing()
做了什么,因此不能做太多优化
:程序循环1亿次
调用立即返回
的函数.在我机器上,大约需要2秒:
> ldc2 -c -O3 lto_b.d -of=lto_b.o
> ldc2 -O3 lto_a.d lto_b.o -of=program
> time ./program
./program 1.81s user 0.01s system 98% cpu 1.845 total
使用LTO
,导入doesNothing()
到lto_a
模块中,优化器
可发挥其神力:
> ldc2 -c -O3 -flto=thin lto_b.d -of=lto_b.o
> ldc2 -O3 -flto=thin lto_a.d lto_b.o -of=program_lto
> time ./program_lto
./program_lto 0.00s 用户 0.00s 系统 28% CPU 总计 0.012 总计
一次
编译器调用中,编译所有源码
可获得相同
运行时:
> ldc2 -O3 lto_a.d lto_b.d -of=program_allatonce
> time ./program_allatonce
./program_allatonce 0.00s user 0.00s system 44% cpu 0.008 total
打破C++/D
语言障碍
D可(相对)轻松地与C++
代码互操作.LDC
自身就是个很好
示例:LDC
的前端是用D
编写的,而它的后端(LLVM)
是用C++
编写的.
但是,不能一次
编译所有源码
来跨C++/D
语言优化
,因为C++
和D
的编译器都无法理解对方.因此,如下C++
函数不会内联到D函数
中:
// File lto_b.cpp
void doesNothing() {}
> clang -c -O3 lto_b.cpp -o lto_b.o
> ldc2 -O3 lto_a.d lto_b.o -of=program_cpp
> time ./program_cpp
./program_cpp 2.09s user 0.01s system 99% cpu 2.125 total
好消息是:LTO
没有语言障碍.因为LTO
在LLVMIR
级别工作,且LDC
和Clang
都编译为相同的LLVMIR
语言,因此仅C++
,仅D
和C++/D
混合程序可实现相同优化
潜力!
对给定示例
,可通过以下构建步骤
减少执行时间
到"零"
:
> clang -c -O3 -flto=thin lto_b.cpp -o lto_b.o
> ldc2 -O3 -flto=thin lto_a.d lto_b.o -of=program_cpp_lto -mtriple=x86_64-apple-macosx10.11.0
> time ./program_cpp_lto
./program_cpp_lto 0.00s user 0.00s system 61% cpu 0.005 total
注意,调用ldc2
时,必须显式
指定目标
三元组(这仅在OSX
上需要).在MacOSX
上,LDC
和Clang
默认使用
略有不同的三元组
.
当三元组
不同时,LTO
代码生成器会抱怨.有趣的是,反向
调用编译器
时不需要显式
提及三元组
,但是必须显式传递D运行时
库给Clang
.
相关文章:
d跨语言链接优化
原文 使用LDC的(LTO)链接时优化的简短文章,包含演示了如何提高程序性能的简单示例.因为LTO在LLVMIR级别工作,因此可跨越C/D语言优化! 重要提示:LDC/LLVM的LTO在窗口上不可用. 链接时优化 (LTO)链接时优化是指链接时的程序优化.链接器提取所有目标文件在一起,并合并到一个程序…...

【Linux】-- 进程概念的引入
目录 硬件 冯诺依曼体系结构 冯诺依曼体系结构推导 重点概念 网络数据流向 软件 操作系统(Operator System - OS) 概念 定位 进程内核数据结构PCB(task_struct) 通过系统调用创建进程-fork初始 fork基本用法 使用if进行分流 查看运行效果 …...

一文看懂“低代码、零代码”是什么?有什么区别?
低代码和零代码近几年热度一直居高不下,乍一看,很容易混淆低代码和零代码开发平台—— 因为它们都是传统开发的替代方案,旨在通过类似于可视化编程的功能加速软件开发过程。 但二者根本不是一回事。从开发人员经验 、目标角色到使用场景&…...
【华为OD机试真题】去除多余的空格(java)
去除多余空格 知识点字符串数组Q队列时间限制:2s空间限制:256MB限定语言:不限 题目描述: 去除文本多余空格,但不去除配对单引号之间的多余空格。给出关键词的起始和结束 下标,去除多余空格后刷新关键词的起始和结束下标。 输入: Life is painting a picture, not …...
【SQL 必知必会】- 第十三课 创建高级联结
目录 使用表别名 Oracle 中没有AS 使用不同类型的联结 自联结 用自联结而不用子查询 自然联结 外联结 全外联结 使用带聚集函数的联结 使用联结和联结条件 使用表别名 SQL 除了可以对列名和计算字段使用别名,还允许给表名起别名。这样做有两个主要理由ÿ…...
ios逆向工具有那些
以下是一些常用的 iOS 逆向工具: Cycript:一种用于在运行时动态分析和修改 iOS 应用程序的强大工具,可以与应用程序进行交互式调试和注入代码。 Frida:一个强大的动态二进制插桩工具,可以在运行时修改应用程序的行为&…...

【软件设计师14】UML建模
UML建模 稳定出一个,但是由于UML的图比较多,所以这种题比数据流图和数据库难度高 一般都会考用例图和类图,再附加其他的图 1. 用例图 包含关系include:比如登记外借信息必须先有用户登录 扩展关系extend:修改书籍…...

容器镜像的设计原理
1 概述: 1.1 历史概要 2016年,Docker制定了镜像规范v2,并在Docker 1.10中实现了这个规范。镜像规范v2分为Schema 1和Schema 2。 Schema 1主要兼容使用v1规范的Docker客户端(从2017年2月起,镜像规范v1不再被Registry支…...

arm64异常向量表
arm64异常向量表1 arm64异常向量表2 linux arm64异常向量表3 kernel_ventry宏4 异常向量表的保存4. VBAR_ELx寄存器4.2 __primary_switched4.3 __primary_switched1 arm64异常向量表 When an exception occurs, the processor must execute handler code which corresponds to …...

【测试面试】吐血整理,大厂测试开发岗面试题(1~4面),拿下年40w...
目录:导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜)前言 自动化测试面试题&am…...

SpringSecurity之权限模块设计
目录 前言 实现思路 代码结构 使用说明 前言 前面我们了解了关于微服务权限设计方案以及J W T的相关介绍,今天我们来聊一下,如何避免自己重复的写相同的代码,一次代码实现,即可完美复制到任何项目中实现权限相关的功能。 实现…...
002_双指针法
1.移除元素 目标:移除数组中的某一个元素 数组的元素在内存地址中是连续的,不能单独删除数组中的某个元素,只能覆盖。 1.1暴力解法 建立两个for循环,当查找到某个元素以后,将此元素后面的元素全部往前移动 时间复…...

超实用的 Linux 高级命令,程序员一定要懂
前言 在运维的坑里摸爬滚打好几年了,我还记得我刚开始的时候,我只会使用一些简单的命令,写脚本的时候,也是要多简单有多简单,所以有时候写出来的脚本又长又臭。 像一些高级点的命令,比如说 Xargs 命令、管…...

AI+明厨亮灶智能算法 yolo
AI明厨亮灶智能算法通过pythonyolo网络模型分析算法,AI明厨亮灶模型算法可接对后厨实现如口罩识别、厨师服穿戴、夜间老鼠监测、厨师帽识别、厨师玩手机打电话识别、抽烟识别等实时分析监测。Python是一种由Guido van Rossum开发的通用编程语言,它很快就…...

gRPC-Go源码解读一 客户端请求链路分析
最近在学习gRPC相关的知识,为啥要学呢?因为一直在用,古人云,“工欲善其事,必先利其器”。为此,花了不少时间阅读gRPC-Go的源码,收货甚多,比如透过服务发现和负载均衡这俩组件来学习复…...

Word控件Spire.Doc for .net 功能详解
Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库。在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建、编辑、转换和打印 Microsoft Word 文档。拥有近10年专业开发经验Spire系列办公文档开发工具,专注于创建、编辑、转…...

联想服务器配置RAID
一、背景描述 目前有台联想服务器,配置如下: CPU:2颗处理器,40核 内存:512GB 磁盘:2*960GB SATA 4*2.4TB SAS 计划在联想物理机上安装 Vmware 的 ESXi 6.7 虚拟化管理软件,作为虚拟化服务器。…...
C++ 虚函数表
在 C 中,虚函数表(Virtual Function Table,简称 vtable)是一种用于实现多态性(Polymorphism)的机制。它是一种编译器和链接器生成的数据结构,用于处理虚函数调用。 虚函数是在基类中声明的&…...

rancher2.7丢失集群信息
使用Docker 单节点安装rancher,然后在rancher中创建了一个k8s的集群。重启rancher所在的虚拟机后,登录rancher发现这是新的实例,集群信息丢失了。但是k8s集群还是好好的。 检查k8s的日志,api server日志会报错 time"2023-0…...

数据库管理-第六十八期 Oracle 23c的其他(20230417)
数据库管理 2023-04-17第六十八期 Oracle 23c的其他1 DGPDB2 无锁并发总结第六十八期 Oracle 23c的其他 由于Oracle 23c的文档相对较少,一是当前文档主要面向开发人员,二是感觉实际内容还在不断增加,主要还有一点就是各种新特性的在官方文档…...
【杂谈】-递归进化:人工智能的自我改进与监管挑战
递归进化:人工智能的自我改进与监管挑战 文章目录 递归进化:人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管?3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...
SciencePlots——绘制论文中的图片
文章目录 安装一、风格二、1 资源 安装 # 安装最新版 pip install githttps://github.com/garrettj403/SciencePlots.git# 安装稳定版 pip install SciencePlots一、风格 简单好用的深度学习论文绘图专用工具包–Science Plot 二、 1 资源 论文绘图神器来了:一行…...

AI Agent与Agentic AI:原理、应用、挑战与未来展望
文章目录 一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程 三、AI Agent的核心技术栈解密3.1 感知模块代码示例:使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例:使用OpenAI GPT-3进…...

el-switch文字内置
el-switch文字内置 效果 vue <div style"color:#ffffff;font-size:14px;float:left;margin-bottom:5px;margin-right:5px;">自动加载</div> <el-switch v-model"value" active-color"#3E99FB" inactive-color"#DCDFE6"…...

(二)原型模式
原型的功能是将一个已经存在的对象作为源目标,其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。 一、源型模式的定义 原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现,忽略对象创建过程中的其它细节。 📌 核心特点: 避免重复初…...
数据链路层的主要功能是什么
数据链路层(OSI模型第2层)的核心功能是在相邻网络节点(如交换机、主机)间提供可靠的数据帧传输服务,主要职责包括: 🔑 核心功能详解: 帧封装与解封装 封装: 将网络层下发…...

MySQL 8.0 OCP 英文题库解析(十三)
Oracle 为庆祝 MySQL 30 周年,截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。 从今天开始,将英文题库免费公布出来,并进行解析,帮助大家在一个月之内轻松通过OCP认证。 本期公布试题111~120 试题1…...
JDK 17 新特性
#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持,不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的ÿ…...
laravel8+vue3.0+element-plus搭建方法
创建 laravel8 项目 composer create-project --prefer-dist laravel/laravel laravel8 8.* 安装 laravel/ui composer require laravel/ui 修改 package.json 文件 "devDependencies": {"vue/compiler-sfc": "^3.0.7","axios": …...

USB Over IP专用硬件的5个特点
USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中,从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备(如专用硬件设备),从而消除了直接物理连接的需要。USB over IP的…...