当前位置: 首页 > news >正文

d跨语言链接优化

原文
使用LDC(LTO)链接时优化的简短文章,包含演示了如何提高程序性能简单示例.因为LTOLLVMIR级别工作,因此可跨越C++/D语言优化!

重要提示:LDC/LLVMLTO窗口上不可用.

链接时优化

(LTO)链接时优化是指链接时的程序优化.链接器提取所有目标文件在一起,并合并一个程序中.链接器可看见整个程序,因此可分析和优化整个程序.
但是,一般链接器只有在程序已转换为机器码时才可见程序.在该级别上,应仍可优化,但这很难.不能使用GCCLLVM的优化器.

GCC相同,LLVMLTO机制基于传递LLVM优化器可理解的(LLVMIR)代码给链接器,从而可在链接过程中执行全程序分析和优化.

所谓的"完整"LTO组合单独目标文件的所有LLVMIR代码到一个大的LLVM模块中,然后优化它并如常生成机器码.
"ThinLTO"分开模块,但从其他模块按需导入函数,并并行优化和生成机器码.更多

可在一次编译调用中改进全LTO的所有优化,一次编译就可.一次编译所有是配音(dub),也是目前LDC自身(D部分)的构建方式.

LTO而不是一次编译的优点是,LTO的(部分)编译是并行完成的.对完整的LTO(-flto=full),只有语义分析是并行完成的,而优化和生成机器码是在单线程中完成的.
ThinLTO(-flto=thin),除全局分析步骤外,所有步骤都是并行完成的.因此,ThinLTO比全LTO一次编译快得多,尤其是在拥有多个可用内核机器时.

要使用LTO,只需要在命令行上指定-flto=thin-flto=full!

链接器支持

LTO的工作方式是,编译器输出的目标文件不是普通目标文件:它们是LLVMIR位码文件,仅由目标文件扩展名伪装成目标文件.表明链接器必须支持此LLVM的LTO机制.

MacOSX上,LLVM/Clang用作系统编译器,链接器知道如何用libLTO.DYLIB库处理LTO.适合MacOSXLDC附带此库,因此它是LDCLLVM版本的最新版本.

Linux上,黄金链接器支持插件,LLVM黄金插件用来处理LTO.
然后,可复制二进制文件LDClib目录,或传递-flto-binary=<pluginfile>LDC,以便链接器可找到它.
LTO选项(如增量构建的ThinLTO缓存)可像一般的链接器选项一样传递:

OS X: ldc2 -L-cache_path_lto -L/path/to/cache ...
gold: ldc2 -L-plugin-opt=cache-dir=/path/to/cache ...

简单示例

考虑以下示例,代码分布在(lto_a.dlto_b.d)两个文件中:

// File lto_b.d
//用`extern(C++)`来允许用`C++`定义它
extern(C++) void doesNothing() {}
// File lto_a.d
extern(C++) void doesNothing(); //仅声明void main() {for (ulong i = 0; i < 1_000_000_000; ++i) {doesNothing();}
}

先编译lto_b.dlto_b.o,然后再编译lto_a.d,并与lto_b.o链接.该程序闲着,优化器应可弄清楚这一点,但是,优化器不能.编译lto_a.d时,它不知道Nothing()做了什么,因此不能做太多优化:程序循环1亿次调用立即返回的函数.在我机器上,大约需要2秒:

>  ldc2 -c -O3 lto_b.d -of=lto_b.o
>  ldc2 -O3 lto_a.d lto_b.o -of=program
>  time ./program
./program  1.81s user 0.01s system 98% cpu 1.845 total

使用LTO,导入doesNothing()lto_a模块中,优化器可发挥其神力:

>  ldc2 -c -O3 -flto=thin lto_b.d -of=lto_b.o
>  ldc2 -O3 -flto=thin lto_a.d lto_b.o -of=program_lto
>  time ./program_lto
./program_lto 0.00s 用户 0.00s 系统 28% CPU 总计 0.012 总计

一次编译器调用中,编译所有源码可获得相同运行时:

>  ldc2 -O3 lto_a.d lto_b.d -of=program_allatonce
>  time ./program_allatonce
./program_allatonce  0.00s user 0.00s system 44% cpu 0.008 total

打破C++/D语言障碍

D可(相对)轻松地与C++代码互操作.LDC自身就是个很好示例:LDC的前端是用D编写的,而它的后端(LLVM)是用C++编写的.
但是,不能一次编译所有源码来跨C++/D语言优化,因为C++D的编译器都无法理解对方.因此,如下C++函数不会内联到D函数中:

// File lto_b.cpp
void doesNothing() {}
>  clang -c -O3 lto_b.cpp -o lto_b.o
>  ldc2 -O3 lto_a.d lto_b.o -of=program_cpp
>  time ./program_cpp
./program_cpp  2.09s user 0.01s system 99% cpu 2.125 total

好消息是:LTO没有语言障碍.因为LTOLLVMIR级别工作,且LDCClang都编译为相同的LLVMIR语言,因此仅C++,仅DC++/D混合程序可实现相同优化潜力!

对给定示例,可通过以下构建步骤减少执行时间"零":

>  clang -c -O3 -flto=thin lto_b.cpp -o lto_b.o
>  ldc2 -O3 -flto=thin lto_a.d lto_b.o -of=program_cpp_lto -mtriple=x86_64-apple-macosx10.11.0
>  time ./program_cpp_lto
./program_cpp_lto  0.00s user 0.00s system 61% cpu 0.005 total

注意,调用ldc2时,必须显式指定目标三元组(这仅在OSX上需要).在MacOSX上,LDCClang默认使用略有不同的三元组.
三元组不同时,LTO代码生成器会抱怨.有趣的是,反向调用编译器时不需要显式提及三元组,但是必须显式传递D运行时库给Clang.

相关文章:

d跨语言链接优化

原文 使用LDC的(LTO)链接时优化的简短文章,包含演示了如何提高程序性能的简单示例.因为LTO在LLVMIR级别工作,因此可跨越C/D语言优化! 重要提示:LDC/LLVM的LTO在窗口上不可用. 链接时优化 (LTO)链接时优化是指链接时的程序优化.链接器提取所有目标文件在一起,并合并到一个程序…...

【Linux】-- 进程概念的引入

目录 硬件 冯诺依曼体系结构 冯诺依曼体系结构推导 重点概念 网络数据流向 软件 操作系统(Operator System - OS) 概念 定位 进程内核数据结构PCB&#xff08;task_struct&#xff09; 通过系统调用创建进程-fork初始 fork基本用法 使用if进行分流 查看运行效果 …...

一文看懂“低代码、零代码”是什么?有什么区别?

低代码和零代码近几年热度一直居高不下&#xff0c;乍一看&#xff0c;很容易混淆低代码和零代码开发平台—— 因为它们都是传统开发的替代方案&#xff0c;旨在通过类似于可视化编程的功能加速软件开发过程。 但二者根本不是一回事。从开发人员经验 、目标角色到使用场景&…...

【华为OD机试真题】去除多余的空格(java)

去除多余空格 知识点字符串数组Q队列时间限制:2s空间限制:256MB限定语言:不限 题目描述: 去除文本多余空格,但不去除配对单引号之间的多余空格。给出关键词的起始和结束 下标,去除多余空格后刷新关键词的起始和结束下标。 输入: Life is painting a picture, not …...

【SQL 必知必会】- 第十三课 创建高级联结

目录 使用表别名 Oracle 中没有AS 使用不同类型的联结 自联结 用自联结而不用子查询 自然联结 外联结 全外联结 使用带聚集函数的联结 使用联结和联结条件 使用表别名 SQL 除了可以对列名和计算字段使用别名&#xff0c;还允许给表名起别名。这样做有两个主要理由&#xff…...

ios逆向工具有那些

以下是一些常用的 iOS 逆向工具&#xff1a; Cycript&#xff1a;一种用于在运行时动态分析和修改 iOS 应用程序的强大工具&#xff0c;可以与应用程序进行交互式调试和注入代码。 Frida&#xff1a;一个强大的动态二进制插桩工具&#xff0c;可以在运行时修改应用程序的行为&…...

【软件设计师14】UML建模

UML建模 稳定出一个&#xff0c;但是由于UML的图比较多&#xff0c;所以这种题比数据流图和数据库难度高 一般都会考用例图和类图&#xff0c;再附加其他的图 1. 用例图 包含关系include&#xff1a;比如登记外借信息必须先有用户登录 扩展关系extend&#xff1a;修改书籍…...

容器镜像的设计原理

1 概述&#xff1a; 1.1 历史概要 2016年&#xff0c;Docker制定了镜像规范v2&#xff0c;并在Docker 1.10中实现了这个规范。镜像规范v2分为Schema 1和Schema 2。 Schema 1主要兼容使用v1规范的Docker客户端&#xff08;从2017年2月起&#xff0c;镜像规范v1不再被Registry支…...

arm64异常向量表

arm64异常向量表1 arm64异常向量表2 linux arm64异常向量表3 kernel_ventry宏4 异常向量表的保存4. VBAR_ELx寄存器4.2 __primary_switched4.3 __primary_switched1 arm64异常向量表 When an exception occurs, the processor must execute handler code which corresponds to …...

【测试面试】吐血整理,大厂测试开发岗面试题(1~4面),拿下年40w...

目录&#xff1a;导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09;前言 自动化测试面试题&am…...

SpringSecurity之权限模块设计

目录 前言 实现思路 代码结构 使用说明 前言 前面我们了解了关于微服务权限设计方案以及J W T的相关介绍&#xff0c;今天我们来聊一下&#xff0c;如何避免自己重复的写相同的代码&#xff0c;一次代码实现&#xff0c;即可完美复制到任何项目中实现权限相关的功能。 实现…...

002_双指针法

1.移除元素 目标&#xff1a;移除数组中的某一个元素 数组的元素在内存地址中是连续的&#xff0c;不能单独删除数组中的某个元素&#xff0c;只能覆盖。 1.1暴力解法 建立两个for循环&#xff0c;当查找到某个元素以后&#xff0c;将此元素后面的元素全部往前移动 时间复…...

超实用的 Linux 高级命令,程序员一定要懂

前言 在运维的坑里摸爬滚打好几年了&#xff0c;我还记得我刚开始的时候&#xff0c;我只会使用一些简单的命令&#xff0c;写脚本的时候&#xff0c;也是要多简单有多简单&#xff0c;所以有时候写出来的脚本又长又臭。 像一些高级点的命令&#xff0c;比如说 Xargs 命令、管…...

AI+明厨亮灶智能算法 yolo

AI明厨亮灶智能算法通过pythonyolo网络模型分析算法&#xff0c;AI明厨亮灶模型算法可接对后厨实现如口罩识别、厨师服穿戴、夜间老鼠监测、厨师帽识别、厨师玩手机打电话识别、抽烟识别等实时分析监测。Python是一种由Guido van Rossum开发的通用编程语言&#xff0c;它很快就…...

gRPC-Go源码解读一 客户端请求链路分析

最近在学习gRPC相关的知识&#xff0c;为啥要学呢&#xff1f;因为一直在用&#xff0c;古人云&#xff0c;“工欲善其事&#xff0c;必先利其器”。为此&#xff0c;花了不少时间阅读gRPC-Go的源码&#xff0c;收货甚多&#xff0c;比如透过服务发现和负载均衡这俩组件来学习复…...

Word控件Spire.Doc for .net 功能详解

Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库。在于帮助开发人员无需安装 Microsoft Word情况下&#xff0c;轻松快捷高效地创建、编辑、转换和打印 Microsoft Word 文档。拥有近10年专业开发经验Spire系列办公文档开发工具&#xff0c;专注于创建、编辑、转…...

联想服务器配置RAID

一、背景描述 目前有台联想服务器&#xff0c;配置如下&#xff1a; CPU&#xff1a;2颗处理器&#xff0c;40核 内存&#xff1a;512GB 磁盘&#xff1a;2*960GB SATA 4*2.4TB SAS 计划在联想物理机上安装 Vmware 的 ESXi 6.7 虚拟化管理软件&#xff0c;作为虚拟化服务器。…...

C++ 虚函数表

在 C 中&#xff0c;虚函数表&#xff08;Virtual Function Table&#xff0c;简称 vtable&#xff09;是一种用于实现多态性&#xff08;Polymorphism&#xff09;的机制。它是一种编译器和链接器生成的数据结构&#xff0c;用于处理虚函数调用。 虚函数是在基类中声明的&…...

rancher2.7丢失集群信息

使用Docker 单节点安装rancher&#xff0c;然后在rancher中创建了一个k8s的集群。重启rancher所在的虚拟机后&#xff0c;登录rancher发现这是新的实例&#xff0c;集群信息丢失了。但是k8s集群还是好好的。 检查k8s的日志&#xff0c;api server日志会报错 time"2023-0…...

数据库管理-第六十八期 Oracle 23c的其他(20230417)

数据库管理 2023-04-17第六十八期 Oracle 23c的其他1 DGPDB2 无锁并发总结第六十八期 Oracle 23c的其他 由于Oracle 23c的文档相对较少&#xff0c;一是当前文档主要面向开发人员&#xff0c;二是感觉实际内容还在不断增加&#xff0c;主要还有一点就是各种新特性的在官方文档…...

【权威验证】Perplexity书评辅助效果对比实验:传统写作vs AI增强写作(N=1,247篇样本,p<0.001)

更多请点击&#xff1a; https://kaifayun.com 第一章&#xff1a;【权威验证】Perplexity书评辅助效果对比实验&#xff1a;传统写作vs AI增强写作&#xff08;N1,247篇样本&#xff0c;p<0.001&#xff09; 本实验基于真实学术出版场景&#xff0c;对1,247篇计算机科学领…...

测试TVS:SP0503BAHTG

简 介&#xff1a; 本文测试了SP0503BAHTG三通道TVS二极管阵列的特性。通过设计测试电路板&#xff0c;测量了该器件对1kHz正弦波的限幅效果&#xff0c;测得反向导通电压约-0.8V&#xff0c;顶部饱和电压6.3V。在1MHz高频测试中观察到快速响应特性&#xff0c;通过矩形波上升沿…...

ncmdump终极指南:5分钟解锁网易云音乐NCM加密文件

ncmdump终极指南&#xff1a;5分钟解锁网易云音乐NCM加密文件 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾在网易云音乐下载了心爱的歌曲&#xff0c;却发现只能在特定客户端播放&#xff1f;当你想在车载音响、智能音箱…...

告别实车折腾!手把手教你用Vector VT平台搭建OBC/DCDC的HIL测试台架(附避坑清单)

从零搭建OBC/DCDC HIL测试台架&#xff1a;Vector VT平台实战指南与避坑手册 当你第一次面对堆满桌面的Vector VT板卡、缠绕如蛛网的线缆和数十个软件模块时&#xff0c;HIL测试的复杂性可能令人望而生畏。本文将以工程师视角&#xff0c;带你一步步完成从设备上电到首个充电协…...

别再只当Atlas是元数据仓库了!手把手教你用它的UI搞定数据分类与血缘追溯

别再只当Atlas是元数据仓库了&#xff01;手把手教你用它的UI搞定数据分类与血缘追溯 数据治理工具常被视为"高大上"的架构师专属玩具&#xff0c;但Apache Atlas的UI界面却藏着连一线工程师都能立刻上手的实用功能。上周排查一个报表异常时&#xff0c;我发现团队里…...

如何编制ERP系统的物料编码?一文读懂底层逻辑

在数字化管理时代&#xff0c;企业上ERP系统已成为标配。但很多人会遇到一个共同的难题&#xff1a;物料编码到底该怎么编&#xff1f;编不好&#xff0c;ERP系统就成了“数据垃圾场”&#xff1b;编得好&#xff0c;则能让库存周转率提升30%以上。今天&#xff0c;我们就来深度…...

Steam Deck Tools 终极指南:让 Windows 掌机体验焕然一新

Steam Deck Tools 终极指南&#xff1a;让 Windows 掌机体验焕然一新 【免费下载链接】steam-deck-tools (Windows) Steam Deck Tools - Fan, Overlay, Power Control and Steam Controller for Windows 项目地址: https://gitcode.com/gh_mirrors/st/steam-deck-tools …...

告别杂音!在RK3588上搞定HDMI音频采集与实时播放的保姆级教程

告别杂音&#xff01;RK3588 HDMI音频采集与实时播放的终极调优指南 当你在RK3588开发板上调试HDMI音频采集时&#xff0c;是否曾被突如其来的"哒哒"声搞得焦头烂额&#xff1f;这种高频杂音不仅影响用户体验&#xff0c;更可能掩盖音频流的真实质量。本文将带你深入…...

星动纪元拿下 RoboChallenge冠军!17项家务活斩获第一

近日&#xff0c;全球首个具身智能大规模真机评测平台RoboChallenge最新评测结果正式揭晓&#xff0c;星动纪元&#xff08;Robotera&#xff09;的Era0模型在Table30真机评测系列任务中表现突出&#xff0c;成功率&#xff08;Success Rate&#xff09;与过程分&#xff08;Sc…...

Realtime-VLA V2——从让π0实时抓取下落的钢笔到让 VLA 运行得更快、更平滑且更精确

前言今天在朋友圈刷到一则新闻&#xff0c;称《开普勒机器人被A股公司收购&#xff0c;前任CEO已离职创业》我仔细看了全文&#xff0c;还是多有感慨其实对双足&#xff0c;3-5家今年可继续卷跳舞 跑步 打拳及比赛/陪练(乒乓球/网球/羽毛球等)而3-5家之外的双足&#xff0c;得另…...