当前位置: 首页 > article >正文

从C代码到LLVM IR:手写LightIR生成器实战解析

1. 理解LLVM IR与C代码的对应关系当你第一次看到LLVM IRIntermediate Representation时可能会觉得它既熟悉又陌生。作为编译器开发者理解C代码如何转换为LLVM IR是基本功。让我们从一个简单的C程序开始// assign.c int main() { int a[10]; a[0] 10; a[1] a[0] * 2; return a[1]; }使用clang生成对应的LLVM IRclang -S -emit-llvm assign.c -o assign.ll生成的IR文件会包含类似这样的内容define i32 main() { %1 alloca [10 x i32] %2 getelementptr [10 x i32], [10 x i32]* %1, i32 0, i32 0 store i32 10, i32* %2 %3 load i32, i32* %2 %4 mul i32 %3, 2 %5 getelementptr [10 x i32], [10 x i32]* %1, i32 0, i32 1 store i32 %4, i32* %5 ret i32 %4 }这里有几个关键点需要注意alloca指令为局部变量分配栈空间getelementptrGEP指令用于计算数组元素的地址LLVM IR是静态单赋值SSA形式每个值都有唯一名称类型系统非常严格每个操作都有明确的类型理解这种对应关系是编写IR生成器的基础。我建议初学者可以多尝试用clang生成不同C程序的IR观察其中的模式。2. LightIR API核心组件解析LightIR是对LLVM IR的轻量级封装提供了更友好的C接口。主要组件包括2.1 模块与类型系统Module类是IR的顶层容器相当于一个编译单元。创建模块auto module new Module(MyModule);LightIR支持常见的类型Type *int32Ty Type::get_int32_type(module); Type *floatTy Type::get_float_type(module); Type *arrayTy ArrayType::get(int32Ty, 10); // int[10]2.2 函数与基本块函数是LLVM IR中的核心结构// 创建函数类型返回int无参数 auto funcTy FunctionType::get(int32Ty, {}); // 创建函数 auto mainFunc Function::create(funcTy, main, module);基本块BasicBlock是函数的组成部分auto entryBB BasicBlock::create(module, entry, mainFunc);2.3 IRBuilder的使用IRBuilder是生成IR指令的主要工具auto builder new IRBuilder(nullptr, module); builder-set_insert_point(entryBB); // 设置插入位置 // 创建alloca指令 auto aAlloca builder-create_alloca(arrayTy);3. 手写IR生成器实战让我们实现一个完整的数组赋值IR生成器对应前面的assign.c示例。3.1 初始化设置#include BasicBlock.h #include Constant.h #include Function.h #include IRBuilder.h #include Module.h #include Type.h int main() { auto module new Module(ArrayAssign); auto builder new IRBuilder(nullptr, module); Type *int32Ty Type::get_int32_type(module); // 创建main函数 auto mainFunc Function::create( FunctionType::get(int32Ty, {}), main, module); auto entryBB BasicBlock::create(module, entry, mainFunc); builder-set_insert_point(entryBB);3.2 生成数组操作IR// int a[10]; auto arrayTy ArrayType::get(int32Ty, 10); auto aAlloca builder-create_alloca(arrayTy); // a[0] 10; auto a0GEP builder-create_gep( aAlloca, {ConstantInt::get(0, module), ConstantInt::get(0, module)}); builder-create_store(ConstantInt::get(10, module), a0GEP); // a[1] a[0] * 2; auto a0Load builder-create_load(a0GEP); auto mul builder-create_imul(a0Load, ConstantInt::get(2, module)); auto a1GEP builder-create_gep( aAlloca, {ConstantInt::get(0, module), ConstantInt::get(1, module)}); builder-create_store(mul, a1GEP); // return a[1]; auto retVal builder-create_load(a1GEP); builder-create_ret(retVal); // 输出生成的IR std::cout module-print(); delete module; return 0; }3.3 关键点解析create_gep用于计算数组元素地址第一个索引是数组指针的偏移通常为0第二个索引是数组内偏移LLVM IR要求显式处理指针和加载/存储操作常量使用ConstantInt::get创建避免直接使用原始值4. 处理控制流结构控制流条件分支、循环是编译器前端的重要功能。让我们看看如何生成if-else的IR。4.1 C源码示例// if.c int main() { float a 5.555; if (a 1.0) return 233; return 0; }4.2 IR生成实现// 创建基本块 auto entryBB BasicBlock::create(module, entry, mainFunc); auto trueBB BasicBlock::create(module, trueBB, mainFunc); auto falseBB BasicBlock::create(module, falseBB, mainFunc); auto retBB BasicBlock::create(module, retBB, mainFunc); builder-set_insert_point(entryBB); // float a 5.555; auto aAlloca builder-create_alloca(floatTy); builder-create_store(ConstantFP::get(5.555, module), aAlloca); // if (a 1.0) auto aLoad builder-create_load(aAlloca); auto cmp builder-create_fcmp_gt(aLoad, ConstantFP::get(1.0, module)); builder-create_cond_br(cmp, trueBB, falseBB); // true分支 builder-set_insert_point(trueBB); builder-create_store(ConstantInt::get(233, module), retAlloca); builder-create_br(retBB); // false分支 builder-set_insert_point(falseBB); builder-create_store(ConstantInt::get(0, module), retAlloca); builder-create_br(retBB); // 返回 builder-set_insert_point(retBB); auto retVal builder-create_load(retAlloca); builder-create_ret(retVal);4.3 浮点数处理技巧处理浮点数常量时需要注意不能直接使用store float 5.555需要使用ConstantFP::get并传递正确的位模式对于单精度浮点数可以使用0x40b1c28f这样的十六进制表示5. 函数调用与参数传递函数调用是编程语言的基本功能让我们看看如何在IR中处理。5.1 C源码示例// fun.c int callee(int a) { return 2 * a; } int main() { return callee(110); }5.2 IR生成实现// 创建callee函数 std::vectorType* params(1, int32Ty); auto calleeTy FunctionType::get(int32Ty, params); auto calleeFunc Function::create(calleeTy, callee, module); // callee函数体 auto calleeBB BasicBlock::create(module, entry, calleeFunc); builder-set_insert_point(calleeBB); auto aAlloca builder-create_alloca(int32Ty); // 获取函数参数 auto arg calleeFunc-arg_begin(); builder-create_store(arg, aAlloca); auto aLoad builder-create_load(aAlloca); auto mul builder-create_imul(ConstantInt::get(2, module), aLoad); builder-create_ret(mul); // main函数 auto mainBB BasicBlock::create(module, entry, mainFunc); builder-set_insert_point(mainBB); // 调用callee auto call builder-create_call(calleeFunc, {ConstantInt::get(110, module)}); builder-create_ret(call);5.3 参数处理要点函数参数通过Function::arg_begin()获取调用函数时参数需要包装在std::vectorValue*中被调用函数需要显式处理参数存储和加载6. 调试与验证技巧生成IR后验证其正确性至关重要。我常用的方法6.1 使用lli直接执行IR./my_generator output.ll lli output.ll echo $? # 查看返回值6.2 与clang生成的结果对比clang -S -emit-llvm test.c -o clang.ll diff output.ll clang.ll6.3 常见问题排查类型不匹配LLVM有严格的类型系统确保所有操作数类型匹配基本块终止每个基本块必须以终止指令ret/br等结束SSA形式确保每个值只被赋值一次指针处理区分指针和值正确使用load/store7. 性能优化建议虽然本文主要关注正确性但一些优化技巧也很重要减少冗余指令比如不必要的load/store使用mem2reg优化临时变量的alloca/load/store基本块布局合理安排基本块顺序减少跳转指令选择选择更高效的指令如用移位代替乘法在实际项目中我通常会先生成正确的IR然后再逐步引入优化。

相关文章:

从C代码到LLVM IR:手写LightIR生成器实战解析

1. 理解LLVM IR与C代码的对应关系 当你第一次看到LLVM IR(Intermediate Representation)时,可能会觉得它既熟悉又陌生。作为编译器开发者,理解C代码如何转换为LLVM IR是基本功。让我们从一个简单的C程序开始: // assig…...

从原始EEG到干净数据:手把手教你用EEGLAB完成一套完整的预处理流水线

从原始EEG到干净数据:EEGLAB预处理全流程实战指南 当你第一次打开EEG数据文件时,那些密密麻麻的波形图可能让你感到无从下手。就像一位厨师面对一堆未经处理的食材,我们需要一套系统的方法将它们转化为可分析的科学数据。本文将带你走进EEGLA…...

BERT文本分割模型:专治各种“文字墙”,让长篇报告秒变易读

BERT文本分割模型:专治各种"文字墙",让长篇报告秒变易读 1. 引言:当文字变成一堵墙 打开电脑,收到一份会议记录——密密麻麻几千字连成一片;下载一篇技术报告——从头到尾找不到段落分隔;整理采…...

多语言AI图像生成器NeoBabel开源发布

虽然文本到图像的生成技术正在迅速发展,但这些AI模型大多以英语为中心。这加剧了非英语使用者的数字不平等。阿姆斯特丹大学理学院的研究人员创建了NeoBabel,一个能够支持六种不同语言的AI图像生成器。通过将其研究的所有要素开源,任何人都可…...

比迪丽WebUI实战:用负向提示词精准去除多余肢体与背景干扰

比迪丽WebUI实战:用负向提示词精准去除多余肢体与背景干扰 1. 引言:当AI画图“画蛇添足”时 如果你用过AI绘画工具,一定遇到过这样的烦恼:明明只想画一个角色,结果AI给你画出了三只手;想要一个干净的背景…...

数组中有两个数据,将其变成字符串

数组两个数据 → 转字符串(3种最常用方式) 下面是直观图解 Vue/JS 直接复制代码1. 用逗号连接(最常用) 图示 数组:[2026-03-01, 2026-03-23]↓ join(,) 字符串:"2026-03-01,2026-03-23"代码 le…...

亲测有效!论文AI率直降40%的秘密:4个指令+3个技巧+1个神器

写完论文最崩溃的是什么?不是熬夜秃头,不是数据跑崩,而是查重时AI率超标!学校要求AI率低于15%,结果一查50%!改到怀疑人生还得重写,这种痛我太懂了… 不过别慌!我花了半个月实测各种…...

Vue3 + Element Plus 日期选择器:开始 / 结束时间,结束时间不超过今天

写一个完整可直接复制使用的示例,包含: 开始时间 ≤ 结束时间结束时间 最大只能选今天禁用逻辑联动(选完开始时间后,结束时间不能早于开始时间)支持 date / daterange 两种常用场景 完整代码(推荐&#xff…...

GigaWorld-Policy——以动作为中心的世界–动作模型

前言// 待更第一部分 GigaWorld-Policy: An Efficient Action-CenteredWorld–Action Model1.1 引言与相关工作1.1.1 引言如原论文所说,近期,一些工作(Cen 等,2025;Chang 等,2025;Ni等,2025&…...

养虾之腾讯QClaw安装和使用_不支持离线模型_但是可以一键接入微信---AI大模型应用探索0014

可以看到下载安装都是一键就可以了,我们主要看他的效果怎么样。安装以后可以直接下面有个默认大模型,点击开,可以看到不好。可以看到这里面。全是在线的厂商的模型,不能配置离线模型啊QCLAW 是闭源的商业软件所以还是不能无限toke…...

保姆级教程:用Python 3.8+和FunASR库,5分钟搞定SenseVoice语音大模型本地部署

5分钟极速部署SenseVoice语音大模型:Python 3.8实战指南 刚拿到新服务器时,最让人头疼的莫过于复杂的环境配置和依赖冲突。作为一款支持50语言识别、情感分析的多功能语音模型,SenseVoice的官方文档往往假设用户具备完善的开发环境——但现实…...

Ostrakon-VL-8B在复杂光照下的鲁棒性优化实战

Ostrakon-VL-8B在复杂光照下的鲁棒性优化实战 最近和几个做餐饮智能化的朋友聊天,他们都在吐槽同一个问题:后厨和大堂的摄像头识别系统一到晚上或者光线变化大的时候就“罢工”。要么是把土豆认成洋葱,要么是数不清盘子里还剩几块肉。这听起…...

PPT科研绘图:5分钟搞定三维螺口瓶绘制(附OK插件配置指南)

PPT科研绘图:5分钟搞定三维螺口瓶绘制(附OK插件配置指南) 在学术汇报和科研展示中,专业且精美的实验器材插图往往能大幅提升演示的说服力与观感。然而,许多科研工作者和高校师生在制作PPT时,常面临专业绘图…...

AD5330并行DAC驱动开发与嵌入式应用实战

1. SparkFun AD5330 库深度解析:面向嵌入式工程师的8位并行DAC驱动开发指南1.1 芯片级认知:AD5330的硬件本质与工程定位AD5330是Analog Devices(ADI)推出的单通道、8位分辨率、并行接口数字-模拟转换器(DAC&#xff09…...

Materials Studio多层聚合物建模全流程:从Build Layers到LAMMPS data文件导出避坑指南

Materials Studio多层聚合物建模全流程:从Build Layers到LAMMPS data文件导出避坑指南 在计算材料学领域,多层聚合物建模是研究界面相互作用、复合材料性能的重要基础。Materials Studio作为一款功能强大的分子模拟软件,提供了从建模到模拟的…...

Stable-Diffusion-v1-5-archive企业级部署教程:Supervisor守护+异常自动恢复配置

Stable-Diffusion-v1-5-archive企业级部署教程:Supervisor守护异常自动恢复配置 你是不是也遇到过这种情况:辛辛苦苦部署好的AI绘画服务,运行几天后突然挂掉,半夜收到报警还得爬起来手动重启?或者团队里其他人想用&am…...

Qwen2.5-VL多模态定位教程:零基础运行Chord图像目标检测

Qwen2.5-VL多模态定位教程:零基础运行Chord图像目标检测 1. 项目简介 1.1 什么是Chord视觉定位? Chord是一个基于Qwen2.5-VL多模态大模型的智能视觉定位服务。它能理解你的自然语言描述,在图片中精确找到你指定的目标,并用方框…...

【实战案例:基于特征匹配的指纹识别系统开发】

角点检测:角点(Corner)是图像中在两个或多个方向上灰度值发生剧烈变化的点。这些点通常包含丰富的信息,适用于特征匹配、目标跟踪、三维重建等任务。#------------------角点检测------------------------ #角点指图像中局部区域与…...

拆解液晶面板供电:用GH6121AC实现120mA双路输出的5个关键技巧

拆解液晶面板供电:用GH6121AC实现120mA双路输出的5个关键技巧 液晶面板的稳定供电是显示设备可靠运行的基础,而GH6121AC作为一款专为中小尺寸液晶面板优化的电源管理芯片,其双路120mA输出能力在3.3V系统中表现尤为突出。本文将深入剖析五个工…...

Ubuntu虚拟机IP卡在127.0.0.1?别慌,试试这个一键修复命令(附原理详解)

Ubuntu虚拟机IP卡在127.0.0.1的终极解决方案 刚装好的Ubuntu虚拟机突然上不了网,输入ifconfig只看到127.0.0.1这个回环地址?作为Linux新手,这种场景确实容易让人手足无措。但别担心,这其实是虚拟机环境下非常典型的网络配置问题。…...

Vite项目实战:利用Autoprefixer优化跨浏览器CSS兼容性

1. 为什么你的CSS在不同浏览器上表现不一致? 每次写完漂亮的CSS样式,打开Chrome一看效果完美,结果同事用Safari打开却发现布局错乱?这种场景前端开发者应该都不陌生。浏览器兼容性问题就像牛皮癣一样困扰着我们,特别是…...

万象熔炉 | Anything XL基础教程:模型加载日志解读与常见报错排查

万象熔炉 | Anything XL基础教程:模型加载日志解读与常见报错排查 你是不是也遇到过这种情况?满怀期待地启动一个AI绘画工具,结果控制台刷出一堆看不懂的日志,或者干脆弹出一个红色的错误提示,瞬间浇灭了创作的激情。…...

漫画脸描述生成创意玩法:反向提示词生成、风格迁移描述、跨作品融合设定

漫画脸描述生成创意玩法:反向提示词生成、风格迁移描述、跨作品融合设定 你是不是也遇到过这样的情况:脑子里有个特别酷的动漫角色形象,但就是不知道怎么用文字描述出来?或者想画个新角色,但想来想去都是那几个老套路…...

sdut-软件测试-软件测试概述1

1. 单选题 某网上购物软件,与京东、淘宝等现有主流系统操作流程一致,符合最终用户的使用习惯和操作模式,主要目的是为了改善 ISO/IEC 9126 质量模型中的( C )质量特性。 A. 功能性B. 可靠性C. 易用性D. 可维护性E.…...

Stable Yogi Leather-Dress-Collection免配置方案:自动检测显存并推荐最优参数

Stable Yogi Leather-Dress-Collection免配置方案:自动检测显存并推荐最优参数 想体验动漫风格的皮衣穿搭生成,但被复杂的模型配置和显存不足劝退?今天介绍的这个工具,或许能让你眼前一亮。 Stable Yogi Leather-Dress-Collecti…...

密码安全那些坑:为什么你的正则表达式可能漏掉键盘连续字符?

密码安全进阶:如何用正则表达式堵住键盘连续字符的漏洞? 当我们在设计密码策略时,常常会关注密码长度、字符多样性等基本要求,却忽略了一个关键的安全隐患——键盘连续字符。这类密码看似复杂,实则极易被破解工具识别。…...

Clawdbot部署实操:Qwen3-32B与LangChain/LlamaIndex生态无缝集成指南

Clawdbot部署实操:Qwen3-32B与LangChain/LlamaIndex生态无缝集成指南 1. 项目概述与核心价值 Clawdbot是一个统一的AI代理网关与管理平台,专门为开发者设计,提供了一个直观的界面来构建、部署和监控自主AI代理。这个平台通过集成的聊天界面…...

达摩院PALM春联模型应用场景:文旅景区AI楹联互动体验设计

达摩院PALM春联模型应用场景:文旅景区AI楹联互动体验设计 春节贴春联,是中国人传承千年的文化习俗。一副好的春联,不仅寓意吉祥,更能烘托节日氛围。但对于文旅景区、文化街区、博物馆等场所来说,每年为不同主题、不同…...

MacBook用户必看:Cursor免费版无限续杯的3种技术方案

1. Cursor免费版的试用限制解析 作为MacBook用户,你可能已经发现Cursor免费版存在一些使用限制。Cursor官方通过多重技术手段识别设备信息,包括硬件指纹、网络标识和账户关联等。当检测到同一设备频繁使用免费服务时,系统会自动触发限制机制。…...

实战解密il2cpp的global-metadata.dat文件:用IDA和VS Code逆向分析技巧

实战解密il2cpp的global-metadata.dat文件:用IDA和VS Code逆向分析技巧 在移动应用安全研究和游戏逆向工程领域,il2cpp作为Unity引擎的核心组件,其生成的global-metadata.dat文件承载着关键的类型信息和运行时元数据。本文将深入探讨如何通过…...