当前位置：首页 > article >正文

ScaleHLS：基于MLIR的下一代HLS编译器框架，实现FPGA高性能计算与AI加速

article 2026/5/9 0:59:01

1. 项目概述ScaleHLS一个基于MLIR的下一代HLS编译器框架如果你正在FPGA现场可编程门阵列领域进行高性能计算或AI加速器的开发那么“高抽象层级设计”与“后端实现效率”之间的矛盾一定是你绕不开的痛点。传统的HLS高层次综合工具如Vivado HLS虽然允许你用C/C或SystemC描述硬件行为但其优化过程往往像一个黑盒对复杂循环嵌套、数据流和内存层次结构的处理能力有限导致生成的RTL寄存器传输级代码在性能、面积和功耗上远未达到手工优化的水平。更棘手的是当你的算法模型来自PyTorch等深度学习框架时如何将其高效、自动地映射到FPGA硬件上更是一个充满挑战的工程问题。今天要深入探讨的正是为解决这些痛点而生的一个前沿开源项目——ScaleHLS。它并非另一个简单的HLS工具包装而是一个构建在LLVM/MLIR基础设施之上的、全新的、可扩展的HLS编译框架。简单来说ScaleHLS的核心思想是“分而治之”与“因材施教”。它将一个复杂的硬件设计无论是C内核还是PyTorch模型分解成MLIR中多个不同抽象级别的中间表示IR然后在最合适的层级上施加最有效的优化变换。这就像你要装修一栋房子传统HLS可能只给你一张最终效果图就开始施工而ScaleHLS则提供了从建筑结构图、水电管线图到室内设计图的全套蓝图允许你在每一层图纸上进行精细化的调整和优化。我之所以花大量时间研究ScaleHLS是因为它在两个关键点上做出了突破一是可扩展性Scalability通过MLIR的多级IR机制它能更好地适配从张量运算到循环展开等不同粒度的优化二是自动化探索Automation其内置的设计空间探索引擎能自动尝试多种优化策略的组合如循环分块、流水线、数组分区寻找接近最优的硬件实现方案。对于硬件工程师和算法工程师而言这意味着你可以用更高级的语言描述功能同时获得对硬件实现细节前所未有的可控性和优化潜力最终目标是生成高质量、可直接交付给Vivado HLS等下游工具进行综合的C/C代码。2. 核心架构与设计哲学解析2.1 为什么是MLIR理解ScaleHLS的基石要理解ScaleHLS必须先理解其基石——MLIR。MLIR并非一个具体的编译器而是一个用于构建可重用、可扩展编译基础设施的框架。它的核心创新在于“多级中间表示”。传统的编译器如LLVM通常只有一种主要的IR所有优化都在这一层进行。但对于HLS这种涉及高级算法语义和低级硬件细节的领域单一层级的IR显得力不从心。ScaleHLS充分利用了MLIR的这一特性构建了一个垂直集成的编译栈。一个典型的编译流程可能会经历以下几个关键IR层级前端级IR例如torchdialect对应PyTorch模型或通过Polygeist前端从C/C生成的affinedialect对应循环嵌套。这一层保留了最高级的算法语义。HLS专用级IR这是ScaleHLS的核心创新层例如scalehls.linalg或scalehls.loop等dialect。在这一层编译器开始理解硬件相关的概念如流水线pipeline、数据流dataflow、存储层次memory hierarchy和接口协议interface protocol。底层硬件近似的IR在应用了循环变换、数组分区、流水线打拍等优化后代码会被逐步lower到更接近硬件描述的IR如scf结构化控制流、cf控制流和最终的llvmIR或vhdl/verilogdialect未来可能。这种分层策略的优势是显而易见的。优化可以在最合适的抽象级别进行例如在高级别进行算法层面的数据重用分析在中级别进行循环变换和流水线调度在低级别进行具体的资源绑定和状态机生成。每一层的变换都更专注、更高效并且不同层级的优化可以组合起来产生“112”的效果。2.2 ScaleHLS框架组件深度拆解根据项目文档和源码结构我们可以将ScaleHLS框架解构成几个核心组件1. 前端接口层C/C前端依赖于子模块polygeist。它是一个将C/C代码特别是带有动态指针和复杂控制流的代码提升raise到MLIRaffinedialect的工具。affinedialect非常适合表示规整的循环嵌套和数据访问模式是进行循环优化如分块、交换、融合的理想起点。PyTorch前端依赖于Torch-MLIR项目。它将PyTorch的模型图通过TorchScript导出导入并转换为MLIR的torchdialect再经过一系列 lowering 步骤最终转换为以线性代数运算为核心的linalgdialect。这为从深度学习框架直接进行硬件综合提供了可能。2. 核心优化与变换库这是ScaleHLS的“大脑”。它包含了一系列用C和Python绑定编写的HLS专用分析和变换Pass编译过程。这些Pass操作在不同的MLIR dialect上实现诸如循环优化循环分块tiling、流水线pipelining、展开unrolling、融合fusion、交换interchange。数据布局优化数组分区array partitioning、重塑reshaping旨在提升内存带宽利用率减少访问冲突。设计空间探索引擎这是ScaleHLS的亮点。它不是一个单一的Pass而是一个元优化器。给定一个初始设计和一个目标规格如目标时钟周期、资源约束DSE引擎会自动尝试上述各种变换的不同参数组合例如不同的分块大小、不同的流水线启动间隔II评估每个候选设计的性能/面积预估并采用搜索算法如模拟退火、遗传算法来寻找 Pareto 最优解。3. 后端代码生成层经过优化后的MLIR表示最终会通过scalehls-translate工具被“翻译”回高度优化的、符合下游HLS工具主要是Xilinx Vivado HLS编码风格的C/C代码。这一步至关重要因为它决定了优化成果能否被传统工具链正确继承。生成的代码通常会包含大量的#pragma HLS指令用于指导Vivado HLS进行最终的RTL生成。注意ScaleHLS目前主要面向Xilinx Vivado HLS生态。虽然其架构是开放的但要适配其他厂商的HLS工具如Intel HLS Compiler需要重写或调整其后端代码生成部分。3. 从零开始ScaleHLS环境搭建与编译实操纸上得来终觉浅绝知此事要躬行。下面我将带你完整走一遍ScaleHLS的搭建和编译流程并附上我踩过的一些坑和解决方案。3.1 系统准备与依赖安装ScaleHLS的编译依赖一个健康的LLVM/MLIR环境。官方推荐使用其脚本自动构建但这要求你的系统具备完整的开发工具链。基础依赖安装以Ubuntu 20.04/22.04为例# 更新系统并安装基础编译工具 sudo apt update sudo apt install -y build-essential cmake ninja-build git python3 python3-pip # 安装LLVM/Clang相关工具ScaleHLS需要特定版本但脚本会自行编译LLVM此处安装系统版仅为辅助 sudo apt install -y clang lld # 安装Python绑定可选依赖 pip3 install pybind11 numpy关键点解析ninja比make更快的构建系统MLIR项目几乎都推荐使用它。clang和lldScaleHLS的构建脚本可能会用到系统的Clang作为宿主编译器lld链接器可以加速大型项目的链接过程。pybind11用于生成C库的Python绑定如果你想通过Python API调用ScaleHLS的优化能力则必须安装。3.2 源码获取与项目编译步骤一克隆仓库务必使用--recursive参数因为ScaleHLS依赖polygeist和llvm-project等子模块。git clone --recursive https://github.com/UIUC-ChenLab/scalehls.git cd scalehls如果因为网络问题克隆子模块失败可以进入目录后反复执行git submodule update --init --recursive直到成功。步骤二执行构建脚本项目根目录下的build-scalehls.sh脚本自动化了整个构建过程包括编译LLVM、MLIR、Polygeist和ScaleHLS本身。# 基础构建启用并行编译以加快速度根据你的CPU核心数调整-j后的数字 ./build-scalehls.sh -j $(nproc) # 如果你需要Python绑定功能则必须加上 -p ON 参数 ./build-scalehls.sh -p ON -j $(nproc)实操心得与避坑指南内存要求完整编译LLVM和ScaleHLS是一个内存消耗巨大的过程。建议系统内存至少为8GB如果遇到编译过程中被kill大概率是内存不足。可以尝试减少并行任务数如使用-j 2。磁盘空间整个构建目录build/最终可能会占用20GB以上的磁盘空间请确保所在分区有足够容量。时间成本在普通台式机上首次完整构建可能需要1-2小时请保持耐心。构建成功后后续增量编译会很快。Python虚拟环境强烈建议在构建和后续使用Python绑定前创建一个独立的Python虚拟环境避免污染系统Python环境。python3 -m venv scalehls_venv source scalehls_venv/bin/activate # 在此虚拟环境中安装pybind11和numpy然后执行带 -p ON 的构建脚本步骤三配置环境变量构建成功后为了方便使用需要将生成的工具路径加入环境变量。# 在scalehls项目根目录下执行 export PATH$PWD/build/bin:$PWD/polygeist/build/bin:$PATH export PYTHONPATH$PWD/build/tools/scalehls/python_packages/scalehls_core:$PYTHONPATH为了方便你可以将这两行命令添加到你的shell配置文件如~/.bashrc或~/.zshrc中。3.3 验证安装运行以下命令如果能看到帮助信息说明核心工具链安装成功。scalehls-opt --help | head -20 cgeist --help | head -204. 实战演练一优化C/C内核以矩阵乘法为例让我们用一个经典的gemm通用矩阵乘法例子来感受ScaleHLS的自动化优化能力。示例代码位于samples/polybench/gemm/。4.1 原始C代码与手动优化困境原始test_gemm.c代码通常是类似这样的三层嵌套循环void test_gemm(int ni, int nj, int nk, double *A, double *B, double *C) { for (int i 0; i ni; i) { for (int j 0; j nj; j) { double sum 0; for (int k 0; k nk; k) { sum A[i*nk k] * B[k*nj j]; } C[i*nj j] sum; } } }手动为这种代码编写高效的HLS实现是繁琐的你需要决定哪个循环可以流水线化循环体是否要展开数组A、B、C应该如何分区完全分区、块分区、循环分区以匹配计算吞吐量循环顺序i, j, k是否应该交换以优化局部性。这是一个多维度的设计空间手动探索效率极低。4.2 使用ScaleHLS进行自动化设计空间探索ScaleHLS通过一个config.json文件来定义设计目标和约束。这个文件是DSE引擎的“寻宝图”。步骤一生成初始MLIR使用cgeistPolygeist的一部分将C代码解析为MLIR的affine表示。cd samples/polybench/gemm cgeist test_gemm.c -functiontest_gemm -S -memref-fullrank -raise-scf-to-affine test_gemm.mlir-functiontest_gemm指定要处理的顶层函数。-memref-fullrank生成多维的memref类型MLIR中用于表示内存缓冲区的类型这有利于后续的数组分区分析。-raise-scf-to-affine将较低级的scf循环提升为更规整、更适合优化的affine循环。生成的test_gemm.mlir文件是人类可读的MLIR代码描述了算法的循环结构和数据访问。步骤二启动DSE引擎并生成优化代码这是最关键的一步。我们使用scalehls-opt工具加载DSE引擎的Pass。scalehls-opt test_gemm.mlir -debug-onlyscalehls \ -scalehls-dse-pipelinetop-functest_gemm target-spec../config.json \ | scalehls-translate -scalehls-emit-hlscpp test_gemm_dse.cpp-debug-onlyscalehls启用ScaleHLS相关的调试输出可以在终端看到DSE引擎正在尝试的变换和评估结果对于理解其工作过程非常有帮助。-scalehls-dse-pipeline指定DSE流水线Pass并传入参数。top-functest_gemm指定顶层函数名。target-spec../config.json指定包含目标频率、资源约束和优化指令如“尝试流水线化所有循环”的配置文件。scalehls-translate -scalehls-emit-hlscpp将优化后的MLIR转换回C代码。步骤三解读优化结果打开生成的test_gemm_dse.cpp你会看到代码已经面目全非。ScaleHLS可能应用了如下变换循环分块将大的i、j、k循环分解为外层块循环和内层元素循环以提升缓存/BRAM的局部性。循环流水线在内层最关键的循环可能是k循环或分块后的内层循环上添加了#pragma HLS pipeline并尝试最小化启动间隔II。数组分区为数组A、B、C添加了#pragma HLS array_partition指令可能是完全分区或循环分区以提供足够的数据端口供流水线内的操作并行访问。循环展开可能将某些内层小循环完全展开以暴露更多的指令级并行。config.json文件配置精要一个典型的配置文件可能包含{ target: { clock_period: 5, // 目标时钟周期单位ns对应200MHz频率 resources: { // 目标FPGA芯片的资源约束可选用于评估面积 DSP: 1000, BRAM: 500, LUT: 100000 } }, directives: { // 给DSE引擎的优化指令 pipeline_loops: all, // 尝试流水线化所有循环 explore_tiling: true, // 探索循环分块 explore_partitioning: true // 探索数组分区 } }DSE引擎会根据这个配置在变换空间中搜索使用一个成本模型综合预估的时钟周期数、资源使用量来评估每个设计点的优劣最终输出它认为的“最优”或“较优”实现。5. 实战演练二从PyTorch模型到HLS代码以ResNet-18为例将深度学习模型部署到FPGA是当前的热点。ScaleHLS通过集成Torch-MLIR打通了从PyTorch到优化HLS代码的路径。5.1 环境准备安装Torch-MLIRTorch-MLIR是连接PyTorch和MLIR世界的桥梁。ScaleHLS的示例要求安装其预编译版本。# 创建并激活一个新的虚拟环境避免与ScaleHLS的Python绑定环境冲突 python -m venv torch_mlir_venv source torch_mlir_venv/bin/activate # 安装Torch-MLIR及其依赖注意请始终从官方仓库获取最新安装命令 pip install --pre torch-mlir torchvision -f https://llvm.github.io/torch-mlir/package-index/ --extra-index-url https://download.pytorch.org/whl/nightly/cpu重要提示Torch-MLIR和PyTorch的版本兼容性要求很严格。务必按照ScaleHLS项目README或示例目录中的说明安装指定版本否则极易出现导入错误或运行时错误。5.2 模型导出与MLIR生成进入ResNet-18示例目录cd samples/pytorch/resnet18查看resnet18.py其核心工作是使用Torch-MLIR的API将PyTorch模型导出为MLIR。关键步骤通常包括加载预训练的ResNet-18模型。准备一个示例输入张量。使用torch_mlir.compile函数将模型和输入编译到torchdialect的MLIR。将torchdialect逐步lower到linalgdialect线性代数这是ScaleHLS优化的主要入口点。执行脚本生成MLIR# 确保在torch_mlir_venv虚拟环境中 python3 resnet18.py resnet18.mlir生成的resnet18.mlir文件包含了模型在linalgdialect下的表示其中主要是linalg.generic操作代表了矩阵乘法、卷积等张量运算。5.3 使用ScaleHLS优化与代码生成现在我们使用ScaleHLS的专用Pass-scaleflow-pytorch-pipeline来优化这个MLIR表示。# 确保PATH环境变量已包含scalehls-opt在ScaleHLS的构建环境中 scalehls-opt resnet18.mlir \ -scaleflow-pytorch-pipelinetop-funcforward loop-tile-size8 loop-unroll-factor4 \ | scalehls-translate -scalehls-emit-hlscpp resnet18.cpp-scaleflow-pytorch-pipeline这是针对PyTorch模型通过Torch-MLIR导入的优化流水线。top-funcforward指定模型的入口函数通常是forward。loop-tile-size8指定循环分块的大小。这里是一个全局提示实际DSE过程可能会调整。loop-unroll-factor4指定循环展开因子。优化逻辑解析对于像ResNet这样的CNN模型ScaleHLS会识别出其中的卷积层、全连接层等。优化过程包括循环变换将卷积的N批大小、C通道、H高、W宽、K输出通道、R卷积核高、S卷积核宽等多维循环进行分块、重排序以最大化数据复用例如将输入特征图块缓存在片上内存。数据布局转换可能将数据从NCHW格式转换为更适合FPGA流水线计算的格式。操作符融合将相邻的线性代数操作如卷积偏置激活融合在一起减少中间结果的写回和读取提升效率。生成的resnet18.cpp是一个巨大的、高度优化的、但可读性较差的C文件其中包含了所有层的计算逻辑并插满了HLS Pragmas可以直接交给Vivado HLS进行综合。6. 常见问题、调试技巧与进阶指南在实际使用ScaleHLS的过程中你一定会遇到各种问题。以下是我总结的一些常见坑点及其解决方法。6.1 编译与构建问题问题现象可能原因解决方案git clone --recursive失败网络问题子模块仓库无法访问1. 使用https而非git协议。2. 分步克隆先克隆主仓库再进入目录反复执行git submodule update --init --recursive --depth 1。构建时CMake Error提示找不到LLVMCMake路径配置问题确保在项目根目录执行构建脚本脚本会自动处理LLVM的下载和编译。不要手动设置LLVM_DIR。编译过程中内存不足被kill并行任务过多内存耗尽减少构建并行度./build-scalehls.sh -j 2。或者增加系统交换空间swap。Python绑定导入错误 (ImportError)Python路径未设置或虚拟环境冲突1. 确认PYTHONPATH环境变量已正确设置。2. 确认你使用的Python解释器与构建时-p ON指定的环境一致。3. 尝试在ScaleHLS项目根目录的build文件夹内直接运行Python测试。6.2 工具运行与优化问题问题现象可能原因解决方案cgeist解析C代码失败报语法错误C代码使用了Polygeist不支持的语法如复杂的宏、特定的GCC扩展1. 简化测试代码使用最标准的C99语法。2. 检查代码中是否包含scalehls不支持的动态内存分配malloc/free尽量使用静态数组或堆栈数组。scalehls-opt运行DSE时卡住或耗时极长设计空间太大DSE搜索陷入组合爆炸1. 在config.json中通过directives限制搜索范围例如只对最内层循环尝试流水线。2. 减小循环边界如果用于测试。3. 使用-debug-onlyscalehls观察DSE进度如果发现它在反复评估相似配置可以手动指定一些优化参数绕过DSE。生成的HLS代码在Vivado HLS中综合失败ScaleHLS生成的Pragma语法有误或代码结构不符合Vivado HLS要求1.这是当前常见问题。ScaleHLS仍处于活跃开发阶段后端生成器可能不完美。2. 手动检查生成的.cpp文件修复明显的语法错误如多余的括号、错误的作用域。3. 将问题简化提交到GitHub仓库的Issue中附上输入MLIR和错误信息。性能预估与Vivado HLS实际综合结果差距大ScaleHLS的成本模型是预估的与Vivado HLS的实际综合器有偏差1. ScaleHLS的评估模型主要用于相对比较不同优化方案而非绝对精度。2. 将DSE筛选出的几个最优候选设计都实际运行Vivado HLS综合选取真实结果最好的一个。6.3 调试与性能分析技巧善用调试输出-debug-onlyscalehls参数是理解ScaleHLS内部工作的最佳窗口。它会打印出DSE引擎尝试的每一种变换、循环的II启动间隔预估、资源使用预估等信息。通过分析这些输出你可以判断优化是否按预期进行。分阶段优化不要一开始就运行完整的DSE。可以先用scalehls-opt运行单个Pass来观察效果例如# 只应用循环分块变换 scalehls-opt input.mlir -scalehls-loop-tiletile-sizes64,64,64 output_tiled.mlir # 查看分块后的MLIR cat output_tiled.mlir可视化MLIRMLIR文本对于复杂模型可读性差。可以尝试将MLIR输出为.dot图文件然后用Graphviz工具查看。虽然ScaleHLS没有直接提供此功能但MLIR核心的-view-op-graph等Pass有时可用。与原始HLS对比始终保留一份未经ScaleHLS优化的、手写或基础版本的HLS代码。将ScaleHLS优化后的代码与它一起在Vivado HLS下综合对比频率、资源利用率、吞吐量等关键指标这是衡量ScaleHLS价值的唯一标准。6.4 进阶使用与二次开发如果你不满足于使用命令行工具希望更灵活地控制优化流程或者为特定算法定制优化策略那么ScaleHLS的C和Python API为你打开了大门。C API你可以编写自己的MLIR Pass集成到ScaleHLS的编译流程中。这需要你熟悉MLIR框架和C编程。主要工作目录在include/scalehls和lib下。Python API如果构建时启用了-p ON你可以使用pyscalehls工具或直接导入scalehlsPython模块。这为快速原型设计和交互式优化提供了可能。例如你可以写一个Python脚本遍历不同的分块大小调用ScaleHLS库进行评估然后绘制性能-面积曲线。ScaleHLS代表了一种趋势将硬件编译从封闭的、黑盒的工程转变为开放的、基于现代编译器技术的、可定制和可扩展的科学。它目前仍是一个学术驱动的前沿项目在易用性、稳定性和对复杂工业设计的支持上还有很长的路要走。但它所提供的范式——基于多级IR的、可组合的、自动搜索的硬件编译——无疑是解决HLS生产力与性能矛盾的一盏明灯。对于研究者、敢于尝试新工具的开发者和追求极致性能的硬件加速团队来说投入时间学习并参与贡献ScaleHLS很可能是在为未来的硬件设计方法论进行投资。

ScaleHLS：基于MLIR的下一代HLS编译器框架，实现FPGA高性能计算与AI加速

相关文章：

ScaleHLS：基于MLIR的下一代HLS编译器框架，实现FPGA高性能计算与AI加速

大模型行业全景解析：职位分类、薪资、面试技巧与人才寻访策略全攻略！

AI新闻完整摘要与链接汇总-2026年5月8日

Hugging Face Datasets库实战：高效数据处理与多模态支持

如何找到Dev-C++中MinGW的安装路径

生产环境 JVM 参数实战计算指南

钉钉机器人技能框架dingtalk-skills：从简单回复到智能业务代理的架构实践

构建可编程.NET内存分析工具：从原理到实战

金融研究AI智能体：文献综述技能部署与高效使用指南

MCP协议下的文档智能读取：构建AI工具的统一文件处理接口

移动互联网设备(MID)技术解析与OMAP 3平台架构剖析

AI应用集成利器：a2a-adapter如何统一多模型API调用

AI智能体开发框架解析：从模块化架构到实战应用

R语言本地大模型应用指南：ollamar包集成Ollama实战

神经渲染“魔法”之源：一文读懂位置编码的奥秘与未来

神经渲染革命：一文读懂坐标网络的前世今生与未来战场

从零到一：手把手教你用YonBuilder for NCC搭建NC Cloud 2021.11开发环境（含M1 Mac避坑指南）

神经渲染混合表示全解析：从Instant-NGP到3DGS的进化之路

神经渲染显式表示：从3DGS到产业落地，一篇讲透核心与未来

从零构建AI编程伙伴：Cursor最佳实践深度配置指南

Windows 操作系统 - Windows 查看架构类型

开源机械爪框架openclaw-mini：轻量可编程，快速实现自动化抓取

H公司装配线平衡改进间歇泉算法优化方法【附FlexSim仿真】

Obsidian 的附件管理

直击论文AI检测：我花了3天实测10款降AI工具，这篇防坑指南建议收藏！

2026论文降AIGC实战SOP：实测10款工具，教你稳稳压至25%安全线

如何轻松捕获网页视频资源？猫抓浏览器扩展的全新解决方案

Nmap 完全使用指南：从入门到精通

GPT-4o图像提示词实战：从原理到六大场景的AI绘画进阶指南

3400华夏之光永存·（开源）：黄大年茶思屋「34期」题目总纲