当前位置: 首页 > article >正文

ARM64架构手动编译libtorch,安装MKL/oneDNN加速模型推理,详细流程!

目录前言一、依赖环境二、下载pytorch源码三、下载oneDNN源码三、编译libtorch四、整理libtorch五、C调用libtorch前言libtorch官方并没有给出ARM64架构的安装文件在ARM64环境下libtorch需要手动编译。编译完成后发现模型推理速度太慢部分原因为手动编译的libtorch没有使用MKL加速工具安装MKL后重新编译libtorch后模型的推理速度提高了4-5倍。一、依赖环境cmake和gcc版本不能过低不然编译过程会报错。 gcc版本至少大于10.0。python环境所需安装pip install pyyaml二、下载pytorch源码git clone https://github.com/pytorch/pytorch --recursive cd pytorch # 下载子模块 git submodule sync git submodule update --init --recursive三、下载oneDNN源码cd到你的工作目录然后进行下载oneDNN源码文件。以我的工作目录为例cd /home/user/workspace wget https://github.com/oneapi-src/oneDNN/archive/refs/tags/v3.3.3.tar.gz --no-check-certificate安装配置# 解压 tar -xzvf v3.3.3.tar.gz cd oneDNN-3.3.3 # ARM平台代码适配 sed 2441s/.*/$(sed -n 2439p tests/gtests/graph/unit/backend/dnnl/test_conv.cpp)/ -i tests/gtests/graph/unit/backend/dnnl/test_conv.cpp # 创建构造目录 mkdir build cd build mkdir install # 编译注意修改路径 cmake -DCMAKE_INSTALL_PREFIX/home/user/workspace/oneDNN-3.3.3/build/install/ .. make -j make install # 检查安装目录是否有libdnnl.so 文件 ll install/lib64/三、编译libtorch修改环境变量# 华为服务器没有cuda关闭cuda export USE_CUDAFalse export BUILD_TESTFalse # 启用oneDNN加速库如果没有编译上述onnDNN源码则不添加该环境 export USE_MKLDNN1编译cd pytorch mkdir build cd build python ../tools/build_libtorch.py四、整理libtorch新建lintorch文件夹并将编译好的包整理到libtorch下。我的libtorch和pytorch在同一层级目录下。cd /home/user/workspace mkdir libtorch mkdir libtorch/share cp -r pytorch/torch/include/ libtorch/ cp -r pytorch/build/build/lib/ libtorch/ cp -r pytorch/torch/share/cmake/ libtorch/share/保证Libtorch的结构如下即可五、C调用libtorchCmakeList.txt文件示例cmake_minimum_required(VERSION 3.0 FATAL_ERROR) project(LibTorchDemo) set(CMAKE_CXX_STANDARD 17) set(CMAKE_CXX_STANDARD_REQUIRED True) # 设置 CMake 配置路径指向 libtorch 的 cmake 文件夹 set(CMAKE_PREFIX_PATH /home/user/workspace/libtorch/share/cmake) link_directories(/home/user/workspace/libtorch/lib) find_package(Torch REQUIRED) add_executable(digit digit.cpp) target_link_libraries(digit ${TORCH_LIBRARIES})六、进一步提高推理速度可选如果觉得速度还不够快可以开启BLAS加速。我的测试结果是可以在oneDNN加速后的推理速度上再提高2-2.5倍。安装openBLASsudo apt install libopenblas-dev gfortran进入pytorch目录并清理buildcd pytorch/build rm -rf * # 重新编译 python ../tools/build_libtorch.py重复步骤四整理libtorch文件。

相关文章:

ARM64架构手动编译libtorch,安装MKL/oneDNN加速模型推理,详细流程!

目录 前言: 一、依赖环境 二、下载pytorch源码 三、下载oneDNN源码 三、编译libtorch 四、整理libtorch 五、C调用libtorch 前言: libtorch官方并没有给出ARM64架构的安装文件,在ARM64环境下,libtorch需要手动编译。编译完成…...

简易CPU设计入门:内存读写(五)

专栏导航 上一篇:简易CPU设计入门:内存读写(四) 专栏目录 下一篇:无 项目代码下载 请大家首先准备好本项目所用的源代码。如果已经下载了,那就不用重复下载了。如果还没有下载,那么&#xf…...

JAVA软件开发岗位高频技术面筋(持续更新)

一.jdk8 特性 1.Lambda表达式 使用匿名内部类处理,减少内部类的编写,提高系统可读性。支持函数式编程。 2.Stream API 流操作数据时,外部变量声明为final,确保变量在Lambda表达式中不被修改。 支持并行流,实现原理多线…...

roop-unleashed 项目亮点解析

roop-unleashed 项目亮点解析 【免费下载链接】roop-unleashed Evolved Fork of roop with Web Server and lots of additions 项目地址: https://gitcode.com/gh_mirrors/ro/roop-unleashed 1. 项目的基础介绍 roop-unleashed 是一个开源项目,旨在提供一个…...

roop-unleashed 的项目扩展与二次开发

roop-unleashed 的项目扩展与二次开发 【免费下载链接】roop-unleashed Evolved Fork of roop with Web Server and lots of additions 项目地址: https://gitcode.com/gh_mirrors/ro/roop-unleashed 1、项目的基础介绍 roop-unleashed 是一个开源项目,旨在…...

开源项目 Adobe-GenP 亮点详解

开源项目 Adobe-GenP 亮点详解 【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP 1. 项目的基础介绍 Adobe-GenP 是一个开源项目,旨在为用户提供一个高效的…...

开源项目 Adobe-GenP 的扩展与二次开发潜力

开源项目 Adobe-GenP 的扩展与二次开发潜力 【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP 1. 项目的基础介绍 Adobe-GenP 是一个开源项目,旨在提供一种…...

【跟韩工学Ubuntu第2课】 第2章 磁盘、LVM、文件系统与扩容备份-001篇】

文章目录《Linux系统管理与服务配置》第2章 磁盘、LVM、文件系统与扩容备份2.1 磁盘基础:分区与分区表2.2 实战1:磁盘分区实操2.3 实战2:LVM逻辑卷管理2.4 实战3:文件系统管理2.5 实战4:磁盘扩容与数据备份2.6 课后习题…...

AI系列:AI时代必懂的基础概念扫盲

目录 第一篇章:核心概念三兄弟 1. 人工智能(AI):让机器模仿人的智能 2. 机器学习(ML):实现AI的一种方法 3. 深度学习(DL):机器学习中非常强大的一种技术 …...

linux系统 Ventoy 制作U启

比起君子讷于言而敏于行,我更喜欢君子善于言且敏于行。 目录 1. 下载 Ventoy 2. 解压压缩包 3. 插入U盘并确认设备名 4. 安装Ventoy到U盘(会格式化U盘) 5. 复制ISO文件 6. 使用启动盘 Ventoy的优点 1. 下载 Ventoy wget https://github.com/v…...

Webpack5 处理 CSS文件

1、背景Webpack 本身仅能处理Js文件,无法识别CSS文件及代码。因此需在webpack.config.js文件中进行单独处理。2、基础框架搭建1、搭建简单项目框架执行 npm install -y 指令,生成 package.json文件执行 npm install webpack webpack-cli html-webpack-pl…...

华为OD机试双机位C卷-最佳植树距离(C/C++/Py/Java/Js/Go)

最佳植树距离 华为OD机试真题目录点击查看: 华为OD机试双机位C卷真题题库目录|机考题库 + 算法考点详解 华为OD上机考试2026双机位C卷 华为OD机试双机位C卷 200分题型 题目描述 按照环保公司要求,小明需要在沙化严重的地区进行植树防沙工作,初步目标是种植一条直线的树带…...

jqdatasdk与Python量化策略结合:构建你的第一个交易模型

jqdatasdk与Python量化策略结合:构建你的第一个交易模型 【免费下载链接】jqdatasdk 简单易用的量化金融数据包(easy utility for getting financial market data of China) 项目地址: https://gitcode.com/gh_mirrors/jq/jqdatasdk jqdatasdk是一款简单易用…...

Awesome Programming for Kids揭秘:从Scratch Jr.到Python Turtle的完美进阶路径

Awesome Programming for Kids揭秘:从Scratch Jr.到Python Turtle的完美进阶路径 【免费下载链接】awesome-programming-for-kids A curated list of resources for teaching kids programming. 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-programmin…...

Zygisk API完全指南:用NeoZygisk开发模块的5个关键步骤

Zygisk API完全指南:用NeoZygisk开发模块的5个关键步骤 【免费下载链接】NeoZygisk Zygote injection with ptrace 项目地址: https://gitcode.com/gh_mirrors/ne/NeoZygisk NeoZygisk是一个基于ptrace的Zygote注入框架,它允许开发者构建模块并在…...

Awesome Programming for Kids深度解析:从玩具机器人到代码世界的桥梁

Awesome Programming for Kids深度解析:从玩具机器人到代码世界的桥梁 【免费下载链接】awesome-programming-for-kids A curated list of resources for teaching kids programming. 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-programming-for-kids…...

multierr与标准库兼容性:errors.Is和errors.As完美结合

multierr与标准库兼容性:errors.Is和errors.As完美结合 【免费下载链接】multierr Combine one or more Go errors together 项目地址: https://gitcode.com/gh_mirrors/mu/multierr multierr是一个功能强大的Go错误处理库,允许开发者将一个或多个…...

汉字拼音转换神器pinyin:一站式解决注音、排序与检索难题

汉字拼音转换神器pinyin:一站式解决注音、排序与检索难题 【免费下载链接】pinyin :cn: 汉字拼音 ➜ hn z pīn yīn 项目地址: https://gitcode.com/gh_mirrors/pi/pinyin 在中文信息处理领域,准确高效的汉字拼音转换工具是不可或缺的基础组件。…...

避免90%状态错误:ADK-Python变量引用与上下文管理完全指南

避免90%状态错误:ADK-Python变量引用与上下文管理完全指南 【免费下载链接】adk-python 一款开源、代码优先的Python工具包,用于构建、评估和部署灵活可控的复杂 AI agents 项目地址: https://gitcode.com/GitHub_Trending/ad/adk-python ADK-Pyt…...

解决ActualBudget项目Docker启动失败:从环境配置到日志分析的全流程指南

解决ActualBudget项目Docker启动失败:从环境配置到日志分析的全流程指南 【免费下载链接】actual A local-first personal finance app 项目地址: https://gitcode.com/GitHub_Trending/ac/actual ActualBudget是一款本地优先的个人财务管理应用,…...

终极解决方案:ActualBudget在GrapheneOS移动端的JIT编译问题全攻略

终极解决方案:ActualBudget在GrapheneOS移动端的JIT编译问题全攻略 【免费下载链接】actual A local-first personal finance app 项目地址: https://gitcode.com/GitHub_Trending/ac/actual ActualBudget作为一款本地优先的个人财务管理应用,为用…...

告别快捷键冲突:AeroSpace与DBeaver完美兼容的终极解决方案

告别快捷键冲突:AeroSpace与DBeaver完美兼容的终极解决方案 【免费下载链接】AeroSpace AeroSpace is an i3-like tiling window manager for macOS 项目地址: https://gitcode.com/GitHub_Trending/ae/AeroSpace AeroSpace作为一款类i3的macOS窗口管理器&am…...

CTPN vs 传统OCR:为什么它是自然场景文本检测的终极选择

CTPN vs 传统OCR:为什么它是自然场景文本检测的终极选择 【免费下载链接】CTPN Detecting Text in Natural Image with Connectionist Text Proposal Network (ECCV16) 项目地址: https://gitcode.com/gh_mirrors/ct/CTPN CTPN(Connectionist Tex…...

Deepagents测试策略:确保AI代理系统的可靠性

Deepagents测试策略:确保AI代理系统的可靠性 【免费下载链接】deepagents Deepagents is an agent harness built on langchain and langgraph. Deep agents are equipped with a planning tool, a filesystem backend, and the ability to spawn subagents - makin…...

如何快速上手wmiexec-Pro?从安装到基本命令执行的完整指南

如何快速上手wmiexec-Pro?从安装到基本命令执行的完整指南 【免费下载链接】wmiexec-Pro New generation of wmiexec.py 项目地址: https://gitcode.com/gh_mirrors/wm/wmiexec-Pro wmiexec-Pro是新一代的wmiexec.py工具,专为Windows管理规范&…...

探索Swaptube分形渲染:Mandelbrot与Julia集的视觉艺术

探索Swaptube分形渲染:Mandelbrot与Julia集的视觉艺术 【免费下载链接】swaptube youtube video renderer 项目地址: https://gitcode.com/gh_mirrors/sw/swaptube Swaptube是一个功能强大的YouTube视频渲染项目,专注于分形艺术的视觉呈现。它通过…...

终极指南:如何突破K9s权限壁垒,轻松解决受限环境下的资源跳转难题

终极指南:如何突破K9s权限壁垒,轻松解决受限环境下的资源跳转难题 【免费下载链接】k9s 🐶 Kubernetes CLI To Manage Your Clusters In Style! 项目地址: https://gitcode.com/GitHub_Trending/k9s/k9s K9s是一款功能强大的Kubernete…...

告别复杂时间计算:ngx-moment让Angular开发效率提升300%

告别复杂时间计算:ngx-moment让Angular开发效率提升300% 【免费下载链接】ngx-moment urish/ngx-moment: 是一个用于 Angular 应用的时间处理库,可以方便地在 Angular 应用中处理和显示时间。适合对 Angular、时间处理和想要实现时间处理功能的开发者。 …...

告别传统复制粘贴!yanky.nvim的剪贴板历史管理功能详解

告别传统复制粘贴!yanky.nvim的剪贴板历史管理功能详解 【免费下载链接】yanky.nvim Improved Yank and Put functionalities for Neovim 项目地址: https://gitcode.com/gh_mirrors/ya/yanky.nvim yanky.nvim是一款专为Neovim打造的剪贴板增强插件&#xff…...

Geb自动化测试框架完全指南:从入门到精通的Groovy浏览器测试神器

Geb自动化测试框架完全指南:从入门到精通的Groovy浏览器测试神器 【免费下载链接】geb Very Groovy Browser Automation 项目地址: https://gitcode.com/gh_mirrors/ge/geb Geb是一款基于Groovy语言的浏览器自动化测试框架,它构建在WebDriver之上…...