当前位置: 首页 > article >正文

OpenVINO™正式进入 llama.cpp:GGUF 模型现已支持 Intel CPU、GPU 与 NPU

作者武卓过去在 llama.cpp 里跑 GGUF 模型这件事逻辑一直很清晰选模型、下模型、运行起来。简单、直接而且足够高效。这也是为什么 GGUF 和 llama.cpp 直到今天依然是本地大模型开发里最受欢迎的组合之一。但当越来越多开发者开始把目光投向 Intel 平台上的CPU、GPU尤其是 NPU一个更现实的问题也随之出现能不能不改变熟悉的 GGUF 工作流就把模型更自然地跑在不同 Intel 设备上现在这件事有了更清晰的答案。OpenVINO™ 已经正式进入 llama.cpp 主仓库成为官方后端之一。这意味着开发者不需要放弃熟悉的 llama.cpp 工具链也不需要切换到另一套全新的软件栈就可以在Intel® CPU、GPU 和 NPU上运行 GGUF 模型。这件事真正有价值的地方不只是“多了一个后端”。更重要的是它为 Intel 平台带来了一条统一的执行路径继续使用熟悉的GGUF 模型继续使用熟悉的llama.cpp 工作流同时通过 OpenVINO™在 IntelCPU / GPU / NPU上获得一致的后端支持在底层GGML 计算图会被转换为 OpenVINO™ 图并利用 OpenVINO™ 的编译、缓存与面向设备的优化能力来执行。而对于开发者来说最直接的感受就是工作流不用变但可用设备变多了部署路径也更顺了。这篇文章不会停留在概念介绍上。我们将直接从实操出发一步一步完成下面这件事在 Windows 环境下构建带 OpenVINO™ 后端的 llama.cpp并在 Intel CPU、GPU 或 NPU 上跑通一个 GGUF 模型。如果你已经熟悉 llama.cpp那么这篇文章会帮助你快速上手 OpenVINO™ 后端。如果你正在做 AI PC 或 Intel 平台上的本地 AI 应用这也是一个非常值得关注的新能力。OpenVINO™ 后端为 llama.cpp 带来了什么这个后端为 llama.cpp 提供了一条统一的 Intel 执行路径覆盖CPU、GPU 和 NPU对于 AI PC 场景下的开发尤其有价值。同一个 GGUF 模型可以更自然地部署到不同的 Intel 客户端设备上而不需要迁移到另一套软件栈。它支持 Intel CPU、GPU 和 NPU支持的格式包括FP16Q8_0Q4_0Q4_1Q4_KQ4_K_M同时也支持在运行时转换Q5_K和Q6_K。对于开发者来说价值很直接保留熟悉的 llama.cpp 工作流继续使用 GGUF 模型同时在 Intel 硬件上获得一条统一的后端路径。目录本文将按以下步骤介绍如何使用 OpenVINO™ 后端构建并运行 llama.cpp前置准备第 1 步准备环境第 2 步使用 OpenVINO™ 后端构建 llama.cpp第 3 步下载一个示例模型进行测试第 4 步选择设备并通过 OpenVINO™ 后端运行推理总结分步指南使用 OpenVINO™ 后端构建并运行 llama.cppllama.cpp 中的 OpenVINO™ 后端同时支持Linux和Windows。整体流程并不复杂准备环境、克隆仓库、使用 -DGGML_OPENVINOON 进行构建、下载 GGUF 模型然后在运行时通过环境变量选择CPU、GPU 或 NPU。下面的步骤将以Windows为例演示如何使用 OpenVINO™ 后端构建并运行 llama.cpp。为了让文章更简洁Linux 对应的环境准备与运行方式请参考官方文档https://github.com/ggml-org/llama.cpp/blob/master/docs/backend/OPENVINO.md前置准备下载并安装Microsoft Visual Studio 2022 Build Tools。安装时请选择Desktop development with C 。打开一个 PowerShell 窗口执行以下命令安装依赖工具:winget install Git.Gitwinget install GNU.Wgetwinget install Ninja-build.Ninja使用 vcpkg安装OpenCL 在同一个PowerShell 窗口中:cd C:\git clone https://github.com/microsoft/vcpkgcd vcpkg.\bootstrap-vcpkg.bat.\vcpkg install opencl# 可选但推荐执行以下命令将 vcpkg 集成到 Visual Studio / CMake.\vcpkg integrate install如果你处在本地代理环境下且 vcpkg 在下载依赖时失败可以设置代理set HTTP_PROXYhttp://127.0.0.1:10809set HTTPS_PROXYhttp://127.0.0.1:10809请参考官方安装指南从压缩包安装OpenVINO™ RuntimeLinux|Windows第一步准备环境从克隆主仓库开始:git clone https://github.com/ggml-org/llama.cppcd llama.cpp第二步使用 OpenVINO™ 后端构建 llama.cpp打开一个 x64 Native Tools Command Prompt for VS 2022 窗口。首先初始化 OpenVINO™ 环境C:\Program Files (x86)\Intel\openvino_2026.0.0\setupvars.bat然后执行以下命令进行构建cmake -S . -B build/ReleaseOV -G Ninja -DCMAKE_BUILD_TYPERelease -DGGML_OPENVINOONcmake --build build/ReleaseOV --parallel第三步下载一个示例模型进行测试作为示例模型我们可以使用如下命令下载 Llama-3.2-1B-Instruct-Q4_0.gguf。 在官方文档中还列出了更多已验证模型覆盖 Llama, Qwen, Phi, MiniCPM, Hunyuan, Mistral, 以及蒸馏版DeepSeek 等。mkdir C:\modelscurl -L https://huggingface.co/unsloth/Llama-3.2-1B-Instruct-GGUF/resolve/main/Llama-3.2-1B-Instruct-Q4_0.gguf -o C:\models\Llama-3.2-1B-Instruct-Q4_0.gguf第四步选择设备并通过 OpenVINO™ 后端运行推理在运行时OpenVINO™ 后端允许你通过环境变量 GGML_OPENVINO_DEVICE 来选择执行设备。你可以选择:CPUGPUNPU如果系统中有多个 GPU也可以显式指定 GPU.0 或 GPU.1。这正是 llama.cpp 中 OpenVINO™ 后端的一个实用价值在保持 GGUF 工作流不变的前提下用同一条后端路径覆盖 Intel CPU、GPU 和 NPU。运行示例运行 llama-simplebuild\ReleaseOV\bin\llama-simple.exe -m C:\models\Llama-3.2-1B-Instruct-Q4_0.gguf -n 50 The story of AI is 以聊天模式运行build\ReleaseOV\bin\llama-cli.exe -m C:\models\Llama-3.2-1B-Instruct-Q4_0.gguf -c 1024运行 llama-bench注运行 llama-bench 时需要加上 -fa 1build\ReleaseOV\bin\llama-bench.exe -m C:\models\Llama-3.2-1B-Instruct-Q4_0.gguf -fa 1下面就是它在我的 Intel® Core™ Ultra X7 358H 笔记本 iGPU 上以 llama-simple 模式运行的效果你同样可以通过设置“set GGML_OPENVINO_DEVICENPU”选择NPU作为运行推理的设备并且 通过 -c 512 指定更合适的上下文长度。下面是在聊天模式下运行的命令:build\ReleaseOV\bin\llama-cli.exe -m C:\models\Llama-3.2-1B-Instruct-Q4_0.gguf -c 512下面是它在我的 Intel Core Ultra X7 358H 笔记本 NPU 上以聊天模式运行的效果。:除了上述示例这个后端同样适用于其他标准 llama.cpp 工具包括 llama-cli, llama-completion, llama-server, llama-bench, 以及 llama-perplexity. 更详细的运行方法请参考官方文档 https://github.com/ggml-org/llama.cpp/blob/master/docs/backend/OPENVINO.md .小结随着OpenVINO™ 正式成为 llama.cpp 主仓库中的官方后端开发者现在可以继续沿用熟悉的llama.cpp GGUF工作流同时把推理目标扩展到Intel® CPU、GPU 和 NPU。这并不只是“多支持了一种硬件”而是让 Intel 平台上的本地 AI 部署第一次在 llama.cpp 这条主流路径里拥有了更统一、更自然的执行方式。对于很多开发者来说这种价值非常实际。你不需要放弃 GGUF也不需要离开标准 llama.cpp 工具链就可以开始探索同一模型在不同 Intel 设备上的运行方式。这对于 AI PC、本地助手、边缘侧应用以及轻量化推理验证来说都是一个非常有吸引力的方向。当然如果你的工作流本身就是围绕OpenVINO™ IR 模型、自定义 OpenVINO™ 推理流水线或者你希望进一步使用更多原生 OpenVINO™ 特性来追求Intel 硬件上的更优性能与更深度的部署能力那么直接使用原生 OpenVINO™ 依然是更合适的选择。原生 OpenVINO™ 和 llama.cpp OpenVINO™ 后端并不是互相替代的关系而是分别面向不同开发习惯和不同部署阶段的两条路径。致谢我们真诚感谢 Zijun Yu, Mustafa Cavus, Xuejun Zhai, Yamini Nimmagadda, Ravi Panchumarthy, and Muthaiah Venkatachalam 为这个项目所作出的贡献

相关文章:

OpenVINO™正式进入 llama.cpp:GGUF 模型现已支持 Intel CPU、GPU 与 NPU

作者:武卓 过去,在 llama.cpp 里跑 GGUF 模型这件事,逻辑一直很清晰: 选模型、下模型、运行起来。 简单、直接,而且足够高效。 这也是为什么 GGUF 和 llama.cpp 直到今天依然是本地大模型开发里最受欢迎的组合之一…...

【个人思考】“女强人、都市丽人、超级女孩:三种女性叙事,三种人生剧本”

本文原创作者:姚瑞南 AI-agent 大模型运营专家/音乐人/野生穿搭model,先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗;多年人工智能行业智能产品运营及大模型落地经验,拥有AI外呼方向国家专利与PMP项目管理证书。&#…...

CTF逆向实战:从RC4到Base64,详解CTFshow萌新赛逆向题解

1. RC4加密算法在CTF逆向中的实战应用 RC4算法作为CTF逆向题目中的常客,经常出现在各类比赛中。这种流加密算法看似简单,但在实际解题过程中往往会遇到各种变种和陷阱。记得我第一次遇到RC4加密的题目时,完全不知道从何下手,现在回…...

Obsidian Weread插件:构建个人数字阅读知识库的智能桥梁

Obsidian Weread插件:构建个人数字阅读知识库的智能桥梁 【免费下载链接】obsidian-weread-plugin Obsidian Weread Plugin is a plugin to sync Weread(微信读书) hightlights and annotations into your Obsidian Vault. 项目地址: https://gitcode.com/gh_mirr…...

4步实战精通微信聊天记录解密技术

4步实战精通微信聊天记录解密技术 【免费下载链接】WechatDecrypt 微信消息解密工具 项目地址: https://gitcode.com/gh_mirrors/we/WechatDecrypt 微信作为中国最主流的即时通讯工具,每天承载着数十亿条重要对话,但当你需要迁移设备、恢复误删记…...

构建真正AI-ready的可观测体系(不是简单加个Prometheus):LLM服务、向量DB、微批Pipeline全链路告警设计实战

第一章:AI原生软件研发监控告警体系搭建 2026奇点智能技术大会(https://ml-summit.org) AI原生软件具备动态推理路径、模型权重漂移、Prompt变异响应、多模态输入不确定性等独特可观测性挑战,传统基于微服务的监控范式难以覆盖其全生命周期异常。构建面…...

跳表(Skip List):思想、优劣与应用场景完全解读

一、为什么需要跳表?在计算机科学中,我们经常需要一种数据结构,既能快速查找,又能高效插入和删除。数组的二分查找虽然快(O(log n)),但插入删除却需要移动大量元素(O(n))…...

基于STM32的四轴飞行器控制系统设计

一、系统概述 四轴飞行器(Quadcopter)是一种垂直起降(VTOL)多旋翼无人机,通过四个无刷电机的转速差实现姿态控制与稳定飞行。本系统以STM32高性能微控制器为核心,融合传感器融合、姿态解算、PID控制、电机驱…...

如何快速安全弹出USB设备:终极USB磁盘弹出工具使用指南

如何快速安全弹出USB设备:终极USB磁盘弹出工具使用指南 【免费下载链接】USB-Disk-Ejector A program that allows you to quickly remove drives in Windows. It can eject USB disks, Firewire disks and memory cards. It is a quick, flexible, portable altern…...

B站m4s转换工具:3分钟解锁缓存视频的终极解决方案

B站m4s转换工具:3分钟解锁缓存视频的终极解决方案 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾遇到过这样的困扰&#xf…...

Qt步进电机上位机控制程序源代码,支持串口、Tcp网口、Udp网络三种端口类型,详细注释和讲解

Qt步进电机上位机控制程序源代码Qt跨平台C/C语言编写 支持串口Tcp网口Udp网络三种端口类型 提供,提供详细注释和人工讲解 1.功能介绍: 可控制步进电机的上位机程序源代码,基于Qt库,采用C/C语言编写。 支持串口、Tcp网口、Udp网络三…...

如何解决地理数据可视化难题:geojson2svg的坐标映射与样式控制方案

如何解决地理数据可视化难题:geojson2svg的坐标映射与样式控制方案 【免费下载链接】geojson2svg Converts GeoJSON to SVG string given SVG view port size and maps extent. 项目地址: https://gitcode.com/gh_mirrors/ge/geojson2svg 在Web地图开发中&am…...

LaTeX格式设置避坑指南:5个新手最常踩的排版雷区

LaTeX格式设置避坑指南:5个新手最常踩的排版雷区 第一次用LaTeX写论文时,我盯着屏幕上歪七扭八的公式和怎么都对齐不了的标题,差点把键盘摔了。后来才知道,这些看似简单的格式问题,往往藏着LaTeX设计哲学里那些"反…...

基于STM32LXXX的数字电位器(TPL0401A-10QDCKRQ1)驱动应用程序设计

一、简介: TPL0401A-10QDCKRQ1 是德州仪器(TI)推出的一款车规级单通道数字电位器,主要面向STM32LXXX等低功耗平台。 二、主要技术特性: 核心规格:128抽头(7位分辨率)、10kΩ端到端电阻、IC接口、SC-70-6小型封装、车规级(AEC-Q100)[-40℃至+125℃]。 电气特性:工…...

小程序在企业数字化转型中的作用是什么?

小程序在企业数字化转型中的作用是什么?一、核心结论小程序在企业数字化转型中的核心作用,不是简单的“线上工具”,而是连接用户、业务与数据的轻量化入口。它通过降低使用门槛与缩短业务路径,使企业能够更高效地完成获客、转化与…...

人机交互设计避坑:控制驱动部分的7个高并发处理要点(含酒店管理系统案例)

人机交互设计避坑:控制驱动部分的7个高并发处理要点(含酒店管理系统案例) 在酒店前台同时处理数十个订单时,系统突然卡死;促销活动上线瞬间,服务器响应时间从200ms飙升到15秒——这些场景背后,往…...

手把手教你优化SZY206-2016水资源通讯协议(附完整代码示例)

深度优化SZY206-2016水资源通讯协议的工程实践 在物联网水文监测领域,SZY206-2016协议作为行业标准通讯规范,承载着水资源数据采集与传输的核心任务。然而在实际工程落地过程中,开发者们常常面临协议细节模糊、功能缺失、数据转换复杂等痛点。…...

K8s RBAC实战:一个实验搞定权限控制

RBAC 详解(基于角色的访问控制) 一个实验搞定RBAC 在Kubernetes中,授权有ABAC(基于属性的访问控制)、RBAC(基于角色的访问控制)、Webhook、Node、AlwaysDeny(一直拒绝)和AlwaysAllow&#xff08…...

别再纠结选BRAM还是DRAM了!手把手教你用Vivado配置7系列FPGA的分布式RAM

7系列FPGA分布式RAM实战指南:从原理到Vivado高效配置 在FPGA设计领域,存储资源的高效利用往往决定着系统性能的边界。当工程师面对小容量缓存设计时,常陷入BRAM与分布式RAM的选择困境——前者是专用存储模块,后者则巧妙利用查找表…...

【26最新大英赛】2012-2026年全国大学生英语竞赛ABCD类历年真题、样题及答案电子版PDF

2026年全国大学生英语竞赛(NECCS)初赛通知 2026年全国大学生英语竞赛初赛定于4月12日(周日)举行,现进入最后2天倒计时阶段。 备考资料已全面更新,涵盖2012-2026年A、B、C、D四类真题、样题、参考答案及听…...

别再死记硬背A*算法了!通过八数码问题,手把手教你理解启发函数与估价函数

八数码问题与A*算法:从理论到实践的深度解析 1. 理解八数码问题与搜索算法基础 八数码问题,又称九宫格拼图,是人工智能领域经典的路径搜索问题。它由一个33的方格组成,其中8个方格分别标有数字1到8,剩下一个空格&#…...

Altium Designer 21 保姆级教程:从PCB到Gerber文件,一次搞定所有制造输出设置

Altium Designer 21 全流程制造输出指南:从PCB设计到Gerber文件生成 在电子设计领域,将PCB设计转化为实际可生产的制造文件是一个关键但常被忽视的环节。许多新手工程师和学生往往在完成布局布线后,面对制造输出菜单中的各种选项感到无所适从…...

从零开始:在CentOS 7上使用Docker快速搭建OpenVAS漏洞扫描环境(附详细配置步骤)

从零构建企业级漏洞扫描平台:CentOS 7DockerOpenVAS全实战指南 在网络安全日益重要的今天,漏洞扫描已成为企业IT基础设施的标配防护手段。OpenVAS作为开源的漏洞评估系统,凭借其全面的漏洞检测能力和持续更新的漏洞数据库,成为众多…...

DDD难落地?就让AI干吧! - cleanddd-skills介绍蘸

AI训练存储选型的演进路线 第一阶段:单机直连时代 早期的深度学习数据集较小,模型训练通常在单台服务器或单张GPU卡上完成。此时直接将数据存储在训练机器的本地NVMe SSD/HDD上。 其优势在于IO延迟最低,吞吐量极高,也就是“数据离…...

IDA Pro 9.3 更新- 强大的反汇编程序、反编译器和多功能调试器工具

简介 IDA Pro 9.3 (macOS, Linux, Windows) - 强大的反汇编程序、反编译器和多功能调试器 A powerful disassembler, decompiler and a versatile debugger. In one tool.IDA Pro 一个强大的反汇编程序、反编译器和多功能调试器。集成在一个工具中。 请访问原文链接&#x…...

ReDroid云手机进阶:x86架构下的ARM应用兼容实战

1. 为什么需要x86架构运行ARM应用? 在搭建ReDroid云手机环境时,很多开发者会遇到一个头疼的问题:为什么我的x86服务器跑不了微信、抖音这些常见APP?这其实涉及到移动生态的一个关键差异——目前90%的安卓应用都是基于ARM架构编译的…...

Golang和Node.js哪个适合后端_Golang Node对比教程【实战】

优先选 Node.js:内部管理后台、小程序轻量 API、MVP 验证期服务;Go 更适合需稳定低延迟、严控内存或深度集成 K8s/Envoy 的场景。选 Node.js 还是 Go?先看你的第一个 API 要干啥如果你的后端服务只是接收 JSON、校验字段、写进 MongoDB、再返…...

终极Windows更新修复方案:Reset Windows Update Tool完整使用指南

终极Windows更新修复方案:Reset Windows Update Tool完整使用指南 【免费下载链接】Reset-Windows-Update-Tool Troubleshooting Tool with Windows Updates (Developed in Dev-C). 项目地址: https://gitcode.com/gh_mirrors/re/Reset-Windows-Update-Tool …...

ARM64 Linux 内核 Hook 实战

背景手头有一台基于 Linux 的精简系统设备(BusyBox),提取并修改 system 分区后,设备出现开机约 5 分钟自动重启的异常。经全面排查与多轮测试,最终确认问题根源是 内核层面的 system 分区完整性校验机制,因…...

安卓TV浏览器大屏适配终极方案:用Firefox+JS代码搞定全屏显示(附兼容性测试)

安卓TV浏览器大屏适配终极方案:用FirefoxJS代码搞定全屏显示(附兼容性测试) 在数字标牌、会议室展示等大屏应用场景中,安卓TV浏览器的适配问题一直是开发者的痛点。市面上常见的浏览器要么稳定性堪忧,要么缺乏对大屏显…...