当前位置：首页 > news >正文

开源大模型框架llama.cpp使用C++ api开发入门

news 2025/11/24 8:25:58

llama.cpp是一个C++编写的轻量级开源类AIGC大模型框架，可以支持在消费级普通设备上本地部署运行大模型，以及作为依赖库集成的到应用程序中提供类GPT的功能。

以下基于llama.cpp的源码利用C++ api来开发实例demo演示加载本地模型文件并提供GPT文本生成。

项目结构

llamacpp_starter- llama.cpp-b1547- src|- main.cpp- CMakeLists.txt

CMakeLists.txt

cmake_minimum_required(VERSION 3.15)# this only works for unix, xapian source code not support compile in windows yetproject(llamacpp_starter)set(CMAKE_CXX_STANDARD 14)
set(CMAKE_CXX_STANDARD_REQUIRED ON)add_subdirectory(llama.cpp-b1547)include_directories(${CMAKE_CURRENT_SOURCE_DIR}/llama.cpp-b1547${CMAKE_CURRENT_SOURCE_DIR}/llama.cpp-b1547/common
)file(GLOB SRCsrc/*.hsrc/*.cpp
)add_executable(${PROJECT_NAME} ${SRC})target_link_libraries(${PROJECT_NAME}commonllama
)

main.cpp

#include <iostream>
#include <string>
#include <vector>
#include "common.h"
#include "llama.h"int main(int argc, char** argv)
{bool numa_support = false;const std::string model_file_path = "./llama-ggml.gguf";const std::string prompt = "once upon a time"; // input wordsconst int n_len = 32; 	// total length of the sequence including the prompt// set gpt paramsgpt_params params;params.model = model_file_path;params.prompt = prompt;// init LLMllama_backend_init(false);// load modelllama_model_params model_params = llama_model_default_params();//model_params.n_gpu_layers = 99; // offload all layers to the GPUllama_model* model = llama_load_model_from_file(model_file_path.c_str(), model_params);if (model == NULL){std::cerr << __func__ << " load model file error" << std::endl;return 1;}// init contextllama_context_params ctx_params = llama_context_default_params();ctx_params.seed = 1234;ctx_params.n_ctx = 2048;ctx_params.n_threads = params.n_threads;ctx_params.n_threads_batch = params.n_threads_batch == -1 ? params.n_threads : params.n_threads_batch;llama_context* ctx = llama_new_context_with_model(model, ctx_params);if (ctx == NULL){std::cerr << __func__ << " failed to create the llama_context" << std::endl;return 1;}// tokenize the promptstd::vector<llama_token> tokens_list = llama_tokenize(ctx, params.prompt, true);const int n_ctx = llama_n_ctx(ctx);const int n_kv_req = tokens_list.size() + (n_len - tokens_list.size());// make sure the KV cache is big enough to hold all the prompt and generated tokensif (n_kv_req > n_ctx){std::cerr << __func__ << " error: n_kv_req > n_ctx, the required KV cache size is not big enough" << std::endl;std::cerr << __func__ << " either reduce n_parallel or increase n_ctx" << std::endl;return 1;}// print the prompt token-by-tokenfor (auto id : tokens_list)std::cout << llama_token_to_piece(ctx, id) << " ";std::cout << std::endl;// create a llama_batch with size 512// we use this object to submit token data for decodingllama_batch batch = llama_batch_init(512, 0, 1);// evaluate the initial promptfor (size_t i = 0; i < tokens_list.size(); i++)llama_batch_add(batch, tokens_list[i], i, { 0 }, false);// llama_decode will output logits only for the last token of the promptbatch.logits[batch.n_tokens - 1] = true;if (llama_decode(ctx, batch) != 0){std::cerr << __func__ << " llama_decode failed" << std::endl;return 1;}// main loop to generate wordsint n_cur = batch.n_tokens;int n_decode = 0;const auto t_main_start = ggml_time_us();while (n_cur <= n_len){// sample the next tokenauto n_vocab = llama_n_vocab(model);auto* logits = llama_get_logits_ith(ctx, batch.n_tokens - 1);std::vector<llama_token_data> candidates;candidates.reserve(n_vocab);for (llama_token token_id = 0; token_id < n_vocab; token_id++){candidates.emplace_back(llama_token_data{ token_id, logits[token_id], 0.0f });}llama_token_data_array candidates_p = { candidates.data(), candidates.size(), false };// sample the most likely tokenconst llama_token new_token_id = llama_sample_token_greedy(ctx, &candidates_p);// is it an end of stream?if (new_token_id == llama_token_eos(model) || n_cur == n_len){std::cout << std::endl;break;}std::cout << llama_token_to_piece(ctx, new_token_id) << " ";// prepare the next batchllama_batch_clear(batch);// push this new token for next evaluationllama_batch_add(batch, new_token_id, n_cur, { 0 }, true);n_decode += 1;n_cur += 1;// evaluate the current batch with the transformer modelif (llama_decode(ctx, batch)){std::cerr << __func__ << " failed to eval" << std::endl;return 1;}}std::cout << std::endl;const auto t_main_end = ggml_time_us();std::cout << __func__ << " decoded " << n_decode << " tokens in " << (t_main_end - t_main_start) / 1000000.0f << " s, speed: " << n_decode / ((t_main_end - t_main_start) / 1000000.0f) << " t / s" << std::endl;llama_print_timings(ctx);llama_batch_free(batch);// free contextllama_free(ctx);llama_free_model(model);// free LLMllama_backend_free();return 0;
}

注：

llama支持的模型文件需要自己去下载，推荐到huggingface官网下载转换好的gguf格式文件
llama.cpp编译可以配置多种类型的增强选项，比如支持CPU/GPU加速，数据计算加速库

源码

llamacpp_starter

本文由博客一文多发平台 OpenWrite 发布！

开源大模型框架llama.cpp使用C++ api开发入门

llama.cpp是一个C编写的轻量级开源类AIGC大模型框架，可以支持在消费级普通设备上本地部署运行大模型，以及作为依赖库集成的到应用程序中提供类GPT的功能。以下基于llama.cpp的源码利用C api来开发实例demo演示加载本地模型文件并提供GPT文本生成。项…...

编程日记 2023/11/27 1:44:41

Qt 网络通信

获取本机网络信息 （1）在 .pro 文件中加入 QT network（2） #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QDebug> #include <QLabel> #include <QLineEdit> #include <QPu…...

编程日记 2023/11/27 1:42:37

基恩士软件的基本操作（五，日志记录与使用）

目录基恩士是如何保存日志的？ 如何使用日志功能查看DM10的值1秒加1的记录日志设定id与储存位置软元件设定（ 日志ID有10个（0~10），每一个ID最多添加512个软元件） 设定触发执行日志的梯形图程序触…...

编程日记 2023/11/27 1:41:36

MySQL 8 手动安装后无法启动的问题解决

开头还是介绍一下群，如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, Oceanbase, Sql Server等有问题，有需求都可以加群群内有各大数据库行业大咖，CTO，可以解决你的问题。加群请联系 liuaustin3 ，（…...

编程日记 2023/11/27 1:40:35

难怪被人卷了不知道啊！这么学自动化测试，一个星期就搞定了！！！

目前自动化测试并不属于新鲜的事物，或者说自动化测试的各种方法论已经层出不穷，但是，能够明白自动化测试并很好落地实施的团队还不是非常多，我们接来下用通俗的方式来介绍自动化测试…… 首先我们从招聘岗位需求说起。看近期的职…...

编程日记 2023/11/27 1:39:34

每日OJ题_算法_双指针⑦力扣15. 三数之和

目录力扣15. 三数之和解析代码力扣15. 三数之和难度中等给你一个整数数组 nums ，判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ，同时还满足 nums[i] nums[j] nums[k] 0 。请你返回所有和为 0 且不重复的三…...

编程日记 2023/11/27 1:38:33

【计算机网络学习之路】日志和守护进程

文章目录前言一. 日志介绍二. 简单日志1. 左字符串2. 右字符串三. 守护进程1. ps -axj命令2. 会话扩展命令 3. 创建守护进程结束语前言本系列文章是计算机网络学习的笔记，欢迎大佬们阅读，纠错，分享相关知识。希望可以与你共同进步。本…...

编程日记 2023/11/27 1:37:31

foobar2000 突然无法正常输出DSD信号

之前一直在用foobar2000加外置dac听音乐，有一天突然发现听dsd的时候，dac面板显示输出的是PCM格式信号，而不是DSD信号，这让我觉得很奇怪，反复折腾了几次，卸载安装驱动什么的，依然如此&#xff0c…...

编程日记 2023/11/27 1:36:28

鸿蒙HarmonyOS 编辑器下载安装

好各位之前的文章注册并实名认证华为开发者账号我们基实名注册了华为的开发者账号我们可以访问官网 https://developer.harmonyos.com/cn/develop/deveco-studio 在这里直接就有我们编辑器的下载按钮我们直接点击立即下载这里我们根据自己的系统选择要下载的系统例…...

编程日记 2023/11/27 1:34:24

机器学习第13天：模型性能评估指标

☁️主页 Nowl 🔥专栏《机器学习实战》《机器学习》 📑君子坐而论道，少年起而行之文章目录交叉验证保留交叉验证 k-折交叉验证留一交叉验证混淆矩阵精度与召回率介绍精度召回率区别使用代码偏差与方差介绍区…...

编程日记 2023/11/27 1:33:23

Elasticsearch基础优化

分片策略分片和副本得设计为ES提供支付分布式和故障转移得特性，但不意味着分片和副本是可以无限分配， 而且索引得分片完成分配后由于索引得路由机制，不能重新修改分片数（副本数可以动态修改） 一个分片得底层为一个l…...

编程日记 2023/11/27 1:32:20

【Amazon】通过直接连接的方式导入 KubeSphere集群至KubeSphere主容器平台

文章目录一、设置主集群方式一：使用 Web 控制台方式二：使用 Kubectl命令二、在主集群中设置代理服务地址方式一：使用 Web 控制台方式二：使用 Kubectl命令三、登录控制台验证四、准备成员集群方式一：使用 Web 控制台…...

编程日记 2023/11/27 1:31:19

三数之和问题

给你一个整数数组 nums ，判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ，同时还满足 nums[i] nums[j] nums[k] 0 。请你返回所有和为 0 且不重复的三元组。注意：答案中不可以包含重复的三元组。示例 1&…...

编程日记 2023/11/27 1:30:18

【JavaEE】多线程 (2) --线程安全

目录 1. 观察线程不安全 2. 线程安全的概念 3. 线程不安全的原因 4. 解决之前的线程不安全问题 5. synchronized 关键字 - 监视器锁 monitor lock 5.1 synchronized 的特性 5.2 synchronized 使⽤⽰例 1. 观察线程不安全 package thread; public class ThreadDemo19 {p…...

编程日记 2023/11/27 1:28:14

关于点胶机那些事

总结一下点胶机技术要点： 1：不论多复杂的点胶机，简单点，可以简化为：1：运控 2：点胶，3：检测运控的目的就是负责把针头移到面板对应的胶路上，点胶即就是排胶&…...

编程日记 2023/11/27 1:26:13

Python | CAP - 累积精度曲线分析案例

CAP通常被称为“累积精度曲线”，用于分类模型的性能评估。它有助于我们理解和总结分类模型的鲁棒性。为了直观地显示这一点，我们在图中绘制了三条不同的曲线： 一个随机的曲线（random）通过使用随机森林分类器获得的曲线…...

编程日记 2023/11/27 1:24:10

ubuntu22.04安装swagboot遇到的问题

一、基本情况系统：u 22.04 python： 3.10 二、问题描述 swagboot官方提供的安装路径言简意赅:python3 -m pip install --user snagboot 当然安装python3和pip是基本常识，这里就不再赘述。可是在安装的时候出现如下提示说 Failed buildin…...

编程日记 2023/11/27 1:23:09

python每日一题——8无重复字符的最长子串

题目给定一个字符串 s ，请你找出其中不含有重复字符的最长子串的长度。示例 1: 输入: s “abcabcbb” 输出: 3 解释: 因为无重复字符的最长子串是 “abc”，所以其长度为 3。示例 2: 输入: s “bbbbb” 输出: 1 解释: 因为无重复字符的最长子串…...

编程日记 2023/11/27 1:22:08

【数据中台】开源项目（2）-Dbus数据总线

1 背景企业中大量业务数据保存在各个业务系统数据库中，过去通常的同步数据的方法有很多种，比如： 各个数据使用方在业务低峰期各种抽取所需数据（缺点是存在重复抽取而且数据不一致） 由统一的数仓平台通过sqoop到各个…...

编程日记 2023/11/27 1:21:07

职场快速赢得信任

俗话说的好，有人的地方就有江湖。国内不管是外企、私企、国企，职场环境都是变换莫测。这里主要分享下怎么在职场中快速赢取信任。 1、找到让自己全面发展的方法要知道，职场中话题是与他人交流的纽带，为了找到共同的话题&am…...

编程日记 2023/11/27 1:20:06

conda相比python好处

Conda 作为 Python 的环境和包管理工具，相比原生 Python 生态（如 pip 虚拟环境）有许多独特优势，尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处： 一、一站式环境管理&#xff1a…...

编程新知 2025/10/31 8:43:16

盘古信息PCB行业解决方案：以全域场景重构，激活智造新未来

一、破局：PCB行业的时代之问在数字经济蓬勃发展的浪潮中，PCB（印制电路板）作为 “电子产品之母”，其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透，PCB行业面临着前所未有的挑战与机遇。产品迭代…...

编程新知 2025/11/21 23:15:31

React Native 开发环境搭建（全平台详解）

React Native 开发环境搭建（全平台详解） 在开始使用 React Native 开发移动应用之前，正确设置开发环境是至关重要的一步。本文将为你提供一份全面的指南，涵盖 macOS 和 Windows 平台的配置步骤，如何在 Android 和 iOS…...

编程新知 2025/10/7 2:47:54

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

先前我们总结了浏览器选区模型的交互策略，并且实现了基本的选区操作，还调研了自绘选区的实现。那么相对的，我们还需要设计编辑器的选区表达，也可以称为模型选区。编辑器中应用变更时的操作范围，就是以模型选区为基准来…...

编程新知 2025/9/5 17:56:03

关于nvm与node.js

1 安装nvm 安装过程中手动修改 nvm的安装路径， 以及修改通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解，但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后，通常在该文件中会出现以下配置&…...

编程新知 2025/11/16 22:14:54

Leetcode 3577. Count the Number of Computer Unlocking Permutations

Leetcode 3577. Count the Number of Computer Unlocking Permutations 1. 解题思路2. 代码实现题目链接：3577. Count the Number of Computer Unlocking Permutations 1. 解题思路这一题其实就是一个脑筋急转弯，要想要能够将所有的电脑解锁&#x…...

编程新知 2025/10/19 0:02:23