当前位置：首页 > news >正文

llama2.c与chinese-baby-llama2语言模型本地部署推理

news 2026/2/9 11:36:12

文章目录

简介
Github
文档
克隆源码
英文模型
编译运行
中文模型（280M）
main函数

简介

llama2.c是一个极简的Llama 2 LLM全栈工具，使用一个简单的 700 行 C 文件 ( run.c ) 对其进行推理。llama2.c涉及LLM微调、模型构建、推理端末部署（量化、硬件加速）等众多方面，是学习研究Open LLM的很好切入点。

在这里插入图片描述

Github

https://github.com/karpathy/llama2.c

文档

https://llama.meta.com/

克隆源码

git clone https://github.com/karpathy/llama2.c.git

英文模型

https://huggingface.co/datasets/roneneldan/TinyStories

# 15M参数模型
wget https://huggingface.co/karpathy/tinyllamas/resolve/main/stories15M.bin
# 42M参数模型
wget https://huggingface.co/karpathy/tinyllamas/resolve/main/stories42M.bin
# 110M参数模型
wget https://huggingface.co/karpathy/tinyllamas/resolve/main/stories110M.bin

编译运行

make run
# 15M参数模型
./run stories15M.bin
# 42M参数模型，运行并输入提示词
./run stories42M.bin -i "One day, Lily met a Shoggoth"

中文模型（280M）

https://huggingface.co/flyingfishinwater/chinese-baby-llama2

# 下载模型
git clone https://huggingface.co/flyingfishinwater/chinese-baby-llama2

安装 python 相关依赖

pip3 install numpy
pip3 install torch torchvision torchaudio
pip3 install transformers

将模型hf格式转换为bin格式

# 将hf模型文件转换成.bin文件
python export.py ./chinese-baby-llama2.bin --hf ./chinese-baby-llama2

修改 llama2.c/run.c

// 将 main() 中的 tokenizer.bin 改为 chinese-baby-llama2 目录下的tokenizer.bin
char *tokenizer_path = "chinese-baby-llama2/tokenizer.bin";

在这里插入图片描述

编译 c

make run

运行并输入提示词

./run chinese-baby-llama2.bin -i "今天是武林大会，我是武林盟主"

在这里插入图片描述

main函数

默认参数设置：定义了一些默认参数值，例如模型路径、分词器路径、温度、top-p 值、步数等。
命令行参数解析：通过检查命令行参数，更新默认参数值。命令行参数的格式为 flag value，例如 -t 0.5 表示设置温度为 0.5。
参数验证和覆盖：对解析后的参数进行验证和覆盖。例如，确保随机数种子大于 0、温度在合理范围内、步数为非负数等。
构建 Transformer 模型：使用给定的模型文件构建 Transformer 模型，并根据需要调整步数。
构建 Tokenizer：使用给定的分词器文件构建 Tokenizer。
构建 Sampler：构建 Sampler，并设置相应的参数，如词汇表大小、温度、top-p 值等。
执行功能：根据模式选择执行生成或者聊天功能。如果模式是 generate，则执行生成功能；如果是 chat，则执行聊天功能。
内存和文件句柄清理：释放动态分配的内存和关闭文件句柄，确保程序执行结束时资源被正确释放。

llama2.c与chinese-baby-llama2语言模型本地部署推理

文章目录简介Github文档克隆源码英文模型编译运行中文模型（280M）main函数简介 llama2.c是一个极简的Llama 2 LLM全栈工具，使用一个简单的 700 行 C 文件 ( run.c ) 对其进行推理。llama2.c涉及LLM微调、模型构建、推理端末部署&#xff08…...

编程日记 2024/4/16 22:35:13

008、Python+fastapi，第一个后台管理项目走向第8步：ubutun 20.04下安装vscode+python环境配置

一、说明白飘了3个月无影云电脑，开始选了个windows server 非常不好用，后台改为ubuntu想升级到22，没成功，那就20.04吧。今天先安装下开发环境，后续2个月就想把他当做开发服务器，不知道行不行，…...

编程日记 2024/4/16 22:31:09

2024.4.16 驱动开发

思维导图...

编程日记 2024/4/16 22:29:07

如何在 Ubuntu 14.04 上更改 PHP 设置

简介 PHP 是一种服务器端脚本语言，被许多流行的 CMS 和博客平台如 WordPress 和 Drupal 所使用。它也是流行的 LAMP 和 LEMP 堆栈的一部分。更新 PHP 配置设置是设置基于 PHP 的网站时的常见任务。定位确切的 PHP 配置文件可能并不容易。通常在服务器上会有多个 PH…...

编程日记 2024/4/16 22:27:05

【光伏企业】光伏项目怎么做才能提高效率？

一、精细化项目管理项目规划：在项目启动前，进行充分的调研和规划，明确项目的目标、规模、预算和时间表，确保各项资源得到合理分配。团队建设：组建一支高效、专业的项目团队，确保团队成员具备光伏领域的…...

编程日记 2024/4/16 22:26:03

毕设选51还是stm32?51太简单？

如果你更倾向于挑战和深入学习，STM32可能是更好的选择。如果你希望更专注于底层硬件原理，51可能更适合。我这里有一套嵌入式入门教程，不仅包含了详细的视频讲解，项目实战。如果你渴望学习嵌入式，不妨点个关注&#xff…...

编程日记 2024/4/16 22:24:00

ip addr和ifconfig区别

ip addr和ifconfig都是用于配置和管理网络接口的工具 1. ifconfig ifconfig是较旧的网络配置工具，属于net-tools套件的一部分。该命令主要用于配置、显示和控制网络接口的参数，如IP地址、子网掩码、广播地址等。 ifconfig命令的功能相对有限&#xff…...

编程日记 2024/4/16 22:19:54

Springboot+Vue项目-基于Java+MySQL的房产销售系统(附源码+演示视频+LW)

大家好！我是程序猿老A，感谢您阅读本文，欢迎一键三连哦。 💞当前专栏：Java毕业设计精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计 &…...

编程日记 2024/4/16 22:17:52

向量数据库中的向量是什么？

在向量数据库中，向量通常指的是高维空间中的点或方向，它们由一组数值组成，这些数值表示该点在空间中的位置或方向。在机器学习和人工智能领域，向量经常用于表示各种类型的数据，如文本、图像、音频等。具体来说&#x…...

编程日记 2024/4/16 22:16:51

【重回王座】ChatGPT发布最新模型gpt-4-turbo-2024-04-09

今天，新版GPT-4 Turbo再次在大型模型排行榜上荣登榜首，成功超越了此前领先的Claude 3 Opus。另外，新模型在处理长达64k的上下文时，性能竟能够与旧版在处理26k上下文时的表现相当。目前GPT-4 Turbo仅限于ChatGPT Plus的用户&…...

编程日记 2024/4/16 22:15:50

NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（Spider vs BIRD）全面对比优劣分析[Text2SQL、Text2DSL]

NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（Spider vs BIRD）全面对比优劣分析[Text2SQL、Text2DSL] Text-to-SQL（或者Text2SQL），顾名思义就是把文本转化为SQL语言，更学术一…...

编程日记 2024/4/16 22:14:46

深度学习基础——计算量、参数量和推理时间

深度学习基础——计算量、参数量和推理时间在深度学习中，计算量、参数量和推理时间是评估模型性能和效率的重要指标。本文将介绍这三个指标的定义、计算方法以及如何使用Python进行实现和可视化展示，以帮助读者更好地理解和评估深度学习模型。 1. 定义…...

编程日记 2024/4/16 22:13:44

另一棵树的子树

目录题目思路代码1 ：相同的树代码二：解题注意点题目给你两棵二叉树 root 和 subRoot 。检验 root 中是否包含和 subRoot 具有相同结构和节点值的子树。如果存在，返回 true ；否则，返回 false 。二叉树 tr…...

编程日记 2024/4/16 22:12:43

【hive】单节点搭建hadoop和hive

一、背景需要使用hive远程debug，尝试使用无hadoop部署hive方式一直失败，无果，还是使用有hadoop方式。最终查看linux内存占用6GB，还在后台运行docker的mysql(bitnami/mysql:8.0)，基本满意。版本选择： &a…...

编程日记 2024/4/16 22:10:41

Aurora 协议学习理解与应用——Aurora 8B10B协议学习

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档 Aurora 8B10B协议学习之一，理解协议概述8B10B数据发送和接收Symbol-Pairs传输调度用户PDU传输过程用户PDU接收过程流控自然流量控制操作自然流量控制延迟自然流…...

编程日记 2024/4/16 22:06:37

Vue基础使用之V-Model绑定单选、复选、动态渲染选项的值

这里要说明一下，在v-model 绑定的值是id还是value是和<option>中的v-bind保持一致的，如第四个，如果是 <option :value"op[1]" 那v-model绑定的就是数组第二项的值2，4，6 如果是 <option :va…...

编程日记 2024/4/16 22:03:33

分析ARP解析过程

1、实验环境主机A和主机B连接到交换机，并与一台路由器互连，如图7.17所示，路由器充当网关。图7.17 实验案例一示意图 2、需求描述查看 ARP 相关信息,熟悉在PC 和 Cisco 设备上的常用命令,设置主机A和主机B为同一个网段网关设置为路由接…...

编程日记 2024/4/16 22:02:32

为硬刚小米SU7，华为智界S7整出了「梅开二度」操作

如今国产中大型新能源轿车市场，在小米 SU7 加入后，可算彻底活了过来。过去几年，咱们自主新能源品牌在 20-30 万元级轿车上发力明显不足，老牌车厂比亚迪汉几乎以一己之力扛起销量担当。随着新能源汽车消费升级、竞争加剧&#x…...

编程日记 2024/4/16 21:59:29

408数据结构，怎么练习算法大题？

其实考研的数据结构算法题是有得分技巧的得分要点会写结构定义（没有就自己写上）写清楚解题的算法思想描述清楚算法实现最后写出时间和空间复杂度以上这四步是完成一道算法题的基本步骤，也是其中得分的主要地方就是后面两步。但是前面两…...

编程日记 2024/4/16 21:58:27

imgcat 工具

如果经常在远程服务器或嵌入式设备中操作图片，要查看图片效果，就要先把图片dump到本地，比较麻烦。可以使用这个工具，直接在终端上显示。类似于这种效果。 imgcat 是一个终端工具，使用 iTerm2 内置的特性，允…...

编程日记 2024/4/16 21:57:25

大数据学习栈记——Neo4j的安装与使用

本文介绍图数据库Neofj的安装与使用，操作系统：Ubuntu24.04，Neofj版本：2025.04.0。 Apt安装 Neofj可以进行官网安装：Neo4j Deployment Center - Graph Database & Analytics 我这里安装是添加软件源的方法最新版…...

编程新知 2026/2/8 4:37:08

【Linux】C语言执行shell指令

在C语言中执行Shell指令在C语言中，有几种方法可以执行Shell指令： 1. 使用system()函数这是最简单的方法，包含在stdlib.h头文件中： #include <stdlib.h>int main() {system("ls -l"); // 执行ls -l命令retu…...

编程新知 2025/11/20 18:42:48

深入浅出：JavaScript 中的 `window.crypto.getRandomValues()` 方法

深入浅出：JavaScript 中的 window.crypto.getRandomValues() 方法在现代 Web 开发中，随机数的生成看似简单，却隐藏着许多玄机。无论是生成密码、加密密钥，还是创建安全令牌，随机数的质量直接关系到系统的安全性。Jav…...

编程新知 2025/10/8 4:56:09

【机器视觉】单目测距——运动结构恢复

ps：图是随便找的，为了凑个封面前言在前面对光流法进行进一步改进，希望将2D光流推广至3D场景流时，发现2D转3D过程中存在尺度歧义问题，需要补全摄像头拍摄图像中缺失的深度信息，否则解空间不收敛&#xf…...

编程新知 2026/2/8 3:03:01

ETLCloud可能遇到的问题有哪些？常见坑位解析

数据集成平台ETLCloud，主要用于支持数据的抽取（Extract）、转换（Transform）和加载（Load）过程。提供了一个简洁直观的界面，以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...

编程新知 2026/2/3 12:56:31

3403. 从盒子中找出字典序最大的字符串 I

3403. 从盒子中找出字典序最大的字符串 I 题目链接：3403. 从盒子中找出字典序最大的字符串 I 代码如下： class Solution { public:string answerString(string word, int numFriends) {if (numFriends 1) {return word;}string res;for (int i 0;i &…...

编程新知 2025/10/31 5:18:02

深入解析C++中的extern关键字：跨文件共享变量与函数的终极指南

🚀 C extern 关键字深度解析：跨文件编程的终极指南 📅 更新时间：2025年6月5日 🏷️ 标签：C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录前言🔥一、extern 是什么？&…...

编程新知 2026/2/1 6:50:07

基于 TAPD 进行项目管理

起因自己写了个小工具，仓库用的Github。之前在用markdown进行需求管理，现在随着功能的增加，感觉有点难以管理了，所以用TAPD这个工具进行需求、Bug管理。操作流程注册 TAPD，需要提供一个企业名新建一个项目&#…...

编程新知 2026/1/24 14:15:44

LUA+Reids实现库存秒杀预扣减记录流水以及自己的思考

目录 lua脚本记录流水记录流水的作用流水什么时候删除我们在做库存扣减的时候，显示基于Lua脚本和Redis实现的预扣减这样可以在秒杀扣减的时候保证操作的原子性和高效性 lua脚本 // ... 已有代码 ...Overridepublic InventoryResponse decrease(Inventor…...

编程新知 2025/9/24 10:06:05

Cursor AI 账号纯净度维护与高效注册指南

Cursor AI 账号纯净度维护与高效注册指南：解决限制问题的实战方案风车无限免费邮箱系统网页端使用说明|快速获取邮箱|cursor|windsurf|augment 问题背景在成功解决 Cursor 环境配置问题后，许多开发者仍面临账号纯净度不足导致的限制问题。无论使用 16…...

编程新知 2026/1/15 20:22:22

文章目录

简介

Github

文档

克隆源码

英文模型

编译运行

中文模型（280M）

main函数

相关文章：