当前位置：首页 > news >正文

仅需一块 4GB 的 GPU ，就能运行开源大语言模型：Llama3 70B

news 2026/2/8 16:01:48

最强的开源大语言模型 Llama3 已经发布一段时间了，一些盆友资源有限，私信询问是否可以使用 4GB 的 VRAM 在本地运行 Llama3 70B。

与 GPT-4 相比，Llama3 的性能如何？Llama3 使用了哪些关键的前沿技术使其变得如此强大？Llama3 的突破是否意味着开源模型已经正式开始超越闭源模型？

本文给一个解决方案：在仅有 4GB 显存的单个 GPU 上运行 Llama3 70B，并解释相关问题，喜欢本文记得收藏、点赞、关注，欢迎与我进行技术交流。

技术交流

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了算法岗面试与技术交流群，想要进交流群、需要源码&资料、提升技术的同学，可以直接加微信号：mlc2040。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

方式①、微信搜索公众号：机器学习社区，后台回复：技术交流
方式②、添加微信号：mlc2040，备注：技术交流+CSDN

方案

Llama3 的模型架构没有改变，因此 AirLLM 自然已经支持完美运行 Llama3 70B！它甚至可以在 MacBook 上运行。

首先，安装 AirLLM：

pip install airllm

然后，你只需要几行代码：

from airllm import AutoModelMAX_LENGTH = 128
model = AutoModel.from_pretrained("v2ray/Llama-3-70B")input_text = [        'What is the capital of United States?'    
]input_tokens = model.tokenizer(input_text,    return_tensors="pt",     return_attention_mask=False,     truncation=True,     max_length=MAX_LENGTH,     padding=False)generation_output = model.generate(    input_tokens['input_ids'].cuda(),     max_new_tokens=20,    use_cache=True,    return_dict_in_generate=True
)output = model.tokenizer.decode(generation_output.sequences[0])
print(output)

Llama3 与 GPT-4 的比较

根据官方评估数据和最新的 lmsys 排行榜，Llama3 70B 非常接近 GPT-4 和 Claude3 Opus。

官方评估结果：

lmsys排行榜结果：

当然，将相似规模的400B模型与GPT-4和Claude3 Opus进行比较会更合理：

Llama3 400B已经非常接近GPT-4和Claude3的最强版本，而且它还在持续训练中。

Llama3的核心改进是什么？

Llama3 的架构没有变化；在训练方法上有一些技术改进，比如基于DPO（离散策略优化）的模型对齐训练。

DPO 基本上已经成为所有排行榜上顶级大模型的标准训练方法——它确实有效！

当然，Llama3 的主要秘密武器在于其训练数据的数量和质量的巨大提升。从 Llama2 的2万亿增加到15万亿！人工智能的核心就是数据！

数据的改进不仅在于数量，还有质量。Meta进行了大量的数据质量过滤、去重等工作，其中很多都是基于使用像Llama2这样的模型来过滤和选择数据。

训练AI模型的核心是数据。要训练一个好的AI模型，不在于拥有很多花哨的训练技术，而在于扎实细致地做好基础工作。特别是那些不太引人注目、繁琐枯燥的数据质量工作——这实际上至关重要。

我一直对 Meta AI 的能力评价很高。从早期使用 Transformer 进行判别性AI开始，Meta AI 以其扎实的数据处理基础著称，推出了许多长期占据SOTA榜首的经典模型，如Roberta和Roberta XLM。

Llama3 的成功是否预示着开源模型的崛起？

开源与闭源之间的斗争可能远未结束，还有很多戏剧性事件即将上演。

无论是开源还是闭源，训练大模型已经变成了一场烧钱的游戏。15万亿的数据和4000亿的模型不是小玩家能够负担得起的。我认为在接下来的六个月内，许多致力于大模型的小公司将会消失。

在烧钱的竞争中，真正比拼的是长期的投资回报能力和效率。事实上，直到今天，真正实现盈利的AI大语言模型应用仍然很少。很难说谁能够持续投资，以及以何种方式实现盈利。

参考链接

https://ai.gopubby.com/run-the-strongest-open-source-llm-model-llama3-70b-with-just-a-single-4gb-gpu-7e0ea2ad8ba2
https://github.com/lyogavin/Anima/tree/main/air_llm

仅需一块 4GB 的 GPU ，就能运行开源大语言模型：Llama3 70B

最强的开源大语言模型 Llama3 已经发布一段时间了，一些盆友资源有限，私信询问是否可以使用 4GB 的 VRAM 在本地运行 Llama3 70B。与 GPT-4 相比，Llama3 的性能如何？Llama3 使用了哪些关键的前沿技术使其变得如此强大&#xff1f…...

编程日记 2024/5/26 10:19:32

一战成电失败，二战上岸复旦！

这个系列会邀请往届学长学姐进行经验分享~ 本篇是复旦大学957来自专业课134分上岸同学的经验分享。经验分享大家好，大伙能点进这个帖子倍感荣幸。先说一下个人情况吧，鼠鼠本科武汉大学物院，总共四年混了四年，绩点低&#x…...

编程日记 2024/5/26 10:16:28

27寸2K显示器 - HKC G27H2

HKC G27H2是一款面向电竞市场的高性能显示器，以其2K分辨率和180Hz的刷新率作为主要卖点，旨在为玩家提供流畅而清晰的视觉体验。配备HDR 400技术和95% DCI-P3色域覆盖，这款显示器还支持升降旋转支架，为用户提供了高度的人体工程学适…...

编程日记 2024/5/26 10:15:26

编程实战：类C语法的编译型脚本解释器（七）语句

初级代码游戏的专栏介绍与文章目录-CSDN博客我的github：codetoys，所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。这些代码大部分以Linux为目标但部分代码是纯C的，可以在任何平台上使用。系列入口： 编程实…...

编程日记 2024/5/26 10:14:25

实体-联系图

为了把用户的数据要求清楚、准确地描述出来,系统分析员通常建立一个概念性的数据模型(也称为信息模型)。概念性数据模型是一种面向问题的数据模型,是按照用户的观点对数据建立的模型。它描述了从用户角度看到的数据,它反映了用户的现实环境, 而且与在软件系统中的实现方法无关。…...

编程日记 2024/5/26 10:13:23

ROCm上来自Transformers的双向编码器表示（BERT）

14.8. 来自Transformers的双向编码器表示（BERT） — 动手学深度学习 2.0.0 documentation (d2l.ai) 代码 import torch from torch import nn from d2l import torch as d2l#save def get_tokens_and_segments(tokens_a, tokens_bNone):""&qu…...

编程日记 2024/5/26 10:11:20

期权课程之第一节【用生活的例子解释什么是期权】

1、用生活的例子解释什么是期权期权的英文名也就叫Option【选择】，实际上期权本质也就是一种选择权。买入资产的例子假如你【买家】看上了一套老王的【卖家】房子，现价100W、但是目前手头比较紧、但是你又不想错过这个房子，你可以先给老…...

编程日记 2024/5/26 10:10:19

【YOLOv10训练教程】如何使用YOLOv10训练自己的数据集并且推理使用

《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~ 👍感谢小伙伴们点赞、关注！ 《------往期经典推…...

编程日记 2024/5/26 10:09:18

[windows系统安装/重装系统][step-4][番外篇-2]N卡驱动重装 |解决：开机几小时后电脑卡顿 | 后台自动运行了上千个Rundll32进程问题

现象开机几小时后，电脑变卡，打开后台管理器都卡，后台管理去转圈圈一小会儿后看到后台进程上千个，好多个Rundll32进程重启下运行会稍快重启后运行快，后台管理器反应也快打开后台管理器不卡（几小时后打…...

编程日记 2024/5/26 10:08:17

Redis开发实战

单机部署安装服务端下载，安装，启动去官网下载最新的版本：http://redis.io/download ，这里用的是3.0.2解压后，进入解压好的文件夹redis的安装非常简单，因为已经有现成的Makefile文件，所以直接先…...

编程日记 2024/5/26 10:06:15

C++ | Leetcode C++题解之第112题路径总和

题目： 题解： class Solution { public:bool hasPathSum(TreeNode *root, int sum) {if (root nullptr) {return false;}if (root->left nullptr && root->right nullptr) {return sum root->val;}return hasPathSum(root->left…...

编程日记 2024/5/26 10:04:13

leetcode力扣 2024. 考试的最大困扰度

一位老师正在出一场由 n 道判断题构成的考试，每道题的答案为 true （用 ‘T’ 表示）或者 false （用 ‘F’ 表示）。老师想增加学生对自己做出答案的不确定性，方法是最大化有连续相同结果的题数。（…...

编程日记 2024/5/26 10:03:12

lvgl无法显示中文

环境： VS2019、LVGL8.3 问题： VS2019默认编码为GB2312， 解决： VS2022设置编码方式为utf-8的三种方式_vs utf8-CSDN博客我用的方法2，设置为 utf-8无签名就行。...

编程日记 2024/5/26 10:01:10

读书笔记-Java并发编程的艺术-第1章并发编程的挑战

文章目录 1.1 上下文切换1.1.1 多线程一定快吗1.1.2 如何减少上下文切换 1.2 死锁1.3 资源限制的挑战 1.1 上下文切换即时是单核处理器也支持多线程执行代码，CPU通过给每个线程分配CPU时间片来实现这个机制。时间片是CPU分配给多个线程的时间，因为时间…...

编程日记 2024/5/26 10:00:08

RUST 和 GO 如何管理它们的内存

100编程书屋_孔夫子旧书网 Go 中的内存管理 Go 中的内存不会在缓存键被驱逐时立即释放。相反，垃圾收集器会经常运行以发现任何没有引用的内存并释放它。换句话说，内存会一直挂起，直到垃圾收集器可以评估它是否真正不再使用，而…...

编程日记 2024/5/26 9:59:07

对于高速信号完整性，一块聊聊啊（12）

常见的无源电子器件电子系统中的无源器件可以按照所担当的电路功能分为电路类器件、连接类器件。 A、电路类器件： （1）二极管（diode） （2）电阻器（resistor） &#xf…...

编程日记 2024/5/26 9:57:04

C++学习笔记（19）——模板

目录模板参数与非类型模板参数模板参数类型模板参数——传递类型非类型模板参数——传递数量 C11希望array替代静态数组，但实际上vector包揽了一切模板总结优点： 缺点： 模板特化：针对某些类型进行特殊化处理特化…...

编程日记 2024/5/26 9:56:04

java8新特性——函数式编程详解

目录一概述1.1 背景1.2 函数式编程的意义1.3 函数式编程的发展 Lambda表达式1.1 介绍1.2 使用Lambda的好处1.3 Lambda方法1.3.1 Lambda表达式结构1.3.2 Lambda表达式的特征 1.4 Lambda的使用1.4.1 定义函数式接口1.4.2 Lambda表达式实现函数式接口1.4.3 简化Lambda表达式1.4.…...

编程日记 2024/5/26 9:55:02

mybatis-plus小课堂： apply 拼接 in SQL,来查询从表某个范围内的数据

文章目录引言I mybatis-Plus 之 apply 拼接 in SQL1.1 apply源码实现1.2 apply 拼接 in SQL ：非字符串数组1.3 apply 拼接 in SQL ：字符串数组II 如果in的数量太多，采用子查询。III 常见问题： Cause: comColumn xxx in where clause is ambiguoussee also引言 I mybati…...

编程日记 2024/5/26 9:54:01

民宿推荐系统-手把手调试搭建

民宿推荐系统-手把手调试搭建民宿推荐系统-手把手调试搭建...

编程日记 2024/5/26 9:53:00

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务中文乱码问题： 下面创建一个简单的Flask RESTful API示例。首先，我们需要创建环境，安装必要的依赖，然后…...

编程新知 2026/2/6 3:59:37

vue3 定时器-定义全局方法 vue+ts

1.创建ts文件路径：src/utils/timer.ts 完整代码： import { onUnmounted } from vuetype TimerCallback (...args: any[]) > voidexport function useGlobalTimer() {const timers: Map<number, NodeJS.Timeout> new Map()// 创建定时器con…...

编程新知 2025/8/9 0:31:20

Rust 异步编程

Rust 异步编程引言 Rust 是一种系统编程语言，以其高性能、安全性以及零成本抽象而著称。在多核处理器成为主流的今天，异步编程成为了一种提高应用性能、优化资源利用的有效手段。本文将深入探讨 Rust 异步编程的核心概念、常用库以及最佳实践。异步编程基础什么是异步…...

编程新知 2025/11/17 18:58:56

大模型多显卡多服务器并行计算方法与实践指南

一、分布式训练概述大规模语言模型的训练通常需要分布式计算技术，以解决单机资源不足的问题。分布式训练主要分为两种模式：数据并行：将数据分片到不同设备，每个设备拥有完整的模型副本模型并行：将模型分割到不同设备，每个设备处理部分模型计算现代大模型训练通常结合…...

编程新知 2025/12/10 20:45:02

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。本弹重点聚焦于服务端的模块划分与架构设计，提升代码结构的可维护性与扩展性。二、服务端模块设计目标高内聚低耦合：各模块职责清晰，便于独立开发…...

编程新知 2025/10/13 4:15:41

USB Over IP专用硬件的5个特点

USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中，从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备（如专用硬件设备），从而消除了直接物理连接的需要。USB over IP的…...

编程新知 2026/2/6 13:42:22

《C++ 模板》

目录函数模板类模板非类型模板参数模板特化函数模板特化类模板的特化模板，就像一个模具，里面可以将不同类型的材料做成一个形状，其分为函数模板和类模板。函数模板函数模板可以简化函数重载的代码。格式：templa…...

编程新知 2025/6/11 3:20:47

热烈祝贺埃文科技正式加入可信数据空间发展联盟

2025年4月29日，在福州举办的第八届数字中国建设峰会“可信数据空间分论坛”上，可信数据空间发展联盟正式宣告成立。国家数据局党组书记、局长刘烈宏出席并致辞，强调该联盟是推进全国一体化数据市场建设的关键抓手。郑州埃文科技有限公司&am…...

编程新知 2026/2/7 20:23:55

sshd代码修改banner

sshd服务连接之后会收到字符串： SSH-2.0-OpenSSH_9.5 容易被hacker识别此服务为sshd服务。是否可以通过修改此banner达到让人无法识别此服务的目的呢？ 不能。因为这是写的SSH的协议中的。也就是协议规定了banner必须这么写。 SSH- 开头&#xff0c…...

编程新知 2026/2/5 22:05:56

TCP/IP 网络编程 | 服务端客户端的封装

设计模式文章目录设计模式一、socket.h 接口（interface）二、socket.cpp 实现（implementation）三、server.cpp 使用封装（main 函数）四、client.cpp 使用封装（main 函数）五、退出方法…...

编程新知 2025/7/27 7:26:07

技术交流

方案

Llama3 与 GPT-4 的比较

Llama3的核心改进是什么？

Llama3 的成功是否预示着开源模型的崛起？

参考链接

相关文章：