当前位置：首页 > news >正文

本地运行大模型效果及配置展示

news 2026/4/1 0:57:05

电脑上用ollama安装了qwen2.5:32b，deepseek-r1:32b，deepseek-r1:14b，llama3.1:8b四个模型，都是Q4_K_M量化版。
在这里插入图片描述
运行过程中主要是cpu和内存负载比较大，qwen2.5:32b大概需要22g，deepseek-r1：32b类似。显卡的运行状态在使用nouveau驱动的情况下使用cpu-x没有读取到。前段时间换成NVIDIA驱动后又试了下qwen2.5：32b，使用nvidia-smi读取到了运行状态，之前会占用大量内存的情况现在也没有再出现，但输出速度几乎不变，不太确定正不正常。考虑到切换NVIDIA驱动后我的两块屏幕无法显示，加上其他一些arch用户在更新系统时遇到的和NVIDIA驱动相关的问题，我又切换回了nouveau。

运行效果方面的话，两个32b的模型的效果是最好的，一些复杂问题的准确性也比两个要高，但是速度也是最慢的，对我来说属于勉强能用，如果速度能达到10 tokens/s的话，用起来就比较流畅了。

环境及配置

系统:：Arch Linux
CPU: AMD Ryzen 7 5800H with Radeon Graphics (16) @ 4.463GHz
GPU: AMD ATI Radeon Vega Series / Radeon Vega Mobile Series
GPU: NVIDIA GeForce RTX 3050 Ti Mobile / Max-Q
GPU驱动：nouveau
内存: 64G (32x2) DDR4 3200MHZ

qwen2.5:32b
在这里插入图片描述
deepseek-r1:32b

llama3.1:8b

一些术语解释

Total Duration:
The total time it took the model to complete the task. This includes all processing time.

Load Duration:
The model’s time to load or initialize before starting the task.

Prompt Eval Count:
The number of tokens (individual words or sub-word units) in the input prompt given to the model.

Prompt Eval Duration:
he model’s time to process and understand the input prompt.

Prompt Eval Rate:
The speed at which the model processed the input prompt, measured in tokens per second.

Eval Count:
The total number of tokens the model processes during the entire task, including both the prompt and the generated output.

Eval Duration:
The model’s time to process all the tokens during the task.

Eval Rate:
The overall processing speed of the model during the task, measured in tokens per second.

本地运行大模型效果及配置展示

环境及配置

一些术语解释

相关文章：

本地运行大模型效果及配置展示

愿景：做机器视觉行业的颠覆者

arm-linux-gnueabihf安装

力扣动态规划-16【算法学习day.110】

Java基础知识总结（三十四）--java.util.Date

零售EDI：Costco EDI 项目须知

最近最少使用算法（LRU最近最少使用）缓存替换算法

sublime_text的快捷键

使用Pygame制作“贪吃蛇”游戏

本地部署DeepSeek开源多模态大模型Janus-Pro-7B实操

Java开发vscode环境搭建

深入解析：一个简单的浮动布局 HTML 示例

车载软件 --- 大一新生入门汽车零部件嵌入式开发

DDD - 领域驱动设计分层架构：构建可演化的微服务架构

2025数学建模美赛|赛题翻译|E题

DeepSeek-V3 与 DeepSeek R1 对比分析：技术与应用的全面解析

qt-Quick3D笔记之官方例程Runtimeloader Example运行笔记

Linux内核中的页面错误处理机制与按需分页技术

PHP实现混合加密方式，提高加密的安全性（代码解密）

使用openwrt搭建ipsec隧道

Libre Barcode：终极免费条码字体解决方案，让条码生成变得简单高效

SDMatte与LSTM结合研究：时序视频抠图的初步探索

Anthropic：AI 编程从单打独斗到团队协作的生产关系升级

QuickSnap：Blender智能捕捉引擎提升40%建模效率

比特币钱包恢复工具btcrecover：从原理到实践的开源解决方案

NVMe 2.0 Boot Partitions：解锁高效固件更新的双分区机制

从GlobeLand30数据到统计报表：QGIS分区统计+Excel，打造你的地表覆盖分析工作流

基于YOLOv8深度学习的花卉识别检测系统（YOLOv8+YOLO数据集+UI界面+Python项目源码+模型）

Hunyuan-MT-7B开源大模型落地：Pixel Language Portal在海关报关单多语种智能填单系统中的集成

手把手教你解决HarmonyOS项目中的hvigor版本冲突问题（含API8/9兼容方案）