当前位置: 首页 > article >正文

DeepSeek本地部署:从零开始,把大模型跑在自己电脑上

DeepSeek本地部署从零开始把大模型跑在自己电脑上我们公司因为数据安全要求所有文档不能传到外部API。但团队又想用AI辅助写代码、做文档分析。解决方案本地部署DeepSeek。这篇文章记录了完整的部署过程、踩过的坑、以及部署之后怎么用。为什么选DeepSeek先说说为什么选DeepSeek而不是Llama或者Qwen。我测试了三个模型在我们实际场景下的表现代码补全、文档摘要、技术问答各30个测试用例模型代码补全文档摘要技术问答综合评分本地显存需求DeepSeek-Coder-V2 (7B)82%78%80%80%8GBQwen2.5-Coder (7B)79%75%77%77%8GBLlama-3-8B-Instruct74%80%76%76.7%8GBCodeLlama (7B)76%68%72%72%8GBDeepSeek-Coder在代码补全上明显领先。这跟我们的需求匹配度最高团队主要用AI辅助写代码所以选了它。如果你不是以代码为主Qwen的中文能力更好Llama的英文推理能力更强。根据你的实际需求选。硬件要求先别急看完再决定要不要装这是很多人跳过的部分结果装完发现跑不动。最低配置能跑但慢CPUi5-12400 或同等内存16GB硬盘50GB空闲空间GPU无纯CPU跑体验7B模型每秒生成2-5个token大概打字速度的1/5推荐配置日常可用CPUi7-12700 或同等内存32GB硬盘100GB SSDGPURTX 3060 12GB 或同等体验7B模型每秒生成30-50个token接近正常阅读速度最佳配置流畅体验CPUi9-13900K 或同等内存64GB硬盘200GB NVMe SSDGPURTX 4090 24GB 或同等体验14B模型每秒生成60-80个token比阅读快我的配置i7-13700K 32GB RTX 4070 12GB。跑7B模型够用跑14B模型显存不够需要量化后面会讲。没有N卡怎么办后面有纯CPU方案。方案一Ollama最简单推荐新手Ollama是现在最火的本地大模型运行工具。一行命令就能跑模型零配置。安装OllamaWindows去ollama.com下载安装包双击安装。装完之后打开终端输入ollama--version能输出版本号就说明装好了。下载并运行DeepSeekollama run deepseek-coder:6.7b这一行命令会自动下载模型大约4GB然后启动一个交互式聊天界面。你可以直接在里面问问题。第一次下载比较慢取决于你的网速我家的100M宽带大概5分钟下完。下载完之后模型缓存在本地以后启动秒开。指定参数运行# 限制显存使用如果你显卡显存不够ollama run deepseek-coder:6.7b --num-gpu-layers20# 增加上下文长度默认2048最大可以到16Kollama run deepseek-coder:6.7b --num-ctx8192--num-gpu-layers控制把多少层模型放到GPU上。显存不够就调小这个数字多出来的层会在CPU上跑速度会慢一些但不会崩。Ollama的APIOllama启动后自动在localhost:11434暴露一个兼容OpenAI格式的API。这意味着你可以把任何支持OpenAI API的工具对接到本地模型。# 测试API是否正常curlhttp://localhost:11434/v1/chat/completions\-HContent-Type: application/json\-d{ model: deepseek-coder:6.7b, messages: [{role: user, content: 用Python写一个快速排序}], stream: false }这个特性非常有用。我后面会讲怎么把它对接到Cursor里。方案二vLLM高性能适合生产环境如果你的电脑配置还行想要更快的推理速度用vLLM。vLLM是伯克利开发的推理引擎用了PagedAttention等技术推理速度比Ollama快30%-50%。安装pipinstallvllm注意vLLM只支持Linux和WSL2。Windows原生不支持。如果你是Windows需要先装WSL2。启动服务python-mvllm.entrypoints.openai.api_server\--modeldeepseek-ai/deepseek-coder-6.7b-instruct\--tensor-parallel-size1\--max-model-len8192\--gpu-memory-utilization0.9参数说明--tensor-parallel-sizeGPU数量。单卡设1就行--max-model-len最大上下文长度--gpu-memory-utilizationGPU显存使用率默认0.990%启动后在http://localhost:8000暴露OpenAI兼容的API。性能对比我在同样的硬件上RTX 4070 12GB跑了对比引擎生成速度 (tokens/s)首 token 延迟显存占用Ollama351.2秒7.8GBvLLM520.6秒10.2GBllama.cpp (CPU)43.5秒0.5GBvLLM快了将近50%首token延迟也低了一半。代价是显存占用更高配置低了可能跑不了。方案三纯CPU没有N卡也能跑用llama.cpp可以在纯CPU上跑模型。速度慢但至少能跑。安装# 用pip安装llama-cpp-pythonCMAKE_ARGS-DLLAMA_BLASON -DLLAMA_BLAS_VENDOROpenBLAS\pipinstallllama-cpp-python加-DLLAMA_BLASON是为了启用BLAS加速。纯CPU跑模型没有这个会非常慢。下载GGUF格式模型去HuggingFace搜索deepseek-coder gguf下载Q4_K_M量化版本文件最小质量损失最少。我下载的是deepseek-coder-6.7b-instruct.Q4_K_M.gguf大约4GB。运行fromllama_cppimportLlama# 加载模型llmLlama(model_path./deepseek-coder-6.7b-instruct.Q4_K_M.gguf,n_ctx2048,# 上下文长度n_gpu_layers0,# 全部用CPUverboseFalse)# 生成outputllm.create_chat_completion(messages[{role:user,content:用Python写一个二分查找}])print(output[choices][0][message][content])速度大概每秒3-5个token。写代码的时候需要等几秒钟才能看到完整输出。能用但体验一般。如果你公司电脑连N卡都没有但又有本地部署的需求这个方案至少能让你用上AI。总比没有强。对接到编程工具模型跑起来之后怎么在日常工作中用两个方案。对接Cursor打开Cursor设置搜索OpenAI API Key填入API Key随便填一个字符串Ollama不验证Base URLhttp://localhost:11434/v1Ollama或者http://localhost:8000/v1vLLM然后在Cursor的模型选择里选OpenAI API模式模型名填deepseek-coder:6.7b。就能在Cursor里用本地模型做代码补全和Chat了。对接ContinueVS Code插件如果你还在用VS Code装一个Continue插件配置类似{models:[{title:DeepSeek Local,provider:ollama,model:deepseek-coder:6.7b,apiBase:http://localhost:11434}]}装完就能在VS Code里用CtrlL调出Chat、CtrlI做代码补全了。踩坑记录坑1显存不够模型加载失败报错信息大概是CUDA out of memory或者Cannot allocate memory。原因7B模型虽然叫7B但实际需要的显存不止7GB。模型权重7GB KV Cache 运行时开销实际需要9-10GB。RTX 3060 12GB刚好够RTX 3060 8GB就不够。解决方案用量化版本的模型。GGUF格式的Q4量化模型只需要4-5GB显存。在Ollama里直接用ollama run deepseek-coder:6.7b-q4_0就行。坑2生成速度特别慢模型能加载但每秒只能生成1-2个token一个回复要等一两分钟。原因模型跑在了CPU上而不是GPU上。排查方法确认NVIDIA驱动和CUDA已安装nvidia-smi看能不能输出版本信息确认PyTorch能识别GPUpython -c import torch; print(torch.cuda.is_available())如果输出False说明你的PyTorch装的是CPU版本需要重装GPU版本解决方案Ollama一般不会出这个问题Ollama自动检测GPU。解决方案vLLM确认安装了CUDA toolkit然后重装pip install vllm。坑3中文输出乱码模型能跑但输出中文的时候是一堆乱码。原因模型的tokenizer对中文的支持不太好。DeepSeek-Coder是代码模型中英文混合的时候偶尔会出现乱码。解决方案在prompt里明确指定用中文回答。比如请用中文回答以下问题。或者换用DeepSeek-Chat模型通用对话模型中文能力比Coder强。ollama run deepseek-chat:7b坑4WSL2里跑vLLMGPU识别不到装了WSL2装了vLLM但启动时报no CUDA devices found。原因WSL2需要特殊配置才能访问GPU。不是装了WSL2就能用GPU的。解决方案确认Windows上的NVIDIA驱动版本 535nvidia-smi看版本号在WSL2里运行nvidia-smi能输出说明GPU passthrough正常如果WSL2里nvidia-smi报错需要安装WSL2的GPU驱动我踩这个坑花了一下午。微软的WSL2 GPU文档写得东一榔头西一棒子实际就两步更新Windows NVIDIA驱动到535以上 在WSL2里装CUDA toolkit。搞定。坑5多人同时使用服务崩溃我把Ollama部署到公司内网服务器上3个人同时用结果第4个人请求的时候服务直接崩溃。原因Ollama默认是串行处理请求的。一个请求没处理完下一个请求就排不上。解决方案用vLLM替代Ollama。vLLM支持并行请求处理continuous batching多人同时用没问题。或者部署多个Ollama实例用Nginx做负载均衡。实际使用效果我们团队部署DeepSeek本地模型已经两个月了。说下实际效果代码辅助日常写CRUD、写单元测试、写配置文件本地模型完全够用。准确率比GPT-4o低一些大约85% vs 92%但胜在响应快、不花钱、数据不出内网。文档摘要技术文档、设计文档、会议纪要的摘要生成7B模型能处理。但如果文档超过8000字效果会明显下降上下文长度限制。技术问答针对公司内部技术栈的问题Spring Cloud、Vue3、MySQL回答质量还可以。但如果是特别新的技术2025年下半年之后的本地模型的训练数据不够回答质量会差。不适合的场景复杂架构设计、跨系统的全局分析、需要最新知识的问答。这些场景还是得用云端大模型。总体来说本地模型覆盖了我们60-70%的AI使用场景。剩下30-40%需要更强推理能力的复杂架构设计、跨系统分析我们走DeepSeek API或GPT-4o。这样的组合方案既保证了数据不出内网满足合规要求又不会因为模型能力不足影响工作质量。成本对比部署之前团队5个人每月的API费用大约2000人民币。部署之后服务器成本一台RTX 4070的机器大约5000人民币一次性投入 每月200人民币电费。两个月就回本了。推荐部署方案根据你的情况选个人开发者有N卡Ollama DeepSeek-Coder10分钟搞定团队使用有服务器vLLM DeepSeek-Coder配Nginx做反代没有N卡llama.cpp Q4量化模型CPU跑企业级部署建议用Docker vLLM Nginx加API Key认证我推荐先从Ollama开始试。如果只是自己用Ollama就够了。等需要多人同时用或者追求更快的速度再换vLLM。部署过程中遇到问题可以在评论区问我看到就会回。本地部署的坑确实多官方文档又写得一言难尽大家一起填。

相关文章:

DeepSeek本地部署:从零开始,把大模型跑在自己电脑上

DeepSeek本地部署:从零开始,把大模型跑在自己电脑上我们公司因为数据安全要求,所有文档不能传到外部API。但团队又想用AI辅助写代码、做文档分析。解决方案:本地部署DeepSeek。这篇文章记录了完整的部署过程、踩过的坑、以及部署之…...

用Java+MySQL从零搭建一个鲜花商城,我踩过的这些坑你别再踩了(附完整源码)

用JavaMySQL从零搭建一个鲜花商城,我踩过的这些坑你别再踩了(附完整源码) 去年毕业设计选题时,我毫不犹豫选择了"鲜花商城系统"这个看似简单的项目。本以为用JavaMySQL组合开发一个基础电商平台是水到渠成的事&#xff…...

ElevenLabs IVR语音制作避坑手册(2024最新版):92%开发者踩过的5类语音延迟/断连/语义失准陷阱

更多请点击: https://intelliparadigm.com 第一章:ElevenLabs IVR语音制作避坑手册导论 在构建高可用、高自然度的智能语音应答(IVR)系统时,ElevenLabs 以其超拟真语音合成能力成为热门选择。然而,其 API …...

【Midjourney提示词工程高阶实战】:20年AI图像生成专家亲授7大隐性权重控制法则,92%用户从未用过的构图锚点技术

更多请点击: https://intelliparadigm.com 第一章:Midjourney提示词工程高阶认知重构 提示词工程(Prompt Engineering)在 Midjourney 中远非关键词堆砌,而是一场语义结构、视觉语法与模型先验知识的三重对齐。高阶重构…...

c++11(一)列表初始化,右值引用和移动语义

一、C11 c11是c发展以来的第二个主要版本,是从c98开始的最重要的更新。之前的博客接触到的都是c98最开始的版本所涉及的内容,接下来会讲解C11里面用的最多也是最重要的语法。 在这里插入图片描述 二、列表初始化 1. c98和c11里的{} C98里传统的{}一般…...

C++11(三)lambda表达式、function、bind

一、lambda 1. lambda表达式语法 lambda表达式本质是一个匿名函数对象(这个原理部分会讲到),不过与普通函数只能定义在全局或类内部不同,它可以直接定义在函数内部。lambda表达式格式: 代码语言:javascr…...

光伏产业价值链迁移:从硬件制造到系统服务与金融创新的黄金机遇

1. 光伏行业的价值转移:从硬件制造到系统服务十年前,当我在深圳第一次接触光伏组件生产线时,满眼都是硅料、银浆和层压机,行业里人人谈论的是转换效率又提升了零点几个百分点,或是每瓦成本又降了几分钱。那时候&#x…...

Unity 2D横版闯关游戏:从零到一构建像素风丛林冒险

1. 像素风游戏的前期准备 第一次打开Unity时,看着空荡荡的场景视图,我完全不知道从哪里开始。后来发现,制作2D横版游戏就像搭积木,需要先准备好所有零件。这里分享我制作《丛林法则》时的完整筹备过程。 像素风游戏最迷人的就是那…...

Dev Containers实战:容器化开发环境配置与团队协作指南

1. 项目概述:一个容器化的开发环境定义仓库如果你和我一样,经常需要在不同的机器上切换工作,或者团队里有新成员加入,那么“环境配置”这件事,绝对能排进程序员最头疼问题的前三名。我经历过无数次这样的场景&#xff…...

Linux 7.6 环境下 InterSystems Caché 数据库的部署与核心配置实战

1. 环境准备:打造Cach的温床 在RHEL 7.6最小化系统上部署InterSystems Cach前,我们需要像准备手术室一样严格配置基础环境。我曾在生产环境中因为漏掉一个依赖项导致整个安装流程卡住3小时,这些血泪经验都浓缩在下面的步骤里。 1.1 基础依赖安…...

S32K3 FlexCAN实战:从MCAL配置到DMA接收,手把手教你避开那些手册里没写的坑

S32K3 FlexCAN深度实战:从寄存器配置到DMA优化全链路解析 在车载电子架构快速迭代的今天,S32K3系列MCU凭借其强大的FlexCAN模块成为汽车电子开发者的首选。但官方文档往往只勾勒出理想状态下的功能框架,当工程师真正着手实现CAN FD通信时&…...

当计算机视觉模型开始“打架”:对抗性攻击与鲁棒性研究

摘要随着计算机视觉模型在安全敏感场景(如自动驾驶、人脸识别、安防监控)中的广泛应用,模型的脆弱性问题日益凸显。“打架”在这里并非字面意义的冲突,而是指对抗性攻击(Adversarial Attacks)与防御机制&am…...

微机原理课设别头疼!手把手教你用8255和8253芯片搞定电子琴仿真(附Proteus工程和汇编源码)

微机原理课设实战:82558253芯片构建电子琴仿真系统全解析 记得第一次拿到微机原理课设题目时,面对一堆芯片型号和汇编指令,我整个人都是懵的。作为过来人,我完全理解你现在可能面临的困惑——如何把抽象的芯片功能转化为实际可运行…...

别再死记硬背公式了!用‘井字棋’和‘抢30’游戏带你直观理解巴什博弈(Bash Game)

用童年游戏破解数学奥秘:从"抢30"到巴什博弈的思维跃迁 记得小时候和伙伴们玩"抢30"游戏吗?两人轮流报数,每次可以说1到3个连续数字,谁先喊出"30"谁就获胜。这个看似简单的游戏背后,隐藏…...

基于大语言模型的AI狼人杀游戏:双层角色扮演与模型竞技场设计

1. 项目概述:当狼人杀遇上AI,一场全新的推理盛宴毕业之后,想凑齐8到12个人,在周末的晚上围坐一圈,点上外卖,来一场酣畅淋漓的狼人杀,几乎成了一种奢望。这个游戏的精髓在于社交,但剥…...

别再求公司账号了!个人开发者也能搞定uniapp打包iOS(保姆级证书+profile配置)

个人开发者独立完成uniapp iOS打包全流程指南 在移动应用开发领域,iOS平台始终是开发者无法绕开的重要阵地。然而,许多独立开发者和小团队常常被苹果开发者账号的门槛所困扰,误以为必须依赖企业级账号才能完成应用打包和上架。实际上&#x…...

基于MCP协议的CalDAV/CardDAV集成:AI智能体统一管理日历与通讯录

1. 项目概述与核心价值最近在折腾智能体(Agent)和自动化工作流时,发现一个痛点:很多强大的工具和数据源,比如日历、邮件、云盘,它们都有自己独立的API,但要让AI智能体去理解和操作这些分散的系统…...

手把手教你用UE5 C++复刻《只狼》式动态攀爬:不止于ALS V4的拓展思路

UE5 C实现《只狼》式动态攀爬系统:从ALS V4到次世代交互设计 在动作游戏开发领域,玩家与环境的交互质量往往决定了游戏体验的上限。当《只狼:影逝二度》以其行云流水般的攀爬系统重新定义动作游戏标准时,许多开发者开始思考&#…...

外卖点餐连锁店餐饮生鲜奶茶外卖店内扫码点餐源码同城外卖校园外卖源码的扫码逻辑

📱 扫码点餐系统 - 完整扫码逻辑 源码示例外卖点餐 | 连锁店 | 餐饮生鲜 | 奶茶 | 店内扫码点餐 | 同城外卖 | 校园外卖🎯 扫码业务场景总览场景扫码后行为核心逻辑🍽️ 店内扫码点餐进入店铺菜单页识别店铺ID → 加载菜单🏃 外卖…...

XYBotV2:开发者如何快速构建可扩展的智能对话机器人框架

1. 项目概述:一个面向开发者的智能对话机器人框架最近在GitHub上看到一个挺有意思的项目,叫XYBotV2。乍一看标题,可能很多人会以为这又是一个普通的聊天机器人,但如果你点进去仔细研究一下,就会发现它其实是一个为开发…...

JAVA校园跑腿代买代拿社区-校园跑腿小程序的后端代码示例

&#x1f3c3; JAVA校园跑腿系统 - 后端完整代码示例校园跑腿代买代拿 | Spring Boot MyBatis Plus MySQL Redis&#x1f4e6; 一、项目依赖 pom.xmlxml<?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/…...

从一次内存拷贝崩溃说起:手把手教你用memcpy_s重构老旧C代码

从内存越界崩溃到安全重构&#xff1a;实战memcpy_s迁移指南 调试器突然停止在memcpy调用处&#xff0c;控制台抛出"Segmentation fault"的那一刻&#xff0c;每个C语言开发者都会心头一紧。这种由内存越界引发的崩溃在遗留代码库中尤为常见&#xff0c;就像我去年接…...

Cursor聊天数据恢复工具:原理、实操与避坑指南

1. 项目概述&#xff1a;数据恢复的“后悔药”在数字创作的世界里&#xff0c;我们与工具的交互正变得越来越智能和复杂。Cursor&#xff0c;这款集成了AI辅助编程能力的编辑器&#xff0c;已经成为了许多开发者和技术写作者的主力工具。它不仅仅是写代码&#xff0c;更是一个集…...

Go语言实现Dify与钉钉机器人集成:企业级AI应用开发实战

1. 项目概述&#xff1a;当Dify遇上钉钉&#xff0c;打造企业级AI应用新范式 最近在折腾一个挺有意思的项目&#xff0c;叫“MAyang38/dify-on-dingding-go”。光看名字&#xff0c;可能有点技术黑话的味道&#xff0c;但说白了&#xff0c;这就是一个“桥梁”项目。它的核心使…...

杰理之做1T1应用失真较大问题修改【篇】

可以将低延时编码LIVE_AUDIO_CODING_JLA_LL修改为LIVE_AUDIO_CODING_JLA...

基于MCP协议与Docker为Claude Code构建Brave搜索服务器Argus

1. 项目概述&#xff1a;为Claude Code打造一个“全视之眼” 如果你和我一样&#xff0c;日常重度依赖Claude Code来辅助编程、查资料、写文档&#xff0c;那你一定遇到过这样的痛点&#xff1a;当Claude需要联网搜索时&#xff0c;要么得手动复制粘贴&#xff0c;要么得依赖一…...

半导体行业如何应对政策不确定性:从游说策略到企业决策

1. 从一篇旧报道看半导体行业的“华盛顿困局”最近整理资料时&#xff0c;翻到一篇2012年EE Times的旧文&#xff0c;标题是《硅谷国度&#xff1a;选举后的政治僵局或将持续——SIA CEO如是说》。文章不长&#xff0c;但里面半导体行业协会&#xff08;SIA&#xff09;时任CEO…...

AI驱动终端交互:用自然语言指挥命令行的新范式

1. 项目概述&#xff1a;一个AI驱动的终端交互新范式最近在终端工具圈里&#xff0c;一个名为“yai”的项目引起了我的注意。它不是一个简单的命令行美化工具&#xff0c;也不是一个传统的终端复用器。简单来说&#xff0c;yai是一个由 AI 驱动的、旨在彻底改变你与终端交互方式…...

2025终极指南:Cursor Free VIP破解工具如何帮你免费解锁AI编程助手所有功能

2025终极指南&#xff1a;Cursor Free VIP破解工具如何帮你免费解锁AI编程助手所有功能 【免费下载链接】cursor-free-vip [Support 0.45]&#xff08;Multi Language 多语言&#xff09;自动注册 Cursor Ai &#xff0c;自动重置机器ID &#xff0c; 免费升级使用Pro 功能: Yo…...

从零构建C++/CUDA推理引擎:深入解析yalm项目与LLM底层优化

1. 项目概述&#xff1a;从零构建一个高性能的C/CUDA推理引擎最近在深入研究大语言模型推理的性能优化&#xff0c;发现很多开源实现为了追求极致的性能&#xff0c;代码往往高度优化&#xff0c;甚至引入了动态并行等高级CUDA特性&#xff0c;这对想深入理解底层原理的开发者来…...