当前位置: 首页 > article >正文

端侧AI 模型部署实战二(云端、PC 本地、手机端侧主流大模型及部署工具 )

AI的大模型部署主要有云端、PC 本地、手机端侧 三大场景。* 云端大模型在线 API / 网页最强能力* PC 本地大模型Windows/macOSGGUF 优先* 消费电子手机端侧大模型Android/iOS离线本地一、云端大模型闭源为主API / 网页调用1. 主流模型国际闭源GPT-5.4、GPT-4.5 TurboOpenAIClaude Opus 4.6、Claude 3.5 SonnetAnthropicGemini 3.1 Ultra、Gemini 1.5 FlashGoogle国产闭源通义千问 3.5 Max/Pro阿里文心一言 5.0百度混元 2.0腾讯豆包 4.0字节2. 云端部署 / 调用工具官方 API 平台OpenAI API、Anthropic API、Google Gemini API阿里云通义千问 API、百度千帆 API、腾讯混元 API第三方集成 / 管理工具LangChain大模型编排、RAG、Agent 开发LlamaIndex文档索引、检索增强、知识库Flowise低代码可视化构建 LLM 工作流Dify一站式 AI 应用开发提示词、知识库、APIFastAPI/Flask自建 API 网关封装多模型调用网页 / 客户端ChatGPT、Claude、Gemini 网页版通义千问、文心一言、豆包 App / 网页二、PC 本地大模型开源为主7B–70B离线运行1. 主流模型2026通用基座Llama 3.1/48B/70B、Qwen 3.57B/14B/32B/72BMistral-7B/13B、DeepSeek R1/Coder7B/16B/33BGLM 57B/13B/34B、Yi 34B轻量入门无独显也可跑Qwen 3.5 0.8B/1.8B、Gemma 4 2B/3B、MobileLLM 1.1B2. PC 本地部署 / 运行工具按易用度排序1一键式 GUI 工具Ollama最流行一句话启动ollama run llama3.1/ollama run qwen3.5支持 Windows/macOS/Linux自动下载、量化、运行内置 API可对接 Chatbot、IDE 插件LM Studio可视化模型库、一键下载 / 运行、参数调节支持 GGUF/GGML 量化多模型并行内置聊天界面适合个人本地使用GPT4All开源免费内置大量轻量模型纯 CPU 也可运行适合轻薄本Text Generation WebUIOobabooga功能最全的开源 WebUI支持加载各类模型格式支持 LoRA 微调、插件扩展、多模态适合开发者深度定制2命令行 / 推理引擎性能优先llama.cppGGUF 格式标杆纯 C/CCPU/GPU 加速极快内存占用极低支持量化Q4_K_M/Q5_K_M7B 模型仅需 4–6GB 内存命令./main -m qwen3.5-7b-q4.gguf -p 你好vLLM高吞吐推理主打高并发、低延迟适合本地服务部署支持 PagedAttention显存利用率高适合 13B/34B/70B 模型需 NVIDIA GPUTensorRT-LLMNVIDIA 极致加速基于 TensorRT推理速度最快适合高端显卡RTX 4090/ADA 系列做本地服务ExLlamaV2GGUF/GPTQ 双支持速度与 llama.cpp 相当支持更多模型格式适合追求极致速度的用户3框架 / 开发工具开发者TransformersHugging Face加载 / 推理 / 微调一站式支持所有主流开源模型配合accelerate、bitsandbytes实现 4/8 比特量化AutoGPTQGPTQ 量化专用显存占用大幅降低适合在有限显存下跑大参数模型Unsloth轻量微调框架速度快、显存省适合个人 PC 做 LoRA 微调三、手机端侧大模型0.8B–8B离线 / 低功耗1. 主流模型2026国际端侧Gemma 4 E2B/E4BGoogle5B/8B有效 2.3B/4.5BGemini Nano 41B–4BPixel 内置MobileLLM-ProMeta1.1B开源国产端侧Qwen 3.5 0.8B/2B/4B阿里Android 适配最佳文心端侧 1B/3B百度小米 MIMO-V23B–8B小米旗舰内置华为端侧模型4B–8B麒麟 9010 内置2. 手机端侧部署 / 运行工具1Android 端侧框架开发 / 集成TFLiteTensorFlow LiteGoogle 官方端侧推理框架支持 Gemma、MobileLLM支持 CPU/GPU/NPU 加速量化友好MNN阿里国产端侧推理引擎对 Qwen 系列优化极佳支持 Android/iOS低内存、低延迟NCNN腾讯轻量高效支持移动端 CPU/GPU 加速适合轻量模型0.8B–2Bllama.cpp for Android直接在 Android 上跑 GGUF 模型Termux 环境可用适合极客折腾HF Transformers for Android移动端 Hugging Face 生态加载 / 推理模型2iOS 端侧框架Core MLApple 原生框架A17 Pro/A19 芯片 NPU 加速支持 Gemma、Qwen 等模型的 Core ML 格式转换MLXApple专为 Apple Silicon 优化支持端侧推理 / 微调适合在 iPhone/Mac 上统一开发3手机端侧 App直接使用ChatdollAndroid内置 Qwen/Gemma 端侧模型离线聊天LM Studio Mobile移动端版 LM Studio下载 / 运行 GGUF 模型Termux llama.cppAndroid 极客命令行运行任意 GGUF 模型完全离线四、三大场景模型 工具速览表场景参数范围代表模型核心部署 / 运行工具硬件门槛云端千亿万亿GPT-5.4、Claude Opus 4.6、Gemini 3.1 Ultra、通义千问 3.5 MaxOpenAI API、LangChain、Dify、Flowise企业级服务器 / 集群PC 本地7B~70BLlama 3.1-8B、Qwen 3.5-7B、Mistral-7B、DeepSeek R1Ollama、LM Studio、llama.cpp、vLLM、Transformers16GB 内存 8GB 显存手机端侧0.8B~8BGemma 4 E2B、Qwen 3.5-2B、Gemini Nano 4、MobileLLM-ProTFLite、MNN、llama.cpp for Android、Core ML旗舰手机6GB 内存NPU 优先五、端侧 AI 工程师部署标准链路场景原始模型safetensors↓PyTorch 脚本转 GGUF↓llama.cpp 核心LM Studio 预览 / Android 端侧部署运行下一篇Miniconda/PyTorch/Jupyter/LM Studio/llama.cpp Android完成从原始hugging face 原始模式-- pytorch自定义量化微调 -- LM Studio预览 Android端侧部署。

相关文章:

端侧AI 模型部署实战二(云端、PC 本地、手机端侧主流大模型及部署工具 )

AI的大模型部署主要有云端、PC 本地、手机端侧 三大场景。* 云端大模型(在线 API / 网页,最强能力)* PC 本地大模型(Windows/macOS,GGUF 优先)* 消费电子(手机端侧大模型Android/iOS&#xff0c…...

wxlivespy:微信视频号直播数据高效捕获与智能分析解决方案

wxlivespy:微信视频号直播数据高效捕获与智能分析解决方案 【免费下载链接】wxlivespy 微信视频号直播间弹幕信息抓取工具 项目地址: https://gitcode.com/gh_mirrors/wx/wxlivespy 在数字化直播浪潮中,实时数据已成为驱动运营决策的核心引擎。wx…...

5分钟掌握UEFI启动画面个性化:HackBGRT终极指南

5分钟掌握UEFI启动画面个性化:HackBGRT终极指南 【免费下载链接】HackBGRT Windows boot logo changer for UEFI systems 项目地址: https://gitcode.com/gh_mirrors/ha/HackBGRT 你是否厌倦了每次开机都看到单调乏味的厂商Logo?想要在启动时展示…...

微信视频号直播数据捕获技术:从原理到实践的全方位解析

微信视频号直播数据捕获技术:从原理到实践的全方位解析 【免费下载链接】wxlivespy 微信视频号直播间弹幕信息抓取工具 项目地址: https://gitcode.com/gh_mirrors/wx/wxlivespy 一、技术原理:构建实时数据捕获的核心引擎 1.1 三层数据处理架构&…...

如何快速解密科学文库加密文档:终极免费解密工具指南

如何快速解密科学文库加密文档:终极免费解密工具指南 【免费下载链接】ScienceDecrypting 破解CAJViewer带有效期的文档,支持破解科学文库、标准全文数据库下载的文档。无损破解,保留文字和目录,解除有效期限制。 项目地址: htt…...

在PHP中,何时使用静态工厂方法替代构造函数?

在 PHP 中,构造函数 (__construct) 是实例化对象的默认方式,但它有几个明显的局限性: 名称固定:只能叫 __construct,无法表达意图。返回类型固定:只能返回当前类的实例,不能返回子类或缓存对象。…...

用快马平台十分钟复刻lostlife:快速构建你的首个交互式游戏原型

最近想尝试做个简单的交互式游戏原型,正好看到InsCode(快马)平台可以快速生成项目代码,就试了试复刻类似lostlife的玩法。整个过程比想象中顺利,分享下我的实现思路: 确定核心交互逻辑 游戏的核心是点击角色触发反馈,所…...

Docker启动Easysearch自定义密码5种方法,flask_socketio+pyautogui实现的具有加密传输功能的极简远程桌面。

Docker 启动 Easysearch 时自定义初始密码的几种方式 通过环境变量直接设置密码 在运行 Docker 容器时,可以使用 -e 参数传递环境变量 ELASTIC_PASSWORD 来设置初始密码。 docker run -d --name easysearch \-p 9200:9200 \-e "ELASTIC_PASSWORDyour_custom_pa…...

使用Python进行数据分析可视化

使用Python完成简单的数据试图化有以下几个功能库帮助我们快速完成。1. pandas- 用途:读取人员基本信息表(Excel/CSV)、数据清洗、筛选、统计 ​ - 功能:读取文件、分组统计、处理缺失值、生成各类统计数据(性别、省份…...

保姆级教程:AI全身全息感知镜像部署,手把手教你实现543点动作捕捉

保姆级教程:AI全身全息感知镜像部署,手把手教你实现543点动作捕捉 1. 引言:全息感知技术的平民化革命 想象一下,只需一台普通电脑,就能实现电影级别的动作捕捉效果——这正是AI全身全息感知技术带来的变革。传统动作…...

OpenClaw 控制面板侧边栏工具说明书

这份说明书基于 OpenClaw 官方文档整理,帮助你理解控制面板各个功能模块。版本:2026.3.31 📋 侧边栏工具概览 工具对应功能用途代理Agents(多代理)管理多个独立 AI 代理技能Skills安装和管理自定义技能节点Nodes配对的…...

2026最权威的十大降重复率神器实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 于当下竞争极为激烈的商业环境之中,企业降本增效的需求变得越发迫切&#xff0c…...

玩转线控转向:从方向盘到轮胎的数学游戏

线控转向系统模型simulink, 以及理想传动比,变传动比,变角传动比simulink模块,分别在低速工况,中速工况,高速工况下进行对比仿真,结果较好 有对应绘图代码m脚本文件,模型对应的论文最近在Simuli…...

2026年Turnitin AI检测对留学生论文的影响:检测标准和应对方案

2026年Turnitin AI检测对留学生论文的影响:检测标准和应对方案 同一篇论文,知网52%,维普38%,万方21%。 为什么差这么多?不是平台乱搞,而是检测算法和判断标准不一样。理解了Turnitin AI检测背后的逻辑&am…...

安全是跑出来的:从萝卜快跑看自动驾驶的“成人礼”

近日,武汉市区部分“萝卜快跑”自动驾驶车辆出现突发停驶异常状况,部分车辆在道路上停止运行,导致乘客被困、交通受阻。官方通报显示,此次事件为系统故障触发的车辆停滞,所有乘客已安全撤离,无人员伤亡。作…...

每日一书⑩ | AI 未来:未来不属于 AI,属于会用 AI 的人

“本文来自「乐想屋」公众号,系列更新[每日一书],每次5分钟,帮你把书读薄,把知识用活”01 开篇:AI 不是科幻,是正在发生的现实你可能觉得 AI 还很遥远,但它已经渗透进生活的每个角落&#xff1a…...

谷歌Gemma 4模型深度解析:开源王者来袭,单卡可跑,性能碾压20倍参数量对手

2026年4月2日,谷歌DeepMind悄然发布新一代开源大模型Gemma 4系列,瞬间引爆AI开源社区。作为谷歌迄今为止最智能的开放模型,Gemma 4不仅带来了覆盖手机到数据中心的全场景型号,更以Apache 2.0开源协议彻底放开限制,凭借…...

Claude Code /buddy 命令失效了?教你一招绕过限制,直接解锁金色传说!

最近升级到 Claude Code > v2.1.90 的小伙伴可能发现,输入 /buddy 命令后只会提示: buddy is unavailable on this configuration GitHub 上的 issue 也有相关讨论,官方把这个命令禁用了。那刚安装或升级的用户就没法体验 buddy 了吗&…...

无需重装!修复赛博朋克2077 DirectX错误:d3dx9_43.dll丢失的快速解决方法

当你满心期待地启动《赛博朋克2077》,却只等来一个“由于找不到d3dx9_43.dll,无法继续执行代码”的错误弹窗,游戏就此卡死,确实让人瞬间血压飙升。别急,这个报错并非意味着你的游戏文件损坏,更不需要重装那…...

三相桥式电压型逆变电路的Simulink仿真展示

三相桥式电压型逆变电路Simulink仿真展示~ ~鼠标在Simulink库里翻找元器件时突然想起,当年被三相桥式逆变电路支配的恐惧。这货看起来简单,六个IGBT排排坐吃果果,但真搭起模型来,门极驱动时序能让人头秃。今天咱们就手把手搞个能跑…...

智能体快速构建指南

智能体快速构建指南 基于 NVIDIA GTC 大会「Agentic AI 101」主题讲座整理 覆盖:本质认知 → 核心模块 → 落地场景 → 实操路径 一、Agentic AI 是什么?与传统 AI 的本质分野 一句话定义 传统 AI 告诉你怎么做,Agentic AI 直接帮你做完。 传…...

yz-bijini-cosplay惊艳效果:多光源环境下Cosplay角色面部光影层次还原

yz-bijini-cosplay惊艳效果:多光源环境下Cosplay角色面部光影层次还原 安全声明:本文仅讨论技术实现方案,所有生成内容均为技术演示用途,不涉及任何真人形象或不当内容。 1. 项目概述:专为Cosplay创作打造的AI图像生成…...

3步解锁网盘直链:LinkSwift八大平台高速下载完全指南

3步解锁网盘直链:LinkSwift八大平台高速下载完全指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

无需会员!本地工具如何让城通网盘下载速度提升20倍

无需会员!本地工具如何让城通网盘下载速度提升20倍 【免费下载链接】ctfileGet 获取城通网盘一次性直连地址 项目地址: https://gitcode.com/gh_mirrors/ct/ctfileGet 你是否也曾在下载重要文件时,看着浏览器进度条龟速前进而心急如焚&#xff1f…...

革新性百度网盘加速方案:BaiduPCS-Web与KinhDown技术突破与实践指南

革新性百度网盘加速方案:BaiduPCS-Web与KinhDown技术突破与实践指南 【免费下载链接】baidupcs-web 项目地址: https://gitcode.com/gh_mirrors/ba/baidupcs-web 在数字化时代,百度网盘作为国内领先的云存储服务,却因对免费用户实施严…...

3个技巧让百度网盘下载提速10倍:突破限速的完整技术方案

3个技巧让百度网盘下载提速10倍:突破限速的完整技术方案 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 百度网盘解析工具 baidu-wangpan-parse 是一款专为解决百度…...

终极指南:在Windows上完美重现Mac触控板体验的完整解决方案

终极指南:在Windows上完美重现Mac触控板体验的完整解决方案 【免费下载链接】mac-precision-touchpad Windows Precision Touchpad Driver Implementation for Apple MacBook / Magic Trackpad 项目地址: https://gitcode.com/gh_mirrors/ma/mac-precision-touchp…...

LLM 算法岗 | 八股问答()· 多模态与主流模型架构

本文能帮你解决什么? 1. 搞懂FastAPI异步(async/await)到底在什么场景下能真正提升性能。 2. 掌握在FastAPI中正确使用多线程处理CPU密集型任务的方法。 3. 避开常见的坑(比如阻塞操作、数据库连接池耗尽、GIL限制)。 …...

CHORD-X大模型一键部署教程:基于Python爬虫的深度研究报告数据采集实战

CHORD-X大模型一键部署教程:基于Python爬虫的深度研究报告数据采集实战 你是不是也经常为了写一份行业研究报告,得花上大半天甚至几天时间,手动去各个网站、公告平台、新闻页面搜集数据?财报摘要、市场动态、公司公告、行业新闻……...

3步零成本改造:让老旧打印机秒变AirPrint无线打印服务器

3步零成本改造:让老旧打印机秒变AirPrint无线打印服务器 【免费下载链接】cups-avahi-airprint Docker image for CUPS intended as an AirPrint relay 项目地址: https://gitcode.com/gh_mirrors/cu/cups-avahi-airprint 当iPad遇上旧打印机:现代…...