当前位置：首页 > article >正文

用Exo搭建本地800亿参数AI集群

article 2026/3/18 21:07:00

在上一篇文章 *《我用16GB Mac Mini打造AI powerhouse——LM Studio Link如何改变一切》*中我探索了通过在强大的机器上使用LM Studio Link来在较小设备上运行AI模型的方法。如果我想反其道而行之——将多台机器的CPU、GPU和RAM资源整合起来运行单台机器无法处理的模型呢如果你手头有一堆较小的设备想要将它们的能力整合起来以发挥更大作用呢来认识Exo。这正是这个问题的答案。1、什么是ExoExo是由Exo Labs维护的一个开源项目。用一句话概括它将你的所有设备连接成一个个人AI集群让你可以运行那些永远无法装入任何单台机器的前沿模型。核心能力一览自动设备发现——运行Exo的设备会自动在网络上找到彼此无需手动配置。拓扑感知自动并行——Exo会根据每台设备可用的RAM、CPU/GPU资源以及节点间的网络延迟自动找出最优的模型分割方式。张量并行——模型分片可在2台设备上实现高达1.8倍加速在4台设备上实现3.2倍加速。Thunderbolt 5上的RDMA——在支持的硬件M4 Pro/Max上这可将设备间延迟降低高达99%。MLX后端——使用苹果的MLX框架在Apple Silicon上进行GPU加速推理。OpenAI兼容API——暴露http://localhost:52415/v1接口任何支持OpenAI的工具都可以直接与你的集群通信。支持54个以上模型——从小的Llama模型到671B参数的DeepSeek变体。适用于Mac、Linux甚至树莓派。我的配置Mac Mini M4 MacBook Pro M4 Max在这个实验中我组合了两台机器Mac Mini M4——16GB统一内存峰值使用55.1GB/64GB86%MacBook Pro M4 Max——64GB统一内存次要分区使用9.8GB/16GB61%合起来这个集群有足够的余量来加载Qwen3-Next-80B-A3B-Thinking-4bit——一个44GB的量化模型单台机器都无法轻松处理。该模型以稳定的每秒70到80个tokenTPS运行首次token时间TTFT根据查询复杂度约为4到11秒。温度方面Mac Mini在负载下峰值达到41到86摄氏度MacBook Pro保持在48到53摄氏度之间。2、安装设置对于macOSExo以原生应用形式提供DMG版本需要macOS Tahoe 26.2或更高版本从发布页面下载EXO-latest.dmg。复制到应用程序文件夹并启动。在同一网络的每台其他机器上重复此操作。完成——节点会自动发现彼此并显示在拓扑视图中。就这么简单。它真的能用。Linux和Windows设置Linux用户需要从源代码运行。首先安装依赖uvPython依赖管理器curl -LsSf https://astral.sh/uv/install.sh | shNode.js 18 和 npmRustnightlycurl --proto https --tlsv1.2 -sSf https://sh.rustup.rs | sh rustup toolchain install nightly然后克隆并运行git clone https://github.com/exo-explore/exo cd exo/dashboard npm install npm run build cd .. uv run exo**一个重要注意事项**在Linux上Exo目前仅支持CPU。GPU支持正在积极开发中——如果你打算用NVIDIA或AMD GPU来实现这个功能值得关注。3、仪表板开箱即用的集群可见性运行后内置的Web仪表板在http://localhost:52415提供集群的实时拓扑视图。每个节点显示当前的CPU使用率、温度、功耗和内存利用率。你可以看到哪台设备正在处理模型的哪一部分——这就是拓扑感知自动并行引擎的实际运行。在下载之前它会显示组合后的RAM以及可以在你的AI集群中运行的模型。使用80GB64GB 16GBRAM可以运行的模型快照。下载并运行第一个提示后模型会根据每台机器的RAM被分层到两台机器上。Exo就绪聊天的快照。在推理过程中你可以看到Mac Mini的CPU飙升到97%温度达到86摄氏度功耗82瓦而MacBook Pro则以8-13%的负载平稳运行——Exo足够智能会根据可用资源分配工作负载。仪表板中的THINK模式支持思维链推理你可以在生成后展开或折叠它。Exo运行时的快照## 4、API开箱即用的OpenAI替代品Exo在http://localhost:52415/v1暴露一个完全兼容OpenAI的REST API。这意味着任何支持OpenAI SDK的工具、代理框架或应用都可以直接指向你的本地集群——无需修改代码。使用curl的快速示例curl -N -X POST http://localhost:52415/v1/chat/completions \ -H Content-Type: application/json \ -d { model: mlx-community/Qwen3-Next-80B-A3B-Thinking-4bit, messages: [ {role: user, content: What is sky blue ?} ], stream: false }我们将收到如下所示的JSON输出。{id:887aab7d-c2e4-455d-bb7e-44d82b998bb1,object:chat.completion,created:1773493013,model:mlx-community/Qwen3-Next-80B-A3B-Thinking-4bit,choices:[{index:0,message:{role:assistant,content:\n\n这是一个好问题根据上下文\sky blue\可以有两层含义\n\n### 1. **\Sky Blue\作为颜色名称** \n - 这指的是一种特定的**淡青色或浅蓝色**——就像晴朗白天的天空颜色。 \n - 在数字设计中它通常定义为 \n - **十六进制代码#87CEEB** \n - **RGB值(135, 206, 235)** \n - 它是艺术、时尚和设计中常用的颜色名称用来描述让人联想到万里无云天空的柔和、平静的蓝色。\n\n---\n\n### 2. **为什么真实的天空是蓝色的科学解释** \n这部分更有趣——也是这种颜色被*命名为*\天蓝色\的原因天空之所以呈现蓝色是由于一种称为**瑞利散射**的现象 \n\n- **阳光白光**太阳发出所有颜色的光红、橙、黄、绿、蓝、紫它们组合成\白光\。 \n- **地球大气层**当阳光进入我们的大气层时它会与气体分子氮气、氧气和微小颗粒碰撞。 \n- **按尺寸散射**较短的波长如**蓝色和紫色**比长波长红色、黄色更容易从这些分子散射。 \n - 蓝光的波长约为450-495纳米——足够小可以向各个方向散射。 \n - 紫光散射得更多但我们的眼睛对紫光不太敏感而且太阳本身发出的紫光也较少。因此**蓝色主导**了我们看到的效果。 \n- **结果**当你抬头看天空远离太阳时你看到来自四面八方的散射蓝光→天空呈现蓝色\n\n#### 为什么日落是红色/橙色 \n在日出/日落时阳光穿过*更多*大气层才能到达你的眼睛。大部分蓝光...这就是让Exo对开发者强大的原因。你可以将它接入代理AI应用、LangChain、LlamaIndex、你自己的代理流水线或任何OpenAI兼容的客户端。你的本地集群成为一个私有的推理端点。5、Thunderbolt 5上的RDMA下一个层次如果你有配备Thunderbolt 5的M4 Pro或M4 Max硬件Exo支持RDMA远程直接内存访问——这是macOS 26.2的新功能。据报道这可将节点间延迟降低高达99%实现通常与数据中心互连相关的性能。我无法在当前设置中测试这一点RDMA未启用的警告在我的截图中可见——我的机器使用WiFi而非Thunderbolt 5但Jeff Geerling的4×M3 Ultra Mac Studio集群的基准测试显示Qwen3-235B以生产级速度运行。这就是这个工具可以达到的上限。6、真实性能数据以下是我在测试查询中观察到的结果“天空为什么是蓝色的”——TTFT10,739毫秒TPS75.2个token/秒每token13.3毫秒“用Python写一个贪吃蛇游戏”——TTFT4,049毫秒TPS69.1个token/秒一般推理整个会话保持68-75 TPS对于一个完全在本地硬件上运行、零云成本的800亿参数思维模型来说这些数据确实令人印象深刻。THINK模式思维链推理如预期增加了TTFT但启用后模型质量明显更强。7、Exo vs. LM Studio Link何时使用哪个这两个工具解决相邻但不同的问题LM Studio Link——当你有一台强大的机器想从网络上的较弱设备访问它时使用。一个主机多个客户端。Exo——当你想将多台机器组合成单个虚拟GPU集群时使用。多个主机一个模型。如果你的目标是运行比任何单机支持的更大的模型——Exo是正确的工具。如果你的目标是方便和远程访问——LM Studio Link仍然很优秀。8、结束语Exo是我遇到的最实用的开源AI工具之一。入门门槛极低——尤其是在Mac上——而上限却极高。两年前在连接到同一WiFi网络的两台笔记本电脑上分布式运行一个具备思维能力的800亿参数模型听起来就像科幻小说。如果你正在构建代理AI系统、运行本地实验或者只是好奇你的硬件在协同工作时能做什么试试Exo吧。在Mac上设置只需要两分钟。其影响将让你忙碌更长时间。原文链接用Exo搭建本地800亿参数AI集群 - 汇智网

用Exo搭建本地800亿参数AI集群

相关文章：

用Exo搭建本地800亿参数AI集群

2026 天津 AI 获客 GEO 服务商选型指南

大家都会 AI vibe coding后，13年程序员的优势在哪？

提示工程架构师分享深度学习在提示工程应用实践的云服务集成

java毕业设计基于Java的线上一流课程教学辅助系统

位、字节和字的关系与应用

用了三周ArkClaw，我说说真实感受

全网都在抢的「AI龙虾」大乱斗！4家神仙打架，普通人只能看馋

HarmonyOS开发过程中ArkTs和H5之间相互通信

打破运维数据孤岛：燕千云平台CMDB运维监控一体化解决方案

OpenClaw 史诗级更新：AI 终于 “长脑子”！Context Engine 让记忆自由插拔，Token 成本直降 90%，GPT-5.4 都被卷哭

SGLang部署Qwen3.5-27B量化版及评测

Nginx性能优化与监控

vector声明初始化

AI赋能软件测试：未来已来，你准备好了吗？

meson使用介绍

第1节：现代GPU硬件架构精讲

干饭随心选系统

LVGL运行lv_timer_handler时卡死

从单打独斗到团队作战，多智能体协同如何重塑未来工作？

hive数据库模糊查询表名

CTF选手必须收藏的100个实战解题思路，CTF实战解题思路大全，CTF赛前必看解题宝典！

IO模型与高性能原理

BNU-25硕信息学奥赛day5

03.Linux高级管理

原核表达系统全解析：从原理到应用的技术指南

自卸车软件市场规模锁定18.15亿元，精准数据勾勒行业进阶新图景

实测：用自然语言管50台虚拟机是什么体验？青云云易捷Express AIops深度体验

OpenClaw“龙虾热”背后：从狂热到冷静的AI工具反思

从以太坊到跨链宇宙：2026年区块链进化图谱，解锁价值互联新范式