当前位置: 首页 > article >正文

用Exo搭建本地800亿参数AI集群

在上一篇文章 *《我用16GB Mac Mini打造AI powerhouse——LM Studio Link如何改变一切》*中我探索了通过在强大的机器上使用LM Studio Link来在较小设备上运行AI模型的方法。如果我想反其道而行之——将多台机器的CPU、GPU和RAM资源整合起来运行单台机器无法处理的模型呢如果你手头有一堆较小的设备想要将它们的能力整合起来以发挥更大作用呢来认识Exo。这正是这个问题的答案。1、什么是ExoExo是由Exo Labs维护的一个开源项目。用一句话概括它将你的所有设备连接成一个个人AI集群让你可以运行那些永远无法装入任何单台机器的前沿模型。核心能力一览自动设备发现——运行Exo的设备会自动在网络上找到彼此无需手动配置。拓扑感知自动并行——Exo会根据每台设备可用的RAM、CPU/GPU资源以及节点间的网络延迟自动找出最优的模型分割方式。张量并行——模型分片可在2台设备上实现高达1.8倍加速在4台设备上实现3.2倍加速。Thunderbolt 5上的RDMA——在支持的硬件M4 Pro/Max上这可将设备间延迟降低高达99%。MLX后端——使用苹果的MLX框架在Apple Silicon上进行GPU加速推理。OpenAI兼容API——暴露http://localhost:52415/v1接口任何支持OpenAI的工具都可以直接与你的集群通信。支持54个以上模型——从小的Llama模型到671B参数的DeepSeek变体。适用于Mac、Linux甚至树莓派。我的配置Mac Mini M4 MacBook Pro M4 Max在这个实验中我组合了两台机器Mac Mini M4——16GB统一内存峰值使用55.1GB/64GB86%MacBook Pro M4 Max——64GB统一内存次要分区使用9.8GB/16GB61%合起来这个集群有足够的余量来加载Qwen3-Next-80B-A3B-Thinking-4bit——一个44GB的量化模型单台机器都无法轻松处理。该模型以稳定的每秒70到80个tokenTPS运行首次token时间TTFT根据查询复杂度约为4到11秒。温度方面Mac Mini在负载下峰值达到41到86摄氏度MacBook Pro保持在48到53摄氏度之间。2、安装设置对于macOSExo以原生应用形式提供DMG版本需要macOS Tahoe 26.2或更高版本从发布页面下载EXO-latest.dmg。复制到应用程序文件夹并启动。在同一网络的每台其他机器上重复此操作。完成——节点会自动发现彼此并显示在拓扑视图中。就这么简单。它真的能用。Linux和Windows设置Linux用户需要从源代码运行。首先安装依赖uvPython依赖管理器curl -LsSf https://astral.sh/uv/install.sh | shNode.js 18 和 npmRustnightlycurl --proto https --tlsv1.2 -sSf https://sh.rustup.rs | sh rustup toolchain install nightly然后克隆并运行git clone https://github.com/exo-explore/exo cd exo/dashboard npm install npm run build cd .. uv run exo**一个重要注意事项**在Linux上Exo目前仅支持CPU。GPU支持正在积极开发中——如果你打算用NVIDIA或AMD GPU来实现这个功能值得关注。3、仪表板开箱即用的集群可见性运行后内置的Web仪表板在http://localhost:52415提供集群的实时拓扑视图。每个节点显示当前的CPU使用率、温度、功耗和内存利用率。你可以看到哪台设备正在处理模型的哪一部分——这就是拓扑感知自动并行引擎的实际运行。在下载之前它会显示组合后的RAM以及可以在你的AI集群中运行的模型。使用80GB64GB 16GBRAM可以运行的模型快照。下载并运行第一个提示后模型会根据每台机器的RAM被分层到两台机器上。Exo就绪聊天的快照。在推理过程中你可以看到Mac Mini的CPU飙升到97%温度达到86摄氏度功耗82瓦而MacBook Pro则以8-13%的负载平稳运行——Exo足够智能会根据可用资源分配工作负载。仪表板中的THINK模式支持思维链推理你可以在生成后展开或折叠它。Exo运行时的快照## 4、API开箱即用的OpenAI替代品Exo在http://localhost:52415/v1暴露一个完全兼容OpenAI的REST API。这意味着任何支持OpenAI SDK的工具、代理框架或应用都可以直接指向你的本地集群——无需修改代码。使用curl的快速示例curl -N -X POST http://localhost:52415/v1/chat/completions \ -H Content-Type: application/json \ -d { model: mlx-community/Qwen3-Next-80B-A3B-Thinking-4bit, messages: [ {role: user, content: What is sky blue ?} ], stream: false }我们将收到如下所示的JSON输出。{id:887aab7d-c2e4-455d-bb7e-44d82b998bb1,object:chat.completion,created:1773493013,model:mlx-community/Qwen3-Next-80B-A3B-Thinking-4bit,choices:[{index:0,message:{role:assistant,content:\n\n这是一个好问题根据上下文\sky blue\可以有两层含义\n\n### 1. **\Sky Blue\作为颜色名称** \n - 这指的是一种特定的**淡青色或浅蓝色**——就像晴朗白天的天空颜色。 \n - 在数字设计中它通常定义为 \n - **十六进制代码#87CEEB** \n - **RGB值(135, 206, 235)** \n - 它是艺术、时尚和设计中常用的颜色名称用来描述让人联想到万里无云天空的柔和、平静的蓝色。\n\n---\n\n### 2. **为什么真实的天空是蓝色的科学解释** \n这部分更有趣——也是这种颜色被*命名为*\天蓝色\的原因天空之所以呈现蓝色是由于一种称为**瑞利散射**的现象 \n\n- **阳光白光**太阳发出所有颜色的光红、橙、黄、绿、蓝、紫它们组合成\白光\。 \n- **地球大气层**当阳光进入我们的大气层时它会与气体分子氮气、氧气和微小颗粒碰撞。 \n- **按尺寸散射**较短的波长如**蓝色和紫色**比长波长红色、黄色更容易从这些分子散射。 \n - 蓝光的波长约为450-495纳米——足够小可以向各个方向散射。 \n - 紫光散射得更多但我们的眼睛对紫光不太敏感而且太阳本身发出的紫光也较少。因此**蓝色主导**了我们看到的效果。 \n- **结果**当你抬头看天空远离太阳时你看到来自四面八方的散射蓝光→天空呈现蓝色\n\n#### 为什么日落是红色/橙色 \n在日出/日落时阳光穿过*更多*大气层才能到达你的眼睛。大部分蓝光...这就是让Exo对开发者强大的原因。你可以将它接入代理AI应用、LangChain、LlamaIndex、你自己的代理流水线或任何OpenAI兼容的客户端。你的本地集群成为一个私有的推理端点。5、Thunderbolt 5上的RDMA下一个层次如果你有配备Thunderbolt 5的M4 Pro或M4 Max硬件Exo支持RDMA远程直接内存访问——这是macOS 26.2的新功能。据报道这可将节点间延迟降低高达99%实现通常与数据中心互连相关的性能。我无法在当前设置中测试这一点RDMA未启用的警告在我的截图中可见——我的机器使用WiFi而非Thunderbolt 5但Jeff Geerling的4×M3 Ultra Mac Studio集群的基准测试显示Qwen3-235B以生产级速度运行。这就是这个工具可以达到的上限。6、真实性能数据以下是我在测试查询中观察到的结果“天空为什么是蓝色的”——TTFT10,739毫秒TPS75.2个token/秒每token13.3毫秒“用Python写一个贪吃蛇游戏”——TTFT4,049毫秒TPS69.1个token/秒一般推理整个会话保持68-75 TPS对于一个完全在本地硬件上运行、零云成本的800亿参数思维模型来说这些数据确实令人印象深刻。THINK模式思维链推理如预期增加了TTFT但启用后模型质量明显更强。7、Exo vs. LM Studio Link何时使用哪个这两个工具解决相邻但不同的问题LM Studio Link——当你有一台强大的机器想从网络上的较弱设备访问它时使用。一个主机多个客户端。Exo——当你想将多台机器组合成单个虚拟GPU集群时使用。多个主机一个模型。如果你的目标是运行比任何单机支持的更大的模型——Exo是正确的工具。如果你的目标是方便和远程访问——LM Studio Link仍然很优秀。8、结束语Exo是我遇到的最实用的开源AI工具之一。入门门槛极低——尤其是在Mac上——而上限却极高。两年前在连接到同一WiFi网络的两台笔记本电脑上分布式运行一个具备思维能力的800亿参数模型听起来就像科幻小说。如果你正在构建代理AI系统、运行本地实验或者只是好奇你的硬件在协同工作时能做什么试试Exo吧。在Mac上设置只需要两分钟。其影响将让你忙碌更长时间。原文链接用Exo搭建本地800亿参数AI集群 - 汇智网

相关文章:

用Exo搭建本地800亿参数AI集群

在上一篇文章 *《我用16GB Mac Mini打造AI powerhouse——LM Studio Link如何改变一切》*中,我探索了通过在强大的机器上使用LM Studio Link来在较小设备上运行AI模型的方法。 如果我想反其道而行之——将多台机器的CPU、GPU和RAM资源整合起来,运行单台…...

2026 天津 AI 获客 GEO 服务商选型指南

一、行业痛点与榜单筛选标准当前,国内近七成实体企业及制造业商家正面临线上曝光不足、本地搜索排名靠后、客户转化效率低下等获客难题,严重制约企业数字化发展进程。AI生成式引擎优化(GEO)技术凭借精准的本地化内容布局、智能搜索…...

大家都会 AI vibe coding后,13年程序员的优势在哪?

当大家都会用 AI vibe coding 时,“会写代码”这件事本身会越来越不稀缺,但 “能把复杂系统做对、做稳、做成” 反而更稀缺。13 年经验的程序员,真正的优势不在“打字速度”,而在下面这些地方: 不是会生成代码&#xf…...

提示工程架构师分享深度学习在提示工程应用实践的云服务集成

从模型到云端:深度学习驱动的提示工程实践与云服务无缝集成指南 摘要/引言:当提示工程遇上深度学习与云原生,AI开发的效率革命来了 你是否也曾经历这些AI开发痛点? 精心设计的提示词在复杂任务中效果飘忽,调参十次不…...

java毕业设计基于Java的线上一流课程教学辅助系统

前言 基于Spring BootJava的线上一流课程教学辅助系统是一种功能全面、易于使用且高效的教学工具。它能够帮助教师更好地开展教学活动,提升教学质量;同时,也能为学生提供更加便捷、高效的学习方式。一、项目 介绍 开发语言:Java 框…...

位、字节和字的关系与应用

计算机存储单位详解:位、字节、字的关系与应用 在计算机科学领域,"位"、"字节"和"字"是最基础也是最重要的存储单位概念。理解这些单位的定义、关系及其在实际应用中的作用,对于深入学习计算机原理、编程和网…...

用了三周ArkClaw,我说说真实感受

用了三周ArkClaw,我说说真实感受作为一个OpenClaw老玩家,从最早的裸奔源码到现在换ArkClaw,已经稳定用了三周。今天不说官话,说说真实的使用感受,给打算入坑的朋友参考。## 第一印象:真的能开箱即用&#x…...

全网都在抢的「AI龙虾」大乱斗!4家神仙打架,普通人只能看馋

最近科技圈被一只龙虾霸屏了!OpenClaw风刮得超大,各大厂纷纷下场做"懒人版",不用懂代码、不用配环境,点一下就能拥有AI打工人。AI龙虾大乱斗最近科技圈被一只龙虾霸屏了!OpenClaw风刮得超大,各大…...

HarmonyOS开发过程中ArkTs和H5之间相互通信

在鸿蒙开发过程中,我们常常用到后面中加载一个h5页面,就是webview组件中加载可以一个h5的页面,但是他们之间有需要有一些通信,例如h5需要掉用一些原生的api或者原生的方法。原生页面中又需要掉用h5的函数。 通过阅读华为官方文档中…...

打破运维数据孤岛:燕千云平台CMDB运维监控一体化解决方案

前言如今企业IT架构正向高并发、分布式及混合云环境演进。传统的烟囱式运维工具体系导致了“监控数据孤岛”、“资产配置滞后”以及“故障根因难定位”等核心痛点。燕千云平台立足于CMDB(配置管理数据库)监控(Monitoring)MCM&…...

OpenClaw 史诗级更新:AI 终于 “长脑子”!Context Engine 让记忆自由插拔,Token 成本直降 90%,GPT-5.4 都被卷哭

2026 年 3 月 7 日,OpenClaw 发布 v2026.3.7 版本,被社区称为 “史上最强更新”——89 项提交、200Bug 修复,核心推出Context Engine(上下文引擎)插件接口,彻底解决 AI “健忘症” 难题,实现记忆…...

SGLang部署Qwen3.5-27B量化版及评测

随着人工智能技术的快速发展,大语言模型的本地化部署成为企业和开发者的一项重要需求。Qwen3.5-27B-GPTQ-Int4 作为阿里Qwen3.5系列的重要模型,在保持高性能的同时,通过 INT4 量化大幅降低了部署成本,使其能够在消费级显卡上流畅运…...

Nginx性能优化与监控

一、核心优化方向worker 进程配置worker_processes auto;:自动匹配 CPU 核心数worker_connections 10240;:单进程最大连接数(需配合系统 ulimit)worker_rlimit_nofile 65535;:提升最大文件句柄数事件模型优化nginxeven…...

vector声明初始化

vector<int> sub(5, 10) 确实代表**“给我造 5 个位置&#xff0c;里面全都填上 10”**。这是 vector 最基础的用法之一。 那为什么还能用 (v.begin(), v.begin() 3) 这种长相完全不同的写法呢&#xff1f; 其实&#xff0c;C 的容器非常聪明&#xff0c;它内部提供了好…...

AI赋能软件测试:未来已来,你准备好了吗?

引言 在数字化转型的浪潮中&#xff0c;软件测试作为保障产品质量的关键环节&#xff0c;正面临着前所未有的挑战。 传统的测试方法已难以满足快速迭代和复杂场景的需求&#xff0c;而人工智能&#xff08;AI&#xff09;的引入&#xff0c;则为软件测试带来了革命性的变化。…...

meson使用介绍

Meson 是一个现代化的构建系统&#xff0c;旨在提供比传统 CMake 更加简洁、高效和易用的构建体验。它使用一种类似 Python 的声明式 DSL&#xff08;领域特定语言&#xff09;来描述构建规则&#xff0c;并默认配合 Ninja 作为后端构建工具&#xff0c;能够显著提升增量编译的…...

第1节:现代GPU硬件架构精讲

文章目录前言一、GPU vs CPU&#xff1a;为什么GPU适合并行计算&#xff1f;二、GPU的整体架构&#xff1a;从芯片到核心2.1 GPU的层级结构2.2 A100/H100芯片架构图三、SM内部架构详解3.1 SM&#xff08;流式多处理器&#xff09;内部结构3.2 一个SM的详细数据&#xff08;以A1…...

干饭随心选系统

1. 字典模块&#xff08;数据存储&#xff09;字典嵌套是处理 “结构化多维度数据” 的核心方式&#xff0c;比如 “饭馆” 作为一个实体&#xff0c;包含多个属性&#xff0c;用内层字典封装更清晰&#xff1b;列表适合存储 “有序的序列数据”&#xff08;如历史记录、菜单&a…...

LVGL运行lv_timer_handler时卡死

今天在一块板子上调试LVGL&#xff0c;一运行就卡死&#xff0c;调试半天没有发现问题。LCD驱动确认无误&#xff0c;直接调LCD驱动可以正常显示。调试跟踪&#xff0c;发现是在调用lv_timer_handler时卡死&#xff0c;中间调用了一些内存管理函数&#xff0c;最终进入Hardfalu…...

从单打独斗到团队作战,多智能体协同如何重塑未来工作?

从早期规则化的对话机器人&#xff0c;到具备感知、理解、执行能力的单一智能体&#xff0c;再到可自主分工、协同决策的多智能体系统&#xff0c;AI 正在完成一次从工具 → 助手 → 团队的范式跃迁。 今天&#xff0c;单一智能体已经高度成熟&#xff1a;它能理解自然语言、调…...

hive数据库模糊查询表名

文章目录一、MySQL模糊查询表名二、Hive模糊查询表名一、MySQL模糊查询表名 &#xff08;1&#xff09;查询所有表名 -- 查询所有表名 show tables;(2) 模糊查询表名 -- 查询包含aaa的表名 show tables like %aaa%二、Hive模糊查询表名 &#xff08;1&#xff09;查询所有…...

CTF选手必须收藏的100个实战解题思路,CTF实战解题思路大全,CTF赛前必看解题宝典!

CTF竞赛的核心逻辑 • 核心目标&#xff1a;快速拆解问题&#xff08;Flag导向&#xff09;、工具链协作、模式化思维。 • 关键原则&#xff1a;先广度后深度&#xff08;优先收集信息&#xff09;、分治策略&#xff08;拆解复杂任务&#xff09;。 第一部分&#xff1a;We…...

IO模型与高性能原理

Redis IO模型与高性能原理 引言&#xff1a;Redis为什么这么快&#xff1f; Redis 之所以能够实现极高的性能&#xff0c;主要基于以下三个核心设计&#xff1a; 完全基于内存操作&#xff1a;所有数据存储在内存中&#xff0c;读写速度远超磁盘单线程模型&#xff1a;避免了…...

BNU-25硕信息学奥赛day5

2026.3.17 提示&#xff1a;这里可以添加系列文章的所有文章的目录&#xff0c;目录需要自己手动添加 提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录2026.3.17前言一、printf的用法1.直接输出2.数字d3.%数字.数字…...

03.Linux高级管理

1. Linux 中的 firewalld 1.1. 什么是防火墙 防火墙主要用于防范网络攻击&#xff0c;防火墙一般分为软件防火墙、硬件防火墙1.2. 防火墙的作用 主要作用是保护系统免受未经授权的访问和攻击&#xff0c;它有助于防止黑客利用系统中的安全漏洞&#xff0c;以及限制对特定网络服…...

原核表达系统全解析:从原理到应用的技术指南

一、原核表达的技术定位原核表达是指利用原核生物&#xff08;主要是大肠杆菌Escherichia coli&#xff09;作为宿主细胞&#xff0c;通过基因重组技术导入外源基因&#xff0c;实现目标蛋白质表达的技术体系。从技术本质上讲&#xff0c;原核表达系统是最早建立、应用最广泛、…...

自卸车软件市场规模锁定18.15亿元,精准数据勾勒行业进阶新图景

在全球基础设施建设持续扩张与运输监管政策趋严的双重驱动下&#xff0c;自卸车软件作为提升运输效率、降低运营风险的核心工具&#xff0c;正迎来智能化转型的关键期。据恒州诚思调研统计&#xff0c;2025年全球自卸车软件市场规模达18.15亿元&#xff0c;预计至2032年将增长至…...

实测:用自然语言管50台虚拟机是什么体验?青云云易捷Express AIops深度体验

我们最近在客户现场做了一次极限测试&#xff1a;让一个完全没有云平台运维经验的行政人员&#xff0c;用青云云易捷的Express AIops管理50台混合部署的虚拟机和容器应用&#xff0c;结果他只用了10分钟就完成了资深运维工程师需要1小时才能做完的3个任务&#xff1a;1. 找出所…...

OpenClaw“龙虾热”背后:从狂热到冷静的AI工具反思

OpenClaw&#xff1a;从技术圈小众到全民热议的“电子龙虾”2026年春天&#xff0c;一款名叫OpenClaw的AI工具如同一颗石子投入中文互联网的湖面&#xff0c;激起层层涟漪。它由奥地利程序员Peter Steinberger在2025年开发&#xff0c;作为一种“AI智能体”程序&#xff0c;短短…...

从以太坊到跨链宇宙:2026年区块链进化图谱,解锁价值互联新范式

引言2026年&#xff0c;区块链行业彻底告别“单链争霸”的野蛮生长&#xff0c;迈入“跨链互联”的成熟进化期。曾经作为行业标杆的以太坊&#xff0c;不再是区块链的唯一答案&#xff0c;以其为起点&#xff0c;多条公链协同、跨链技术突围、生态互联互通的“跨链宇宙”已然成…...