当前位置: 首页 > article >正文

ElastixAI 携 FPGA 方案打造新一代人工智能超级计算技术,打破神秘面纱

近年来大模型训练几乎完全依赖 GPU但随着生成式 AI 应用的爆发一个新的问题逐渐显现大模型推理Inference与 GPU 架构并不完全匹配。美国 AI 硬件初创公司 ElastixAI 提出了一种不同思路利用 FPGA 构建专门面向 LLM 推理的数据中心基础设施。该方案通过 软件、机器学习和硬件协同设计software-ML-hardware co-design将标准 FPGA 服务器转化为高效率 AI 推理引擎。几周前总部位于西雅图的人工智能硬件初创公司ElastixAI正式亮相。该公司由前苹果和 Meta 机器学习工程师创立推出了一款基于 FPGA 的推理平台。该公司声称与基于 Nvidia GPU 的部署相比该平台在大型语言模型推理方面可降低高达 50 倍的总拥有成本和 80% 的功耗。该公司于 2025 年 5 月完成了由 Fuse VC 领投的 1800 万美元种子轮融资其 Elastix Rack 产品定位为 GPU 服务器基础设施的即插即用替代品计划于 2026 年年中首次出货。在发布会之前All About Circuits采访了联合创始人Mohammad Rastegari首席执行官、Saman Naderiparizi首席技术官和Mahyar Najibi首席战略官向其阐述了 FPGA 比 GPU 更适合 LLM 推理的技术原因以及他们为什么认为时机成熟。人工智能训练与人工智能推理他们的核心论点是GPU 的设计初衷是处理计算密集型工作负载例如 LLM 训练。但当处理内存密集型工作负载例如 LLM 推理时GPU 的效率会降低计算利用率也会大幅下降。“训练严重依赖计算而推理严重依赖内存”Rastegari 说。这种不匹配导致推理过程中 GPU 的计算利用率很低。硬件的不灵活性加剧了这个问题4 位量化理论上可以使吞吐量翻倍但 Rastegari 指出在像 H100 这样缺乏原生支持的硬件上运营商“不得不围绕它构建一个软件内核而这个内核只能利用其 10% 的潜力”。MoE 模型推理的典型批次大小需要 100 的算术强度导致 B200 上的计算利用率极低。顶级加速器依赖于速度快、价格昂贵的内存而 ElastixAI 则专注于真正影响总体拥有成本 (TCO) 的指标每带宽成本和每容量成本。通过利用机器学习定义的软件专用化ElastixAI 能够从运行在商用现成 FPGA 服务器上的低成本硬件例如先进的 DDR 和 HBM中榨取最大性能。据该团队称这种方法能够以远低于业界顶级内存的每 GB 成本提供高性能推理所需的内存带宽。ElastixAI 不将硬件视为固定约束而是采用以 AI 优化为先的整体方法将硬件视为软件的可重构扩展。自动化流程包括前端透明化开发者可以使用现有的标准途径例如 OpenAI API、vLLM LLM 类以及 PyTorch 等常用框架与ElastixAI 的系统进行交互。这意味着无需更改现有应用程序逻辑或代码即可访问专用硬件。即插即用的后端逻辑该基础设施可直接替换现有的 GPU 后端用ElastixAI 的 Elastix 插件和 Elastix Shell/API 取代传统的 NVIDIA 插件和 CUDA Shell/API。自动化系统能够透明地将神经网络计算路由到 FPGA 而非 GPU同时保持基础设施团队的工作流程不变。通过将最先进的FPGA与专有的机器学习优化技术相结合与基于标准GPU的解决方案相比每个GB的总拥有成本 (TCO) 可降低5-50倍。这一优势源于更低的资本支出FPGA比高端B200或H100卡便宜得多和更低的运营支出由于更高的计算利用率和更低80%的功耗。为什么选择FPGA而不是定制芯片FPGA 相较于定制芯片的优势在于机器学习的发展速度远超芯片开发周期。Rastegari 是 Xnor.ai 的联合创始人该公司于 2020 年被苹果以约 2 亿美元收购。Rastegari 后来领导了 Meta 的 Llama 405B 模型的推理优化工作。他指出混合专家模型( Mixture-of-Experts)就是一个此前存在风险的例证。“当时许多公司都在筹集资金准备基于现有技术开发芯片但随后混合专家算法出现了。”他说道“突然之间这些公司不得不重新设计芯片以支持混合专家算法而这种算法在他们最初的设计过程中并不存在。”问题显而易见。定制芯片从设计到生产需要三年多的时间而机器学习领域的快速发展可能在短短几个月内就彻底改变这一进程。推理吞吐量需求也印证了这一点。Rastegari 加入 Meta 时每秒 20 个词元足以满足语音交互的需求。“但对于推理而言你需要更快地在后台生成词元现在需要每秒 200 个词元。” 随着这些需求的变化FPGA 可以进行重新配置。“通用性和效率之间存在着根本性的权衡。一旦你想要更通用就会降低效率因为你必须增加额外的硅片来覆盖许多不同的工作负载。”Rastegari认为Transformer架构目前在结构上足够稳定可以进行FPGA实现而底层优化层仍在快速发展因此锁定固定的芯片设计仍然存在风险。关于最终是否会流片定制芯片的问题他谨慎地表示“决定我们何时以及是否流片芯片的实际上取决于机器学习改进的速度。”与标准的 GPU 机架式 AI 计算实现方案相比ElastixAI 的方法具有几个关键优势。功率、成本和机架兼容性Naderiparizi 谨慎地对主要性能数据进行了限定。他表示“根据我们采用的令牌速率与英伟达 B200 相比我们可以在成本方面实现 10 倍甚至 50 倍的性能提升。”他指出这一范围反映了目标用户不同的“每用户延迟”或者说每秒每用户令牌数。这些数据涵盖了整个数据中心部署的资本支出和运营支出并通过与FPGA制造商和数据中心运营商的合作验证。在功耗方面Naderiparizi表示在相同吞吐量下每个令牌的功耗降低了五倍。Elastix 机架符合标准的 17-19 kW 机架功率范围并采用空气冷却而 Nvidia 的 GB200 NVL72 需要 120 kW 至 200 kW 的功率以及大多数现有数据中心无法支持的专用液冷基础设施。原生支持新型优化业界才刚刚开始探索机器学习优化的潜力但许多最有前景的技术仍然无法得到传统硬件的支持。ASIC 和 GPU 通过施加严格的限制有效地冻结了硬件设计阻碍了机器学习的发展。正因如此业界领先的研究人员一再呼吁采用新的硬件方法来支持新兴的突破性技术苹果公司的研究人员指出传统 GPU 对运行低比特率的压缩模型支持不佳。鉴于 BitNet 带来的全新计算范式微软研究院已发出行动号召要求设计专门针对 1 位 LLM 优化的新硬件和系统。谷歌研究表明在缺乏硬件灵活性的情况下研究人员被迫将硬件视为需要克服的“沉没成本”而不是可以根据模型需要进行调整的灵活事物。将一项优化原生集成到硬件中所带来的影响在英伟达从 Hopper (H200) 架构到 Blackwell (B200) 架构的飞跃中体现得淋漓尽致。Blackwell 架构成本效益每Tokens总拥有成本提升的主要驱动力不仅在于芯片规模的扩大更在于其原生硬件对 4 位量化的支持。截至 2026 年 2 月 24 日 SemiAnalysis 的 InferenceX 数据显示对于像 DeepSeek-R1 这样的模型交互速度为 41.6 个Tokens/秒/用户过渡到原生 4 位支持从根本上改变了经济方程式。通过将一项已有数年历史的机器学习优化技术原生集成到硬件中实现了成本效益的显著提升。采用基于 FPGA 的方法无需等待下一代芯片即可获得这些优势。相反只需简单的软件更新即可在几天内实现这些甚至更高级的优化。直接替换集成是通过 vLLM 插件实现的该插件替换了 Nvidia CUDA 后端同时保持前端 OpenAI 兼容 API 不变因此从 GPU 基础架构迁移的运营商无需修改其应用程序堆栈。ElastixAI计划最终向机器学习研究人员开放其模型转换工具——Naderiparizi明确地将这一策略与Nvidia构建CUDA生态系统的方式进行了比较。“起初Nvidia免费向研究人员发布其软件。但问题在于CUDA是为Nvidia服务的——人们为CUDA框架开发的任何东西都会对Nvidia有所帮助。” ElastixAI计划围绕其自身平台构建同样的开发者良性循环。创始团队成员还包括纳吉比 (Najibi)他曾为苹果智能团队做出贡献此前还担任过 Waymo 的首席科学家。公司董事会成员之一是乔恩·格尔西(Jon Gelsey )他曾担任 Xnor.ai 的首席执行官也是 Auth0 的创始首席执行官Auth0 后来被 Okta 以 65 亿美元收购。格尔西目前担任 ElastixAI 的战略和市场营销主管。ElastixAI 目前仅面向部分企业合作伙伴和数据中心运营商开放硬件出货预计将于 2026 年年中开始。参考链接https://www.allaboutcircuits.com/news/elastixai-emerges-from-stealth-with-fpga-approach-to-gen-ai-supercomputing/https://www.elastix.ai/blog/five-reasons-why-fpgas-hit-the-sweet-spot-for-llm-inference-jk2dshttps://www.elastix.ai/blog/five-reasons-why-fpgas-hit-the-sweet-spot-for-llm-inference总结FPGA 的优势在于可重构架构高能效推理硬件与模型协同设计随着 LLM 推理需求快速增长FPGA 可能成为 GPU 与 ASIC 之间的重要折中方案。ElastixAI 提出的 FPGA 推理平台并不是简单的硬件替代而是一种新的计算思路ML-defined computing其核心思想包括软件-ML-硬件协同设计FPGA 可重构推理架构面向数据流的 LLM 加速通过这种方式可以构建更灵活、更高能效的大模型推理基础设施。

相关文章:

ElastixAI 携 FPGA 方案打造新一代人工智能超级计算技术,打破神秘面纱

近年来,大模型训练几乎完全依赖 GPU,但随着生成式 AI 应用的爆发,一个新的问题逐渐显现:大模型推理(Inference)与 GPU 架构并不完全匹配。美国 AI 硬件初创公司 ElastixAI 提出了一种不同思路:利…...

PID调参避坑指南:从电机抖动到平稳控制的5个关键步骤

PID调参避坑指南:从电机抖动到平稳控制的5个关键步骤 在机器人竞赛和智能车开发中,电机控制是决定系统性能的核心环节。许多开发者都经历过这样的场景:当电机开始高速运转时,系统突然出现剧烈抖动,编码器读数像过山车一…...

不用Chrome插件了!教你用浏览器书签实现Postman常用功能(含CORS解决方案)

浏览器书签变身API测试神器:零插件实现Postman核心功能 每次调试API都要打开Postman?临时测试接口却不想安装插件?其实你的浏览器书签就能变身轻量级API测试工具。本文将带你用几行JavaScript代码打造一个无需安装、跨设备同步的书签版Postma…...

2024 AI-Playground:本地部署Intel Arc GPU加速的AI创作平台全指南

2024 AI-Playground:本地部署Intel Arc GPU加速的AI创作平台全指南 【免费下载链接】AI-Playground AI PC starter app for doing AI image creation, image stylizing, and chatbot on a PC powered by an Intel Arc™ GPU. 项目地址: https://gitcode.com/gh_mi…...

避坑指南:二自由度机械臂动力学仿真中SolidWorks误差问题解析

二自由度机械臂动力学仿真误差分析与高精度建模实践 在机电一体化项目的开发流程中,机械臂动力学仿真是验证控制算法有效性的关键环节。许多工程师习惯使用SolidWorks等CAD软件内置的仿真模块进行初步验证,却常常在后期控制算法实现时发现仿真结果与实物…...

AHK脚本实战:5分钟搞定QQ音乐免费歌曲下载(附完整代码)

AHK脚本实战:高效获取QQ音乐资源的自动化方案 每次听到喜欢的歌曲却苦于无法离线保存?作为AHK脚本的深度用户,我发现了一个既简单又高效的解决方案——无需安装第三方软件,仅用几行代码就能实现QQ音乐资源的自动化获取。这个方法特…...

告别SQL与文档!通义灵码2.5的MCP生态如何让数据库开发效率飙升300%

1. 从SQL苦手到数据库自由:通义灵码2.5的MCP革命 记得三年前我刚接手一个电商项目时,为了写一个包含五表联查的订单统计SQL,整整折腾了一下午——反复查阅MySQL文档、调试JOIN语句、优化索引,最后还因为漏了个外键约束导致生产环境…...

上位机软件开发实战:从数据采集到可视化全流程解析

1. 上位机开发基础入门 第一次接触上位机开发时,我也被各种专业术语绕得头晕。简单来说,上位机就像工厂里的总控室,而下位机就是车间里的机器设备。上位机软件主要负责三件事:收集设备数据、处理分析数据、展示数据给人看。 常见的…...

PasteMD企业应用:集成至内部Wiki系统,实现员工随手粘贴→自动归档Markdown

PasteMD企业应用:集成至内部Wiki系统,实现员工随手粘贴→自动归档Markdown 1. 引言:从个人工具到企业级知识管理 想象一下这个场景:一位产品经理刚开完一场需求评审会,会议记录散乱地记在记事本里,有要点…...

Matlab数据降维实战:drtoolbox从安装到避坑全指南

Matlab数据降维实战:drtoolbox从安装到避坑全指南 如果你正在Matlab的海洋里探索高维数据的奥秘,那么“降维”这个词对你来说一定不陌生。面对动辄成百上千维的特征,无论是可视化还是后续的机器学习建模,都像是一场噩梦。这时候&a…...

无需编码!用EagleEye镜像快速搭建商品识别、瑕疵检测系统

无需编码!用EagleEye镜像快速搭建商品识别、瑕疵检测系统 在零售、制造和物流行业中,商品识别与瑕疵检测是提升效率的关键环节。传统方案往往需要专业团队开发定制化系统,投入大量时间和资源。今天要介绍的EagleEye镜像,基于DAMO…...

3大维度提升Godot开发效率的游戏开发效率工具

3大维度提升Godot开发效率的游戏开发效率工具 【免费下载链接】godot-game-template Generic template for Godot games 项目地址: https://gitcode.com/gh_mirrors/go/godot-game-template 🌟价值定位:Godot开发者的效率倍增器 对于Godot引擎开…...

Flux.1-Dev深海幻境快速上手:10分钟完成从镜像部署到第一张图生成

Flux.1-Dev深海幻境快速上手:10分钟完成从镜像部署到第一张图生成 你是不是也刷到过那些由AI生成的、充满想象力的奇幻图片?比如深海中的发光水母城堡,或者悬浮在星空中的机械岛屿。以前总觉得生成这样的图片需要复杂的代码和漫长的等待&…...

时序RNN vs LSTM vs GRU:如何为你的时序数据选择最佳模型?

时序RNN vs LSTM vs GRU:如何为你的时序数据选择最佳模型? 在金融预测、工业设备监控或自然语言处理中,我们常面临一个关键抉择:面对不断涌入的时序数据流,究竟该选择哪种循环神经网络架构?传统时序RNN、LS…...

FastAPI + Nginx实战:如何让Qwen-Image生成的图片直接返回可访问URL(附完整配置)

FastAPI Nginx实战:构建高可用图像生成API服务 在当今AI技术快速发展的背景下,图像生成API已成为许多应用的核心组件。不同于传统的直接返回base64编码或二进制流的方式,直接返回可访问的URL能显著提升用户体验和系统性能。本文将深入探讨如…...

F28034 DSP实战:EPWM模块配置全解析(附寄存器操作指南)

F28034 DSP实战:EPWM模块寄存器级配置与工业应用技巧 在电机控制、数字电源和工业自动化领域,精确的PWM波形生成是核心需求。TI的F28034 DSP凭借其增强型PWM(EPWM)模块,为工程师提供了灵活的波形控制能力。本文将深入剖…...

STM32+VScode开发环境搭建全攻略:从零配置到智能提示优化

STM32VScode开发环境搭建全攻略:从零配置到智能提示优化 在嵌入式开发领域,STM32凭借其丰富的产品线和稳定的性能成为众多工程师的首选。而VScode作为轻量级代码编辑器,凭借强大的扩展性和智能提示功能,正在逐步取代传统IDE成为开…...

Phi-3 Forest Laboratory 环境配置避坑指南:从Anaconda到模型服务

Phi-3 Forest Laboratory 环境配置避坑指南:从Anaconda到模型服务 你是不是也遇到过这种情况:好不容易找到一个心仪的AI模型,比如微软新出的Phi-3,兴致勃勃地准备跑起来试试,结果第一步环境配置就卡住了。Python版本不…...

ASMR字幕制作智能解决方案:GalTransl-for-ASMR全攻略

ASMR字幕制作智能解决方案:GalTransl-for-ASMR全攻略 【免费下载链接】GalTransl-for-ASMR Automated translation solution for visual novels supporting GPT-3.5/GPT-4/Newbing/Sakura. 支持GPT-3.5/GPT-4/Newbing/Sakura等大语言模型的Galgame自动化翻译解决方案…...

3个步骤彻底移除Windows AI功能:保护隐私与优化系统的完整指南

3个步骤彻底移除Windows AI功能:保护隐私与优化系统的完整指南 【免费下载链接】RemoveWindowsAI Force Remove Copilot and Recall in Windows 项目地址: https://gitcode.com/GitHub_Trending/re/RemoveWindowsAI 在数字化办公环境中,Windows系…...

避坑指南:pandas_ta策略回测中容易忽略的3个细节问题(附解决方案)

避坑指南:pandas_ta策略回测中容易忽略的3个细节问题(附解决方案) 在量化交易领域,pandas_ta凭借其与Pandas生态的无缝集成和丰富的技术指标库,已成为策略开发者的首选工具之一。然而,当我们将注意力从单一…...

实战指南:基于快马AI构建竞品价格监控爬虫系统,从采集到分析

最近在做一个竞品价格监控的小项目,刚好用到了InsCode(快马)平台,整个过程下来感觉特别顺畅,从生成代码到部署上线一气呵成。今天就把这个实战过程记录下来,分享给有类似需求的朋友们。 这个项目的核心目标是监控几个电商平台上特…...

重构智能音箱体验:MiGPT突破小爱音箱AI能力边界的技术指南

重构智能音箱体验:MiGPT突破小爱音箱AI能力边界的技术指南 【免费下载链接】mi-gpt 🏠 将小爱音箱接入 ChatGPT 和豆包,改造成你的专属语音助手。 项目地址: https://gitcode.com/GitHub_Trending/mi/mi-gpt 智能音箱作为智能家居的入…...

从正则表达式到SQL注入:探索regexp在CTF中的巧妙应用

正则表达式在CTF中的高阶SQL注入实战 1. 正则表达式与SQL注入的奇妙结合 在CTF比赛中,正则表达式(regexp)与SQL注入的结合往往能产生意想不到的效果。当传统注入手段被过滤时,regexp函数常成为突破防线的一把利剑。 regexp的核心优…...

Jetson Nano上如何用miniforge3替代Anaconda?手把手教你避坑(附Pycharm配置)

Jetson Nano开发者必备:用miniforge3打造高效ARM开发环境 在边缘计算和嵌入式AI开发领域,Jetson Nano凭借其强大的ARM架构和GPU加速能力,成为众多开发者的首选平台。然而,当开发者们习惯性地想在Jetson上安装Anaconda来管理Python…...

GLM-OCR快速部署:./start_vllm.sh执行原理——自动检测GPU/CUDA版本并加载

GLM-OCR快速部署:./start_vllm.sh执行原理——自动检测GPU/CUDA版本并加载 你是不是也遇到过这种情况:好不容易找到一个好用的AI模型,结果在部署时被各种环境问题卡住?CUDA版本不对、PyTorch不匹配、显存不足……光是解决这些依赖…...

sensor时序参数详解:如何通过PCLK和寄存器配置优化图像采集性能

Sensor时序参数深度解析:PCLK与寄存器配置优化图像采集性能的实战指南 在工业视觉、安防监控和医疗成像等领域,图像传感器的时序参数配置直接决定了系统性能的上限。一个常见的误区是认为只要选择高分辨率的sensor就能获得优质图像,但实际情况…...

OptiSystem实战:5步搞定PIN光电二极管噪声分析(附仿真文件)

OptiSystem实战:5步搞定PIN光电二极管噪声分析(附仿真文件) 光通信系统的性能很大程度上取决于接收机的噪声特性。作为光接收机的核心部件,PIN光电二极管的噪声分析是每个光通信工程师必须掌握的技能。本文将带你通过OptiSystem软…...

通义灵码VS Code插件快捷键全攻略:从安装到高效使用(附避坑指南)

通义灵码VS Code插件快捷键全攻略:从安装到高效使用(附避坑指南) 在当今快节奏的开发环境中,AI编程助手已成为提升效率的利器。通义灵码作为一款智能编码插件,通过深度学习的代码理解能力,为开发者提供从代…...

Sentaurus TCAD中浪涌仿真参数详解:如何优化sdevice代码提升收敛性

Sentaurus TCAD浪涌仿真参数调优实战:从代码优化到收敛性提升 半导体器件仿真工程师在日常工作中最常遇到的挑战之一,就是如何让复杂的浪涌仿真顺利收敛。上周我在分析一款功率MOSFET的ESD特性时,连续三天被同一个仿真卡住——每次运行到某个…...