当前位置: 首页 > article >正文

分布式训练有望解决人工智能的能耗难题

人工智能正面临着巨大的能源消耗挑战。这种持续增长的能源需求体现在支撑AI繁荣的数据中心产生的巨大碳足迹以及前沿AI模型训练所产生的碳排放量随时间稳步增加。难怪大型科技公司开始青睐核能设想一个由可靠、无碳能源支撑的未来。但是虽然核动力数据中心可能还需要数年时间才能实现研究和工业领域的一些人正在立即采取行动来抑制AI不断增长的能源需求。他们正在解决训练这一模型生命周期中最耗能的阶段之一重点关注去中心化。利用分布式网络重新定义AI训练去中心化将模型训练分配到独立节点网络中而不是依赖单一平台或提供商。它让计算能力可以去到能源所在的地方——无论是坐落在研究实验室中的闲置服务器还是太阳能供电家庭中的计算机。去中心化不是建造更多需要电网扩大基础设施和容量的数据中心而是利用现有来源的能源避免增加更多电力消耗。训练AI模型是一项巨大的数据中心运动需要在紧密连接的GPU集群间同步进行。但随着硬件改进难以跟上大语言模型规模的快速增长即使是大规模的单一数据中心也不再够用。科技公司正转向多个数据中心的集合力量——无论其位置如何。例如英伟达推出了Spectrum-XGS以太网用于跨规模网络它可以为跨地理分离数据中心的大规模单一作业AI训练和推理提供所需的性能。同样思科推出了其8223路由器旨在连接地理分散的AI集群。其他公司正在挖掘服务器中的闲置计算资源催生了GPU即服务业务模式的兴起。以Akash网络为例这是一个点对点云计算市场自称为数据中心的Airbnb。那些在办公室和较小数据中心拥有未使用或使用不足GPU的人注册为提供商而那些需要计算能力的人被视为租户可以在提供商中选择并租用他们的GPU。Akash联合创始人兼首席执行官Greg Osuri表示如果你看看今天的AI训练它非常依赖最新最好的GPU。幸运的是世界正在转型从仅依赖大型高密度GPU转向现在考虑较小的GPU。算法创新支撑分布式学习除了协调硬件外去中心化AI训练还需要在软件方面进行算法更改。这就是联邦学习——一种分布式机器学习形式——发挥作用的地方。它从驻留在可信实体如中央服务器中的全局AI模型的初始版本开始。麻省理工学院计算机科学与人工智能实验室(CSAIL)首席研究科学家、去中心化信息小组负责人Lalana Kagal解释说服务器将模型分发给参与组织这些组织在本地数据上训练模型并仅与可信实体共享模型权重。然后可信实体聚合权重通常通过平均将它们集成到全局模型中并将更新的模型发送回参与者。这种协作训练循环重复进行直到模型被认为完全训练完成。但分布数据和计算也有缺点。例如模型权重的持续来回交换导致高通信成本。容错是另一个问题。Osuri说AI的一个重大问题是每个训练步骤都不具备容错性。这意味着如果一个节点宕机你必须重新恢复整个批次。为了克服这些障碍谷歌DeepMind的研究人员开发了DiLoCo一种分布式低通信优化算法。DiLoCo形成了谷歌DeepMind研究科学家Arthur Douillard所称的计算岛每个岛由一组芯片组成。每个岛持有不同的芯片类型但岛内的芯片必须是同一类型。岛之间彼此解耦它们之间的知识同步偶尔发生。这种解耦意味着岛可以独立执行训练步骤而不需要经常通信芯片可以故障而不必中断剩余的健康芯片。然而团队的实验发现在八个岛之后性能递减。一个改进版本称为Streaming DiLoCo通过以流式方式跨几个步骤同步知识而无需停止通信进一步减少了带宽需求Douillard说。这种机制类似于在视频尚未完全下载时就能观看视频。在Streaming DiLoCo中当你进行计算工作时知识在后台逐渐同步他补充道。AI开发平台Prime Intellect实施了DiLoCo算法的一个变体作为其跨五个国家三大洲训练的100亿参数INTELLECT-1模型的重要组成部分。更进一步去中心化AI操作系统制造商0G Labs调整了DiLoCo来在带宽有限的分离集群网络下训练1070亿参数基础模型。与此同时流行的开源深度学习框架PyTorch将DiLoCo包含在其容错技术存储库中。Douillard说社区做了大量工程工作来采用我们的DiLoCo论文并将其集成到通过消费级互联网学习的系统中。看到我的研究如此有用我感到非常兴奋。开启可持续AI发展新路径随着硬件和软件增强到位去中心化AI训练准备好帮助解决AI的能源问题。麻省理工学院CSAIL的Kagal说这种方法提供了以更便宜、更资源高效、更节能的方式训练模型的选择。虽然Douillard承认像DiLoCo这样的训练方法可以说更复杂但它们提供了系统效率的有趣权衡。例如你现在可以使用相距很远的数据中心而无需在它们之间建立超高速带宽。Douillard补充说容错是内置的因为芯片故障的爆炸半径仅限于其计算岛。更好的是公司可以利用现有的未充分利用的处理能力而不是持续建造新的耗能数据中心。Akash大力押注这样的机会创建了其Starcluster程序。该程序的目标之一涉及利用太阳能供电的家庭并使用其中的台式机和笔记本电脑来训练AI模型。Osuri说我们想把你的家转换成一个功能齐全的数据中心。Osuri承认参与Starcluster并非易事。除了太阳能板和配备消费级GPU的设备外参与者还需要投资电池作为备用电源和冗余互联网以防止停机。Starcluster程序正在寻找将所有这些方面打包在一起并让房主更容易参与的方法包括与行业合作伙伴合作补贴电池成本。后端工作已经在进行以使家庭能够作为Akash网络的提供商参与团队希望在2027年达到目标。Starcluster程序还设想扩展到其他太阳能供电的地点如学校和当地社区场所。去中心化AI训练很有希望引导AI走向更环保可持续的未来。对Osuri来说这种潜力在于将AI移到能源所在的地方而不是将能源移到AI所在的地方。QAQ1什么是去中心化AI训练A去中心化AI训练是将模型训练分配到独立节点网络中而不是依赖单一平台或提供商。它让计算能力可以去到能源所在的地方比如研究实验室的闲置服务器或太阳能供电家庭的计算机从而避免建造更多耗能数据中心。Q2DiLoCo算法是如何工作的ADiLoCo是谷歌DeepMind开发的分布式低通信优化算法。它形成计算岛每个岛由同类型芯片组成岛之间解耦运行偶尔同步知识。这样岛可以独立训练而不需要频繁通信芯片故障也不会影响其他健康芯片。Q3Akash网络的Starcluster程序是什么AStarcluster是Akash网络推出的程序旨在将太阳能供电的家庭转换为功能齐全的数据中心。参与者需要太阳能板、配备消费级GPU的设备、备用电池和冗余互联网。该程序计划到2027年实现目标还将扩展到学校等其他太阳能供电场所。

相关文章:

分布式训练有望解决人工智能的能耗难题

人工智能正面临着巨大的能源消耗挑战。这种持续增长的能源需求体现在支撑AI繁荣的数据中心产生的巨大碳足迹,以及前沿AI模型训练所产生的碳排放量随时间稳步增加。难怪大型科技公司开始青睐核能,设想一个由可靠、无碳能源支撑的未来。但是,虽…...

群晖Video Station元数据插件全攻略:从部署到优化的完整指南

群晖Video Station元数据插件全攻略:从部署到优化的完整指南 【免费下载链接】syno-videoinfo-plugin A simple web scraping plugin for Synology Video Station 项目地址: https://gitcode.com/gh_mirrors/sy/syno-videoinfo-plugin 元数据插件是群晖Video…...

G-Helper技术架构深度解析:华硕笔记本底层硬件控制实现机制

G-Helper技术架构深度解析:华硕笔记本底层硬件控制实现机制 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Stri…...

Spring Boot 4.0 Agent-Ready架构深度实践(生产环境千万级QPS下的字节码注入稳定性白皮书)

第一章:Spring Boot 4.0 Agent-Ready架构全景概览Spring Boot 4.0标志着Java可观测性与运行时可编程能力的重大演进。其核心设计理念是原生支持JVM Agent集成,无需侵入式代码修改即可实现字节码增强、指标采集、分布式追踪注入和动态配置生效。Agent-Rea…...

网络爬虫是自动从互联网上采集数据的程序网络爬虫是自动从互联网上采集数据的程序,Python凭借其丰富的库生态系统和简洁语法,成为了爬虫开发的首选语言。本文将全面介绍

网络爬虫是自动从互联网上采集数据的程序网络爬虫是自动从互联网上采集数据的程序,Python凭借其丰富的库生态系统和简洁语法,成为了爬虫开发的首选语言。本文将全面介绍如何使用Python构建高效、合规的网络爬虫。一、爬虫基础与工作原理 网络爬虫本质上是…...

JMS, ActiveMQ 学习一则唾

开发个什么Skill呢? 通过 Skill,我们可以将某些能力进行模块化封装,从而实现特定的工作流编排、专家领域知识沉淀以及各类工具的集成。 这里我打算来一次“套娃式”的实践:创建一个用于自动生成 Skill 的 Skill,一是用…...

solidworks异形孔槽口改方向

...

深夜告警炸裂?这份Linux故障排查“作战地图”请收好惨

先唠两句:参数就像餐厅点单 把API想象成一家餐厅的“后厨系统”。 ? 路径参数/dishes/{dish_id} -> 好比你要点“宫保鸡丁”这道具体的菜,它是菜单(资源路径)的一部分。查询参数/dishes?spicytrue&typeSichuan -> 好比…...

业务与技术沟通低效?JVS-Rules规则引擎如何让协作更顺畅

一、协作之痛:业务与技术“鸡同鸭讲”,规则落地慢如蜗牛 很多企业都有这个困境:业务人员最懂规则(比如风控准入、会员权益、计费逻辑),但不会写代码;技术人员能写代码,但不懂业务细…...

【PHP 8.9 JIT调试终极指南】:20年核心开发者亲授3大避坑法则、4类典型崩溃现场还原与实时调优SOP

第一章:PHP 8.9 JIT 调试的认知革命与时代意义 PHP 8.9 并非官方发布的正式版本(截至 PHP 官方最新稳定版为 8.3),但作为思想实验中的“前瞻性 JIT 调试范式”,它象征着 PHP 运行时调试能力的一次质变跃迁——将传统基…...

Hugging Face分词超快

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 高效分词引擎:NLP处理速度的革命性突破目录高效分词引擎:NLP处理速度的革命性突破 引言:分词…...

Qwen2-VL-2B-Instruct效果对比:与传统卷积神经网络图像分类的差异

Qwen2-VL-2B-Instruct效果对比:与传统卷积神经网络图像分类的差异 最近在和朋友聊起图像识别技术时,他提了个挺有意思的问题:“现在这些新的AI模型,和以前那种能认出猫猫狗狗的‘老办法’到底有啥不一样?” 他说的“老…...

vLLM-v0.17.1部署案例:跨境电商多语言商品描述生成系统落地

vLLM-v0.17.1部署案例:跨境电商多语言商品描述生成系统落地 1. 项目背景与需求分析 跨境电商平台面临着一个共同挑战:如何高效生成多语言商品描述。传统人工撰写方式存在以下痛点: 语言障碍:需要雇佣多语种文案人员成本高昂&am…...

0408晨间日记

- 关键词- - 上午- batam新的案子的评估- 资料全不全- 钢网层- 坐标档- bom的查询- 查询每个材料形状- 能不能生产- 细节 -材料特性- 制作炉温曲线- bom提取的方案- pdf转excel- 人工再核对一下- ai搜索再次纠错- 数字的1和字母的l是区分不出来的- cad坐标提取- 资料确实没有c…...

CKKS 同态加密数学基础推导妥

背景 StreamJsonRpc 是微软官方维护的用于 .NET 和 TypeScript 的 JSON-RPC 通信库,以其强大的类型安全、自动代理生成和成熟的异常处理机制著称。在 HagiCode 项目中,为了通过 ACP (Agent Communication Protocol) 与外部 AI 工具(如 iflow …...

PHP vs Java:谁更适合你的项目?

好的,我们来详细比较一下 PHP 和 Java 这两种编程语言的主要区别:1. 主要用途PHP: 主要用于服务器端的 Web 开发。它最初设计就是用来创建动态网页内容的,是构建网站(尤其是内容管理系统 CMS)的核心语言之一。Java: 是…...

轴向柱塞泵体加工生产线专机及主要辅助设备多头钻床及攻丝机床液压系统设计

轴向柱塞泵体作为液压系统的核心部件,其加工精度直接影响设备性能与寿命。在泵体加工过程中,多头钻床与攻丝机床的液压系统设计是关键环节。多头钻床的液压系统通过同步控制多个钻头的进给与回退,实现高效钻孔作业。其核心作用在于利用液压传…...

跨平台运行Android应用:APK Installer轻量级解决方案指南

跨平台运行Android应用:APK Installer轻量级解决方案指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 当你需要在非原生环境运行特定应用时,…...

Zotero文献去重终极指南:ZoteroDuplicatesMerger插件完整教程

Zotero文献去重终极指南:ZoteroDuplicatesMerger插件完整教程 【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 在学术研究过程中&am…...

智能去重引擎:Zotero文献管理效率提升指南

智能去重引擎:Zotero文献管理效率提升指南 【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 学术研究中,文献库的整洁度直…...

FigmaCN实战指南:3步实现Figma界面全中文化,提升设计师工作效率70%

FigmaCN实战指南:3步实现Figma界面全中文化,提升设计师工作效率70% 【免费下载链接】figmaCN 中文 Figma 插件,设计师人工翻译校验 项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN FigmaCN是一款专为中文设计师打造的开源浏览器…...

财会行业学数据分析的价值分析

数字化转型背景下财会行业的变革需求财会行业正经历从传统核算向数据驱动的转型。企业财务数据量激增,人工处理效率低下,而数据分析能实现自动化处理、实时监控和深度洞察。例如,通过预测模型优化资金配置,或利用可视化工具快速识…...

抖音视频批量下载终极指南:3分钟掌握高效采集技巧

抖音视频批量下载终极指南:3分钟掌握高效采集技巧 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. …...

人力资源管理AI落地实操:从踩坑到跑通的完整路径

人力资源管理AI是指将人工智能技术深度应用于招聘、人事、绩效、薪酬等HR管理全流程的智能化解决方案。 2026年,AI已从”锦上添花”变为HR部门的核心生产力工具,能够将简历筛选时间从平均3天缩短到4小时,绩效面谈记录效率提升6倍&#xff0c…...

Qwen2.5-VL-7B-Instruct效果展示:餐厅菜单图→菜品分类+价格区间分析+推荐搭配生成

Qwen2.5-VL-7B-Instruct效果展示:餐厅菜单图→菜品分类价格区间分析推荐搭配生成 今天,我想和大家分享一个特别有意思的实践:用Qwen2.5-VL-7B-Instruct这个多模态大模型,来“看懂”一张餐厅菜单图片,并让它完成一系列…...

OpCore-Simplify一键生成黑苹果EFI:零基础也能轻松配置的智能工具

OpCore-Simplify一键生成黑苹果EFI:零基础也能轻松配置的智能工具 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为黑苹果配置时复杂…...

人事管理系统人才库:被90%企业忽视的招聘加速器,到底能带来什么?

人事管理系统中的人才库是企业集中存储、管理和激活候选人资源的核心模块,它将历史简历、内部员工档案和外部人才信息整合到统一平台中,帮助 HR 在有招聘需求时快速定位合适人选。 2026 年,随着 AI 技术深度嵌入人才库管理,企业平…...

QWEN-AUDIO企业落地:呼叫中心坐席辅助语音+实时话术情感匹配系统

QWEN-AUDIO企业落地:呼叫中心坐席辅助语音实时话术情感匹配系统 1. 呼叫中心智能化升级需求 现代呼叫中心正面临前所未有的挑战。传统模式下,客服人员需要同时处理客户咨询、记录信息、查找资料,还要保持专业友好的服务态度。这种高强度的工…...

AI攻破一切,猛兽即将出笼:Claude Mythos Preview对网络安全的颠覆性冲击

2026年4月7日,Anthropic发布了Claude Mythos Preview,这个模型能自主发现并利用几乎所有主流软件的零日漏洞——包括每一个主要操作系统和每一个主要浏览器。二十年的安全平衡,可能就此打破。 一、发生了什么 4月7日,Anthropic在其安全研究博客发布了一篇重磅长文,详细披…...

iOS 15-16设备iCloud锁绕过技术全解析:从原理到实战应用

iOS 15-16设备iCloud锁绕过技术全解析:从原理到实战应用 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n iCloud激活锁作为苹果生态的重要安全机制,在保护用户数据安全的同时&am…...