当前位置: 首页 > article >正文

谷歌 Decoupled DiLoCo:革新分布式训练,高容错低带宽提升超大规模模型训练效率!

弹性 AI 预训练新前沿谷歌的突破弹性 AI 预训练推进到了下一个前沿这个突破来自谷歌。他们提出的 Decoupled DiLoCo 是一种革命性的分布式训练技术能利用全球各地的异构硬件进行训练即便硬件发生故障系统也不会停止运行。这项研究成果引发广泛关注论文 Leads 作者之一的 Arthur Douillard 在 X 上的分享推文获超 260 万次浏览。著名研究者、Google DeepMind 和 Google Research 首席科学家 Jeff Dean 也是作者之一他发布多条推文介绍成果还回忆了自己 14 年前的一篇一作论文《Large Scale Distributed Deep Networks》。在这篇 NeurIPS 2012 论文中他们证明大规模训练和异步技术可用于训练庞大神经网络并以容错方式将训练任务分散到数千台机器上。如今Decoupled DiLoCo 有望将这个理念变成大规模工程实践。背景规模越大故障越频繁要理解这项工作的意义需先了解现代 AI 训练的根本困境。如今训练大语言模型普遍采用 SPMD单程序多数据并行方式就像工厂里工人同步操作流水线任何一个工位出问题整条流水线就得停。小规模时没问题但集群规模扩展到数十万乃至数百万块芯片时硬件故障就成了日常。论文计算显示假设每块芯片平均一年才出一次故障240 万块芯片的集群平均故障间隔不足一分钟。现有的「弹性训练」方式检测到机器宕机后重新调整集群配置但重配置过程耗费大量时间导致集群等待期间无法有效计算。论文模拟数据显示240 万块芯片规模下即使有弹性机制实际有效计算时间Goodput也只有 40%60% 的时间集群处于等待或重配置状态浪费算力。打破「步调一致」的枷锁Decoupled DiLoCo 的核心思路是放弃让所有机器保持同步。它把训练集群拆分成若干独立的「学习器」Learner每个学习器用自己的数据独立训练不受其他学习器影响。当某个学习器出故障其余学习器继续训练。为让各个学习器协同训练出同一个模型引入了轻量级的「同步器」Syncer。同步器运行在稳定的 CPU 资源上负责周期性收集学习器参数更新、合并并推送结果。同步器不需要等所有学习器准备好只要有足够数量最小法定数的学习器汇报进度就开始工作出故障的学习器跳过恢复后再补上。此外为避免快的学习器在合并时「一票顶多票」同步器引入基于处理 token 数量的动态权重机制。还有「自适应宽限窗口」同步器达到最小法定数后会多等一会提高合并质量且等待时间不影响整体训练速度。「平衡张量分片」技术将模型参数切成碎片传输均匀分摊通信压力。实验结果故障率极高时性能几乎不掉论文用大量实验验证了 Decoupled DiLoCo 的效果。Goodput 方面模拟 240 万块芯片、平均每年每块故障一次的场景使用 8 个学习器时Decoupled DiLoCo 的 Goodput 维持在 88%而传统弹性数据并行方案只有 58%。模型质量方面对比 5B 参数稠密模型在 1 万亿 token 上的训练结果Decoupled DiLoCo 在文本和视觉基准的下游评测成绩与传统数据并行训练几乎无差距大幅提升容错能力的同时未牺牲模型质量。在混合旧式芯片TPUv5e 与 TPUv5p场景下即便最慢的学习器比最快的慢近 20%系统仍实现了与完全同步训练相当的模型质量计算利用率维持在 100%。带宽消耗方面为达到 90% 的计算利用率传统数据并行方案在 1 秒计算步长、2 个数据中心的场景下需要约 104 Gbits/s 的带宽Decoupled DiLoCo 只需要 1.7 Gbits/s采用 int4 压缩后进一步降至 0.43 Gbits/s带宽需求减少约两个数量级。更大的想象空间「捡漏」算力低带宽需求让 Decoupled DiLoCo 可以随时「捡漏」临时可用的算力资源。传统数据并行训练加入新机器需传输完整模型参数影响训练效率。而 Decoupled DiLoCo 新学习器加入时可从邻近学习器异步拉取模型状态不影响其他学习器训练。论文实验显示训练中动态加入临时学习器加入越多临时算力训练完成时间越短模型质量不受影响。同等设置下的数据并行基准额外算力需翻倍以上才体现效益。这意味着不同地区、时区、代际硬件上的零散算力也可纳入同一次训练任务。一个旧设想终于等到了工程条件Jeff Dean 回忆 2012 年论文时提到当年就设想容忍一定程度的不一致性让训练更有弹性但受限于当时的规模和工程条件未能实现。十四年后模型规模和训练集群扩大这个问题成为「必须解决」的工程问题。Decoupled DiLoCo 放弃全局强一致性用异步和分权换来可用性通过算法设计将模型质量损耗压到几乎可忽略不计。论文结尾指出随着预训练扩展到跨地区集群「可用性优先」的训练范式将从「有优势」变成「有必要」这篇论文正在重新定义下一代超大规模模型训练的基础设施。

相关文章:

谷歌 Decoupled DiLoCo:革新分布式训练,高容错低带宽提升超大规模模型训练效率!

弹性 AI 预训练新前沿:谷歌的突破弹性 AI 预训练推进到了下一个前沿,这个突破来自谷歌。他们提出的 Decoupled DiLoCo 是一种革命性的分布式训练技术,能利用全球各地的异构硬件进行训练,即便硬件发生故障,系统也不会停…...

基于安卓的社区儿童托管预约平台毕业设计

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在设计并实现一款基于安卓平台的社区儿童托管预约系统以解决当前城市社区中儿童托管服务供需失衡与管理效率低下等问题。随着我国城市化进程加速及双职工…...

Python系列AI系列(仅供参考-推荐):AI Coding 进阶指南:Trae AI插件在Pycharm中的高效配置与实战技巧

AI Coding 进阶指南:Trae AI插件在Pycharm中的高效配置与实战技巧AI Coding 进阶指南:Trae AI插件在Pycharm中的高效配置与实战技巧1. 为什么开发者需要Trae AI插件2. 安装与基础配置详解2.1 插件安装的正确姿势2.2 账号配置与模型选择3. 日常开发中的高…...

暗黑破坏神2存档编辑革命:告别繁琐,拥抱网页端自由定制

暗黑破坏神2存档编辑革命:告别繁琐,拥抱网页端自由定制 【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 你是否曾经为了一个完美的暗黑2角色,反复刷图数小时却一无所获?你是否曾经因…...

抖音批量下载器:一键无水印下载,突破平台限制的终极解决方案

抖音批量下载器:一键无水印下载,突破平台限制的终极解决方案 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and brows…...

暗黑破坏神2存档编辑神器:网页版d2s-editor完全指南

暗黑破坏神2存档编辑神器:网页版d2s-editor完全指南 【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 还在为暗黑破坏神2存档修改而烦恼吗?d2s-editor是一款基于Vue.js开发的网页版暗黑2存档编辑器&#xf…...

算法打卡第12天|多数元素

题目链接:https://leetcode.cn/problems/majority-element/学习视频:【【力扣hot100】【LeetCode 169】多数元素-哔哩哔哩】 https://b23.tv/qVi0gBx【【力扣hot100】【LeetCode 169】多数元素-哔哩哔哩】 https://b23.tv/eIIjHvi 官方题解:https://leet…...

AI生图提示词及AI转模工具试探比较

GPT image 2 (每天8张免费额度) Tpose 正视图提示词: 帮我生成图片:帮我生成人物的Tpose,肩膀和前臂及双手向左右水平伸直,手掌朝下,手指伸直;脚垂直伸直,双脚叉开,脚掌间距为2个头…...

2026 年最新:Anthropic 注册政策变化及应对策略

2026 年 4 月,Anthropic 官方密集更新平台注册、审核、身份核验与地区风控全维度规则,结合全球 AI 监管法案收紧、模型滥用防控升级,对 Claude 网页端、开发者 API 控制台、账号准入、使用权限、封禁机制进行全方位调整。大量过往可用的注册方…...

三月七小助手:崩坏星穹铁道终极自动化游戏助手完整指南

三月七小助手:崩坏星穹铁道终极自动化游戏助手完整指南 【免费下载链接】March7thAssistant 崩坏:星穹铁道全自动 三月七小助手 项目地址: https://gitcode.com/gh_mirrors/ma/March7thAssistant 还在为《崩坏:星穹铁道》中那些重复繁…...

DamaiHelper:如何用智能自动化告别演唱会抢票焦虑?

DamaiHelper:如何用智能自动化告别演唱会抢票焦虑? 【免费下载链接】DamaiHelper 大麦网演唱会演出抢票脚本。 项目地址: https://gitcode.com/gh_mirrors/dama/DamaiHelper 当热门演唱会门票开售时,你是否经历过这样的场景&#xff1…...

【Flutter for OpenHarmony第三方库】Flutter for OpenHarmony 音频播放功能适配与实现指南

Flutter for OpenHarmony 音频播放功能适配与实现指南 欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net 摘要 在 OpenHarmony 生态持续扩张与 Flutter 跨平台开发深度融合的背景下,存量 Flutter 应用向鸿蒙终端迁移的技术需求日益…...

AiPy帮我工作后,我开始躺平摸鱼

作为一名某互联网公司摸爬滚打三年的运营分析师,我最近上班幸福感直线上升——没有涨工资,leader也没有请假,是因为我找到工作摸鱼的真神:AiPy。体验了不到一个月,就已经为我解决了太多工作痛点,让我从无休…...

别再让C++控制台输出乱糟糟了!用<iomanip>库的setw和setfill轻松搞定表格对齐

别再让C控制台输出乱糟糟了&#xff01;用库的setw和setfill轻松搞定表格对齐 每次在控制台输出表格数据时&#xff0c;那些参差不齐的列宽和混乱的对齐方式&#xff0c;是不是让你抓狂&#xff1f;作为一名C开发者&#xff0c;我深知这种痛苦。直到发现<iomanip>库中的s…...

Yoga Pro 14s装完Win11+Ubuntu 22.04,开机直接进Windows?手把手教你进Grub救援模式找回启动菜单

Yoga Pro 14s双系统启动项丢失&#xff1f;Grub救援模式实战指南 刚入手Yoga Pro 14s的兴奋还没褪去&#xff0c;就遭遇了双系统用户的经典噩梦——安装完Windows 11和Ubuntu 22.04后&#xff0c;开机直接进入Windows&#xff0c;Ubuntu仿佛从未存在过。这不是个例&#xff0c;…...

UnityFigmaBridge终极指南:从设计到开发的完整高效协作方案

UnityFigmaBridge终极指南&#xff1a;从设计到开发的完整高效协作方案 【免费下载链接】UnityFigmaBridge Easily bring your Figma Documents, Components, Assets and Prototypes to Unity 项目地址: https://gitcode.com/gh_mirrors/un/UnityFigmaBridge 你是否曾为…...

ComfyUI IPAdapter Plus完整指南:轻松实现图像引导AI生成

ComfyUI IPAdapter Plus完整指南&#xff1a;轻松实现图像引导AI生成 【免费下载链接】ComfyUI_IPAdapter_plus 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI_IPAdapter_plus 想要让AI生成的图像完美融合你的参考图片风格吗&#xff1f;ComfyUI IPAdapter Plu…...

Windows/Mac双平台实测:用Git Bash和Idea内置终端搞定GitLab SSH Key配置全流程

Windows与macOS双平台实战&#xff1a;GitLab SSH Key配置与IntelliJ IDEA无缝集成指南 跨平台开发已成为现代团队的常态&#xff0c;但不同操作系统间的配置差异常常让开发者头疼。本文将手把手带你完成从SSH密钥生成到IntelliJ IDEA集成的全流程&#xff0c;特别针对Windows&…...

解耦管理化技术中的解耦计划解耦实施解耦验证

解耦管理化技术是现代系统工程中的关键方法&#xff0c;旨在通过解耦计划、解耦实施和解耦验证三个核心环节&#xff0c;实现复杂系统模块化与高效协同。这一技术广泛应用于软件开发、智能制造和供应链管理等领域&#xff0c;能够显著降低系统耦合度&#xff0c;提升灵活性与可…...

Ubuntu系统上部署OpenClaw完整指南

一、Ubuntu系统环境准备 (一)系统版本与硬件要求 在Ubuntu系统上部署OpenClaw前,需要确保系统版本和硬件配置满足基本要求。根据不同使用场景,OpenClaw对系统环境的要求有所差异,合理配置硬件资源可以确保系统稳定运行并获得良好体验。 首先,系统版本方面,OpenClaw要…...

auditd服务

1、简介 auditd是一个独立于rsyslog的专用日志系统,/var/log/audit/audit.log日志有auditd守护进程产生和管理。 auditd配置文件:/etc/audit/auditd.conf(主配置文件)、/etc/audit/rules.d/audit.rules(审计规则) auditd直接与内核的审计子系统(kauditd)交互,kauditd…...

Cadence allegro 全家桶 以及相关文件说明

0. cadence allegro 系列文件说明 版图编辑器会自动为你输入的主文件名添加对应后缀,不同后缀代表不同文件类型,说明如下: 表格 后缀 文件类型说明 .art(默认) 光绘文件。可在「设置 – 用户偏好设置」(命令:enved)中配置环境变量 ext_artwork,自定义光绘文件默认后…...

CL1820绿色模式PWM反激(SSR)控制器

概述 CL1820 是一款高集成度的 PWM 反激控制器&#xff0c;它提供了几个功能来提高效率、EMI 改进方案&#xff0c;并内置完整的保护功能。轻载时&#xff0c;低启动电流和专有的绿色模式功能提供了逐渐降频的模式。空载时&#xff0c;它还内置突发模式和几个参数&#xff0c;以…...

Git克隆报错SSL routines:ssl3_get_record?别慌,这可能是你的代理在‘捣乱’

Git克隆报错SSL routines:ssl3_get_record的深度排查与解决方案 当你正专注于某个开源项目&#xff0c;准备通过git clone获取代码时&#xff0c;突然遇到SSL routines:ssl3_get_record:wrong version number的错误提示&#xff0c;这种突如其来的技术障碍往往会打乱开发节奏。…...

网络通信安全技术:加密与认证机制详解

1. 网络通信安全技术概述在现代数字化环境中&#xff0c;确保数据传输的安全性和隐私性已成为企业和个人的基本需求。网络通信安全技术通过加密和认证机制&#xff0c;为数据在公共网络上的传输提供了可靠的保护。这类技术能够建立安全的通信通道&#xff0c;使远程用户或分支机…...

AI提示词库:结构化规则提升AI编程助手效率与代码质量

1. 项目概述&#xff1a;一个为开发者量身打造的AI提示词库如果你和我一样&#xff0c;每天都在和Cursor、GitHub Copilot、Windsurf这些AI编程助手打交道&#xff0c;那你肯定也经历过这样的时刻&#xff1a;面对一个新项目&#xff0c;或者一个不熟悉的框架&#xff0c;你希望…...

轻量级视觉语言模型miniclawd:在树莓派等边缘设备实现本地化AI部署

1. 项目概述&#xff1a;一个为“小爪子”准备的AI模型 最近在开源社区里&#xff0c;一个名为 FoundDream/miniclawd 的项目引起了我的注意。这个名字很有意思&#xff0c; mini 代表小巧&#xff0c; clawd 则像是 claw &#xff08;爪子&#xff09;和 cloud &…...

Neuron | TEE 通过 ReExc-BLAInh 回路逆转情绪障碍_MCE(MedChemExpress)

​近期&#xff0c;华中科技大学朱铃强、刘丹教授团队在 Neuron 杂志发表了题为“Noninvasive tactile stimulation engaging a thalamic-amygdala circuit ameliorates mood dysfunction in mouse models of depression-like behavior”的研究论文[1]。 ​高手过招研究人员建立…...

HPH构造详解 两种核心结构

HPH身为一种精密流体控制元件&#xff0c;其内部所具备的构造对于设备的工作效率以及使用寿命起着直接的决定性作用。要深入了解HPH的构造&#xff0c;需从核心腔体、密封系统以及驱动单元这三个关键维度着手&#xff0c;接下来将结合实际拆解经验予以详细说明。 HPH内部结构图…...

Uni-App项目集成mp-html全攻略:从插件市场导入到npm引入的三种姿势

Uni-App项目集成mp-html全攻略&#xff1a;从插件市场导入到npm引入的三种姿势 在跨端开发领域&#xff0c;Uni-App凭借"一次开发&#xff0c;多端发布"的优势已成为众多开发者的首选框架。而富文本展示作为内容型应用的刚需功能&#xff0c;其实现方案往往成为项目成…...