寻找AI时代的关键拼图,从美国橡树岭国家实验室读懂AI存力信标

超算,是计算产业的明珠,是人类探索未知的航船。超算的发展与变化,不仅代表着各个国家与地区间的科技竞争力,更将作为趋势风向标,影响整个数字化体系的走向。
在目前阶段,超算与AI计算的融合是大势所趋。为了将AI模型与AI计算融入超算体系,一轮新的超算变革正在酝酿发生。与此同时,一个关键问题也显露了出来:我们是否需要配合AI大模型风潮,打造全新且独立的存储体系?
在超算领域拥有广泛声誉的橡树岭国家实验室(Oak Ridge National Laboratory),已经就这个问题给出了明确的答案:需要。

日前,我们在橡树岭实验室发布的面向2027年构建下一代数据中心相关计划中已经看到,其明确提出了应对十亿到百亿级大模型的引入,除了需要面向传统HPC场景的PFS(Parallel file system 并行文件系统),还需要单独设立AOS(AI-optimized storage AI 优化存储)存储系统,并给出了相关的详细品类定义与规格约束。
这个信息为何重要?其又将如何影响计算与存储产业的持续发展?
让我们共同来解读一下,这个智能时代的存力信标。
科学之巅的超算答案

不久之前,诺兰导演的电影《奥本海默》在全球热映,其中对曼哈顿工程的描绘让人印象深刻。
事实上,曼哈顿工程的影响远不止于影片介绍的范围。成立于1934年,隶属于美国能源部的橡树岭国家实验室,原本就属于曼哈顿工程的一部分。作为美国乃至全球最具代表性的国家实验室,其存在目的是攻克当下最严峻的科学难题,开发具有跨时代意义的技术。
从上世纪40年代开发核反应堆,到率先在完成中子散射开展材料的相关研究,再到为半导体产业提供了一系列信息与相关技术。橡树岭国家实验室可谓在每个阶段都深度参与了信息时代的重大科学发现,被誉为人类科学之巅。

时间来到今天,橡树岭国家实验室最具盛名的能力就是超算。在的2022年全球超算Top500名单中,橡树岭国家实验室的Frontier超级计算机系统夺得第一。其凭借1.102 Exaflop/s的HPL分数,成为人类有史以来第一台“E级超算”计算机。也就是说,Frontier实现了断代式的惊人算力,其超算性能大于排在它身后的468个超算体系之和。同时,Frontier还是全球AI计算能力最强的计算体系之一,其AI计算能力已经投身到了智能交通、智能医疗等领域的探索中。
由此可见,橡树岭国家实验室在超算领域拥有极强的先进性,堪称广义超算领域的绝对权威。而在打造Frontier为代表的超算体系过程中,实验室也正以更加深邃的目光,望向AI计算与存储的前沿探索之路。
他们给出的AI存力答案,显然可以被更多超算体系,乃至数字化建设整体所参考。

对AI存力底座的明确定义
长久以来,我们都知道AI专项算力的重要性。那么是否需要在存储领域构建AI专项存力呢?这一直是个业界激烈争论的问题。而橡树岭国家实验室的答案,或许可以起到一锤定音的效果。在其发布的面向2027构建下一代数据中心方案中,明确提出了面对大模型的引入,除了需要面向传统超算场景的存储体系之外,要单独设立AOS(AI-optimized storage)品类。这也就是说,要建设传统超算业务和面向AI业务负载的两套I/O存储系统——PFS和AOS,即构建更适应、更匹配AI负载的专项存储。
这是因为橡树岭国家实验室已经意识到,未来超算将面临着越来越多的AI处理任务。这不仅仅需要算力系统的提升,更需要单独针对存储系统进行升级。因此对AI工作负载定制全新的存储子系统至关重要。
两套I/O存储系统相比较的话,很容易找到区别。
传统的PFS,更多是针对单一POSIX文件命名空间,整体业务的I/O较大,并且更多针对大文件进行运算处理,更强调集群聚合带宽,对小文件的创建或读取性能要求并不高。
而相较于PFS,AI应用折射到AOS负载上的文件更加复杂,大小不一,并且数据密集型分析占据了更大比重,在全流程中会产生大量的数据或元数据随机读写情况。这就需要存储系统既具备高达千万级的IOPS与OPS、又拥有十TB/s级别的超高带宽来进行高速顺序读写。
简而言之,新的AI负载会带来巨大的存储性能需求,这是传统PFS系统所谓无法负担的。只有存储性能极大升级,才能让AI算力利用率提升,整个模型的训练效率升级。
其次,极为重要的一点在于AI场景下计算节点故障率高,平均要达到天级甚至小时级就出现故障,因此需要频繁的断点续训,并且还有可能需要很多阶段性的模型数据与窗体数据定期保存。因此与传统的超算任务相比,AI任务需要存储具有更大的容量以及更高的效率。
接下来,我们还要看到共享存储的必要性。橡树岭国家实验室要求计算任务在任何计算节点都可以随机访问任何一个文件,从而确保AI任务在任何节点访问时性能具有强一致性。
除此之外,AOS还具备在底层文件系统与AOS之间的高效并行数据传输能力,从而确保文件的跨层调度能力。

为了保护珍贵的AI数据资产,AOS对存储可靠性的要求也提升了很多。由于各种AI训练大量采用分布式,需要在单点故障后依旧保持数据高可用、任务不中断。这需要满足跨节点的EC(Erasure Coding)能力,不像一些传统并行文件系统仅可做到节点内EC,当节点宕机后就会出现数据丢失、数据完整性受损,并且对于故障后的数据重构的性能速度,也规定了相关时长。
最后,AOS还需要具备本地数据的清洗与处理的能力,包含敏感信息去除、隐私信息过滤,甚至转码、去重等工作,从而简化数据预训练工作,提升AI任务的整体效率。
总结来说,橡树岭国家实验室已经明确提出,AI大模型浪潮不仅需要专项算力,还需要专项存力。传统的并行文件系统已经无法满足AI任务的需求,AI存储的门槛正在变得更高,定义正在更加清晰明确。
由橡树岭国家实验室的超算探索出发,AI存力的概念将影响到整个产业。
存储发展的时代信标

橡树岭国家实验室的发现,可以说是一个时代信标,它将辐射到更广泛的区域,给存储产业的升级发展提出明确信号。
首先,业界可以由此凝结成一个共识:AI需要专业算力,也需要专业存储。AI存力概念将成为大模型时代主导存储产业的骨干。
其次,我们可以看到超算领域将首先得到启示。在全球各个国家与地区,超算都是国之利器,是科技竞赛的关键节点。而在超算与AI水乳交融的发展趋势下,超算场景必须积极引入AI存力升级,设置专业的外置存储,并且积极践行以存强算,通过存储升级来提升AI算力利用率。比如将AI大模型密集型计算之前,为了降低计算通信开销比,可以将一部分数据预处理下沉到存储层完成,以此节省AI算力。最终可以通过存储来提升超算体系的先进性与自主性。
接下来,我们还可以看到这一趋势将释放到超算场景之外。在AI大模型走入千行百业的进程中,各个领域都需要考虑存储是否能够适配AI模型与算力系统。适时进行存储升级,实现存、算、AI的相辅相成,是智能化发展过程中的关键。
这些启示,对于中国存储产业的发展,尤有至关重要的意义。

存力勃发,时代之选
在大模型发展中,存力是前提条件,也是产业支柱。尤其对应到中国在实现科技自立自强,推进数实融合的大势当中。AI浪潮恰好是一个绝佳契机,可以以最低成本,最高价值实现存储产业的全面升级更新。
从目前全球主流趋势来看,存储升级对AI发展的助力是多方位、全面性的。是一个高吞吐、可共享、大容量、高可靠的存储系统,是产业智能化、经济智能化发展的关键。

在这个趋势下,中国存力建设有以下几个机遇需要紧紧把握:
1.扩大存力规模,提升先进存储占比。
随着AI大模型的崛起,以及AI深入到超算、大型政企数字化等场景,会有更多企业倾向于进行本地化的AI训练与相关数据存储。这个过程中,既需要扩大存力整体规模,也需要提升以全闪存为代表的先进存储占比,以此来满足智能化发展所需。
2.提升存储技术创新,应对AI时代的数据复杂性。
AI带来了数据复杂性与应用流程多样性等一系列挑战,因此存储的先进性必须得到进一步提升。比如说,在建设数据湖的过程中,多数据中心、多业务系统的数据归集缓慢且复杂,跨业务的数据倒换的低效且繁琐,都给存储带来了考验。因此,存储需要提升协议互通能力、数据跨域调度、跨系统可视化数据管理等能力。以存储技术创新,应对AI时代的一系列技术挑战。
3.提升存储安全与运维能力,确保AI发展无忧。
AI大模型不仅带来了数据的复杂性,还带来了一系列全新的安全隐患,以及愈加复杂的存储运维管理压力。因此,存储需要积极践行主动安全、自动运维等能力,从而确保AI体系的健康发展。
在这些努力的坚持不懈下,AI存力将得到极大发展。就像我们知道AI算力即生产力,AI存力也将在未来成为生产力释放的关键,成为产业智能化的引擎。
总结起来,一项产业升级与技术发展,首先需要找到信标,读懂趋势。如果说此前我们对于AI专项存储的定义与发展还有争议,那么橡树岭国家实验室对未来数据中心的定义,就是为这一争论画下了句号。

依靠其在超算领域,乃至全球科研界的地位,首先我们可以看到AI存储本身的绝对必要性。其次可以对AI存储的定义、门槛与发展规范提出详细的要求。由此一来,我们可以在越来越多的证据下,清楚地看到AI大模型时代存储升级的必然。
AI存力的价值,在顶级实验室的论证与探索中可以证明;在存储产业多年来走向自主化、先进化的发展脚步中可以证明;在每一次AI训练之后,模型开发者对存储价值的慨叹中可以证明。
抓住AI机遇,促使存力勃发,是时代之选,更是时代之幸。

相关文章:
寻找AI时代的关键拼图,从美国橡树岭国家实验室读懂AI存力信标
超算,是计算产业的明珠,是人类探索未知的航船。超算的发展与变化,不仅代表着各个国家与地区间的科技竞争力,更将作为趋势风向标,影响整个数字化体系的走向。 在目前阶段,超算与AI计算的融合是大势所趋。为了…...
多线程并发篇---第十二篇
系列文章目录 文章目录 系列文章目录一、说说ThreadLocal原理?二、线程池原理知道吗?以及核心参数三、线程池的拒绝策略有哪些?一、说说ThreadLocal原理? hreadLocal可以理解为线程本地变量,他会在每个线程都创建一个副本,那么在线程之间访问内部 副本变量就行了,做到了…...
P7537 [COCI2016-2017#4] Rima
由于题目涉及到后缀,不难想到用 trie 树处理。 将每个字符串翻转插入 trie,后缀就变成了前缀,方便处理。 条件 LCS ( A , B ) ≥ max ( ∣ A ∣ , ∣ B ∣ ) − 1 \text{LCS}(A,B) \ge \max(|A|,|B|)-1 LCS(A,B)≥max(∣A∣,∣B∣)−1&…...
SwiftUI Swift CoreData 计算某实体某属性总和
有一个名为 Item 的实体,它有一个名为 amount 的 Double 属性,向你的 View 添加一个计算属性: Code: struct ContentView: View {Environment(\.managedObjectContext) private var viewContextFetchRequest(sortDescriptors: [NSSortDescri…...
docker安装skyWalking笔记
确保安装了docker和docker-compose sudo docker -v Docker version 20.10.12, build 20.10.12-0ubuntu4 sudo docker-compose -v docker-compose version 1.29.2, build unknown 编写docker-compose.yml version: "3.1" services: skywalking-oap:image: apach…...
【Codeforces】 CF1097G Vladislav and a Great Legend
题目链接 CF方向 Luogu方向 题目解法 首先一个套路是普通幂转下降幂(为什么?因为观察到 k k k 很小,下降幂可以转化组合数问题,从而 d p dp dp 求解) 即 f ( X ) k ∑ i 0 k { k i } i ! ( f ( X ) i ) f(X)^k…...
力扣每日一题36:有效的数独
题目描述: 请你判断一个 9 x 9 的数独是否有效。只需要 根据以下规则 ,验证已经填入的数字是否有效即可。 数字 1-9 在每一行只能出现一次。数字 1-9 在每一列只能出现一次。数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。(请参考…...
钉钉数字校园小程序开发:开启智慧教育新时代
随着信息技术的快速发展和校园管理的日益复杂化,数字校园已成为现代教育的重要趋势。钉钉数字校园小程序作为一种创新应用,以其专业性、思考深度和逻辑性,为学校提供了全新的管理、教学和沟方式。本文从需求分析、技术实现和应用思考三个方面…...
数据结构与算法--其他算法
数据结构与算法--其他算法 1 汉诺塔问题 2 字符串的全部子序列 3 字符串的全排列 4 纸牌问题 5 逆序栈问题 6 数字和字符串转换问题 7 背包问题 8 N皇后问题 暴力递归就是尝试 1,把问题转化为规模缩小了的同类问题的子问题 2,有明确的不需要继续…...
矩阵键盘行列扫描
/*----------------------------------------------- 内容:如计算器输入数据形式相同 从右至左 使用行列扫描方法 ------------------------------------------------*/ #include<reg52.h> //包含头文件,一般情况不需要改动,头文件包含…...
unity 实现拖动ui填空,并判断对错
参考:https://ask.csdn.net/questions/7971448 根据自己的需求修改为如下代码 使用过程中,出现拖动ui位置错误的情况,修改为使用 localPosition 但是吸附到指定位置却需要用的position public class DragAndDrop : MonoBehaviour, IBeginDr…...
《机器学习》第5章 神经网络
文章目录 5.1 神经元模型5.2 感知机与多层网络5.3 误差逆传播算法5.4 全局最小与局部最小5.5 其他常见神经网络RBF网络ART网络SOM网络级联相关网络Elman网络Boltzmann机 5.6 深度学习 5.1 神经元模型 神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它…...
FPGA project : flash_erasure
SPI是什么: SPI(Serial Peripheral Interface,串行外围设备接口)通讯协议,是Motorola公司提出的一种同步串行接口技术,是一种高速、全双工、同步通信总线,在芯片中只占用四根管脚用来控制及数据…...
AC修炼计划(AtCoder Regular Contest 166)
传送门:AtCoder Regular Contest 166 - AtCoder 一直修炼cf,觉得遇到了瓶颈了,所以想在atcode上寻求一些突破,今天本来想尝试vp AtCoder Regular Contest 166,但结局本不是很好,被卡了半天,止步…...
Android---Android 是如何通过 Activity 进行交互的
相信对于 Android 工程师来说,startActivity 就像初恋一般。要求低,见效快,是每一个菜鸟 Android 工程师迈向高级 Android 工程师的必经阶段。经过这么多年的发展,startActivity 在 google 的调教下已经变得愈发成熟,对…...
【论文解读】单目3D目标检测 MonoCon(AAAI2022)
本文分享单目3D目标检测,MonoCon模型的论文解读,了解它的设计思路,论文核心观点,模型结构,以及效果和性能。 目录 一、MonoCon简介 二、论文核心观点 三、模型框架 四、模型预测信息与3D框联系 五、损失函数 六、…...
Angular知识点系列(5)-每天10个小知识
目录 41. Angular的路由守卫42. 处理文件的上传和下载43. Angular的动画系统44. 使用第三方库和选择评估45. 性能优化46. AOT和JIT编译47. 处理响应式布局和适配不同屏幕尺寸48. Angular的国际化(i18n)49. Angular的PWA开发50. 使用Angular Material或其…...
基于海洋捕食者优化的BP神经网络(分类应用) - 附代码
基于海洋捕食者优化的BP神经网络(分类应用) - 附代码 文章目录 基于海洋捕食者优化的BP神经网络(分类应用) - 附代码1.鸢尾花iris数据介绍2.数据集整理3.海洋捕食者优化BP神经网络3.1 BP神经网络参数设置3.2 海洋捕食者算法应用 4…...
Lift, Splat, Shoot图像BEV安装与模型详解
1 前言 计算机视觉算法通常使用图像是作为输入并输出预测的结果,但是对结果所在的坐标系却并不关心,例如图像分类、图像分割、图像检测等任务中,输出的结果均在原始的图像坐标系中。因此这种范式不能很好的与自动驾驶契合。 在自动驾驶中,多个相机传感器的数据一起作为输…...
MySQL简介
数据库管理系统 1、关系型数据库管理系统: Oracle:Oracle是一种商业级关系型数据库管理系统,支持高可用性、高安全性以及广泛的企业级应用需求。SQL Server:SQL Server是Microsoft开发的企业级关系型数据库管理系统,广泛应用于Windows环境下的软件开发。MySQL:MySQL是一…...
Python爬虫实战:研究MechanicalSoup库相关技术
一、MechanicalSoup 库概述 1.1 库简介 MechanicalSoup 是一个 Python 库,专为自动化交互网站而设计。它结合了 requests 的 HTTP 请求能力和 BeautifulSoup 的 HTML 解析能力,提供了直观的 API,让我们可以像人类用户一样浏览网页、填写表单和提交请求。 1.2 主要功能特点…...
零门槛NAS搭建:WinNAS如何让普通电脑秒变私有云?
一、核心优势:专为Windows用户设计的极简NAS WinNAS由深圳耘想存储科技开发,是一款收费低廉但功能全面的Windows NAS工具,主打“无学习成本部署” 。与其他NAS软件相比,其优势在于: 无需硬件改造:将任意W…...
Ubuntu系统下交叉编译openssl
一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机:Ubuntu 20.04.6 LTSHost:ARM32位交叉编译器:arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...
使用VSCode开发Django指南
使用VSCode开发Django指南 一、概述 Django 是一个高级 Python 框架,专为快速、安全和可扩展的 Web 开发而设计。Django 包含对 URL 路由、页面模板和数据处理的丰富支持。 本文将创建一个简单的 Django 应用,其中包含三个使用通用基本模板的页面。在此…...
.Net框架,除了EF还有很多很多......
文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...
23-Oracle 23 ai 区块链表(Blockchain Table)
小伙伴有没有在金融强合规的领域中遇见,必须要保持数据不可变,管理员都无法修改和留痕的要求。比如医疗的电子病历中,影像检查检验结果不可篡改行的,药品追溯过程中数据只可插入无法删除的特性需求;登录日志、修改日志…...
Debian系统简介
目录 Debian系统介绍 Debian版本介绍 Debian软件源介绍 软件包管理工具dpkg dpkg核心指令详解 安装软件包 卸载软件包 查询软件包状态 验证软件包完整性 手动处理依赖关系 dpkg vs apt Debian系统介绍 Debian 和 Ubuntu 都是基于 Debian内核 的 Linux 发行版ÿ…...
Qt Http Server模块功能及架构
Qt Http Server 是 Qt 6.0 中引入的一个新模块,它提供了一个轻量级的 HTTP 服务器实现,主要用于构建基于 HTTP 的应用程序和服务。 功能介绍: 主要功能 HTTP服务器功能: 支持 HTTP/1.1 协议 简单的请求/响应处理模型 支持 GET…...
【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分
一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计,提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合:各模块职责清晰,便于独立开发…...
Mobile ALOHA全身模仿学习
一、题目 Mobile ALOHA:通过低成本全身远程操作学习双手移动操作 传统模仿学习(Imitation Learning)缺点:聚焦与桌面操作,缺乏通用任务所需的移动性和灵活性 本论文优点:(1)在ALOHA…...
