阿里云AI基础设施全面升级,模型算力利用率提升超20%
来源@首席数智官
9月20日,2024云栖大会现场,阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。

“AI创新需要新形态的云基础设施。”阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,阿里云整合底层的计算、存储、网络等资源,实现了统一调度和软硬一体优化,以满足模型训练和推理的爆发式AI算力需求。
基于全新的CIPU2.0,阿里云新推出磐久AI服务器,实现单机16卡、显存1.5T以上,支持Solar RDMA互联。磐久AI服务器采用超钛金电源实现97%以上的高能效,并可通过AI算法预测GPU故障,准确率达92%,保障 AI 算力的性能和稳定性。
在存储方面,阿里云并行文件存储CPFS实现端到端全链路性能提升,单客户端吞吐达25GB/s,高性能数据流动达到100GB/s,为AI智算提供指数级扩展存储能力。
为AI设计的高性能网络架构HPN7.0,性能和稳定性也再次提升,其中,集合通信性能提升1倍以上,模型端到端训练性能提升10%以上。
通过底层计算、存储、网络等基础设施的升级,阿里云灵骏集群可提供超大规模、超强性能的智能算力,万卡规模性能线性度超过96%,并行存储吞吐20TB/s,万卡规模下网络带宽利用率超过99%,可支持单集群十万卡级别AI算力规模。
面向AI业务,阿里云计算产品也大幅演进更新。本次云栖大会上,容器服务ACK面向AI实现重磅升级,大模型应用冷启动延迟降低85%,并可提供15000个超大规模节点支持。同时,容器计算服务ACS 即将推出 GPU容器算力。
阿里云推出第九代ECS实例,最高提升30%性能
阿里云发布全新的弹性计算产品家族。基于全面升级的云基础设施处理器CIPU2.0,通用计算、加速计算、容器计算等三大弹性计算产品系列均实现性能大幅提升。阿里云全新推出第九代ECS企业级实例,可实现高达30%的性能提升。

图说:阿里云弹性计算全新产品家族
当前,以GPU为代表的加速计算需求快速增长,容器也成为新的技术标准与用云范式。为此,云基础设施处理器CIPU也全新升级到2.0版本。通过软硬一体协同优化,CIPU2.0实现了400Gbps的高吞吐硬件数据加速架构,将整机稳定性提升20%。同时,CIPU2.0还大幅提升了安全性,创新实现数据全生命周期安全。

图:全新云基础设施处理器 CIPU2.0 支撑云服务
依托自研的“飞天+CIPU”架构体系,阿里云完成了通用计算、加速计算和容器计算的弹性计算产品家族的全新升级。
在通用计算方面,阿里云发布第九代ECS企业级实例。其中,g9i实例基于Intel最新的第六代至强处理器GNR,内存带宽提升70%,在web场景性能相比8代实例最大提升20%;g9a实例基于AMD最新Zen5处理器,搭配阿里云最新CIPU架构,单核性能提升20%,搜推广场景下分布式训练集群性能提升30%。

图:阿里云发布全新第九代ECS企业级实例
在加速计算方面,阿里云基于CIPU2.0打通高性能网络架构HPN7.0、升级的CPFS并行文件存储等AI Infra,并发布全新的磐久AI服务器。灵骏集群也进一步升级,可支持十万卡级别的AI算力规模。
在容器计算方面,阿里云容器计算服务ACS率先商业化,并将推出全新的GPU容器算力。新升级的ACS以0.5vCPU、1GiB 步长递进,实现更柔性的秒级自动热变配;每分钟可弹至10000个pod,并推出按天承诺消费的节省计划,综合算力成本最高可降55%。
为了提供更易用、更智能的基础设施产品与服务,阿里云弹性计算还升级了控制台,推出了AI Copilot服务,并实现全链路可观测,提升运维效率、保障系统稳定。

阿里云副总裁、弹性计算及存储产品线负责人吴结生表示:“从支撑数字化创新到智能化创新,云计算始终是 Scaling Law 的践行者。面向智能时代,阿里云弹性计算持续围绕技术先进、稳定安全、普惠易用、大规模弹性的价值追求,为千行百业提供更强的性能、更高的灵活性、更大的算力规模、更高稳定性的云计算产品服务。”
阿里云首次推出云原生NDR产品 提升全流量威胁防御能力
阿里云宣布云原生安全能力全线升级,首次发布云原生网络检测与响应产品NDR(Network Detection Response,简称NDR)。同时,阿里云还宣布将持续增加免费的安全防护能力,帮助中小企业客户以极低投入完成基础的云上安全风险治理。
云时代复杂的IT体系、碎片化的安全工具和传统的防护思路,以及新技术和新威胁带来的多重变化,让安全运营难以应对挑战。阿里云安全产品负责人欧阳欣表示,阿里云基于多年经验,创新性提出“三体”安全建设思路,将基础设施安全一体化、安全技术域一体化、以及办公安全和生产安全一体化贯彻到安全运营中。

此次推出的阿里云云原生NDR,即是在此背景下的创新。NDR是基于公共云环境原生化部署的威胁检测与响应产品,全面提升了云环境全流量防御能力。与传统第三方产品不同在于,它无需部署即可即时开通,并通过创新的自动留存技术,可以针对攻击事件及攻击发生前后5分钟的流量进行取证保存,兼顾留存需要与成本投入,进而进行溯源和关联分析,帮助客户更快发现高级网络威胁。

基于基础设施安全一体化,阿里云还加强了WAAP、云安全中心、DDoS防护等能力,并且对数据库、网络CDN、计算、存储等云原生产品的安全能力也进行全新升级。
比如数据库与安全产品在数据安全上进行全面融合与能力共建,发布列加密与原生审计技术,可一键开通,增强自动化的安全能力。在CDN安全方面,阿里云将安全功能融入边缘网络,实现一键开启DDoS防护、WAF、Bot管理、API安全、SSL证书等功能,通过全球3200+节点提供原生安全能力,为用户提供边缘云网安全防护体验。
目前,阿里云已经成为Forrester、Gartner、IDC三大国际权威机构认可的全球安全能力最完整的厂商之一。

欧阳欣表示,“在做好平台安全建设同时,阿里云也免费开放更多的安全能力额度,包括云安全中心、内容安全、数据安全中心,让中小企业客户能够增强安全防护,同时还在安全体验上增加一键检测、一键修复等功能,帮助客户共同加入到云上安全维护中。

面向AI,阿里云全新升级了安全体系,通义大模型基于阿里云的安全基座建设了生成式人工智能安全保障的最佳实践,将内容安全能力覆盖到大模型全生命周期中。同时,阿里云安全为百炼平台的专属部署模式设计了VPC安全保障方案,让客户在私域环境中也能获得数据确权归属等系列安全服务。
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
阿里云瑶池数据库宣布重磅升级,发布首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户敏捷、高效地提取并分析元数据,业务决策效率可提升10倍。

阿里云副总裁、数据库产品事业部负责人李飞飞
“数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力,以数据驱动决策和创新,为用户提供‘搭积木’一样易用、好用、高可用的使用体验。”阿里云副总裁、数据库产品事业部负责人李飞飞表示。

图:阿里云推出多模数据管理平台DMS:OneMeta+OneOps
当前,近80%的企业在建设数据平台时采用多种数据引擎、多数据实例组合的策略,AI兴起也带来了非结构化数据的指数级增长,给企业对数据的高效检索和分析管理提出了更大挑战。此次,阿里云重磅推出由“Data+AI”驱动的多模数据管理平台DMS:OneMeta+OneOps,助力构建企业智能Data Mesh(数据网格),提升跨环境、跨引擎、跨实例的统一元数据管理能力。
DMS创新设计了统一、开放、跨云的元数据服务OneMeta及DMS+X的多模联动模式OneOps。OneMeta首次打通不同数据系统,可支持全域40余种不同数据源,提供数据血缘和数据质量的一站式数据治理。

OneOps则基于数据开发平台DataOps和AI数据平台MLOps,将不同数据库引擎(关系型数据库、数据仓库、多模数据库等)集结到统一平台,让用户“开箱即用”,实现全链路的数据加工和计算能力。
自上线以来,DMS已服务超过10万企业客户。借助跨引擎、跨实例管理和开发以及数据智能一体化,DMS将帮助企业从分散式数据治理升级至开放统一数据智能管理,可降低高达90%的数据管理成本,业务决策效率提升10倍。
李飞飞表示:“这是自云原生数据库2.0后,阿里云瑶池数据库又一次里程碑式的改造升级。DMS:OneMeta+OneOps为企业提供了全域数据资产管理能力,让业务数据‘看得清、查得快、用得好’。”
据介绍,极氪汽车采用DMS+Lindorm一站式多模数据解决方案,实现32万在线车辆上万车机信号数据的弹性处理分析,开发效能提升2倍,降低50%云资源成本。在大模型领域,此方案支撑月之暗面构建AI智能助手Kimi,帮助Kimi准确理解用户的搜索意图、整合与概述多种信息源,实现精准和全面的信息召回,提升用户交互体验。

此外,云原生数据库PolarDB今年首次提出基于“三层解耦, 三层池化”(存储、内存、计算)、AlwaysOn架构的多主多写和秒级Serverless能力,解决了多主架构中冲突处理和数据融合、以及Serverless秒级弹性租户隔离的难题。在高并发场景下,PolarDB性能为业界同类数据库3倍,并凭以上成果成功摘得中国首个ACM SIGMOD和IEEE ICDE工业赛道“最佳论文奖”。

本次云栖大会,阿里云瑶池还正式发布了云原生内存数据库Tair Serverless KV服务,是阿里云首个基于NVIDIA TensorRT-LLM的推理缓存加速云数据库产品。Tair采用NVIDIA TensorRT-LLM一起进行了深度优化。相比开源方案,该服务可实现PD分离/调度优化吞吐30%的提升 ,预计成本可降低 20%
来源@首席数智官
相关文章:
阿里云AI基础设施全面升级,模型算力利用率提升超20%
来源首席数智官 9月20日,2024云栖大会现场,阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。 “AI…...
Debezium日常分享系列之:将容器镜像移至 quay.io
Debezium日常分享系列之:将容器镜像移至 quay.io 在Debezium 3.0.0.Final发布之后,我们将不再向docker.io发布容器镜像更新。旧版本的Debezium 2.x和1.x镜像将继续保留在docker.io上;然而,所有未来的Debezium 2.7.x和3.x或更高版本…...
基于TCP实现聊天
TCP客户端代码 import java.io.*; import java.net.InetAddress; import java.net.Socket;public class TcpClientDemo01 {public static void main(String[] args) {Socket socket null;OutputStream os null;InputStream is null;BufferedReader reader null;try {// 1.…...
基于JavaSwing实现的酒店管理系统
一、项目介绍 > 欢迎使用酒店管理系统! > 这是一个基于Java Swing开发,用于管理酒店预订、房间、订单和用户信息的系统。 > 适用于JAVA初学者作为入门学习项目。 二、项目演示 三、基础依赖 技术/框架版本描述Java8编程语言MySQL8.0数据…...
网络基础,协议,OSI分层,TCP/IP模型
网络的产生是数据交流的必然趋势,计算机之间的独立的个体,想要进行数据交互,一开始是使用磁盘进行数据拷贝,可是这样的数据拷贝效率很低,于是网络交互便出现了; 1.网络是什么 网络,顾名思义是…...
CefSharp_Vue交互(Element UI)_WinFormWeb应用---设置应用透明度(含示例代码)
一、界面预览 1.1 设置透明(整个页面透明80%示例) 限制输入值:10-100(数字太小会不好看见) 1.2 vue标题栏 //注册类与js调用 (async function(...
【OSS安全最佳实践】降低因账号密码泄露带来的未授权访问风险
如果因个人或者企业账号密码泄露引发了未经授权的访问,可能会出现非法用户对OSS资源进行违法操作,或者合法用户以未授权的方式对OSS资源进行各类操作,这将给数据安全带来极大的威胁。为此,OSS提供了在实施数据安全保护时需要考虑的…...
视频存储EasyCVR视频监控汇聚管理平台设备录像下载报错404是什么原因?
EasyCVR视频监控汇聚管理平台是一款针对大中型项目设计的跨区域网络化视频监控集中管理平台。该平台不仅具备视频资源管理、设备管理、用户管理、运维管理和安全管理等功能,还支持多种主流标准协议,如GB28181、RTSP/Onvif、RTMP、部标JT808、GA/T 1400协…...
在Spring项目中,两个实用的工具(生成类与映射文件、API自动生成)
尊贵的Spring玩家,是不允许动脑思考的,所以我们要学会复制粘贴 1.生成类与映射文件 背景:在项目编写初期,我们已经设计好了表,后面就需要根据表来撰写实体类(model)和对应的sql语句(dao和mapper)。如果一个项目中&…...
C#基础(16)实践:学生成绩管理系统
简介 通过基础部分的学习,我们已经能进行一些实际应用的开发,学生成绩系统我相信是大家基本在大学期间上程序课必定会经历的一个小项目。 这个小项目看上去简单,但是思考量却不少。 这里就不带着大家一步一步讲解了,因为里面涉…...
git常用命令(patch补丁和解决冲突)
diff/apply方案 使用diff命令生成patch文件,后使用apply命令应用patch到分支,从而实现修改复刻。 生成补丁 git diff > commit.patch 检查补丁 git apply --check commit.patch 应用补丁 git apply commit.patchgit diff --cached > commit.pa…...
数模方法论-整数规划
一、基本概念 非线性规划的应用包括工程设计、资源分配、经济模型等。在求解过程中,由于非线性特性,常用的方法有梯度法、牛顿法、启发式算法等。求解非线性规划问题时,解的存在性和唯一性通常较难保证,且可能存在多个局部最优解…...
【问题随记】在使用 AuthenticationManager 的时候,出现循环依赖问题 —— `java.lang.StackOverflowError`
问题随记 在使用 AuthenticationManager 的时候,出现循环依赖问题 —— java.lang.StackOverflowError,查资料查了两天半,终于找到原因。 2024-06-16T17:54:19.48708:00 ERROR 20672 --- [nio-8789-exec-1] o.a.c.c.C.[.[.[/].[dispatcherS…...
2024年华为杯-研赛F题论文问题一二讲解+代码分享
X射线脉冲星光子到达时间建模 摘要 脉冲星是一类高速自转的中子星,其自转形成规律性脉冲信号,类似于“宇宙中的灯塔”,因此被认为是极为精确的时钟。X射线脉冲星导航利用脉冲星信号为航天器提供时间和空间参考。通过比较脉冲信号到达航天器…...
代码随想录训练营第34天|dp前置转移
62. 不同路径 class Solution { public:int uniquePaths(int m, int n) {vector<vector<int>> dp(m,vector<int>(n,1));for(int i1; i<m;i){for(int j1; j<n; j){dp[i][j]dp[i-1][j]dp[i][j-1];}}return dp[m-1][n-1];} }; dp[i][j]:运动至(i,j)的方…...
乐观锁、悲观锁
一、悲观锁 悲观锁 (Pessimistic Locking),具有强烈的独占和排他特性。它指的是对数据被外界修改持保守态度。因此,在整个执行过程中,将处于锁定状态。所以,悲观锁是一种悲观思想,它总认为最坏的情况可能会出现&#x…...
Java客户端SpringDataRedis(RedisTemplate使用)
文章目录 ⛄概述⛄快速入门❄️❄️导入依赖❄️❄️配置文件❄️❄️测试代码 ⛄数据化序列器⛄StringRedisTemplate⛄RedisTemplate的两种序列化实践方案总结 ⛄概述 SpringData是Spring中数据操作的模块,包含对各种数据库的集成,其中对Redis的集成模…...
wsl2桥接网络 ubuntu到弃坑到又跳坑
搜索Hyper-V image.png 如下图进入虚拟交换机管理器 image.png image.png C:\Users\Administrator下存放 ; 这是 WSL 2 的配置文件 [wsl2] processors4 ; 设置 WSL 2 可以使用的最大 CPU 核心数为 4,自行修改 memory4GB …...
WIFI路由器的套杆天线简谈
❝本次推文简单介绍下WIFI路由器的套杆天线。 路由器天线 路由器在这个万物互联的时代,想必大家对其都不陌生。随着科技的发展,常用的路由器上的天线也越来越多,那么问题来了:天线越多,信号越好吗?路由器…...
希尔排序(C语言实现)
目录 1.希尔排序( 缩小增量排序 ) 2.动图 编辑 3.代码实现 预排序实现 子序列排列实现 单趟排序实现 对整组数进行子排序 希尔排序代码 代码测试 时间复杂度分析 希尔排序的特性总结: 1.希尔排序( 缩小增量排序 ) 基本思想: 1.先选定一个…...
铭豹扩展坞 USB转网口 突然无法识别解决方法
当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…...
HTML 语义化
目录 HTML 语义化HTML5 新特性HTML 语义化的好处语义化标签的使用场景最佳实践 HTML 语义化 HTML5 新特性 标准答案: 语义化标签: <header>:页头<nav>:导航<main>:主要内容<article>&#x…...
R语言AI模型部署方案:精准离线运行详解
R语言AI模型部署方案:精准离线运行详解 一、项目概述 本文将构建一个完整的R语言AI部署解决方案,实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点: 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...
聊聊 Pulsar:Producer 源码解析
一、前言 Apache Pulsar 是一个企业级的开源分布式消息传递平台,以其高性能、可扩展性和存储计算分离架构在消息队列和流处理领域独树一帜。在 Pulsar 的核心架构中,Producer(生产者) 是连接客户端应用与消息队列的第一步。生产者…...
CocosCreator 之 JavaScript/TypeScript和Java的相互交互
引擎版本: 3.8.1 语言: JavaScript/TypeScript、C、Java 环境:Window 参考:Java原生反射机制 您好,我是鹤九日! 回顾 在上篇文章中:CocosCreator Android项目接入UnityAds 广告SDK。 我们简单讲…...
Angular微前端架构:Module Federation + ngx-build-plus (Webpack)
以下是一个完整的 Angular 微前端示例,其中使用的是 Module Federation 和 npx-build-plus 实现了主应用(Shell)与子应用(Remote)的集成。 🛠️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...
2025季度云服务器排行榜
在全球云服务器市场,各厂商的排名和地位并非一成不变,而是由其独特的优势、战略布局和市场适应性共同决定的。以下是根据2025年市场趋势,对主要云服务器厂商在排行榜中占据重要位置的原因和优势进行深度分析: 一、全球“三巨头”…...
面向无人机海岸带生态系统监测的语义分割基准数据集
描述:海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而,目前该领域仍面临一个挑战,即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...
LRU 缓存机制详解与实现(Java版) + 力扣解决
📌 LRU 缓存机制详解与实现(Java版) 一、📖 问题背景 在日常开发中,我们经常会使用 缓存(Cache) 来提升性能。但由于内存有限,缓存不可能无限增长,于是需要策略决定&am…...
Python 实现 Web 静态服务器(HTTP 协议)
目录 一、在本地启动 HTTP 服务器1. Windows 下安装 node.js1)下载安装包2)配置环境变量3)安装镜像4)node.js 的常用命令 2. 安装 http-server 服务3. 使用 http-server 开启服务1)使用 http-server2)详解 …...
