更多精彩 >

阿里云发布全栈AI负载高可用与用户共建AI时代云上IT新治理

2024-12-27 11:45:50   来源:阿里云  作者: 

摘要:在论坛上,2025年中国数字化治理领域最新评估结果揭晓,阿里云成为首批通过信通院“企业用云治理能力成熟度评估”评测的两家企业之一,同时获得该项能力评估最高等级。

12月17日上午,在中国信息通信研究院主办的2024第五届“GOLF+IT新治理领导力论坛”主论坛上,阿里云重磅发布了全栈AI负载高可用架构,以满足AI大模型企业级应用在大规模参数量、复杂结构和高性能算力背景下,对云服务处理能力可扩展性、服务连续性、服务质量和故障快速恢复的需求。

以为生成式 AI 打造持续的卓越用户体验为目的,阿里云全栈AI负载高可用架构可达到GPU故障预测准确率92%,千卡规模集群连续训练有效时长大于99%,秒级模型自动保存、分钟级故障恢复;每分钟10000个pod扩展,分钟级自动扩容;核心模型服务99.99%的API SLA,模型应用服务全链路可观测等重要的AI业务高可用目标,在大规模数据处理和训推场景下,实现了对Gen AI应用业务连续性、响应速度、稳定性和安全性的全面保障。

在论坛上,2025年中国数字化治理领域最新评估结果揭晓,阿里云成为首批通过信通院“企业用云治理能力成熟度评估”评测的两家企业之一,同时获得该项能力评估最高等级。

阿里云全栈AI负载高可用架构正式发布

在AI算力需求逐渐超越通用需求的今天,以GenAI为代表的应用场景和技术倍增,云上企业需要处理和存储的数据量呈指数增长,AI驱动的应用在高负载情况下,对保障业务的连续性、响应速度、稳定性和安全性均提出了更高要求。

为此,阿里云在升级云平台自身的技术服务能力的同时,将GPU、异构算力集群、容器集群、存储、向量数据库、机器学习平台等AI负载高可用全面融入云平台架构设计,围绕大模型训练微调、推理、多模态数据处理等环节,构建具备“高可用模型训练、灵活弹性的推理资源、数据高可靠”特性的全栈AI负载高可用架构,实现了从通用负载向AI负载的可用性演进,为客户AI业务构建提供稳定的业务服务和出色的用户体验。

47.png

在高可用模型训练方面,阿里云AI基础设施高可用能力融入云服务整体架构设计,基于AI算法的故障预测,实现训推环节的性能瓶颈分析和潜在故障分析,GPU故障预测准确率达92%,同时将异常预测接入自愈链路,训练恢复自愈率超90%、千卡规模集群连续训练有效时长大于99%,实现秒级模型自动保存、分钟级故障恢复;同时,CPFS 高性能存储集群,在超大集群中 20TB/s 的吞吐能力,支持更大及更加频繁的 Checkpoint 读写,能够更好地防止数据丢失,并提升训练的稳定性和可靠性。在网络层面,阿里云自研的高性能网络,业界首创双平面的高可用网络架构,网络Link和设备中断,训练任务不中断。

在推理资源方面,阿里云容器计算服务ACS的弹性能力实现每分钟可以进行10000个pod扩展,分钟级自动扩容;PAI-EAS模型在线服务,适用于实时推理、近实时异步推理等多种AI推理场景,能感知每个请求的执行进度,做到更公平的任务调度,提高扩缩容效率。同时,阿里云将跨区域的主动式重路由技术运用到数据中心间的通信,从而在跨数据中心推理网络上,达到跨域带宽业界最高的 99.995% SLA,实现秒级内重新路由,提供一个更加稳定的网络通信延迟。

对于在实时语音交互、实时AI搜索等高性能场景有推理需求的客户,阿里云百炼模型服务平台,基于预训练模型为用户提供模型推理与应用构建托管服务,核心模型服务API达到 99.99% SLA,高性能场景核心用户用例中的首包延时小于300毫秒,能够有效解决应用开发、模型调用等过程中的跨区域TPM限制、高并发需求下API响应变慢等问题,提升Gen AI应用推理与构建时的用户体验。

在数据高可靠方面,阿里云数据存储与数据库服务面向不同计算引擎、多种 AI 框架进行了深度集成,形成承载PB级甚至EB级大规模数据统一的存储底座,同城冗余容灾,高达99.995% SLA,数据多副本冗余、大文件断点续传、批量和多线程数据操作保障数据服务高可靠,向上支撑面向单AZ, 双AZ, 三AZ及跨Region的高可用服务,跨Region AI数据的就近读写和负载均衡,满足AI数据多活的强一致性,AI数据冷备、热备、故障自动切换,解决AI数据故障风险。

AI时代与用户共建云上的IT新治理

AI时代的浪潮中,企业对于高可用架构的需求不仅仅停留在节点的稳定性上,而是在更高的层面追求智能化运营。阿里云全栈AI负载的高可用架构已为企业奠定了坚实的技术基础,而进一步的挑战则在于如何提升云上系统的运维管理与治理能力。通过与用户携手,阿里云致力于在云环境中构建一个AI-Native的智能化、自动化和可持续的IT治理体系,为企业的创新之路保驾护航。

阿里云根据多年服务客户的经验总结为一系列的方法论和架构设计原则,推出了阿里云卓越架构 Well-Architeched Framework,意在帮助企业在云上构建一个安全、稳定、高效的应用环境。面向AI技术融入带来的更复杂更大规模的,根据云计算的弹性、实时交付、自助化等特点,阿里云卓越架构进一步升级了用云企业运维管理和治理规则基线的最佳实践,依靠Well-Architeched云卓越架构来学习-度量-优化,落地治理潜在的风险隐患,从安全、稳定、效率、成本、性能五大支柱全面提升系统整体韧性和运营效率。

48.png

阿里云开放平台负责人何登成表示,“在云上构建可靠的系统是云厂商与用户共同的责任。云厂商负责提供云平台的可靠性,确保提供的云服务可用性符合或超过阿里云服务等级协议;用户需要根据业务需求,选择合适的产品服务,并根据云相关文档的指导搭建高可用架构,来确保云上应用的可靠性。”

49.jpg

尤其在AI迅猛发展的今天,企业更应让业务系统利用现代云平台的基础设施达到高可用,总结成三个"面向":面向失败的设计架构,面向精细的运维管控,面向风险的应急快恢。同时,用户可以在建设持续稳定的云环境过程中,面向AI并结合AI,通过良好的AI模型训推架构设计、AI数据资产处理与存储、智能诊断与风险预测等手段,进一步提升系统可用性、可靠性、可持续性。

阿里云获信通院企业用云治理能力成熟度评估最高等级 

据信通院发布的《企业用云治理能力成熟度分级要求》,企业用云治理能力成熟度评估共分为L1-L5共5个等级,分别为L1基础级、L2应用级、L3优秀级、L4先进级、L5卓越级。该分级要求不仅适用于对云服务使用方用云治理能力成熟度进行评估,也适用于对云服务提供商云服务治理产品、技术能力成熟度进行评估。阿里云测评结果为L4+,是目前阶段云服务提供商实际获得的最高等级。

此前,阿里云企业用云治理能力曾两度获得信通院评测认可,包括2022年“企业云治理能力成熟度模型”获信通院科技治理领域年度明星解决方案及产品;2023年“云治理中心”获信通院科技治理领域年度明星解决方案。

50.png

今年,针对企业用云发展路径、企业云治理发展趋势分析与洞察,阿里云联合埃森哲发布《云治理企业成熟度发展2024年度报告》(https://developer.aliyun.com/ebook/8419),报告调研取样来自400多家企业客户,横跨互联网、金融、新零售、交通等多个行业,旨在帮助用户理解云治理概念、企业用云实践的现状及变迁趋势,并基于云治理框架的五大分类(即稳定性、安全合规、成本效益、高效性能、卓越运营),报告作为企业云上旅程的实践样本,为面向AI时代做好IT新治理和云上架构优化提供更多的参考与决策依据。

(完)


猜你喜欢

黄金狂飙破 3150!巨象金业 AI+ 分析师策略智胜 2025 牛市新风口

金融科技巨象金业

新高后震荡加剧,技术面 + 政策面支撑长期牛市

5小时前

中银三星人寿2025年客户服务节圆满落幕

金融科技中银三星人寿

2025年3月31日,为期三个月的中银三星人寿2025年客户服务节正式落下帷幕。

5小时前

原创

金融如何助力碳密集行业转型——渣打银行的破局之道

金融科技渣打银行

转型金融已经成为当下可持续金融领域的焦点议题,如何突破相关瓶颈、通过拓展转型金融服务助力实体经济可持...

1天前

澳洲18年老牌券商BCR金融事件锐评:各国央行增持黄金,美元储备地位动摇

金融科技BCR

《沃尔夫街》的分析师兼出版人Wolf Richter指出,美元作为全球主要储备货币的地位正受到黄金和...

1天前

WPS 365为B端业务发展打下基础,金山办公获多家证券机构买入评级

智能+金山办公

近期,中国银河、财信证券、开源证券、天风证券、中泰证券等多家证券机构给予金山办公买入评级。

2024-11-13

一次交互最高赚10万元!百度文心智能体平台已变现智能体量增长近400%

智能+文心智能体平台

11月12日,百度创始人李彦宏在百度世界2024大会上表示,智能体是AI应用最主流的形态,即将迎来爆...

2024-11-13

对话喻友平:大模型已从“暴风骤雨”到“润物细无声”

智能+中关村科金

在近一个小时的访谈时间里,我能深切的感受到喻友平的兴奋。

2024-11-13

马斯克上海行,为定居上海铺路?

大消费aise宝褓

在美国大选的风云变幻中,除了政治明星的激烈角逐,一位科技巨头也成为公众茶余饭后的谈资,他正是特斯拉和...

2024-11-13

抖音电商双11高速增长,近1.7万个品牌增速超500%

大消费抖音电商

「抖音商城双11好物节」迎来圆满收官,平台交出亮眼增长答卷,商家生意、作者生态、直播场域、爆款商品迎...

2024-11-13

刘润:今年的双11,是直播的岔路口

大消费双11

又是一年的双11过去了。今年,你买了什么?

2024-11-13

上海叮当智慧药房出席“哥俩好”行动发布会 与社区市民双向奔赴

医疗健康叮当快药

叮当快药配送员还为不擅长使用手机的老年人提供无须线上下单亦可送药上门的适老化服务,帮助老年人群跨越数...

2024-11-13

COP29见证中国绿色力量,华宝新能受邀分享可持续发展之道

上市公司华宝新能

11月11日至22日,COP29联合国气候变化大会在阿塞拜疆首都巴库奥林匹克体育场举行,汇聚全球政府...

2024-11-13

敦煌网发布《跨境电商行业可持续发展白皮书》,引领发展新方向

创新创业敦煌网

跨境电商行业正在迎来一个充满变革与机遇的新时代,在激烈竞争的市场中,如何保持竞争力,寻求高质量的可持...

2024-11-13

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

沙特天空塔投资设立专项基金带领中国氢能独角兽扎根沙特

2016年注册于北京的中氢新能技术有限公司,下设位于大兴的装备制造公司、位于海淀区的技术研究院、材料...

挑战奔驰的明星车企,突然“翻车”了

一度无比高光的理想汽车,猝不及防遭遇重挫。

深圳天使母基金姚小雄:将来股权投资行业竞争是服务能力的竞争

2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...

避免卡脖子,硬科技如何“逆境”突围?

2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...

VC/PE眼中的“专精特新”

2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...

分化浪潮中的坚守与突破 | 第19届中国投资年会,即将启幕

分化浪潮中的坚守与突破 | 第19届中国投资年会,即将启幕

在时代的浩渺长河中,“分化”宛如一条隐匿的脉络,贯穿于万物的生长、发展与变迁。从生命的进化到文明的演...

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会于2025年4月9日在匈牙利布达佩斯盛大启幕。

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

“中国投资年会”作为私募股权行业的年度盛会,已成功举办了18届,吸引了全国VC/PE领域从业者的广泛...

雕刻耐心|第18届中国投资年会·有限合伙人峰会即将启幕

雕刻耐心|第18届中国投资年会·有限合伙人峰会即将启幕

2024年的一级市场,“耐心”是最高命题,也引发了持续全年的讨论。