微软Azure上线全球首个NVIDIA GB300 NVL72超算集群,全面加速AI模型训练新纪元

发布时间:2025-11-08作者:网翼互联阅读:0

微软Azure宣布,全球首个投入生产使用的NVIDIA GB300 NVL72超算集群正式上线。该系统专为OpenAI的大规模AI训练任务设计,将为多万亿参数模型的开发与部署提供前所未有的算力支撑。

image

这套超级计算集群由超过4600颗NVIDIA Blackwell Ultra GPU组成,相当于64台NVL72机架系统。所有GPU通过NVIDIA Quantum-X800 InfiniBand网络平台互联,构建出一个高效、统一的加速器体系。每台NVL72包含72个GPU与36个Grace CPU,具备37TB高速内存,单机架可实现高达1.44 ExaFLOPS(FP4精度)的Tensor Core运算性能。

在架构层面,第五代NVLink Switch为机架内部提供130 TB/s的全对全通信带宽,而跨机架网络则采用非阻塞胖树拓扑结构,单GPU互联带宽高达800 Gb/s,确保系统可线性扩展至数万颗GPU规模。NVIDIA还引入了定制协议、集体通信库与最新的SHARP v4技术,实现带宽利用率翻倍并显著加速分布式训练。

能效方面,该系统集成了电解电容储能电源设计,可在峰值时段放电、低负载时充电,从而平滑功率波动并削减30%的电网峰值需求,提升整体能源稳定性。同时,采用独立液冷热交换方案,大幅降低制冷能耗与水资源消耗。

根据MLPerf Inference v5.1测试,GB300 NVL72集群在6710亿参数DeepSeek-R1模型推理中表现卓越,单GPU吞吐量较Hopper架构提升5倍。训练周期从数月缩短至数周,为生成式AI与代理系统等任务提供了革命性加速。微软未来计划将Blackwell Ultra GPU部署规模扩展至数十万颗,覆盖其全球AI数据中心。


标题:微软Azure上线全球首个NVIDIA GB300 NVL72超算集群,全面加速AI模型训练新纪元

TAG标签:

上一篇:内蒙古库布其沙漠1100MW风光一体化项目正式开工 打造防沙治沙与清洁能源融合新样板
下一篇:香港—越南办公室互联方案解析:国际专线 vs SD-WAN的优劣与抉择
返回顶部