微软Azure上线全球首个NVIDIA GB300 NVL72超算集群，全面加速AI模型训练新纪元

发布时间：2025-11-08作者：网翼互联阅读：0

微软Azure宣布，全球首个投入生产使用的NVIDIA GB300 NVL72超算集群正式上线。该系统专为OpenAI的大规模AI训练任务设计，将为多万亿参数模型的开发与部署提供前所未有的算力支撑。

这套超级计算集群由超过4600颗NVIDIA Blackwell Ultra GPU组成，相当于64台NVL72机架系统。所有GPU通过NVIDIA Quantum-X800 InfiniBand网络平台互联，构建出一个高效、统一的加速器体系。每台NVL72包含72个GPU与36个Grace CPU，具备37TB高速内存，单机架可实现高达1.44 ExaFLOPS（FP4精度）的Tensor Core运算性能。

在架构层面，第五代NVLink Switch为机架内部提供130 TB/s的全对全通信带宽，而跨机架网络则采用非阻塞胖树拓扑结构，单GPU互联带宽高达800 Gb/s，确保系统可线性扩展至数万颗GPU规模。NVIDIA还引入了定制协议、集体通信库与最新的SHARP v4技术，实现带宽利用率翻倍并显著加速分布式训练。

能效方面，该系统集成了电解电容储能电源设计，可在峰值时段放电、低负载时充电，从而平滑功率波动并削减30%的电网峰值需求，提升整体能源稳定性。同时，采用独立液冷热交换方案，大幅降低制冷能耗与水资源消耗。

根据MLPerf Inference v5.1测试，GB300 NVL72集群在6710亿参数DeepSeek-R1模型推理中表现卓越，单GPU吞吐量较Hopper架构提升5倍。训练周期从数月缩短至数周，为生成式AI与代理系统等任务提供了革命性加速。微软未来计划将Blackwell Ultra GPU部署规模扩展至数十万颗，覆盖其全球AI数据中心。

标题：微软Azure上线全球首个NVIDIA GB300 NVL72超算集群，全面加速AI模型训练新纪元

TAG标签：

上一篇：内蒙古库布其沙漠1100MW风光一体化项目正式开工打造防沙治沙与清洁能源融合新样板
下一篇：香港—越南办公室互联方案解析：国际专线 vs SD-WAN的优劣与抉择

微软Azure上线全球首个NVIDIA GB300 NVL72超算集群，全面加速AI模型训练新纪元

猜你喜欢

产品推荐

联系我们

热门推荐