微软、OpenAI与英伟达联合研究揭示AI训练功耗挑战,电网稳定性面临新考验

发布时间:2025-09-22作者:网翼互联阅读:0

随着AI大模型训练规模扩展至数万GPU集群,其功耗问题正引发行业关注。近日,微软、OpenAI和英伟达联合发布研究论文《AI训练数据中心的功率稳定化》,首次基于微软内部云环境的真实生产数据,系统揭示了大规模AI训练带来的供电与功率管理难题。

image

研究指出,单个训练任务的功率波动可达数十兆瓦级别。从空闲到满载,GPU集群功耗的变化几乎在瞬间完成,形成剧烈的“功率过山车”。这种大规模同步负载变化不仅威胁数据中心自身的供电安全,还可能对区域电网造成冲击。

论文进一步解释了这一现象的技术原因。大规模模型训练通常采用批次同步并行方式:

  • 在计算密集阶段,GPU全力执行前向传播与反向传播运算,功耗接近热设计功率上限;

  • 在通信密集阶段,GPU需完成梯度同步操作(如All-Reduce),此时计算单元利用率骤降,功耗随之大幅下降。

正是这种计算与通信的交替迭代,使得整个训练过程呈现出大幅功耗波动。研究团队提出,需从软件优化、硬件架构到数据中心基础设施三个层面协同设计,才能有效缓解功率冲击,确保未来AI基础设施的可持续发展。


标题:微软、OpenAI与英伟达联合研究揭示AI训练功耗挑战,电网稳定性面临新考验

TAG标签:

上一篇:平潭两岸融合智算中心二期加快推进,预计9月试运营
下一篇:中能建西北城建中标飞拓低碳大数据基地一期机电工程(二包)
返回顶部