微软、OpenAI与英伟达联合研究揭示AI训练功耗挑战,电网稳定性面临新考验
发布时间:2025-09-22作者:网翼互联阅读:0
随着AI大模型训练规模扩展至数万GPU集群,其功耗问题正引发行业关注。近日,微软、OpenAI和英伟达联合发布研究论文《AI训练数据中心的功率稳定化》,首次基于微软内部云环境的真实生产数据,系统揭示了大规模AI训练带来的供电与功率管理难题。
研究指出,单个训练任务的功率波动可达数十兆瓦级别。从空闲到满载,GPU集群功耗的变化几乎在瞬间完成,形成剧烈的“功率过山车”。这种大规模同步负载变化不仅威胁数据中心自身的供电安全,还可能对区域电网造成冲击。
论文进一步解释了这一现象的技术原因。大规模模型训练通常采用批次同步并行方式:
在计算密集阶段,GPU全力执行前向传播与反向传播运算,功耗接近热设计功率上限;
在通信密集阶段,GPU需完成梯度同步操作(如All-Reduce),此时计算单元利用率骤降,功耗随之大幅下降。
正是这种计算与通信的交替迭代,使得整个训练过程呈现出大幅功耗波动。研究团队提出,需从软件优化、硬件架构到数据中心基础设施三个层面协同设计,才能有效缓解功率冲击,确保未来AI基础设施的可持续发展。
标题:微软、OpenAI与英伟达联合研究揭示AI训练功耗挑战,电网稳定性面临新考验
TAG标签: