微软、OpenAI与英伟达联合研究揭示AI训练功耗挑战，电网稳定性面临新考验

发布时间：2025-09-22作者：网翼互联阅读：0

随着AI大模型训练规模扩展至数万GPU集群，其功耗问题正引发行业关注。近日，微软、OpenAI和英伟达联合发布研究论文《AI训练数据中心的功率稳定化》，首次基于微软内部云环境的真实生产数据，系统揭示了大规模AI训练带来的供电与功率管理难题。

研究指出，单个训练任务的功率波动可达数十兆瓦级别。从空闲到满载，GPU集群功耗的变化几乎在瞬间完成，形成剧烈的“功率过山车”。这种大规模同步负载变化不仅威胁数据中心自身的供电安全，还可能对区域电网造成冲击。

论文进一步解释了这一现象的技术原因。大规模模型训练通常采用批次同步并行方式：

正是这种计算与通信的交替迭代，使得整个训练过程呈现出大幅功耗波动。研究团队提出，需从软件优化、硬件架构到数据中心基础设施三个层面协同设计，才能有效缓解功率冲击，确保未来AI基础设施的可持续发展。

标题：微软、OpenAI与英伟达联合研究揭示AI训练功耗挑战，电网稳定性面临新考验

TAG标签：

猜你喜欢