大模型时代的算力革命:智算中心的新需求与未来发展
发布时间:2024-11-01作者:网翼互联阅读:0
在中国IDC圈与京东云联合举办的“京东云智算专场”第二场直播“【大模型时代,我们需要什么样的智算中心?】”中,来自中国信息与通信研究院产业与规划研究所的副总工程师王青与京东云裸金属产品研发负责人徐梓耀,就大模型时代的算力新需求和智算中心的特征进行了深入探讨。
大模型的算力需求变革
自ChatGPT发布至今不到两年,大模型已从实验室走向商业化,离不开强大的算力支撑。王青指出,当前大模型对算力的需求主要体现在规模、性能和异构性等方面:
规模扩展:大模型参数数量增长,推动算力需求同步提升,未来预计将出现万卡集群的配置需求。
性能优化:芯片创新、微架构改进正不断提升计算精度和算法复杂度,此外,智算中心在芯片级、单服务器节点级和多服务器集群级的算力部署中面临扩展性需求,需实现更高效的并行计算能力。
异构算力需求:随着应用多样化发展,模型对GPU、CPU、NPU等不同芯片的需求增长,跨芯片、多算力类型的组合成为趋势。
智算中心的架构特征
徐梓耀从芯片、服务器和集群层级分析了智算中心的建设理念。他强调,智算中心的核心在于通过分布式智能计算的环境,向用户提供高效的“本地化智能计算”服务。王青补充道,智算中心需要在计算、网络和存储三大领域协调发展,以满足大模型的分布式训练需求,从而构建出具备高性能、快速互联、存储与计算均衡的集群系统。
计算、网络和存储的智算升级
计算:智算服务对机柜的配电有更高要求,京东云推出“阿尔法”T系列(风液型)和L系列(液冷型)智能算力模块,分别支持20-50kW和20-100kW的功率密度,缩短交付时间至45天。
网络:面对大模型的深度学习需求,智算中心需要支持高效的无损IB网络或RoCE网络。京东为H100/H800建议使用400G IB网络,并为A100/A800卡配置200G网络,以满足网络高效连接需求。
存储:智算服务依赖大规模训练数据,京东云自主研发的“云海”存算分离系统实现了异构存储的屏蔽和统一管理,支持EB级容量和海量文件管理。
绿色节能与运维优化
徐梓耀还介绍了智算中心的绿色节能方案,包括硬件与运维层的智能节能措施,如“节能宝”产品可将能耗降低约15%,提升了智算中心的环保性能。
未来展望与应用场景
在讨论中,王青与徐梓耀对智算中心的主要应用场景和用户需求进行了展望,指出智算中心将成为未来算力生态的重要组成部分。
标题:大模型时代的算力革命:智算中心的新需求与未来发展
TAG标签: