华为在2025年5月23日的鲲鹏昇腾开发者大会2025——昇腾AI开发者峰会上推出的昇腾超节点技术,是一项重大的技术突破。这项技术成功实现了业界最大规模的384卡高速总线互联,对大模型发展具有重要意义。随着大模型参数和效率的交替演进,以及MoE成为主流模型结构,混合并行策略带来的挑战日益增加,特别是在大规模并行计算中,传统服务器的跨机带宽已成为性能提升的瓶颈。
华为昇腾超节点技术的推出,打破了传统的以CPU为中心的冯诺依曼架构,提出了对等计算架构。这一架构通过高速总线互联技术,将总线从服务器内部扩展到整机柜甚至跨机柜,极大地提升了通信带宽和降低了通信时延。具体来说,通信带宽提升了15倍,单跳通信时延从2微秒降低到200纳秒,降低了10倍,这使得集群能够像一台计算机一样协同工作,有效突破了系统性能的限制。
昇腾384超节点由12个计算柜和4个总线柜构成,是目前业界规模最大的超节点。依托华为在ICT领域的深厚技术与工程经验,该超节点可以通过最佳负载均衡组网方案进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群,为未来更大规模的模型演进提供支撑。
性能测试数据表明,在昇腾超节点集群上运行的LLaMA 3等千亿稠密模型性能相比传统集群提升了2.5倍以上;对于通信需求更高的Qwen、DeepSeek等多模态、MoE模型,性能提升可达3倍以上,较业界其他集群高出1.2倍,处于行业领先地位。这表明华为昇腾超节点技术在提升大模型性能方面具有显著优势,对于推动AI技术的发展和应用具有重要意义。