(资料图片仅供参考)
编程客栈()4月14日 消息:腾讯宣布发布面向大模型训练的新一代HCC高性能计算集群(申请内测地址:cloud.tencent.com/act/pro/hccpnv5),整体性能比过去提升了3倍。它搭载了NVIDIA H800Tensor Core GPU,能够提供高性能、高带宽、低延迟的智算能力支撑。
腾讯云HCC采用最新一代星星海自研服务器,基于自研网络、存储架构带来3.2T超高互联带宽、TB级吞吐能力和android千万级IOPS。
计算层面,新一代集群的单GPU卡在不同精度下,编程客栈支持输出最高1979TFlops的算力。针对大模型场景,星星海自研服务器采用6U超高密度设计,相较行业可支持的上架密度提高30%;利用并行计算理念,通过CP编程客栈U和GPU节点的一体化设计,将单点js算力性能提升至更高。
网络层面,腾讯自研的星脉高性能计算网络,具备业界最高的3.2T RDMA通信带宽。实测结果显示,搭载同等数量的GPU,3.2T星脉网络相较1.6T网络,集群整体算力提升20%。
存储层面,腾讯云自研的存储架构,具备TB级吞吐能力和千万级IOPS,支持不同场景下对存储的需求。COS+GooseFSTqqsBv对象存储方案和CFS Turbo高性能文件存储方案,充分满足大模型场景下高性能、大吞吐和海量存储要求。
此外,新一代集群集成了腾讯云自研的TACO训练加速引擎,对网络协议、通信策略、AI框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。