(CWW)当高性能计算需求日益增长,随着芯片功率密度的迅速激增,传统的数据中心风冷方式显得有些力不从心,换热效率更为优异的液冷脱颖而出,受到越来越多用户的青睐,也吸引了众多企业排兵布阵。
那么,液冷能否让所有制冷问题迎刃而解,未来液冷是否将成为市场主导?在近日由CDCC举办的“2023中国(上海)国际数据中心产业展览会暨第4届中国数据中心绿色能源大会”上,CDCC专家技术组委员、抖音数据中心技术总监井汤博在接受通信世界全媒体记者采访时表示,液冷将是未来发展的必然趋势,但是对于液冷应用需理性看待,液冷不是解决所有问题的“雷神之锤”,不会完全取代传统风冷。
拐点已至
(相关资料图)
从2014年就开始从事液冷研究的井汤博可谓这一领域的一员“老兵”。谈起液冷,井汤博坦言其并非一项新技术,在电力电子和其他特殊领域早已存在,之所以未得到大规模推广,是因为当服务器功率密度较低之时,使用液冷需要增加额外成本,总体而言并不经济,如同“大马拉小车”。
如今,转折点开始出现。井汤博表示,随着高性能计算的出现、芯片功率的增加、芯片壳温的下降,以及芯片制程降低带来的芯片局部功率密度的提升,风冷在芯片迭代之时遇到散热的技术瓶颈。而从经济性角度来看,当芯片功率超过一定限度时,IT设备的风扇散热功率变得非常高,使用风冷经济性变差;相较而言,液冷可以提供更好的散热效果,降低能源消耗,提高数据中心可持续性,成为新形势下的理性选择。
从技术方式来看,冷板式液冷和浸没式液冷是常见的两种形态。其中,前者与普通服务器相比区别不大,对于装机运营模式改变有限,在出现事故时应急可控性较好,既可实现液冷的核心价值,又能兼顾风冷特点,具有较好的平衡性和成本可控性,产业成熟度相对更高;后者将服务器浸泡在液体中,属于比较极致的方案,液体、箱体等设计有待改进,服务器需要定制设计,要求玩家具备一定规模才能降低服务器平均成本,整个产业成熟度有待进一步提高。因此相对而言,冷板式经济可行、风险更低,目前更受市场欢迎;而浸没式效率更高,是更为长远的发展方向。
坚持实践出真知、行胜于言的理念,抖音已经开始了对于液冷的实践和探索。众所周知,数据中心对于抖音发展非常重要。抖音制定了超大集群、节能降耗、高效稳定、极速交付、绿色低碳的数据中心技术理念,推动数据中心不断发展演进,在此过程中对于液冷技术已有深入研究和应用。井汤博表示,冷板式液冷在抖音得到了广泛应用,已经成为主流方案之一;浸没式液冷也进行了大规模部署,但是总体而言还在深度研究和技术沉淀阶段,未来有望跻身主流方案,在某些场景提供更优的选择。
在实践中发现问题、解决问题、推动产业进步,抖音自研了冷板液冷服务器和解决方案,深入研究并解决了快速接头无滴漏、水质生命周期管理、服务器内部散热设计、系统液体均衡和监控、系统生命周期维护等关键卡点问题,将PUE降低到1.15以内;同时开发了模块化浸沉式液冷解决方案,对材料兼容性、换热性能、信号完整性、安全毒性、生命周期维护等进行了大量研究,将PUE降低至1.1以内。
关键驱动力
随着人工智能的发展、高性能计算的升温,液冷开始受到越来越多的关注,而大量的风冷传统资产设备存在也是不得不面对的事实,那么推动液冷大规模应用的“关键驱动力”究竟何在?
纸上谈兵不如起而行之,抖音在实践中把脉产业方向,寻找产业发展的驱动力和关键难点所在。在井汤博看来,随着产业关注度的提升,液冷的技术难题,如服务器、液体、换热器等不断得到解决,促进液冷技术变得经济可性,相对而言,找到合适的场景促进技术融合、产生合力成为关键所在。而其中的核心点则包括两点:一是驱动力何在,二是难点如何解决。
井汤博表示,驱动力包括限制因素和可选因素。限制因素有业务需求、服务器代际、区位特点等,是无法选择的因素;可选因素有灵活快速、高密度部署等特殊需求,以及TCO优化、挖掘潜力等,是可以选择的因素。抖音会结合两方面因素,在冷板、浸没、冷板+风冷、风冷四种方案中进行选择,并在落地执行后分析复盘,不断迭代和优化。
基于上述驱动力,抖音提出了液冷技术应用的驱动力模型,包括两类驱动、四个场景、五个因素。两类驱动包括外部驱动和内部驱动;四个场景是在内外部驱动之下所面临的挑战,如资源政策、行业技术、成本优化、业务驱动;五个关键因素主要结合四个场景进行评估,包括成本优势、快速交付、稳定可靠、技术制约、资源制约等。
“对于液冷技术的应用,大家应该理性看待,真正把握液冷实际的驱动力,不要把液冷当成解决所有问题的‘雷神之锤’。”井汤博提醒。
以驱动力模型为指引,抖音在探索适合液冷的应用场景。在井汤博看来,在高性能计算,GPU、GPT大模型领域,以及以算力为主的云计算中心,液冷会占有越来越多的份额;在一些湿热地区,液冷可以在提高资源利用率、节省电费方面大展身手;在传统数据中心改造方面,液冷可以挖掘空间潜力,降低PUE,具有一定用武之地。
虽然液冷是大势所趋,但是对于液冷的总体发展前景需要保持谨慎乐观。“首先市场上有大量风冷存量,其次在气温较低的地区风冷非常经济适用。选择技术需要坚持用户导向,而不仅是技术导向。虽然液冷占比会有所提高,但不是All-in,在未来七八年内液冷占比不会超过50%。”井汤博预测。
改写生态
液冷产业应用起步不久,面临的风险和困难亦不容忽视。在井汤博看来,风险包括一横和一纵两个维度。一横指液冷技术部署的生命周期,如前期选址、商务洽谈、规划设计,中期施工、调试,后期交付运营;一纵则指液冷产业链,包括芯片、部件、设备提供、系统集成、设计咨询、承包、施工、调试、机房提供、最终用户等。“每个环节都有难点,不是解决技术问题就可以万事大吉。”井汤博表示。
值得注意的事,从横向角度来看,液冷行业各环节推动产业发展,形成了百花齐放、百家争鸣的状况,对于产业繁荣产生了积极作用。然而,当前各家的液冷系统大量采用定制化设计方案,缺乏兼容性考虑,不利于降低产业整体成本和提高可靠性和运维便利性,因此液冷的进一步发展面临着统一标准的需求。而统一标准也是液冷从“高端玩家俱乐部”走向普罗大众的关键。
此外,在井汤博看来,液冷带来的不仅是制冷技术的变革,更是整个生态产业链的颠覆。“我们的最终目的是降低总体能耗和实现绿色低碳,因此PUE这一指标值得思考,我们认为要从PUE上升到ITUE,再到能源利用率的ERE。”井汤博认为。
PUE(总能耗/IT能耗)是数据中心领域常用的能耗效率指标,PUE值越低数据中心越绿色。在风冷模式下,出现了为了降低PUE而提高机房温度的情况,虽然PUE降低,但是服务器能耗会增加,总体并不绿色低碳。液冷将两者结合,在ERE((总能耗-回收能源)/计算资源能耗)指标模式下,将液冷循环的部分液体进行热量回收,用于居民供暖、大棚保温、数据中心部分设备供热等,实现能源的再生利用,促进整个生态循环系统的总体能耗降低。
在ERE的指引下,抖音开始优化审视液冷系统设计。例如,将通过定制服务器和数据中心设计,实现高送风温度和高水温的结合,以提升系统综合效率、降低IT耗电,而不仅降低PUE值;又如,深入挖掘液冷热量回收潜力,进一步把能源效率和绿色低碳发挥到极致。
“液冷有优势也有短板,抖音不是停留在表面的计算,而是找到最合适的技术助力业务发展。我们脚踏实地、行胜于言,在问题中寻找根因、敢于面对挑战。最后希望大家做理性的乐观主义者。”井汤博表示。