0 引言
近年来,我国数字经济高速发展,各行业数字化转型不断加快,云计算、大数据、人工智能等新一代信息技术正在广泛应用于社会生产生活的各个方面,社会总体算力需求随之快速增长。算力已经成为推动社会生产效率提升的重要方式,算力的发展对于推动数字化转型、加速数字经济发展具有重要意义。与此同时,随着数字化转型的深入推进,算力需求场景也日益复杂,异构算力互联、云—边—端高效协同等应用需求持续深入,高速敏捷、泛在协同、智能随需成为未来算力服务的基本要求。
算网融合是多元异构、海量泛在的算力设施,通过网络连接形成一体化算网技术与服务体系。算网融合具备算力资源高效集约、算网设施绿色低碳、算力泛在灵活供给、算网服务智能随需等特征,其发展对于提升算力服务水平具有重要意义。笔者从算网融合业务需求出发,明确了算网融合在提升算力服务能力、满足未来业务需求方面的基本要求。在此基础上,对算网融合产业现状、发展趋势进行了分析,并提出了算网融合发展建议。
(资料图片)
1 算网融合业务需求
1.1 异构算力协同需求增长
随着数字化转型的深入推进,各类数字化场景对算力的多样化要求逐步增加,单一算力难以满足业务需求,亟需异构算力的融合支撑。从算力服务类型来看,不同数字技术应用场景对算力需求有很大不同,如石油勘探、航空航天、核武器等技术领域需要超算算力支持,无人驾驶、人脸识别、工业机器人等场景需要智算算力支撑,互联网、通信、金融等场景更多以通用算力为主。除此之外,上述应用场景往往并非单一云端集中式算力即可支持,还需要边缘算力的广泛参与。从计算设备来看,不同类型算力需求的增长促进了计算芯片的多样化发展,从以通用中央处理器(Central Processing Unit,CPU)计算为主,逐步向显示芯片(Graphics Processing Unit,GPU)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)等异构算力芯片协同发展的态势演进,如图1所示。
图1 多种形式的异构计算形式
中国算力大会发布的《中国算力白皮书(2022年)》数据显示,截至2021年年底,全球算力总规模达到521 EFLOPS(FP32),其中通用算力为398 EFLOPS(FP32)、智算算力为113 EFLOPS(FP32)、超算算力为10 EFLOPS(FP32)。随着数字化转型进程的深入推进,用户对异构算力协同服务的需求将进一步提升,未来一段时间,全球通用、智算和超算算力均将保持增长态势。
1.2 云—边—端算力协同需求增长
随着泛在物联终端数量的快速增加,算力需求逐渐从云端向边侧、端侧下沉和延伸,边端成为重要的算力节点。在无人驾驶、智慧工厂等云—边—端协同场景下,单一云端算力难以满足泛在物联终端对实时性、可靠性的需求,单一边缘端算力难以提供海量数据存储分析能力。因此,需要云—边—端算力的协同。未来,随着应用场景的丰富和发展,云—边—端算力协同的需求会持续增加,如图2所示。
图2 传统云计算服务模式与云—边—端协同算力服务模式对比
1.3 算网服务需求多元化
随着业务应用的不断发展,用户需要更加敏捷、弹性、随需随取、按量付费的算网服务。算网的敏捷性指快速获取算力服务、快速实现网络连接,以及保障业务服务等级。算网的弹性指算力资源可扩容或缩减、网络资源可灵活调度。随需随取是指可获取多样性、差异化的算网资源,同时获取的途径和方法具有便捷性。按量付费是指用户可根据使用的算网资源量向算网供应方付费。近年来,随着我国算力基础设施、网络基础设施不断优化升级发展,算网服务的敏捷性、弹性正在逐步优化,但是在面向特定的算力需求场景时,依然表现不足,例如当前算网服务难以实现端到端毫秒级时延,边端支撑能力不足。除此之外,仍有不少算力基础设施资源池化水平不足,未开展云原生改造,云服务弹性不足,难以适应快速变化的算力需求环境。
2 算网融合发展现状
2.1 政策导向明确,鼓励算网融合发展
算力基础设施融合联动发展能够显著提升算力综合服务能力,并促进算力基础设施技术创新能力升级。我国高度重视算力基础设施技术创新和服务能力建设,推出多项政策,为算网融合发展提供了良好的政策环境。《全国一体化大数据中心协同创新体系算力枢纽实施方案》提出要加强多云之间、云和数据中心之间、云和网络之间的一体化资源调度。《新型数据中心发展三年行动计划(2021—2023年)》提出要加强新型数据中心设施、互联网技术、网络、平台、应用等多层架构融合联动。2022年2月,“东数西算”工程正式启动,其重点内容之一就是建设全国一体化算力网络体系,通过该体系实现算力高效调度。目前,多个枢纽节点和集群在其实施方案中均提出加强算网融合能力建设,构建算网一体化调度平台的建设目标。
2.2 企业积极实践,推动算网融合尝试
算网融合是算力基础设施和网络设施融合发展的新形态,是面向新型业务需求的服务模式,国内外企业均在积极推动算网融合的产业实践。国外云商服务能力较强,谷歌、微软、脸书等头部云商业务范围覆盖全球,电信运营商专注网络服务,难以根据云商特定的网络需求提供服务,部分云商正在加速打造云间互联网络体系,实现内部算力资源的高效利用,如谷歌正在积极推动B4骨干网建设,通过自研交换机在全球数据中心部署软件定义广域网,用以连接其分布在世界各地的数据中心,实现数据跨域远距离高速传输。
国内算网基础设施建设良好,但资源配置不均衡,算网一体化服务能力有待提升,随着用户需求的不断升级,算网融合一体的服务逐步成为新的发展热点。电信运营商、互联网厂商及设备厂商积极参与算网融合理论研究与技术研发,推动产业融合发展。在电信运营商方面,运营商掌握算网资源,在算力领域和网络领域均具有较大的优势,具备开展算网融合研究的基础。同时,电信运营商也希望通过算网融合服务进一步提升传统网络业务的附加值,提高自身云服务能力。中国电信集团有限公司(简称“中国电信”)强调云网融合,形成云网一体化供给。中国移动通信集团有限公司强调要实现多要素融合,并形成算力网络概念,即“以算为中心、网为根基,网、云、数、智、安、边、端、链等深度融合,提供一体化服务”的新型信息基础设施。中国联合网络通信集团有限公司正在向算网一体演进,加速推动云边端试点。在云商方面,阿里云计算有限公司(简称“阿里云”)发布了云骨干网,用以连接其分布在全球的数据中心。同时,阿里云骨干网仍依赖运营商网络资源。总体来看,阿里云的技术实践在一定程度上促进了电信运营商网络服务变革,运营商正在进一步强化网随云动的技术升级,为云商提供弹性、敏捷、便捷的网络服务。在设备厂商方面,中兴通讯股份有限公司、华为技术有限公司(简称“华为”)针对算网融合场景提出了网络设备及技术方案。其中,华为提出构建区域内可感知、可调度的人工智能算力资源,并提出了超融合网络、自动驾驶网络相关技术,提升了网络弹性和运维效率。
2.3 技术创新发展,支撑算网融合落地
随着用户对数据中心访问流量的快速增长,数据中心与用户之间以及数据中心之间的网络传输变得愈加重要,数据中心运营商对网络云化可控能力提出了更高的要求,并推动了数据中心网络云化发展[10]。在网络云化过程中,网络不仅作为通信传输工具,同时也需要为云计算提供更加可靠、敏捷、弹性的联接服务,一方面根据用户流量变化及时做出调整,以此实现更加敏捷智能的传输,避免网络拥塞,并产生更高时延;另一方面,网络可更加深入地感知业务需求,并将业务传送到合适的算力节点,进一步推动算网融合的发展。当前,运营商、云商以及科研院所均在积极推动网络技术创新,提升网络传输性能和业务感知能力。如刘韵洁院士团队积极推动的未来网络相关技术研究,能够针对特定业务需求提供定制化的网络服务,构建更加开放、智能、安全、柔性的网络服务。中国信息通信研究院、中国电信、华为等共同构建了无损网络,通过拥塞控制、负载均衡、流量控制等技术实现“零丢包”“低时延”和“高吞吐”,全面提升网络基础能力。
在算网融合关键技术方面,对比运营商云网融合、算力网络相关的研究成果,并结合业界现有技术现状,可以发现当前算网融合架构体系基本上可分为四层,分别是算网基础设施层、算网融合层、服务运营层和应用平台层。其中,算网基础设施层是承载算网融合业务的底座,为上层业务应用提供基本的算力资源和网络资源,为了适应算网融合的服务能力要求,算力基础设施和网络基础设施均需要进行相应的优化和升级。算网融合层是实现算网融合服务的关键,主要是对算力资源、网络资源进行一体化感知、标识、度量,形成算网地图,对算网资源分布进行精确分析和应用[11]。同时,算网融合层还需要根据业务需求对算网资源进行编排,将算力需求调度到合适的算力节点,提升算网供需的匹配性。服务运营层主要负责用户身份信息验证,对算网资源进行统一计费计量,并可通过交互式界面进行资源展示。应用平台层主要是面向用户提供相应的应用平台,包括算力调度平台、算力交易共享平台等,用户可通过相关平台获取算网融合服务。
3 算网融合发展趋势
3.1 算网基础设施泛在协同,算网能力显著提升
算网融合在底层依赖于算网基础设施能力的提升以及算网设施的协同发展,即实现数网协同。在发展过程中,我国算网基础设施在建设布局的协同性方面表现不足,存在算力基础设施与网络设施建设不同步、算网设施性能与当前业务需求不匹配等问题。随着“东数西算”工程的实施,我国算网建设布局和基础能力正在发生变革。在算网基础设施建设布局方面,西部算力基础设施、网络设施建设将进一步加快,算网设施间的协同性也将进一步增强。同时,算力发展水平较高的地区会有相应的网络设施支持,网络流量密集的地区也会部署相应的算力设施,进而实现算网设施的同步发展。在算网基础设施能力方面,为了建成覆盖全国的一体化算力网络体系,数据中心集群间或将形成全光互联的直联网络,显著提升云间数据传输能力。除此之外,为了应对多元异构、云边协同的算力需求,我国算力基础设施市场格局将进一步演变,通用、超算算力设施将保持稳定增长,智算、边缘算力设施发展加快,最终将形成泛在协同的算网设施发展格局。
3.2 市场合作机制更加健全,业务形态逐渐成型
算网融合是算力服务商和网络服务商共同参与的商业形态,涉及主体众多。随着算网融合的深入发展,算网融合市场机制将变得更加健全,业务形态也将逐步成型。当前,我国运营商正在积极探索算网融合商业模式,并提出了各自的技术架构和演进路线,但是由于各自掌握资源和利益诉求存在差异,短时间内市场上可能会出现基于不同技术框架的算网融合实践。互联网厂商、第三方数据中心服务商及企业自建数据中心并不掌握网络资源调配能力,但也依托运营商提供的网络资源,积极开展实践。随着用户算力需求的进一步发展,互联网厂商、第三方数据中心服务商、其他行业企业对于网络资源的调度需求将快速提升,在这种情况下,算力服务商和网络运营商之间的合作将变得更为紧密。在各类市场主体的参与下,算网融合的业务形态将逐渐成型。
3.3 核心技术不断创新突破,技术标准逐步健全
算网融合的发展依赖于底层算力基础设施与网络基础设施的高质量发展,同时也需要算网统一度量、资源感知、调度编排和交易等核心技术的支持。随着算网融合参与主体的增加,以及算网技术的不断演进,算网融合核心技术将不断取得新突破,算网资源的度量变得更加统一,算网服务提供者可对算网资源使用情况进行全面感知,并基于人工智能分析预测未来算网需求,及时准备并调整算网资源供给策略,真正实现随需随用的算力服务。在多主体合作机制以及算网安全等技术支持下,算力交易和共享技术将逐步发展成熟,并形成完善的商业应用,所有行业用户均可根据自身需要接入到算力交易和共享平台,出售闲置算力,并一站式购买最适合的算网资源,全社会总体算力资源利用效率将得到极大提升,数字经济发展水平也将得到跨越式发展。
除了技术突破外,算网融合技术标准也将逐步健全。当前,业界厂商在算网融合关键技术实现方面仍存在较大差异,大多是基于自身的云平台、网络资源优势,提出相应的技术解决方案,多种技术路线的发展在短期内能够有效激发创新活力。但是,在全国一体化算力网络的应用场景下,采用多种技术标准可能会导致一体化算力网络接入和使用变得繁琐,增加使用成本。随着“东数西算”工程的逐步深入,全国一体化算力网络将逐步建成。为了降低用户接入成本,提高算网平台运维管理效率,算网融合相关的技术标准将逐步建立。
4 算网融合发展对策
4.1 实现设施升级,助力算网融合
为了推动算网融合的发展,需要持续强化底层算力和网络基础设施能力升级。在算力基础设施方面,坚持以新型算力基础设施高算力、高技术、高安全、高能效的基础要求为引导,推动通用、智算、超算算力发展,加强通用算力芯片以及GPU、FPGA、ASIC等异构算力芯片的研发生产,挖掘数据处理单元(Data Processing Unit,DPU)算力芯片在提升算力服务能力方面的价值,不断提升算力基础设施的数据运算能力和业务处理能力。引导算力基础设施合理布局,推动算力基础设施集约化能力建设,解决算力供给的普遍覆盖问题。
在网络基础设施方面,加快构建数据中心集群间的直联网络,形成云间高速互联的传输通道,为多云间数据传输和业务需求调度提供保障。在“东数西算”场景下,加快推动数据中心枢纽节点间、数据中心集群间的直联网络建设,促进全光直联在数据中心直联网络中的应用,降低枢纽节点、集群间网络时延,打造覆盖全国的数据中心高速互联网络。一方面,为用户提供高速、泛在、便捷的网络接入;另一方面,为业务应用跨区域调度提供可靠支撑。在直联网络基础上,加强网络切片、无损网络、时延敏感网络、未来网络等网络新技术的试点工作及推广应用,提升网络传输保障能力。
在提升算网设施基础能力的基础上,联合产业力量,开展算力度量、感知、编排、路由、交易等核心技术的研究和产业实践,重点加强算网融合技术标准的制定,明确异构算力接入、算力度量、网络度量、算力资源调度等方面的标准,使用户能够按照统一标准开展算网融合技术研发,接入算网融合相关平台。
4.2 强化产业政策,引导融合发展
算网融合是算力基础设施和网络基础设施融合发展、升级演进的重要方向,是全面推动数字化、智能化建设的关键。推动算网融合发展需进一步加强产业引导。一是明确算网融合发展的重要意义。算网融合对于推动我国数字经济发展的意义主要体现在两方面:一方面,利用算网融合技术,可进一步推动算力服务提升,实现算力随需供给、按量付费,形成弹性、敏捷、高速、泛在的算力服务,为异构算力协同、云—边—端协同以及“东数西算”跨域远距离传输场景提供服务;另一方面,算网融合可在一定程度上对冲我国高端算力不足的风险,此外,在算网融合的支持下,业务需求可调度到多个算力基础设施,协同利用多个算力设施资源开展计算。二是在产业规划等政策文件中提出“算网融合”发展目标,规划演进路线,制定相应的建设任务。为了进一步发挥算网融合的价值,可在信息通信行业发展规划、数字经济发展规划等政策文件以及“东数西算”工程相关的发展规划中强化算网融合发展目标,推动算网融合高质量发展。三是鼓励形成产、学、研一体的生态合作机制。算网融合内涵丰富,涉及主体众多,需要多要素协同配合。在技术攻关方面,要发挥科研院所在算网融合新技术方面的攻关能力,鼓励企业与科研院所合作,推动算网融合新技术从研究走向应用。在机制保障方面,搭建算网融合上下游企业合作交流平台,促进算力供需方强化合作交流,共同推动算网融合发展。同时,需要进一步完善跨区域的算网服务结算机制,推动算网融合发展。
4.3 培育应用场景,推动融合应用
当前,尽管已经存在异构算力协同、云—边—端高效协同、跨域远距离传输等算网融合相关的需求场景,但是总体来看,这些应用场景规模依然较小,仍需进一步强化算网融合应用场景的开发,并通过需求引导带动算网融合产业服务能力提升。算网融合可支持提供随需随取、按量付费、高速泛在、智能敏捷的算网服务,是满足高性能算力需求场景的重要工具。未来,仍需进一步强化算网融合场景的开发,重点加强工业互联网、金融交易、远程医疗等低时延、高可靠算力需求场景下的算网融合技术支撑。
为了支撑相应的算力应用场景,应重点以构建全国一体化算力网络为契机,加强算力调度、交易和共享平台的建设,全面融通社会闲置算力资源,发挥闲置算力资源的价值,就近为用户提供更加优质、高效的算力服务。在构建算力调度相关平台过程中应充分保障算力服务的便捷性,使不同地区、不同行业的企业用户、个人用户能够更加方便地获取算力资源。同时,要提升算力资源分配的自动化、智能化程度,随着平台接入用户的增长,算力感知、编排、调度的复杂性将同步提升,自动化、智能化的运维管理工具能够有效提升平台应用效率,保障算力资源得到合理的配置。
5 结束语
算网融合是算力和网络融合发展的新模式,通过算网基础能力升级以及算网统一度量、感知、编排、路由和交易等核心技术,提供高速、敏捷、智能、随需的算力服务。未来,随着算网融合技术及业务模式的不断成熟,相关政策监管将愈趋严格,产业发展更加规范化。同时,算网融合发展市场运营机制及核心技术也将更加完善。算网融合是算网技术发展的重要趋势,但同时也面临着诸多挑战,仍需进一步强化算网融合相关政策研究,加强应用场景开发,坚持市场需求导向,助力算网融合高速发展。