(CWW)5G技术提升了大带宽业务的峰值速率,降低了实时业务的端到端时延,保障了高可靠业务的稳定性,扩大了物联网业务的连接规模,给个人用户和行业用户带来了全新的使用体验。但随着网络的大规模部署,现网运行的5G基站数量大大增加,网络告警发生次数也随之增长。
在海量告警数据中,仅有部分告警需要一线维护人员尽快修复,如何快速识别亟待处理的告警信息,并定位到故障根因,是长期困扰一线维护人员的问题。
无线排障工作的流程和挑战无线排障工作的流程无线排障工作的流程如图1所示,分为告警产生、告警上报、告警确认、告警定位、故障派单、故障修复、告警消除等部分。
图1 无线排障工作流程
告警产生:当网元及其相关设备发生运行异常时,网元会根据既定规则产生告警,其中有些告警涉及网络的正常运行,也有些告警仅是网元的某些数据偏离了正常值范围,对网络运行并无实际影响。
告警上报:网元将产生的告警信息通过管理链路上报至网管系统,并在系统界面上呈现。
告警确认:网络管理人员在网管系统界面上看到告警信息后,会对告警信息进行确认,表示已获知该告警。
告警定位:网络管理人员对大量告警进行分析和压缩,找到根因告警,并确定是哪个专业(无线、传输、动环等)的故障。
告警派单:根据告警定位的结果,将具体告警转发给相关专业的维护人员进行处理。
故障修复:维护人员通过关联配置、性能等各类数据,对故障进行分析,找到解决问题的方案,并进行故障修复。
告警清除:一线维护人员对故障修复完成后,大多数告警信息将自动清除,有些告警信息则需要人工清除。
现网无线排障工作的挑战无线排障工作最重要的是以最快速度排除影响网络和业务运行的故障,但在现网实际操作过程中,存在很多问题,严重影响维护人员的工作效率。
一是告警压缩算法复杂。当网元某个主要单元发生故障时,与其关联的单元可能也受到影响,因此除了故障单元上报告警外,其他单元也可能上报很多衍生告警。告警压缩的目的是从海量告警中找到根因告警,过滤掉衍生告警,减少派单量,使得维护人员能够集中精力解决故障问题。但是网元内部结构对于运营商来说是一个“黑盒”,各厂家设备内部的告警逻辑存在较大差异,这就造成了告警压缩算法复杂,判断根因告警的准确率也不高。
二是故障的专业定位不清。造成基站故障的原因不仅限于基站本身,传输链路故障、电源配套故障等都导致基站故障,因此告警派单时需要将工单准确地派给相关专业的维护人员,才能以最快速度修复故障。但在实际工作中,仅通过根因告警很难判断故障的专业,例如基站上报传输中断告警,可能是由于基站传输板故障,也可能是传输网链路中断造成的。
三是告警数据与其他数据关联困难。网元上报告警时,告警对象是以设备DN为标识的,但是这个DN值仅在OMC内部唯一,无法保证全网唯一,在与其他数据进行关联分析时容易造成匹配错误,影响分析结果。
四是告警对象粒度过大。目前告警的物理对象一般仅到BBU、AAU/RRU,但实际上BBU内部还包含了很多板卡和模块,一线维护人员在排障过程中需要逐一对板卡和模块进行检查,造成了很大的工作负担,也影响了故障修复的进度。
五是告警携带信息不全。随着网络业务的多样化,特别是切片技术的应用,不同基站承载的业务也不同,业务间优先级、重要性的差异也是告警派单和确定处理顺序的重要依据,但告警数据中仅反映了物理硬件和逻辑对象的故障,至于这些故障影响哪些业务却无从得知。
六是硬件定位困难。在告警数据上报和分析的过程中,都是以告警对象的DN作为唯一标识,但DN标识可以通过软件配置,只能在一定时间内作为硬件的唯一标识,因此在机房的设备上不会标明其DN标识。在现场排障时,一线维护人员需要根据DN和硬件的映射表,从一排排机柜中找到相应的硬件,如果映射表更新不及时,就会造成硬件定位错误,从而无法排障。
5G无线告警数据增强的研究和成效5G无线告警数据增强的研究随着5G网络的演进,特别是网络管理智能化技术的发展,基站、网管系统的数据采集和分析能力得到了大幅增强,这就使得通过完善细化5G无线告警数据,解决网络排障中的困难成为了可能。中国联通通过制定企业标准和设备技术规范的形式,推动设备厂家5G无线告警数据从以下几个方面进行增强。
一是增加根因告警标识。由于主设备厂家对自身产品的告警机制非常熟悉,因此网管系统在收到大量网元告警后,可以基于厂家内部的告警产生逻辑进行智能分析,将所有告警分为根因告警和衍生告警,并在衍生告警中标明其关联的根因告警ID,使得用户可以忽略衍生告警,将精力到根因告警上。
二是对告警原因进行预归类。厂家网管系统可以基于对网元各模块的状态监控,并关联自身数据库中的各类实时数据,对告警原因进行预归类。
●硬件故障:如射频模块告警、BBU-RRU之间的故障、RRU光模块不在位、RRU维护链路异常、风扇告警、GPS告警、BBU(BBU-RRU)光模块不在位、驻波告警等。
●软件故障:如软件版本异常、License告警、RRU软件告警等。
●电源故障:如电源告警(掉电及电压异常)等。
●传输系统故障:如BBU向上故障、光功率异常、传输时钟参考源异常、BBU光模块不在位等。
●环境系统故障:如板卡温度异常、外部干扰等级告警等。
●系统运行异常告警:如链路告警等。
通过预归类,可以明确故障产生的专业,提升派单准确率,加快排障效率。
三是构造全网唯一的DN标识。在OMC内现有唯一网元DN数据的基础上,通过统一的全国编码表,增加省份编码和OMC编码作为网元DN的前缀,实现全网唯一的DN标识,并将此标识应用于所有无线网络数据中,方便告警数据与其他数据进行关联。
四是告警对象细化到板卡粒度。对于物理对象的告警,将告警对象从原来的BBU/AAU/RRU细化到板卡粒度,精准定位故障硬件。
五是增加网络切片标识。5G网络中不同的SLA业务大多是通过网络切片技术实现的,承载不同业务的网络切片,在网络故障处理时的优先级也不一样。在告警信息中增加网络切片标识,可以帮助维护人员对故障重要性和紧急程度进行排序,有效组织排障工作。
六是增加硬件电子序列号的采集。硬件电子序列号是在出厂时打印在硬件外表,并终身携带的“身份证”,不会被更改且具有唯一性。在告警数据中增加硬件电子序列号的采集,可以在派单信息中以此为唯一标识,帮助一线维护人员快速定位现场硬件,减少因映射表不准造成的错误。
5G无线告警数据增强的成效通过在5G无线告警数据中增加相应的信息,可以提升5G无线故障的处理能力和解决效率,减轻网管人员、分析人员、一线维护人员的工作量,具体表现在以下几个方面。
在告警定位环节,提升了告警压缩比例和告警根因定位准确性,帮助网管人员从海量告警中快速定位根因告警;并能准确判断告警影响的范围和业务,使维护人员可以优先处理紧急重要的告警。
在故障派单环节,精准定位故障所在专业,避免因错误派单而延长故障解决时间。
在故障修复环节,方便了告警数据与其他数据进行关联,提升了故障定位的准确度和精度,方便一线维护人员在现场快速找到故障设备和问题单元,避免对设备内各局部单元逐一排查。
无线网络排障工作技术复杂、涉及方面广、时效性要求高,是一项烦琐而细致的工作,通过增强5G无线告警数据携带的信息,可以提升排障工作的效率,并且在一定程度上减轻维护人员的工作量。但这并不能从根本上将维护人员解放出来,因此,还需要进一步提升网管智能化水平、增强网络自愈能力,从而降低运营商网络运营成本。