(CWW)虽然技术在不断进步,但是面对日益复杂的IT系统,IT运维最本质、最核心的问题多年来一直没有得到很好的解决。Gartner对全球1500多名专业IT从业者的调研显示:在IT运维管理团队TOP关注与挑战中,运维效率如何提升以及如何减少用户抱怨与投诉占据了75%的比例;而在与工具相关的TOP关注与挑战中,如何整合多工具与打通数据,以及如何减少无效告警、尽快确定故障原因更是占据了高达78%的比例。
如何提升IT运维能力,让网络运维人摆脱“背锅侠”和“救火队”的悲情角色?在运维领域持续深耕10多年的锐捷网络近日发布锐捷乐享智能运维管理平台,该平台通过“为执行赋能”“为管理赋知”“为决策赋见”,让IT运维管理变得更加轻松。
寻根问底,对症下药
在运维领域,锐捷网络是一名拥有10多年丰富经验的资深玩家。锐捷网络睿智产品事业部产品总监骆杰介绍,早在2009年锐捷网络就推出了专注综合网络运维的RIIL V1.0,凭借出众的呈现效果、良好的兼容性和准确的监控告警获得客户认可,打开了市场大门。
10多年来,锐捷网络推陈出新,不断精进,先后发布了RIIL V6.0、RIIL V6.5、RIIL-Emotion及Insight等产品,实现了从发展、竞争到引领的质变。迄今为止,锐捷网络运维产品已广泛服务于3000多家行业客户,部委客户市场占有率超过65%,并成为政务外网、内网首选品牌;在医疗行业品牌度排名第一,超过1000家高校客户正在使用锐捷的RIIL产品。
市场地位的领先离不开对于用户需求的精准把握以及运维理念的与时俱进。对于Gartner调研所反映的问题,深耕运维的锐捷网络有着切身感受,并在积极思考破局之道。
事实上,锐捷网络在政企、医疗、高校等领域也面临着相同问题。第一,运维晚于用户发现故障,导致运维工作开展被动;第二,运维团队定位和解决问题需要很长时间;第三,同样的问题反复持续出现,给运维团队带来极大挑战。上述问题老生常谈,现在依旧棘手,说明运维最本质、最核心的问题依旧没有得到很好解决。
找到问题根源,方能对症下药。分析上述问题产生的根本原因,骆杰认为,这些年来运维的业务目标和工作任务并没有发生变化,改变的是业务对IT的依赖和IT软硬件环境,这些使得问题愈加棘手,解决起来困难重重。
具体而言,大量应用系统建设带来了IT基础设施规模的倍数级扩展,IT向云化转变带来了基础设施关系复杂度的爆发式增长,而大量新型资源类型、系统架构、复杂的调用又提出了新的挑战。这些变化导致运维问题变得愈加复杂和难解。
面对IT运维面临的挑战,锐捷此次发布了锐捷乐享智能运维管理平台。“运维是件比较辛苦的工作,天天面对一堆机器,所有事情都在‘救火’。锐捷网络的使命是让IT运维管理更轻松,希望用我们的产品让运维团队更加轻松一点,这也是‘乐享其成’希望达到的效果。”骆杰分享了“锐捷乐享”名字背后的美好希望。
为了让IT运维管理更轻松,锐捷网络从3个维度入手:第一,为执行赋能,把重复工作自动化,把复杂工作变简单;第二,为管理赋知,运维管理者会有很多管理诉求,而工程师不在数据中心就在用户现场,无法做到及时响应,为管理赋知通过减轻工程师工作量以响应运维管理者诉求,实现管理落地有抓手、事件问题可闭环、团队经验可复制;第三,为决策赋见,是为决策者提供数据支撑,使得决策支持有据可依,运行态势尽在掌握。
先见先行,主动预防
以客户需求为驱动,锐捷网络推出的锐捷乐享智能运维管理平台直指运维场景痛点,将助力各行业用户构建“先见先行”的运维数据洞察能力,打造“以用户体验为核心”的业务连续性保障体系。
骆杰介绍,“先见先行”的运维数据洞察,需要做到对问题隐患的“先见”、对处置防范的“先行”,支持多源数据接入,通过关系洞察形成运维图谱,通过路径洞察找到真实路径,通过数据洞察形成行动指标体系,将问题和故障形成闭环,将分散的设备运行数据转化为高价值的信息和知识。
为了实现乐享智能运维管理平台的高效落地,锐捷网络还打造了以体验感知闭环为核心的业务连续性保障体系,具体包括:以指标体系为核心的全域资源监控、以风险预防为核心的健康检查、以用户体验为核心的业务监控。
以指标体系为核心的全域资源监控,首先,构建360度无死角的可观测体系,无论机房运维人员、网络运维人员,还是业务系统运维人员都可以通过系统看到所需的内容;其次,根据黄金指标体系重新定义资源监控维度,挖掘背后的数据关联,解决数据无效或不准的问题;再次,依托“卡点算法”,通过“向上找原因,向下找影响”,有效实现告警风暴抑制,并提供原因和影响分析、处理建议等有行动力的信息,加速故障的解决和闭环。
以风险预防为核心的健康检查,通过梳理网络、数据库、中间件等领域的常见故障,建立风险识别库、风险分析库和处理建议库等开箱即用的检查库,以降低风险预防技术门槛,提升运维团队的主动运维能力。以Oracle数据库为例,该平台内置的专家经验可预防常见的24类风险隐患并提供63种风险分析逻辑和处理建议,可支撑运维从风险识别、分析到处置的闭环。“就像健康体检一样,体检中心会从检查、分析到给出处理建议形成闭环。”骆杰如此类比,“其核心本质就是将运维前置,实现风险预防,而不是做问题处理。”
以用户体验为核心的业务监控,可从用户视角实时感知问题,将用户访问体验量化;并借助业务部署拓扑及数据调用关系的构建,及时感知用户体验,当出现故障时快速识别故障源头,精准定位异常原因,助力运维人员掌控全局业务运行态势。
全域资源管理、健康检查、业务监控成为乐享智能运维管理平台的核心特点。锐捷网络还采用千人千面的工作台和数据看板,以及低代码“拖拉拽式”灵活自定义的操作方式,提供有针对性的界面内容,帮助运维人员化繁为简,让运维工作便捷轻松。
“总体而言,运维人员无需奔波、复杂故障快速定位、被动响应变成主动预防、故障消灭在发生之前,这些就是乐享智能运维管理平台的核心价值。”骆杰表示。
深耕运维领域10多年来,锐捷网络不断强化产品研发,持续致力于助力用户构建完整的IT管理体系,从RIIL V1.0、RIIL V6.0、RIIL V6.5、RIIL-Emotion及Insight,再到如今的乐享智能运维平台,锐捷网络运维产品实现了从量变到质变的升华,以及深度创新的引领。可以预见,在锐捷乐享智能运维管理平台的加持下,锐捷网络在运维市场上还将保持引领者的态势。