阿里巴巴根因分析通用框架赢得了智能运维国际竞赛
3月25日,有报道称,对于架构复杂的云计算平台来说,查找故障原因极其复杂和耗时。阿里创建的根源分析通用框架,可以通过AI快速定位故障根源,已经应用到一些云计算产品中,节省了一半以上的时间,准确率超过80%。该框架还在最近的ICASSP’22 AIOps Challenge网络智能运维国际竞赛中获得冠军。
据介绍,ICASSP(国际声学、语音和信号处理会议)是信号处理领域最大的国际学术会议。其中,ICASSP’22 AIOps Challenge网络智能运维大赛由香港中文大学(深圳)等机构主办,希望通过机器学习的方式自动找出网络故障的根源。本次比赛共有382支队伍参加。由阿里达摩院决策智能实验室和阿里云计算平台组成的团队获得冠军,并被主办方邀请在ICASSP上以论文形式发表主要算法。
根本原因分析是指找到故障的根本原因,是智能运维AIOps的重要研究方向。以云计算平台为例,其稳定性非常重要,但由于架构复杂,模块众多,一旦出现故障,如果用手工检查费时费力,很难满足需求。因此,基于机器学习等智能方法的根本原因分析应运而生。但是根本原因分析的技术门槛相当高。首先,运维数据往往来自不同系统,形式多样,需要大海捞针才能找出关键信息。其次,容易被表象迷惑。在大规模系统中,故障传播的环节往往很长,根源可能隐藏在深层节点中。此外,还存在标注样本数据少、稀有性异常等问题。
阿里创建了一个根源分析的通用框架,解决了上述问题。该框架针对多源异构的海量数据,利用时间序列分析技术提取关键信息。鉴于标注样本数量较少,该框架采用时间序列相似度等多种方法对数据进行增强。针对故障传播链路长度,采用专家经验和因果图相结合的图算法找出根本原因。
框架构建了丰富的算法工具箱和武器库,已应用于阿里云实时计算、通用计算等多个重要产品,如Blink/Flink、MaxCompute、Dataworks等。,帮助运维人员及时发现异常,快速定位问题根源,准确率达到80%以上,比之前可以节省一半以上的时间。比如实时计算平台的热机问题,会导致过载,运行缓慢,其原因链很长,可能是硬件故障,也可能是操作本身的原因。手动故障排除非常耗时,使用此框架可以快速定位根本原因。据了解,该框架还可以帮助发现隐藏的异常,例如一些机器离线,这将导致资源不足,并迫使一些客户排队等待,这在一般的集群操作中很难发现。