论文部分内容阅读
电信网络告警数据是网络管理人员监控和管理网络设备的重要依据,分析电信网络告警数据不仅能够得到实时的网络状况,还能通过关联规则等数据挖掘手段得出相关性知识,协助网络管理人员更好的管理和维护网络设备。但是电信网络告警数据数据已进入“大数据时代”,普通的数据分析和关联规则数据挖掘手段已经不能满足要求,需要结合分布式计算等大数据处理工具并将算法进行改进和优化来挖掘出电信网络告警数据的价供值。本论文以中国移动的电信网络告警分析系统项目为依托,提出了一种基于Spark的电信网络告警数据关联规则算法。为了完成此项目课题,本文主要完成了以下几项工作:1.深入研究了 Hadoop、Spark等大数据处理工具,经过对比分析最终选择以Spark为分析计算框架。深入研究了关联规则算法,对比分析经典算法Apriori和FP-Growth,最终选择以效率更高,更适合本文的电信网络告警数据场景的FP-Growth作为基础算法进行改进。2.根据中国移动的需求,设计了基于Spark电信网络告警数据分析系统,系统分为采集模块、存储模块、分析模块、展示模块,并实现了告警数据存储模块和告警分析模块。3.分析和研究了中国移动提供的电信网络告警数据,针对电信网络告警的特点和Spark编程模型的特点设计了以高置信度、高提升度为过滤条件,自动修正支持度计数的电信网络告警分布式关联规则算法—FP-CUD。4.独立搭建了 Hadoop和Spark集群,来验证FP-CUD算法和实现电信网络告警分析系统。结果表明,与FP-Growth算法只能挖掘频繁项集的强关联规则相比,FP-CUD算法能够准确的挖掘出频繁项集和非频繁项集的强关联规则。同时,基于Spark的FP-CUD算法在性能上比采用同样方法的单机模式和Hadoop模式均有很大提升。另外,实现的电信网络告警分析系统给出了抛弃和利用“脏数据”两方面的统计指标,为运营商提供了参考价值。