论文部分内容阅读
近年来,随着无线通信技术的快速发展,电信业务不断增加,智能手机普及率迅速升高,3G、4G业务不断出现,使得电信行业的业务数据越来越多,成为典型的数据密集型行业。因为人们每天都会通过手机等通信工具进行联系,所以电信业每天都会产生大量的语音通话业务数据,长期积累的语音通话业务数据成为运营商重要资源和财富,如何从这些海量业务数据中发现有价值的信息是非常有必要的。数据挖掘是一种从海量数据中挖掘有价值知识的工具,它的作用就是从大量的数据中通过算法发现隐藏于其中的有用信息。其中,序列模式挖掘和聚类挖掘都是数据挖掘的重要分支,已应用在很多领域中,例如,客户购买行为分析、欺诈行为检测、网络入侵检测等。在查阅了大量国内外文献的基础上,本文采用序列模式挖掘和聚类分析对语音通话业务数据的进行挖掘,获得有价值的信息并对电信业务做决策或者是预测作用。基于电信语音通话业务数据量非常庞大,本文针对部分数据对象做了深入研究,对数据的属性做了详细分析,分析了影响当前电信语音通话质量的原因,结合K-means聚类算法和改进的PrefixSpan序列模式挖掘算法进行交叉挖掘,构建一个挖掘模型并对该模型进行分析。本文主要研究工作如下:1.提出了电信语音通话业务的序列模式挖掘方法。2.设计并实现了一个关于用户满意度的电信语音通话业务的序列模式挖掘模型。3.依用户满意度划分为“好、良、中等、一般和差”五个等级,按电信业务的“业务即时性、业务可接入性、业务会话质量、业务可保持性、业务完整性”五个方面进行聚类,分别设计和实现了各子模型及其相关算法。4.改进了PrefixSpan序列模式挖掘算法,对聚类结果进行了序列模式挖掘,获得了序列模式挖掘结果。5.同Apriori序列模式挖掘算法在电信语音通话亚务数据集上进行了比较分析,从实验结果,得出改进的PrefixSpan算法具有较好的性能。本文的研究成果,得到了相应的序列模式,为电信提供了决策依据,给用户提供更好的语音通话服务。