论文部分内容阅读
数据挖掘技术可以从海量数据中挖掘出潜在的、有意义的知识,而从海量数据中找到那些极少数的异常行为,并从这些异常行为中发现有意义的模式是一个富挑战性的工作。现实应用领域中经常包含一些与数据集一般行为或者一般模型不一致的数据对象,即孤立点。都知道正常行为要远远多于异常行为,但是少数的异常行为也许蕴藏了非常有趣的知识。因此对这些孤立点进行研究分析有一定理论基础和实践意义。本文针对孤立点检测方法进行深入研究,结合数据挖掘中的聚类分析和孤立点检测技术,并对国内外有关孤立点检测方法的研究与应用进行详细分析,给出了孤立点检测模型,同时介绍了数据预处理方法,可以提高检测的整体性能,最后给出基于划分的孤立点检测方法,应用到无线网络通信数据分析领域。本文的主要研究工作包括:1、分析了当前国内外孤立点检测的研究背景及研究现状,介绍了两种聚类方法,对常见孤立点检测相关技术的应用范围以及其优劣势进行了分析,得出相关结论,将孤立点检测技术应用到移动通信数据分析领域。2、根据孤立点检测的相关知识以及应用,给出了孤立点检测模型,并对其各个组件部分进行详细分析。3、针对原始数据集的规范不一致以及数据规模庞大等特点,本文对原始通信数据集进行了详细分析,通过数据预处理操作对数据集进行数据清洗、属性字段选择、格式转换等处理,得到高质量的待检测数据集,提高孤立点检测的效率。4、根据孤立点检测模型,结合孤立点检测应用领域的需要,提出了基于划分的孤立点检测方法,对其进行了详细的研究,并将其应用到移动通信数据分析中。5、对提出的基于划分的孤立点检测技术进行相关实验,并且对实验结果进行详细分析。本文依据孤立点检测模型,给出基于划分的孤立点检测方法,其中结合聚类分析和孤立点检测技术,应用剪枝方法和模糊处理等技术,将孤立点检测方法应用到移动无线网络通信数据分析。针对方法的检测准确率和检测时间两个性能进行实验,实验结果表明该方法具有很好的检测效果,整体性能比较高。