论文部分内容阅读
离群点检测是数据挖掘中的一个分支,它的任务是识别其特征显著不同于其他数据的观测值。在我们平常的社会生活和自然界中,大部分的事件和对象,都是很寻常或者是平凡的。但是我们也不能因此忽视,在其中也有很多不寻常或者不平凡的对象存在的可能性。这些对象的事件背后可能蕴含着更大的研究价值,有着广阔的应用前景。因此,离群点检测是一个非常有意义的研究方向。目前,研究者们已经提出了很多离群点检测方法,包括基于统计的离群点检测方法、基于频率的离群点检测方法、基于深度的离群点检测方法、基于距离的离群点检测方法和基于密度的离群点检测方法等。本文分析了离群点检测的研究背景、意义和国内外研究现状,研究基于距离的离群点检测方法和基于频率的离群点检测方法,并改进了传统的离群点检测方法。属性通常可以分为两类,包括数值属性以及分类属性。本文详细分析了两种属性的区别,并做了以下工作:针对数值数据,对传统的基于距离的检测算法进行改进。传统的基于距离的检测算法输入参数多,而且算法对参数比较敏感,因此选择基于平均距离的离群点检测算法。针对这种算法计算量大,在大数据集中不适用的问题,根据如果数据对象r邻域内数据的个数达到k个以上就不是离群点的规则剪去部分非离群点,通过聚类,将类别按照密度进行排序,先选择密度小的类别开始检测,离群度阈值可以迅速增大,利用剪枝规则再次剪枝。这样可以大大减小运算时间。针对分类数据,分析了基于距离的算法的不足,介绍了针对分类数据的常用的离群点检测方法,包括基于频率的方法和基于信息熵的方法。指出基于频率的AVF算法的不足,提出改进的基于频率的检测算法。通过常用的针对分类属性数据的k-modes聚类算法对数据集进行聚类,去除相似度较高的对象,再通过基于频率的方法进行检测,以达到更好的检测效果。