论文部分内容阅读
局部离群点检测是数据挖掘领域的热点研究问题之一。信息技术的高速发展使各个领域内可以采集、获取到的数据信息逐渐增多,数据集的数据维数不断增长,高维数据随处可见。高维数据集中的数据在全局空间下,分布稀疏,数据对象趋近于均匀分布,数据集中的离群点被隐藏在高维空间中,传统的离群点检测算法不容易检测出这些离群点。子空间可以看作是数据集全局空间的一个低维投影,如何找到与离群信息相关的子空间,并在子空间中使用传统的离群点检测算法检测局部离群点,是目前高维数据局部离群点检测的主要研究方向。本文对已有的离群点检测算法进行分析与研究,对高维数据离群点检测的两个步骤:子空间选择与在子空间中使用离群点检测算法分别展开研究,提出一种基于子空间的局部离群点检测算法,主要内容如下:(1)针对局部离群点检测问题,提出一种基于局部估计密度的局部离群点检测算法。首先,使用带宽可以根据邻域稀疏、密集情况调整的核密度估计方法,计算数据对象的局部估计密度;然后,使用数据对象邻域中其它数据对象的平均局部估计密度与自身局部估计密度的比值,计算数据对象的局部离群因子;最后,使用数据对象的局部离群因子判断数据对象是否为离群点,将离群因子与给定阈值进行比较,将离群因子大于阈值的数据对象标记为离群点。经实验验证,该算法可以提升局部离群点检测算法的查全率。(2)针对高维数据的全局空间处理问题,提出一种基于维度的子空间选择算法。首先,使用基于累积熵的偏差函数作为子空间质量函数,来衡量子空间是否适合用于离群点检测:然后,以子空间质量函数为依据,为全局空间中的每一个属性维度构造其最优子空间并添加到子空间集合中,每个属性维度的最优子空间相对于该属性具有最高子空间质量。(3)针对高维数据的局部离群点检测问题,将基于维度的子空间选择算法和基于局部估计密度的局部离群点算法结合起来,提出一种基于子空间的局部离群点检测算法。首先,使用基于维度的子空间选择算法构造子空间集合;然后,对于数据集中每一个数据对象,在子空间集合的各个子空间上分别计算离群因子,再计算不同子空间中离群因子的平均值,将平均值记作数据对象的离群分数,综合判断该数据对象的离群程度;最后,将这个数据对象的离群分数与给定的阈值进行比较,如果离群分数大于阈值,则认为这个数据对象是离群点,否则认为这个数据对象是正常点。经实验验证,该方法可以改善传统的离群点检测算法在高维数据上的表现;对于高维数据集,该算法可以尽可能多的检测出数据集中的局部离群点。