论文部分内容阅读
离群点检测是数据挖掘和数据管理领域中一个非常重要的研究问题,其主要目标是从复杂数据环境中快速准确地检测出数据中不符合正常(期望)行为的离群点数据,为用户深入分析和理解数据提供支撑。针对待检测数据集的数据量大、数据维度高、数据分布不均衡和数据离群程度难以度量等问题,本文主要开展了以下两个方面的研究工作。 1、为了提高对多属性数据集离群点检测的适应性,提出了一个有效的离群点检测方法,即基于多属性聚类和局部密度的离群点检测方法。该方法首先利用数据对象的局部密度峰值确定聚类中心,并利用聚类相异度对数据对象的归属性进行判断,将其划分到由离它最近的聚类中心确定的簇中,从而对数据对象进行聚类。其次将归属于不同簇且位于簇边缘的数据对象标记成候选离群数据集合。最后把候选离群数据对象用本文提出的基于多属性聚类和密度的离群点检测方法得到其离群点判断因子,并确定TOPN个候选离群点数据对象为最终的离群点。通过真实数据集进行实验,并与经典的K?means、DBSCAN和LOF算法进行对比分析,验证了该方法在多维数据集上有较好的离群点检测效果。 2、针对多维数据集的数据处理时间复杂度高,数据的离群点程度难以度量等问题,提出了基于距离加权和的离群点检测方法。用一种离群点分类的思想,将数据对象直接划分成离群点和非离群点。该方法首先利用离群点具有偏离总体数据集有较远距离的属性,将所有数据点对象与其邻域数据点的距离进行加权求和,其次将那些加权距离和值大的数据对象标记为候选离群点,最后将候选的离群点用本文的离群点判断方法确定是否为最终的确定离群点。通过真实数据集进行实验,并与经典的LOF、ABOD和SVM离群点检测算法进行对比,验证该方法在时间复杂度和离群点检测性能上有着明显的优势。 以上是本文提出的两种算法,第一种方法是间接地从聚类的思想出发对离群点进行检测,在检测率和准确率等指标有很好的性能;第二种是直接地从每个数据对象的离群程度出发,以数据点与其邻域数据对象的距离来定义离群程度,该方法在时间复杂度和AUCPR等指标方面有很好的性能。