论文部分内容阅读
随着计算机技术的蓬勃发展及网络的日益普及,数据收集和存储技术快速发展带来的海量复杂数据,不仅导致了“数据危机”,还带来了“维数灾难”。随之而来的,在大数据时代为了消除噪声或发现潜在的、有意义知识的离群点挖掘技术引起了人们广泛的关注,具有极其深远的现实意义和广阔的应用前景。目前,针对数据挖掘中的离群点检测问题,国内外学者相继提出了很多的算法,为进一步深入研究奠定了基础。但是现有研究仍存在以下不足:(1)随着计算机的发展和数据库的日益庞大,传统的聚类方法在高维数据空间不能有效运行,且现有的基于距离的离群点检测问题受全局阈值设置的限制,只能检测全局离群点,难以有效挖掘局部离群点。(2)随着测量及采集设备的技术完善和数量的不断扩大,数据的来源及维数急剧增加,某些数据维数已达到成百上千位,现有算法难以有效的解决复杂的高维海量数据集下的离群点检测问题。本文以网络中复杂的高维数据为研究背景,针对以上存在的不足展开研究,主要工作及创新点如下:1.提出一种基于聚类划分的两阶段离群点检测方法寻找局部离群点,与传统的检测算法相比,本算法效率较高,为局部离群点的挖掘提供了一种新思路。该算法首先基于凝聚层次聚类计算出k-means聚类中的k值,再进一步采用k-means方法将数据集划分为若干个微聚类。为提高挖掘效率,给出采用信息熵的聚类筛选策略,排除不包含离群点的微聚类,最后通过基于距离的挖掘方法在剩余的微聚类中寻找出相应的局部离群点。实验结果表明算法具有较高的效率及检测精度。2.提出一种对高维数据进行离群点检测的算法-AROD算法,该算法可有效解决了高维数据的离群点挖掘问题。AROD算法首先利用信息熵对数据属性进行划分,对部分不重要的属性进行约简,保留能反映数据整体信息的重要属性,并利用重要属性及其权值(贡献程度)结合加权距离公式进行离群点的检测。实验结果表明该算法对多维数据的离群点检测是高效的。