论文部分内容阅读
近年来,随着各类智能移动设备的广泛普及,社交网络、网上购物、移动支付、位置服务等新兴应用不断涌现,各类海量大数据被采集和处理,而面向这些大数据的挖掘分析服务已俨然成为一大独具特色的新兴产业。异常检测作为数据挖掘最重要的任务之一,在网络监控、信用卡欺诈等各种应用领域都被认为是至关重要的内容。此外,在实际生活中,数据分布往往是倾斜的,而局部异常检测能够有效解决数据倾斜分布下的异常检测问题,在很多应用领域具有较好的检测效果。因此,局部异常检测在学术界和工业界都受到了越来越多的关注,本文为了更加高效快速地检测出海量大数据中的异常对象,提出了两个基于密度的局部异常检测方法,主要研究内容如下:(1)在面向静态大数据异常检测方面,提出了一种快速的top-n局部异常点检测算法,融合索引结构和多层LOF上界设计了多粒度的剪枝策略,以快速发现top-n局部异常点。首先,提出了四个更接近真实LOF值的上界,以避免直接计算LOF值,并对它们的计算复杂度进行了理论分析;其次,结合索引结构和UB1、UB2上界,提出了两层的Cell剪枝策略,不仅采用全局Cell剪枝策略,还引入了基于Cell内部数据对象分布的局部剪枝策略,有效解决了高密度区域的剪枝问题;第三,利用所提的UB3和UB4上界,提出了两个更加合理有效的数据对象剪枝策略,UB3和UB4上界更加接近于真实LOF值,有利于剪枝更多数据对象,而基于计算复用的上界计算方法,大大降低了计算成本;第四,优化了初始top-n局部异常点的选择方法,利用区域划分和建立的索引结构,在数据稀疏区域选择初始局部异常点,有利于将LOF值较大的数据对象选为初始局部异常点,有效提升初始剪枝临界值,使得初始阶段剪枝掉更多的数据对象,进一步提高检测效率。在七个真实数据集上的综合实验评估验证了所提方法的高效性和可扩展性,相比最新的方法,时间效率提升可高达3.5倍。(2)针对流式大数据的局部异常检测问题,提出了面向大数据流的基于KDE的top-n局部异常检测方法。首先,定义了基于KDE的局部异常因子KOF(KDE-based Outlier Factor)来衡量每个数据对象的局部异常程度;其次,提出了 KOF上界和基于上界的剪枝策略,为了避免直接计算昂贵的KOF值,利用上界来快速地剪枝掉大部分非异常对象;此外,提出了面向大数据流的基于上界剪枝的top-n KOF检测方法(UKOF),以有效解决滑动窗口环境中的数据更新。同时,为了进一步降低计算成本,提出了 UKOF延迟更新的方法(LUKOF)来批量更新高速大规模的数据流中的数据对象。实验结果表明所提出的方法在时间效率上比最新方法高出3600倍,同时在检测数据流上的局部异常点方面达到了最佳性能。