论文部分内容阅读
随着互联网技术的飞速发展,海量数据应用处理逐渐成为主流,而流数据系统则是其中最为典型的应用之一。作为新型的数据密集型应用,流数据具有有序实时到达,数据量接近于无限而无法全部保存在存储介质中,应用层性能需要达到实时响应等特点。由于这些特性,需要在流数据的生命周期内快速挖掘出潜在的数据模式信息,否则数据将随时间过期而删除。
因此,流数据环境下的离群数据挖掘有着重要的实用意义,并在金融分析、欺诈检测等领域有着广泛应用。但是目前仍然缺乏相关的离群点定义及模型,如果直接在流数据应用中使用传统的离群数据挖掘算法,则无法达到实时响应的性能要求。为此,本文主要对流数据环境下的离群数据定义、模型以及挖掘算法进行了研究和探索。
本文首先对流数据处理以及离群数据挖掘领域的相关工作和研究现状进行了回顾和分析,全面介绍了目前主流的离群点定义和检测算法,并综合流数据处理模型总结了当前工作的不足及问题,分析了存在的挑战,并引出了本文的研究内容。
通过将流数据按照属性相似度进行划分,本文提出了属性离群点的概念,并设计了一个通用的在线挖掘框架,通过将流数据按照属性聚集性实时划分为多个子集合,结合后续的离群数据挖掘算法在每个子划分内对属性离群点进行检测。
针对属性离群点的概念,引入基于距离的离群度量标准,提出了一套面向监控的在线属性离群点挖掘方案,实时维护每个流数据对象的邻居总数。同时为了应对流数据环境下的高负载情况,将数据降载技术与近似算法相结合,在保证结果误差可控的前提下大幅提高算法性能。另外介绍了一种利用距离几何特性的网格划分策略,对部分冗余距离计算进行剪枝,进一步减少计算开销。
本文另外提出了一套面向预测的在线属性离群数据挖掘框架,利用核密度估计方法快速对当前滑动窗口内流数据内容分布进行模拟,并以此预测新到达流数据的离群度。在此基础上,为了进一步提升性能和减少资源占用,不再为每个流数据对象建立核密度探测器,而改为对一组数据创建对应核函数,大幅减少相应的核函数数目和计算资源开销。
对于最近流行的集值类型数据,本文提出了流数据环境下的集值数据离群点定义,并构建了一套基于分层聚类的实时挖掘框架,通过在线微簇划分和宏聚类过程将集值数据划分为多个紧密的聚簇,然后利用多种离群度量策略对每个聚簇的异常度进行分析,并以此判断最后的集值离群点。