海量流数据环境下的离群数据挖掘技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:poshashajia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,海量数据应用处理逐渐成为主流,而流数据系统则是其中最为典型的应用之一。作为新型的数据密集型应用,流数据具有有序实时到达,数据量接近于无限而无法全部保存在存储介质中,应用层性能需要达到实时响应等特点。由于这些特性,需要在流数据的生命周期内快速挖掘出潜在的数据模式信息,否则数据将随时间过期而删除。   因此,流数据环境下的离群数据挖掘有着重要的实用意义,并在金融分析、欺诈检测等领域有着广泛应用。但是目前仍然缺乏相关的离群点定义及模型,如果直接在流数据应用中使用传统的离群数据挖掘算法,则无法达到实时响应的性能要求。为此,本文主要对流数据环境下的离群数据定义、模型以及挖掘算法进行了研究和探索。   本文首先对流数据处理以及离群数据挖掘领域的相关工作和研究现状进行了回顾和分析,全面介绍了目前主流的离群点定义和检测算法,并综合流数据处理模型总结了当前工作的不足及问题,分析了存在的挑战,并引出了本文的研究内容。   通过将流数据按照属性相似度进行划分,本文提出了属性离群点的概念,并设计了一个通用的在线挖掘框架,通过将流数据按照属性聚集性实时划分为多个子集合,结合后续的离群数据挖掘算法在每个子划分内对属性离群点进行检测。   针对属性离群点的概念,引入基于距离的离群度量标准,提出了一套面向监控的在线属性离群点挖掘方案,实时维护每个流数据对象的邻居总数。同时为了应对流数据环境下的高负载情况,将数据降载技术与近似算法相结合,在保证结果误差可控的前提下大幅提高算法性能。另外介绍了一种利用距离几何特性的网格划分策略,对部分冗余距离计算进行剪枝,进一步减少计算开销。   本文另外提出了一套面向预测的在线属性离群数据挖掘框架,利用核密度估计方法快速对当前滑动窗口内流数据内容分布进行模拟,并以此预测新到达流数据的离群度。在此基础上,为了进一步提升性能和减少资源占用,不再为每个流数据对象建立核密度探测器,而改为对一组数据创建对应核函数,大幅减少相应的核函数数目和计算资源开销。   对于最近流行的集值类型数据,本文提出了流数据环境下的集值数据离群点定义,并构建了一套基于分层聚类的实时挖掘框架,通过在线微簇划分和宏聚类过程将集值数据划分为多个紧密的聚簇,然后利用多种离群度量策略对每个聚簇的异常度进行分析,并以此判断最后的集值离群点。
其他文献
数字半色调是一种使用黑白二值的像素点来表现连续灰度图像的技术。在数字半色调处理的各种技术中,误差扩散算法以其较好的半色调图像质量和较快的算法运行速度,得到了非常广
对于网络安全态势的研究是近年来一个新兴的网络安全研究课题,也是目前信息安全的研究热点之一。网络安全态势是对网络安全状况的一个整体反映,对于提高整个网络系统的应急响
互联网的出现与普及,给人们带了极大便利,同时也让我们承担着来自互联网的威胁和被欺诈的风险。近年来,流氓证书被恶意颁发的事件时常发生,如果流氓证书被不法分子获取并部署
科学计算正在从传统的以计算为核心的计算密集型时代转向以数据为核心的数据密集型超级计算的时代,数据已经逐渐成为企业或机构运转的枢纽与支柱,任何形式的数据损坏都可能带来
Web2.0和社会化标签系统的流行,使得Folksonomy和标签推荐系统得到了越来越多的关注。随着语义Web研究的深入,研究者尝试利用本体来解决Folksonomy的不足并为其构建统一的结
随着计算机技术的发展,嵌入式实时系统在众多领域得到广泛应用。相比于单核处理器,多核处理器能够使嵌入式系统获得更高的性能。在PC全面进入多核时代的背景下,嵌入式领域的
随着市场经济的不断发展,企业信息化显的越来越重要。物流被称作“第三方利润源”也受到了各行各业的重视并得到了较快的发展。将计算机网络,电子商务等技术与物流相关技术结
随着互联网的发展,越来越多的用户主动加入到互联网创造了大量的数据,比如微博数据、论坛数据、电子商务网站的评论等数据都是用户主动创造的数据。这些数据的一个共同点就是大
本文对织物染色配色问题进行了比较详细的介绍,并描述了此次建模所用的数学方法和分析过程。通过对传统的织物染色配色问题研究发现:基于Kubelka-Munk理论的织物染色配色方法费
在过去的40年里,人类阅读的机器仿真是很重要的研究方向。由于阿拉伯文字的复杂性,对阿拉伯文字自动识别的研究很少见。随着拉丁文、中文和日文在光学文本识别上的成功,光学识别