论文部分内容阅读
数据流模型在许多应用中广泛出现,其特征是数据速度快、规模大、实时性强且数据单遍访问。同时由于设备精度、传输丢失、周围环境干扰、设备故障、隐私保护和不同系统之间的集成等方面的原因,不确定性在数据流环境中广泛存在。由于不确定性数据流中数据的存在性和精确性均以概率的形式表示,所以传统的针对确定数据的挖掘算法已经不能满足有效挖掘不确定数据流的迫切要求。因此,将数据流挖掘技术与不确定数据处理技术相结合设计处理大规模不确定数据流的数据挖掘算法就成为一个新的研究方向。在分析不确定数据流频繁模式挖掘问题的基础上,本文提出了一种基于衰减窗口的不确定数据流频繁模式挖掘算法。算法着重研究在处理频繁模式挖掘时,通过有效利用UG-Tree前缀模式树压缩存储数据流中的不确定模式信息。同时利用剪枝策略删除前缀模式树中的绝对稀疏模式,以减少系统的内存消耗并节省了算法在挖掘过程中的执行时间。主要工作如下:(1)针对不确定数据流的特点以及数据挖掘的应用需求,给出了一种不确定数据流的挖掘模型;(2)构造了一种基于前缀树的概要数据结构UG-Tree,分析并设计了一种高效的绝对稀疏模式剪枝策略;(3)提出一种改进FP-Growth算法的TOP-K频繁模式挖掘算法——UG-Miner,以实现高效的挖掘不确定数据流中的TOP-K频繁模式。实验结果表明:算法在保证了在有限内存消耗和实时响应的前提下,能够有效的挖掘不确定数据流中的频繁模式。