论文部分内容阅读
序列模式挖掘在Web日志挖掘、自然灾害预测、DNA和蛋白质序列模式发现等领域有着广泛应用。基于频繁模式增长的。PrefixSpan是目前性能最好的序列模式挖掘算法之一。然而在密数据集和长序列模式挖掘过程中,会出现大量的重复投影数据库,使得这类算法性能下降。同时,序列数据库往往是动态更新的,如果每次都是从原始数据库中进行挖掘更新序列模式,将面临巨大的搜索空间,效率低下,通过在已有的模式基础上挖掘新的模式,可以减少挖掘原始数据库的次数。
本文针对序列模式挖掘搜索空间大,序列数据库更新频繁等特点,对序列模式挖掘算法及其相关算法进行了研究。主要工作成果为:
1) 给出了一种针对序列模式的压缩表示方法,节省了基于频繁模式增长的序列模式挖掘算法所需要的内存空间。
2) 提出了一种序列模式挖掘算法,通过对投影数据库的伪投影做单项杂凑函数,如。MD5等,检查是否存在重复的投影数据库,避免大量重复数据库的扫描,从而生成了压缩的前缀树,并采用一些必要条件简化压缩前缀树结点的搜索。并根据压缩前缀树给出了一种构造闭合序列模式的算法。
3) 证明了当前基于PrefixSpan的IrmSpan系列算法并不能挖掘出所有的序列模式,这类基于半频繁模式的增量序列模式挖掘算法存在缺陷。并提出了一种新的增量序列模式挖掘算法,通过前缀树来表示序列模式,然后不断地扫描增量序列产生的增量集来维护这个树的结构,在扫描过程中通过广度剪枝和深度剪枝算法来缩小搜索空间。然后结合压缩前缀树和增量剪枝策略,进一步提高增量序列模式挖掘算法的效率。
4) 对序列流数据给出了一种近似准确的序列模式挖掘算法,并证明了算法的正确性