论文部分内容阅读
最大频繁序列挖掘是数据挖掘的重要内容之一。在深入分析频繁序列特点以及已有序列挖掘算法的基础上,提出一种新的最大序列挖掘算法Huffman-MaXseq.与传统的“候选最大频繁序列集生成——测试”思路不同,该算法采用“边生成候选序列边测试”的思想,从而有效地减少了候选序列的生成。该算法基于构造哈夫曼树(最优树)的方法,对每个序列赋予权值,按权值的大小选取序列,连接生成新的候选频繁序列,再产生最大频繁序列。