论文部分内容阅读
本文对频繁项集挖掘问题进行了深入的研究和探索,主要研究工作内容和贡献如下:
1、对频繁项集挖掘中搜索空间剪枝问题进行深入研究,在认真分析现有的7种搜索空间剪枝策略的基础上,提出了两种新的搜索空间剪枝策略:扩展支持度相等性剪枝策略1和扩展支持度相等性剪枝策略2。它们都基于项集的扩展支持度相等性进行搜索空间削减,可用于最大频繁项集挖掘任务和封闭频繁项集挖掘任务,对其它剪枝策略无法处理的搜索空间有效地进行剪枝。同时证明了相关的定理和推论,保证了这两种新的搜索空间剪枝策略的正确性和有效性。
2、进行最大频繁项集挖掘算法的研究。在详细分析公认的高效最大频繁项集挖掘算法——MAFIA算法的基础上,应用新的搜索空间剪枝策略对MAFIA算法进行优化改进,得到效率更高的最大频繁项集挖掘算法——MAFIA+算法。通过实验对改进后的算法进行验证,实验结果表明,MAFIA+算法在不同的测试数据集上性能都优于MAFIA算法,尤其是在拥有大量长的最大频繁项集的测试数据集上,效率比原有的MAFIA算法提高约3倍。
3、进行封闭频繁项集挖掘算法的研究。提出一种新的封闭频繁项集挖掘算法——ECFIMA算法。该算法采用深度优先和广度优先相结合的策略访问搜索空间,使用垂直位图向量存储表示项集和事务数据库,同时利用基本剪枝策略、相等性剪枝策略、扩展支持度相等性剪枝策略1和扩展支持度相等性剪枝策略2进行侯选空间剪枝。采用多种不同特性的测试数据集进行实验。实验结果表明,ECFIMA算法是一种高效的封闭频繁项集挖掘算法,在多种测试数据集上性能都优于CHARM算法,尤其是在拥有大量长的封闭频繁项集的测试数据集上,效率比CHARM算法提高约2-3倍。