论文部分内容阅读
Apriori算法是关联规则挖掘中最基本也是最重要的算法之一。但现有的Apriori算法存在对数据库的扫描次数过多,产生了大量的候选项集合,算法执行效率较低,运行时间显著增加等问题。文中针对现有Apriori扫描数据库过于频繁的问题,在Hadoop平台下对Apriori算法进行改进,提出一种改进算法H-Apriori算法。利用并行方法计算频繁项集,该算法将原始数据集按字母排序,减少频繁项集的计算开销,避免反复扫描数据库带来的时间上的消耗,从而提高算法的执行效率。通过与传统Apriori算法的执行时间相比较