论文部分内容阅读
由候选项集C_2生成频繁2-项集L_2是关联规则Apriori算法的一个瓶颈。直接哈希修剪(DHP)算法利用一个生成的Hash表H_2删减C_2中无用的候选项集,以此提高L_2的生成效率。但传统DHP算法是一个串行算法,不能有效处理较大规模数据。针对这一问题,提出DHP的并行化算法——H_DHP。首先,对DHP算法并行化策略的可行性进行了理论分析与证明;其次,基于Hadoop平台,把Hash表H_2的生成以及频繁项集L_1、L_3~L_k的生成方法进行了并行实现,并借助Hbase数据库生成关联规则。