论文部分内容阅读
针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成频繁项集.3 000万篇文章的大数据集实验结果表明,提出的DTPC算法可以大幅度提升数据挖掘效率,同时减少计算资源的不必要浪费.