论文部分内容阅读
随着信息网络技术的快速发展,全球数据量呈现爆炸式增长,如何从海量数据中快速的挖掘出有用信息是当今社会亟待解决的问题。关联规则是数据挖掘中一个非常重要的技术,被广泛的应用于各个领域。如何使用关联规则正确地挖掘是数据挖掘的首要任务,也是本文的研究重点。由于传统关联规则算法在挖掘海量数据时,效率较低且大多会出现内存不足的现象,而并行技术可以高效处理海量数据,因此,并行关联规则算法的研究具有重大实际意义。同时,随着数据挖掘技术的不断提高,用户的隐私可能会遭到泄露,实现数据的隐私保护也是必要的。因此,本文针对隐私保护和海量数据挖掘问题,提出了基于隐私保护的并行PRRCHA算法和基于MapReduce的并行MRFP算法。本文的主要研究工作如下:(1)传统的Apriori算法需要生成大量的候选项目集,并且对计算机内存要求较高。针对Apriori算法的这些缺点,本文提出了基于MapReduce的并行PCHA算法。首先对Apriori算法采用比较方法和hash树结构优化得到CHA算法,简化了最大频繁项目集的生成步骤,减少了候选项目集的生成数目,并精确地获得所有频繁项目集。其次,利用MapReduce编程模式分析CHA算法的频繁模式挖掘过程,进行数据的独立分组,保证算法的完备性并实现算法的每步并行化,最后,通过实验验证PCHA算法不仅具有高效处理海量数据的能力,且可以有效地解决Apriori算法在挖掘海量数据时内存不足的问题。(2)针对传统Fp-growth算法在生成Fp-tree时,需要大量遍历共享前缀的问题,本文首先给出了基于Fp-growth的排序优化RFP算法,通过重新排序整个数据集,缩减遍历共享前缀的时间,提高构造Fp-tree的效率。然后,将MapReduce编程模式与RFP算法进行结合,提出了基于MapReduce的并行PRFP算法,实现了数据的独立分组和算法的完备性。最后,通过实验验证,并行PRFP算法具有高效处理海量数据的能力,且可以有效地解决Fp-growth算法在挖掘海量数据时内存不足的问题。(3)由于挖掘能力的提高以及大量个人信息被收集,因此隐私保护问题已经成为数据挖掘技术发展中的一项重要课题。目前国内外研究了许多隐私保护技术来解决这个问题,但该技术无法高效处理大数据。因此,本文提出了一种基于隐私保护的并行数据挖掘算法--PRRCHA算法。PRRCHA算法不仅可以保护数据的隐私,而且可以高效的处理大数据,并通过实验验证PRRCHA算法的时间复杂度大幅度降低。