论文部分内容阅读
随着信息技术的飞速发展,企业为了提高效率和竞争力就必须致力于在所有业务领域的数字化。在业务的数字化过程中产生了大量的数据。从分散的数据中提取有意义的信息是非常有用的,数据挖掘技术就是为了发现数据库中的有用的信息而产生的新技术。数据挖掘包括关联规则、聚类和分类等几个分支,而关联规则是其他分支的基础,也是应用最广泛的一个。关联规则挖掘主要包括挖掘数据库中的频繁项目集和生成关联规则两个过程,其核心也是最繁杂的是挖掘数据库中的频繁项目集。
关联规则挖掘是通过运用挖掘频繁集的算法先得到频繁项目集,进而由频繁项目集生成关联规则。挖掘频繁项目集一直都是关联规则的研究热点,挖掘频繁项目集的经典算法是Apriori算法。该算法的优点是易于理解并且能够挖掘出所有的频繁项目集,但也存在着许多缺点,主要有:(1)需要多次扫描数据库,造成庞大的I/O开销;(2)生成的候选2-项集的个数过于庞大;(3)连接和剪切的过程过于复杂。
很多学者基于Apriori算法提出了很多改进的算法,主要的改进方式有串行方式和并行方式。随着数据量的增大并且数据一般都是分布式的,因此并行算法越来越受到研究人员的关注。但是以前的并行算法都存在处理器负载不均衡的情况。
本文在对Apriori算法和其改进算法的研究基础上提出了负载均衡的分布式并行Apriori算法(DPApriori)。本文的主要工作如下:
首先介绍了数据挖掘和关联规则的基本内容,然后详细介绍了挖掘频繁集的Apriori算法及其改进算法。针对经典算法及其改进算法的缺陷提出了DPApriori算法,该算法的基本思想是首先改变了交易数据库中事务和项目的对应关系,一般的改进算法都是看数据库中包括哪些项目,而DPApriori算法是看对某个项目,它存在于哪些事务中,记录的是事务的TID。然后在连接和剪切过程中运用一些性质和定理优化了这个过程的操作。最后在做分布式处理的过程中通过对项目赋予权值,然后再根据权值把项目分配到各个处理器上,这样可以实现良好的负载均衡。通过这些措施整体上提高了算法的效率。最后通过在多种条件下的实验进行比较和分析得出该算法具有较高的效率并且实现了良好的均衡负载。结果表明本文所提出了DPApriori算法具有极大高效性和适用性。
关联规则挖掘是通过运用挖掘频繁集的算法先得到频繁项目集,进而由频繁项目集生成关联规则。挖掘频繁项目集一直都是关联规则的研究热点,挖掘频繁项目集的经典算法是Apriori算法。该算法的优点是易于理解并且能够挖掘出所有的频繁项目集,但也存在着许多缺点,主要有:(1)需要多次扫描数据库,造成庞大的I/O开销;(2)生成的候选2-项集的个数过于庞大;(3)连接和剪切的过程过于复杂。
很多学者基于Apriori算法提出了很多改进的算法,主要的改进方式有串行方式和并行方式。随着数据量的增大并且数据一般都是分布式的,因此并行算法越来越受到研究人员的关注。但是以前的并行算法都存在处理器负载不均衡的情况。
本文在对Apriori算法和其改进算法的研究基础上提出了负载均衡的分布式并行Apriori算法(DPApriori)。本文的主要工作如下:
首先介绍了数据挖掘和关联规则的基本内容,然后详细介绍了挖掘频繁集的Apriori算法及其改进算法。针对经典算法及其改进算法的缺陷提出了DPApriori算法,该算法的基本思想是首先改变了交易数据库中事务和项目的对应关系,一般的改进算法都是看数据库中包括哪些项目,而DPApriori算法是看对某个项目,它存在于哪些事务中,记录的是事务的TID。然后在连接和剪切过程中运用一些性质和定理优化了这个过程的操作。最后在做分布式处理的过程中通过对项目赋予权值,然后再根据权值把项目分配到各个处理器上,这样可以实现良好的负载均衡。通过这些措施整体上提高了算法的效率。最后通过在多种条件下的实验进行比较和分析得出该算法具有较高的效率并且实现了良好的均衡负载。结果表明本文所提出了DPApriori算法具有极大高效性和适用性。