论文部分内容阅读
本论文研究的目标就是构造出一个能够运行于像INTERNET这样的低速不稳定网络环境下的分项式关联规则挖掘系统CSDARMS(CollectiveSamplingforDistributedAssociationRuleMiningSystem)。为了达到这一目的,提出了一种新的基于Sampling算法的分布式关联规则挖掘算法CSampling,同时给出了一系列基于该算法的优化措施,设计出了一个分布式关联规则挖掘系统CSDARMS。CSampling是一种基于样本收集机制的分布式关联规则挖掘算法,由于采用了不同于以往算法计数交换机制的样本收集机制,CSampling算法在网络传送效率上有了很大的提高。并且,给出了一种更优于Sampling算法的计算算法运行参数的方法,进一步确保了CSampling算法的效率。在新的CSampling算法中,算法运行时间也可得到大致的估计,保证了更好的用户友好性。提出了基于前序树的项集编码方式,系统中涉及到的项集数据结构都采用前序树的方式来编码,在内存中待挖掘的前序树与在磁盘上作为数据缓存的前序树采用不同的编码方式,以分别确保它们的高效挖掘与高效载入。提出了基于CORBA的分布式关联规则挖掘系统CSDARMS,给出了该系统的框架及实现方法。我们相信该系统能够健壮稳定地运行,具有良好的应用价值。