基于Cluster结构的并行关联规则挖掘算法研究和实现

论文部分内容阅读

数据库挖掘与并行处理技术互相渗透、互相结合,成为数据挖掘发展的重要特征,也是并行处理技术应用发展的一个重要方面.将并行处理技术与关联规则挖掘技术相结合,在研究了Cluster结构上的并行关联规则挖掘算法基础上,设计了PHR算法(Paralle Hybrid Recollection Algorithm)和PHR-G算法(Paralle Hybrid Recollection -Global Algorithm)两个并行关联规则挖掘算法,并在曙光3000进行设计实现和性能分析.PHR算法和PHR-G算法是基于Cluster体系结构设计的关联规则挖掘算法.算法采用了混合数据分布模式,有效地发挥了垂直和水平两种数据分布方式在不同迭代中效率;算法使用一定方法,通过记忆在k-1迭代后产生的全局信息,使k迭代中使用记载的全局信息,从而更高效地进行候选集操作和全局修剪,生成更小的候选集,减小消息传递量;PHR-G算法还按频繁集的等价类进行数据重划分,以利用数据垂直分布的本地计算性进行异步计算,消除了同步费用,提高算法的并行效率;在PHR-G算法的动态负载平衡策略中,实现在k>3的迭代中大颗粒负载平衡;并对算法进行了相关性能分析.

其他学术论文