论文部分内容阅读
随着信息时代的到来和计算机网络技术的飞速发展,分布式环境日益普遍,而传统的集中式数据挖掘技术无法解决分布式下的挖掘问题,故在分布式下如何进行有效的数据挖掘成为当今人工智能研究领域一个热门课题。关联规则是数据挖掘研究领域的一个重要问题,目前所面临的最大挑战是计算效率,内存和结果冗余问题。解决的途径之一是开发高效的分布式算法。因此本文从分布式的角度出发,针对关联规则挖掘理论和方法进行了深入研究,提出了若干高效的分布式关联规则挖掘算法。具体研究内容如下:第一,针对关联规则的问题及现有分布式系统体系结构的特点,根据数据分布和通信模型的不同,提出了两种分布式挖掘关联规则的框架:同步挖掘和异步挖掘。第二,分析当前分布式拓扑结构的特点,提出了网状分布式拓扑结构下关联规则同步挖掘算法NDMA和星型分布式拓扑结构下关联规则异步挖掘算法SDMA算法。算法中用到的优化技术包括:基于哈希方法的候选集的划分和通信技术,候选集局部前缀树的构建和全局修剪技术,局部数据抽样技术及集成时的归纳学习和推导技术等,这些技术能产生较小的候选集,使候选集计数通信次数减为o(n),从而提高了算法效率,改善了内存使用情况。实验结果表明:NDMA算法在支持度较低时执行效率比同类算法FDM高60%以上。算法中用到的提高挖掘精度的技术包括:提出候选频繁模式集降低分布式挖掘漏计概率;提出负边界和动态缩减的支持度解决抽样导致挖掘精度不高的问题,定义了弃真和存伪两类错误来评估挖掘结果。实验结果表明:SDMA算法抽样率在25%就达到了弃真错误为1.6%,存伪错误为4.6%较高的挖掘精度。第三,针对现有分布式关联规则挖掘结果冗余的问题,设计了一个全新的分布式无冗余关联规则异步算法DGNRR。该算法摒弃了现存相关算法在分站点采用完全模式挖掘的方法,改用闭合模式挖掘。算法核心技术主要有定义了闭合模式传输格式和集成后的闭合模式格式,设计了根据源站点的不同的两套闭合模式集成规则,分析了无冗余关联规则的特点,在此基础上给出了从闭合模式产生无冗余关联规则的方法。最后在稀疏型,密集型和介于稀疏型与密集型之间的三个数据集上验证了算法的可行性。第四,设计了一个分布式数据挖掘原型系统DDMine。系统采用EJB(Enterprise JavaBeans)分布式组件技术,适合面向企业数据挖掘。在总结分布式数据挖掘系统时,提出了分布式关联规则算法设计的一般思路。