分布式关联规则挖掘若干算法研究与实现

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:wblovell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来和计算机网络技术的飞速发展,分布式环境日益普遍,而传统的集中式数据挖掘技术无法解决分布式下的挖掘问题,故在分布式下如何进行有效的数据挖掘成为当今人工智能研究领域一个热门课题。关联规则是数据挖掘研究领域的一个重要问题,目前所面临的最大挑战是计算效率,内存和结果冗余问题。解决的途径之一是开发高效的分布式算法。因此本文从分布式的角度出发,针对关联规则挖掘理论和方法进行了深入研究,提出了若干高效的分布式关联规则挖掘算法。具体研究内容如下:第一,针对关联规则的问题及现有分布式系统体系结构的特点,根据数据分布和通信模型的不同,提出了两种分布式挖掘关联规则的框架:同步挖掘和异步挖掘。第二,分析当前分布式拓扑结构的特点,提出了网状分布式拓扑结构下关联规则同步挖掘算法NDMA和星型分布式拓扑结构下关联规则异步挖掘算法SDMA算法。算法中用到的优化技术包括:基于哈希方法的候选集的划分和通信技术,候选集局部前缀树的构建和全局修剪技术,局部数据抽样技术及集成时的归纳学习和推导技术等,这些技术能产生较小的候选集,使候选集计数通信次数减为o(n),从而提高了算法效率,改善了内存使用情况。实验结果表明:NDMA算法在支持度较低时执行效率比同类算法FDM高60%以上。算法中用到的提高挖掘精度的技术包括:提出候选频繁模式集降低分布式挖掘漏计概率;提出负边界和动态缩减的支持度解决抽样导致挖掘精度不高的问题,定义了弃真和存伪两类错误来评估挖掘结果。实验结果表明:SDMA算法抽样率在25%就达到了弃真错误为1.6%,存伪错误为4.6%较高的挖掘精度。第三,针对现有分布式关联规则挖掘结果冗余的问题,设计了一个全新的分布式无冗余关联规则异步算法DGNRR。该算法摒弃了现存相关算法在分站点采用完全模式挖掘的方法,改用闭合模式挖掘。算法核心技术主要有定义了闭合模式传输格式和集成后的闭合模式格式,设计了根据源站点的不同的两套闭合模式集成规则,分析了无冗余关联规则的特点,在此基础上给出了从闭合模式产生无冗余关联规则的方法。最后在稀疏型,密集型和介于稀疏型与密集型之间的三个数据集上验证了算法的可行性。第四,设计了一个分布式数据挖掘原型系统DDMine。系统采用EJB(Enterprise JavaBeans)分布式组件技术,适合面向企业数据挖掘。在总结分布式数据挖掘系统时,提出了分布式关联规则算法设计的一般思路。
其他文献
现有的BPEL流程可视化设计工具缺乏Web服务数据类型分析的能力,需要人工判断Web服务间的数据类型是否匹配,从而确定Web服务间的流程顺序。基于Web服务描述信息结构的匹配技术
现有的软件规模越来越庞大,形态越来越复杂。随着Internet的普及以及构件、中间件和Web Services等技术的迅速发展与应用,使Web应用渗透到国计民生的各个领域,所以对Web应用的测
网络的拓扑结构是计算机网络的重要特征之一。拓扑发现就是发现网络元素并确定网络元素之间的物理或逻辑连接关系,确定网络的拓扑结构,包括互连设备如路由器、网桥、交换机、
随着网络的普及,网络蠕虫的快速传播成为网络系统安全的重要威胁。蠕虫通常使用网络扫描功能来探测远程或本地主机的信息,这种异常扫描是网络蠕虫传播的前提条件。针对免疫学
近些年很多文章致力于融合各种细分方法,有三角网格四边网格细分的融合,有点分裂型细分面分裂型细分的融合等等,然而仍然没有一种统一的形式来表示插值型细分和逼近型细分的融合
数字校园是指利用多媒体、网络等信息技术,将学校的主要信息资源数字化,并实现数字化的信息管理方式和沟通传播方式,从而形成高度信息化的人才培养环境和科研环境。数字校园
基于群签名的安全数据访问技术,是一种以群签名体制为身份验证手段,可实现用户以匿名方式访问数据,同时可验证用户有效身份的安全数据访问技术。本文以Ateniese等人提出的ACJ
随着对外交流,引进先进技术的增加,人们接触专利文献的机会越来越多。从事科技翻译的人员经常要遇到专利文献的翻译问题。而术语翻译尤其是专利文献翻译的一个重要部分。近年
现有基于Petri网、Agent等技术的多媒体同步模型,均使用单一的同步尺度,难以解决流内同步和流间同步的矛盾。选择对象粒度太小,有利于保持流间同步,但会破坏流内同步,即造成
学位