基于ZBDD结构的频繁闭合项集挖掘算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:Coolbear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的完成,大量的基因表达数据被人们发掘出来,如何通过对基因表达数据的挖掘,揭示出数据中所蕴含的生物学信息,已经成为数据挖掘中和生物信息学研究中的热点内容。  但由于基因表达数据具有不同于传统数据集的高维、低样本的特点,使得对生物信息的挖掘具有很大的挑战性。其中由于关联规则的形式简单而且容易理解,已经成为了基因表达数据分析中的重要方法之一。频繁闭合项集挖掘则在关联规则挖掘占据了重要的地位。  本文在研究已有的基因表达数据的频繁闭合项集挖掘算法的基础上,针对当前算法中存在的一些不足,提出改进算法,主要工作如下:  1)对已有频繁项集和频繁闭合项集挖掘算法进行深入研究。分析现有算法的优缺点,重点研究了基因表达数据频繁闭合项集挖掘算法。  2)本文研究了基因表达数据中挖掘top-k频繁闭合项集问题,并设计了挖掘算法ZDtop。算法使用ZBDD结构压缩存储数据集,采用递归的思想构造ZBDD结构,通过是否包含某个特定的项目集对搜索空间进行划分,并结合有效的剪枝策略,加快了频繁闭合项集的产生速度。同时ZDtop算法不需要用户事先给定支持度阈值,使输出的频繁闭合项集的数量在用户的可控制范围内。通过实例分析,证明了该算法正确有效性。  3)在对经典频繁项集并行算法的研究分析后,提出了基于局部 ZBDD结构的频繁闭合项集并行挖掘算法 DL-ZBDD,通过在各处理机上构造局部 ZBDD结构,并行使用串行ZBDD算法在各处理机上进行挖掘。理论分析表明,算法是正确有效的。
其他文献
随着分布式网络服务的广泛应用,网络安全问题日益突出,传统的安全技术不能适应网络发展的新趋势。信任管理提供的软安全技术被认为是解决网络安全问题的有效补充手段。然而,