论文部分内容阅读
随着人类基因组计划的完成,大量的基因表达数据被人们发掘出来,如何通过对基因表达数据的挖掘,揭示出数据中所蕴含的生物学信息,已经成为数据挖掘中和生物信息学研究中的热点内容。 但由于基因表达数据具有不同于传统数据集的高维、低样本的特点,使得对生物信息的挖掘具有很大的挑战性。其中由于关联规则的形式简单而且容易理解,已经成为了基因表达数据分析中的重要方法之一。频繁闭合项集挖掘则在关联规则挖掘占据了重要的地位。 本文在研究已有的基因表达数据的频繁闭合项集挖掘算法的基础上,针对当前算法中存在的一些不足,提出改进算法,主要工作如下: 1)对已有频繁项集和频繁闭合项集挖掘算法进行深入研究。分析现有算法的优缺点,重点研究了基因表达数据频繁闭合项集挖掘算法。 2)本文研究了基因表达数据中挖掘top-k频繁闭合项集问题,并设计了挖掘算法ZDtop。算法使用ZBDD结构压缩存储数据集,采用递归的思想构造ZBDD结构,通过是否包含某个特定的项目集对搜索空间进行划分,并结合有效的剪枝策略,加快了频繁闭合项集的产生速度。同时ZDtop算法不需要用户事先给定支持度阈值,使输出的频繁闭合项集的数量在用户的可控制范围内。通过实例分析,证明了该算法正确有效性。 3)在对经典频繁项集并行算法的研究分析后,提出了基于局部 ZBDD结构的频繁闭合项集并行挖掘算法 DL-ZBDD,通过在各处理机上构造局部 ZBDD结构,并行使用串行ZBDD算法在各处理机上进行挖掘。理论分析表明,算法是正确有效的。