论文部分内容阅读
随着人类基因组计划的顺利完成和各种后基因组计划的开始实施,涌现出海量的生物分子数据。充分利用这些数据,揭示这些数据的内涵,得到对人类有用的生物信息,是科学家们所面临的一个严峻的挑战。虽然生物信息学中已经提出了大量有积极意义的方法,但目前大部分的方法还不能获得最优的模式、最准确的预测。
本文根据数据挖掘中的关联规则挖掘算法,提出了一种在支持度一匹配度框架下、挖掘基因DNA序列数据库中非公共的闭合频繁序列之间的关联规则的新型算法。本文使用了来自美国NCBI中RAK alpha和HBsAg基因数据,以实例的形式说明和分析了算法。分析表明,这种算法不仅可以准确、快速的找到所有的DNA序列模式,还可以更好的发现这些模式之间隐含在序列结构中的生物学信息。并且利用这种算法在基因DNA序列数据得到的规则,可以准确的预测新的基因DNA数据的种类和功能。