论文部分内容阅读
2013年2月在浙江省、上海市、江苏省、安徽省爆发的H7N9甲型流感病毒在全国范围的广泛传播,引起了人们的广泛关注。所谓甲型流感病毒(InfluenzaA virus),也称为A型流感病毒,该病毒主要存在于动物中,一旦变异会造成世界流感大流行;而去年这一H7N9新型病毒的流行,也使得世界卫生部将甲型流感病毒的研究提上议程。随着基因组计划的完成,我们所测得的甲型流感病毒感染者的序列数据越来越多,如何运用一种有效的数据分析工具来分析和处理这些大量和复杂的序列基因数据,已经成为甲型流感病毒乃至现代生物时代的一个重大挑战。在此情况下,将数据挖掘技术与生物信息学进行结合,便是一个最适合,也最有效的办法。根据对以往资料、数据的分析和研究,本文以甲型流感病毒H1N1,H3N2为例,进行基因序列二级专用数据库的构建,在对关系型数据库设计原则、概念设计、逻辑设计研究分析的基础上,提出相应的E-R图及关系表设计。该甲型流感病毒的数据主要来源于Genbank数据库中的基因序列,通过该数据库自带的检索工具Entrz来搜索我们所需要的序列数据,将检索得到的数据保存为XML格式,其目的是方便异构数据库数据的整合,在这里我们使用模板驱动映射,实现SQL数据与XML文档数据的映射。在以上工作的基础上,最终构成以genbank格式存储序列的本地二级基因病毒序列数据库。本文另一个重点研究的问题就是数据挖掘的关联规则对病毒基因数据频繁序列的挖掘。本文针对Apriori算法的致命缺点,提出基于生物序列频繁项目集的改进算法。该算法模型主要思想是使用多支持度的度量方法,涉及局部支持度、分布支持度和总体支持度,用这三种支持度分别衡量一个相应的序列模式在一个指定的序列中出现的频繁度,以及在一个指定的序列集的序列数中出现的频繁程度,和在整个序列集的序列模式中出现的频繁度。这样的序列频繁模式挖掘方法,能更好地适应序列保守序列和重复序列的挖掘,相比Apriori算法,其具有更强程度的专业型和特色性。