论文部分内容阅读
生物信息学是一门新兴的交叉学科,它综合了计算机、数学、信息学等各个领域的知识来进行分子生物学的研究。生物信息学在近十几年的飞速发展极大地推动了生物学的研究,同时也给其他相关领域提供了一系列的理论问题。调控模体预测问题是生物信息学领域的一个根本问题,也是一个富有挑战性的难题。本文主要研究的问题是利用组合算法来解决原核生物中的调控模体预测问题。在基因实现其生物功能的过程中,转录既是DNA翻译成蛋白质的关键一步,同时也是调控基因表达的关键阶段,转录调控通常是在转录起始步骤通过调控蛋白(转录因子)识别并结合到调控基因上游区域中的一段特定DNA序列(转录因子结合位点或调控模体)来实现的。准确地预测生物基因组调控区域的调控模体,将有助于进一步研究转录因子的自身性质的和构建转录调控网络,并且在疾病研究和制药方面有着十分重要的应用。在这篇论文中,我们首先设计了刻画和评价模体的新模型,在这个模型的基础上给出了一个模体预测的组合算法。现存的模体预测算法往往对每个预测出的模体进行孤立地评分。我们的算法首先提出了模体闭包这个新概念,然后基于这个概念在每一组相似的模体集合上,给出一个类似于p值的新的评分算法。这个算法可以应用于具有不同长度、或者含有不同模体数目的候选模体集合之间的比较。我们设计的新概念和新方法结合在一起提供了一个刻画和评价模体集合的理想模型。基于这个模型,我们开发了模体预测软件MREC,并且利用模拟数据和生物数据做了相应的测试实验。实验结果证明MREC通常能在输入的序列集合中把正确的模体预测出来,并且能给出比较准确的模体长度。通过跟其他两个模体预测软件Cosmo和MEME的预测结果相比较,我们发现我们的模体预测软件MREC在预测模体的准确率上面有了很大的提高。另外,在MREC的网站(http://csbl.bmb.uga.edu/-bingqiang/MREC1/)上,我们提供了可以在linux平台上运行的程序、相关的说明文档以及实验结果的分析。继MREC之后,我们开发了全新的模体预测软件BOBRO。它可以对任意给定的启动子序列集合来预测转录调控模体。BOBRO极大地改进了模体预测的准确率并且扩展了软件的应用范围。其改进主要体现于如下两个方面:1)我们设计了一个新的高效模体信号挖掘组合算法。它主要通过三次序列的两两比对来积聚相似模体之间的相互支持,使大多数的模体在起始位置附近得到一个较高的分值。接下来,在由高分值的位点以及他们之间的相互关系构成的稀疏图中,我们运用寻找极大团的算法来构建初始的种子模体集合。2)从种子集合出发,我们改进了MREC中模体闭包的构造方法,行成了包含扩展种子、优化模体集合和评价最终模体集合等步骤的新算法。在一系列大肠杆菌K12共调控数据上,我们比较了BOBRO和其他五个常用的模体预测软件的预测结果,实验结果证明与其他所有软件相比,BOBRO至少提高了42%的模体预测准确率。另一组实验结果表明,结合系统发生足迹的信息,BOBRO在整个大肠杆菌K12基因组上成功预测了1472个已经通过生物实验证实了的转录调控模体。我们的预测软件BOBRO还具有一些其他方面的优点,比如不需要用户输入所求模体长度、能够同时预测一个输入序列中的多个模体集合等等。我们用C语言在Linux上实现了这个算法,在网页(http://csbl.bmb.uga.edu/-maqin/motif_finding/)上,我们提供了BOBRO软件的下载和其他相关的数据和信息。