论文部分内容阅读
生物信息学起步于20世纪90年代,是一门新兴的交叉学科.先进的测序技术使得各种生物的基因以及蛋白质序列被大量测出,为生物信息学的研究带来了方便,但与此同时,也产生了海量的生物学数据,为我们如何分析处理这些数据带来了挑战. 基因的表达调控是一个十分复杂的生物过程,基因调控网络模型的构建也是生物信息学研究的重点与难点.原核生物的表达调控是通过RNA聚合酶与调控因子之间相互作用进行的,调控因子与DNA序列上特定的片段结合,从而调控基因的表达,这些特定的片段通常都具有一定的保守性,我们称之为调控模体.调控模体尤其是转录因子结合位点的准确预测是建立准确的调控网络模型的关键所在,本文中主要对原核生物调控模体进行预测分析. 在本篇论文中,首先介绍了调控模体预测问题的研究背景和生物学意义,然后对已存在的调控模体预测算法进行了简要的介绍与分析.在此基础上,我们构造一个无向加权图,并设计了一种新的基于图理论的调控模体预测算法MDS,MDS算法主要包含搜索极大团、加点合并、细化三个过程.然后通过结合regulonDB数据库中真实数据与BOBRO,MEME,MotifClick调控模体预测算法进行比较分析可知,MDS算法能够快速地识别调控模体序列同时能够保证了预测结果具有一定的准确性,是一个好的算法. 本文的创新点在于:设计了一种新的基于图理论的调控模体预测算法MDS,该算法中给出的极大团搜索的方法以及加点合并原则可以得到较多包含真实模体实例的子序列,同时又能减少了一些极大团的重复搜索,能够在保证最终预测结果的准确性的同时降低调控模体的预测时间.