论文部分内容阅读
转录起始位点(Transcription Starc Sites,TSS)的预测问题之所以受到关注主要是因为转录是基因表达的第一步,而转录起始又是整个转录过程的第一步。为了开启转录,在TSS附近分布着许多转录因子结合位点,目前,对这些模体的研究大多以翻译起始位点作为参照,而若以TSS为参照将有助于更好的掌握转录调控的机制。为了探索TSS的潜在位置,本文通过不同的样本和方法对酵母基因Tss附近的序列进行统计分析并预测其潜在位置。
首先,以Zhang和Dietrich利用SAGE方法预测了的包含转录起始位点的2000多个酵母基因序列为基础,根据序列的位置信息量,引入了动态最优化原理来构建样本,并把样本分为核糖体蛋白基因(RP基因)和非核糖体蛋白基因(非RP基因)来进行研究。再根据TSS附近区域的序列信号和保守性等统计特征,使用位置特异性得分矩阵(PSSM)混合、一阶马尔可夫模型和二次判别方法三种模型预测酵母基因的TSS。
结果表明:用以上三种模型对酵母基因的TSS进行预测,70%以上的基因序列能预测到至少一个与实验相符的潜在TSS。从模型预测能力来看,在对RP基因的TSS进行预测时,PSSM混合模型的敏感性、特异性均高于一阶马尔可夫模型,而对非RP基因,一阶马尔可夫模型高于PSSM混合模型,对于二次判别方法,其考虑的序列信息多于PSSM混合和一阶马尔可夫模型;从样本上看,用动态最优化原理选取的TSS所组成的样本构建的模型的预测能力优于使用tag数最多的位置对应的TSS所组成的传统样本;从基因类型上看,对RP基因的预测结果优于非RP基因,这些结果将有助于预测酵母基因的TSS位置的深入研究。