论文部分内容阅读
在分子生物学中,基因序列决定生物分子的结构,结构又决定生物分子的功能。通过比较生物的基因序列,可以发现它们在功能上的相似性和差异性。真核生物具有复杂多变的结构和表达调控方式,其基因组的规模远大于原核生物基因组。对DNA序列进行分析,从序列中找出与基因表达调控相关的信息,是生物信息学研究的一个重要内容。基因启动子序列中蕴藏着许多基因转录调控的信息,掌握这些信息有助于了解和认识基因转录调控的规律和机制。本文以高表达和低表达水平的果蝇胚胎基因启动子序列为研究对象,对它们的序列结构差异性进行了分析,并对其中的转录因子结合位点与基因表达水平的相关性进行了探索。 Van Helden认为模体(转录因子结合位点)在基因序列上的出现服从泊松分布,本文通过泊松分布来度量每个模体出现的概率,并计算出高低表达水平的果蝇胚胎基因启动子序列的差异性得分,又分别计算出与自身的差异性得分,从而比较不同表达水平的启动子序列的差异。结果发现高表达水平的果蝇胚胎基因启动子序列与低表达水平的差异性得分较高,而各组自身的差异性得分较低,相似性得分较高。在理论上证实了两种表达水平基因的启动子序列的组织有明显差异性。 其次,本文基于马尔可夫链模型与超几何分布相结合的方法,分别从高低表达水平的果蝇胚胎基因启动子序列的两组样本中提取出过表达模体(亦即潜在的转录调控模体),结果发现这两组序列的调控模体与实验得到的转录因子结合位点匹配率分别达到92.9%(高)和91.8%(低)。分析不同表达水平基因的潜在调控模体的碱基使用特征,发现都偏向于AT rich模体或CG rich模体。又对两组表达水平基因的特有模体在上游、外显子、内含子三个区域的分布情况进行分析,发现它们在高表达水平基因中更偏好内含子区域,说明对于高表达基因来说,在内含子区域中分布着较多的具有增强子作用的转录调控元件,使得基因的表达水平得以提高。从模体的使用情况、模体碱基的偏好、模体分布区域等方面来看,高、低表达水平的果蝇胚胎基因启动子序列是有显著差异的。