论文部分内容阅读
基因转录是遗传信息传递和表达的枢纽,是基因表达调控机制发挥作用的重要环节。转录过程的开启与否首先受到启动子、顺式调控元件、RNA聚合酶和相应转录因子特异性作用的控制,因此识别调控元件是理解基因转录调控机制和表达模式的的关键。传统上是通过生物学实验方法来测定调控元件的,随着计算机技术的飞速发展,科学家们逐渐用计算机模拟来指导实验的设计,以减少实验过程中的尝试性工作。从序列来预测调控元件是基于这样的假设:由于长期进化的结果,受相同调控机制作用的基因(共调控基因)包含相对保守的启动子和调控元件,正是这种保守性使从序列来预测调控元件成为可能。 模体(motif)的定义是指比较短的具有保守性和连续性并且可能具有某种潜在的生物学意义的一段核酸或蛋白序列。为了简化模型,通常基因调控元件识别使用基因转录水平上的简化调控模型,忽略远程作用。共调控的基因很可能在启动子区域共享模体。这样转录水平基因调控元件的识别问题就转化为从一组已知的共调控基因上游启动子区域中寻找共同的模体。 在本文中,首先分析了当前流行的模体查找算法的总体情况和大体分类,并且指出了算法的主要缺陷和发展方向。然后结合吉布斯采样的基本原理,提出一种基于统计分析改进的吉布斯采样算法来改进模体查找的方法。该方法引入了模体库的概念,采用统计分析的方法,有效地改进了吉布斯采样的局部收敛的缺陷,并且提高了模体查找的命中度。和当前的流行算法相比,本文提出的算法在双模体模式的查找方面有比较明显的改进。 本文还分析了当前流行的马尔科夫链(Markov)背景模型用来减少噪声的改进方法,根据背景模型的基本原理提出了一种新的编码方法,该方法对碱基数据采用模拟4进制编码,可以有效管理2至4个连续碱基的概率统计数据。本文还提出了记分函数因子(Scoring Factor)的概念,有效地减少了数值计算中的误差放大问题,通过对一组有生物学意义的数据应用该算法,结果显示该算法有较好的精确度。