论文部分内容阅读
在DNA序列分析中计算机预测真核基因的启动子是最具挑战性的问题之一。由于转录是基因表达的第一步,对转录的调控必然成为表达调控的重要形式,而启动子是决定转录起始点和转录频率的关键元件,因此启动子的识别对整个基因组的功能的诠释具有重要作用。本文基于已知的启动子与非启动子序列数据,从序列的信息出发提出了两个不同的启动子预测方法。本文首先提出了一个称为KL-Boosting的启动子预测方法,它基于以下假设:启动子是由一些词模式决定的且不同的启动子由不同的词决定。通过计算散度距离选择最可能的特征并用feature-boosting构造一系列的弱分类器。一定数目的弱分类器可构造一强分类器,这样就可以达到一个较好的性能。和其它分类器不同的是,采用了不同的训练和分类策略。其次,本文提出了另外一个称作PWM-Boosting的启动子预测方法,它是基于以下假设:启动子不仅是由一些词模式决定的,而且也由这些词模式的位置所决定。通过检索序列的差异位置权重矩阵来寻找序列的特征,并调用开源计算机视觉库的Boosting算法来训练和测试的。采用了与KL-Boosting方法类似的训练与分类策略。通过对测试样本的测试显示,KL-Boosting方法的敏感性与特异性适中,且具有较好的稳定性。而PWM-Boosting方法的敏感性和稳定性不如KL-Boosting方法,但它的特异性很高。最后,对规模基因序列实验结果和四种较好的算法(Eponine,DFP,FirstEF以及PromoterInspector)进行比较,结果显示这两个算法在预测启动子区域是有效的具有较好的敏感性和特异性,而且均有各自的特点。