论文部分内容阅读
RNA的选择性剪接是在高等真核生物基因中普遍存在的一种生命现象,它在真核基因表达调控中起着十分重要的作用。有关选择性剪接的研究是功能基因组时代的重要前沿问题之一。本论文主要围绕选择性剪接事件的识别这一重要问题展开研究,主要包括下面三部分内容:首先,我们将隐马氏模型(HMM)方法用于剪接位点的识别中,很好地解决了基因预测过程中剪接位点定位不准确的问题。与已有的预测方法的比较表明,我们的方法在真实剪接位点近邻范围内的识别性能要优于现有方法。进一步,我们将该方法用于选择性剪接位点的识别,结果表明选择性剪接位点与组成性剪接位点在位点附近序列的统计特征上并没有本质的区别,这两类位点序列之间的差异随着位点剪接水平的变化而以一种渐变的方式体现出来。这一结果表明,选择性剪接位点的识别不应只考虑其位点自身的特征,还应考虑其它调控因素的影响。其次,我们将支持向量机(SVM)方法应用于选择性剪接事件的识别。我们从选择性剪接的生物机理出发,研究了选择性剪接位点之间的竞争机制,并将这一机制引入到识别选择性剪接位点的研究中,较好的解决了基于基因组序列识别选择性剪接位点的问题。和已有方法的比较表明,我们的方法比单纯依靠位点自身特征的识别方法的识别性能有很大提高。同时,所得结果还可以为相关生物实验的设计及进一步研究选择性剪接的生物机理提供线索。此外,我们还通过分析内含子保留事件中保留的内含子的序列特征,提出了基于序列识别这类内含子的方法,也取得了较好的结果。这些结果表明,对选择性剪接事件的生物机理的认识可以帮助我们提取出有效的识别分类特征。最后,根据以上结果,并结合其它生物序列识别问题的研究成果,我们为开展生物序列的识别研究提供了一个思路,即从待研究的问题的生物机理出发进行特征提取。解决模式识别问题的关键就在于从待识别的问题自身出发寻找能够反映类别信息本质的特征,对于我们所进行的生物信息学的研究而言,待研究问题的生物背景、生物机理即是这个出发点。