论文部分内容阅读
生物信息学是融合了计算机科学和生命科学形成的一门新兴交叉学科。生物信息学不仅成为了生物医学研究的基础学科,也成为了信息科学研究最为活跃的领域之一。基因表达调控是分子生物学研究的核心问题之一。基因剪接是基因表达过程中连接转录和翻译的中枢步骤。DNA通过转录得到前体RNA,前体RNA剪接后得到成熟RNA序列,根据成熟RNA序列编码蛋白质产物。研究基因剪接和剪接机制,能够为我们更深入了解基因表达提供重要证据,目前已成为生物信息学研究的一个重要方向。分子生物学理论研究表明影响剪接的核心顺式调控元件之一是剪接位点。医学工作者研究也表明多种人类疾病致病机理均和剪接位点突变有关联。所以,正确识别基因中存在的剪接位点是研究剪接机制和剪接位点突变的前提,并能为致病机制的研究提供依据和指导。围绕这个难题,本文通过挖掘剪接位点序列中蕴含的序列特征,融合PSSM(Position-Specific Scoring Matrix,位置特异分值矩阵)算法,提出了一个基于序列模式挖掘模型,可以实现对剪接位点信号强度的定量度量,进而识别剪接位点。基因剪接机制是多种不同顺式元件和蛋白质之间相互影响而进行的组合调控。为了更深入、更全面的研究剪接机制,我们在序列模式挖掘模型的基础上,进一步对剪接位点组合调控机制进行了研究。本文主要研究工作和创新之处如下:(1)提出一个能够定量分析剪接位点序列的模型。根据基因序列本身包含的丰富分类信息和保守型特征,本文应用频繁模式挖掘理论和算法融合PSSM算法,提出序列模式挖掘模型。通过该模型,挖掘出剪接位点序列中蕴含的碱基相关性,分别计算出供体剪接位点位点、受体剪接位点和致病基因突变剪接位点信号强度值,从而进行识别和分类。实验数据均按照生物理论,从UCSC数据库中的人类全基因序列抽取。通过对该模型的实验验证,可有效区分真、假剪接位点和识别致病剪接位点突变。并且其识别结果不仅优于最大信息熵模型,且本身具有良好鲁棒性。(2)剪接位点组合调控研究。剪接位点序列存在保守型(剪接位点上下游单聚体、二聚体、三聚体组成具有强相关性)是能够有效识别剪接位点的最大依据,现今的识别算法和模型也都是基于抽取的序列保守特征信息来构造分类器。但是,在基因剪接过程中,剪接位点、分支位点和剪接调控元件三种顺式序列以及不同的蛋白质均可以对剪接产生调控作用。并且,每一个内含子序列两端的5’端和3’端剪接位点本身也相互存在影响。研究不同剪接信号的相互作用和补偿机制,可以为提高剪接位点识别效果和深入研究剪接机制提供思路和证据。本文基于序列模式挖掘模型设计实验,对同一内含子5’端和3’端剪接位点信号强度进行量化,得出5’端剪接位点信号强度越大,3’端剪接位点就具有更多的选择,反之则不能的结论,阐明了两种不同剪接位点信号之间存在的关系。并进一步统计强弱5’端、3’端剪接位点延长序列上的四类剪接调控元件分布密度,得出剪接调控元件与剪接位点之间也存在相互补偿机制的证据。