论文部分内容阅读
内含子序列是一类很特别的ncRNA转录本,它随着基因一起转录,转录共剪接形成成熟mRNA后,内含子就与mRNA脱离。按照对ncRNA生物功能的理解,剪切后的内含子肯定还承担了它们应有的生物功能。最新研究表明除内含子缺失/获得能影响到mRNA新陈代谢的很多阶段外,剪切后内含子能促进逆境下细胞生存。本文在前期工作的基础上,以秀丽隐杆线虫(C.elegans)基因组全部编码基因序列为研究对象,采用了改进后的Smith-Waterman局域比对方法,结合自由能加权局域比对方法和新对称相对熵局域进化关联方法分别表征内含子序列与mRNA序列之间相互作用关系,研究了相互作用片段的序列特征和在mRNA序列上及功能位点区域的偏好分布规律。以黑腹果蝇Ⅰ号染色体上的编码基因为样本,做了类似的分析。期望揭示内含子与mRNA之间的相互作用规律。主要研究结果如下:1.基于改进后的Smith-Waterman局域比对方法,获得内含子序列和相应成熟mRNA序列之间的最佳匹配片段(SW方法),得到mRNA序列上相对匹配频率(RF)的分布。发现mRNA序列上匹配频率分布具有明显的偏好性,两端的UTR区域呈现出强的偏好区域,特别是3’UTR的强偏好极其显著。将内含子按照长度分类后,发现短内含子偏好作用在5’UTR区域和CDS区域,长内含子偏好作用在3’UTR区域。内含子更加偏好作用在外显子连接位点上游区域,短内含子的作用差异更加明显。最佳匹配片段的配对率主要集中在6080%范围内,最佳匹配片段的长度主要分布在2030bp范围内。这表明,内含子序列与其相应mRNA的相互作用是一类弱RNA-RNA相互作用。另外,还发现存在极少量的配对率为100%的最佳匹配片段,但这些片段的长度不超过14bp。说明内含子与mRNA序列协同进化过程中,有意避开了RNA干涉模式,采取了类似于miRNA的调节模式。从这一点可以印证内含子与mRNA之间存在的相互作用是客观存在的。另外,我们又探讨了其它基因的内含子序列与mRNA序列之间的局域比对,发现在mRNA序列上的5’UTR和3’UTR区域仍存在匹配偏好,但匹配强度明显低于基因内部内含子和相应mRNA的相互作用,说明mRNA序列与其它基因内含子的相互作用是存在的。2.采用结合自由能加权局域比对方法(BFE方法)获得剪切后内含子与其相应mRNA序列之间的最佳匹配片段和mRNA上及功能位点附近的相对匹配频率分布。研究表明,采用BFE方法得到mRNA序列上的相对匹配频率分布与SW方法得到的分布规律相似,但在5’UTR区域和3’UTR区域的相互作用强度比SW方法中的要弱些。在外显子连接区域,相对匹配频率分布与SW方法中的结果相似。长内含子和短内含子在mRNA序列上和在5个功能位点区域的作用形式与SW方法中的结果一致。最佳匹配片段的配对率和长度分布形状与SW方法中的结果基本一致,但不同的是最佳匹配片段的长度普遍变长。SW方法中的最可几长度是23bp,在BFE方法中最可几长度增加到36bp。最佳匹配片段G+C含量的分布范围仍然很广,但与SW方法相比,G+C含量普遍变高。SW方法中的最可几G+C含量是0.2,在BFE方法中最可几G+C含量增加到0.25。最佳匹配片段的碱基关联仍然很强,但略低于SW方法中的D2值。再次表明最佳匹配片段是一类特殊的序列片段,具有很高的结构组织性或具有很强的序结构。3.用新对称相对熵局域进化关联比对方法(NSRE方法)获得内含子与其相应mRNA序列之间的最佳进化关联片段和mRNA上及功能位点附近的相对进化关联频率分布。结果显示,相对进化关联频率在mRNA两端仍出现明显的偏好分布,但在5’端的相互作用强度要明显高于SW方法和BFE方法中5’端的相互作用强度,3’端的相互作用强度要低于其它两种方法的结果。另外,强的偏好分布区域与其它两种方法得到的偏好区域不同。在AUG区域,显著的强相互作用分布出现在SW方法和BFE方法中5’UTR区域相对匹配频率偏好区域的上游。在UAA区域,显著的强相互作用分布更加靠近UAA位点,也在UAA区域相对匹配频率偏好分布的前端。结果显示,碱基匹配是内含子与mRNA序列之间相互作用的一种形式,片段的进化关联应该是另外一种关联模式。在三类外显子连接区域上相对进化关联频率分布与SW方法和BFE方法在这些区域上的分布相近。但在连接点下游,三个外显子连接区域均出现了极小值分布。而在SW方法和BFE方法中,中间外显子连接区域连接点下游则没有明显的极小值分布。最佳进化关联片段的长度分布具有明显的特征,它的分布保守性相对特别强,大多数最佳进化关联片段的长度在16 bp左右,这一点与SW方法和BFE方法中的长度分布不一样。最佳进化关联片段的G+C含量分布与BFE方法中最佳匹配片段G+C含量分布相近,G+C含量明显高于SW方法中相应的结果。但是最佳进化关联片段的碱基关联强度(D2值)与其它类型的序列相近,没有显示出强关联特征。这些结果暗示这类相互作用模式(进化关联)以短片段为主,其序列的序结构没有特殊性。4.以黑腹果蝇Ⅰ号染色体蛋白质编码基因为分析样本,采用局域碱基匹配的方式来表征内含子序列与其相应mRNA序列之间的相互作用,得到所有最佳匹配片段和mRNA序列上相对匹配频率分布。结果显示,mRNA序列上相对匹配频率分布与线虫mRNA上的结果相似。但在5’UTR区域,相对匹配频率分布偏好明显高于线虫在5’UTR区域的偏好。在3’UTR区域,两者的偏好程度几乎一样,但果蝇的峰值分布距离UAA位点更远一些。最佳匹配片段的配对率和长度分布与线虫的结果基本相同。内含子上最佳匹配片段的G+C含量分布与线虫的结果类似,但果蝇最佳匹配片段的G+C含量普遍比线虫的要高,其最可几G+C含量比线虫的高了约0.1。线虫基因中5’UTR和CDS的G+C含量分布几乎相同,而果蝇基因中5’UTR的G+C含量分布明显低于CDS的G+C含量。我们认为正是这一差异,造成了在mRNA序列5’端果蝇的相对匹配频率偏好明显高于线虫的现象。总之,在线虫和果蝇编码基因上,内含子和成熟mRNA之间存在相互作用关系,在mRNA上相互作用的分布显示出基本一致的内在规律性。最佳匹配片段的序列特征显示出它们是一类特有的功能片段,与miRNA类似。基于SW方法和BFE方法得到的相互作用模式与基于NSRE方法得到的模式不同,显示出mRNA和内含子之间至少存在两种相互作用模式,它们应该同时发挥相应的生物功能。我们认为,内含子序列与mRNA序列之间存在的相互作用是生命演化过程中不同类型序列之间协作进化的结果,是一种发挥协作功能的积极适应性策略,反映了功能约束下的生物进化机制。