论文部分内容阅读
随着RNA分子越来越多种类和功能的发现,人们对RNA的理解正在逐步发生变化,开始以一种全新的观念重新认识RNA分子在生物体内所起的重要作用。但一般来讲,这种重新认识的焦点主要集中在所谓的功能RNA分子。这类非编码RNA分子要实现其多样化的功能,必须要形成复杂的三维结构。
相比之下,有关mRNA折叠的研究还很有限。造成这种状况的一个主要原因是,mRNA在体内总是与多种蛋白质紧密地结合成复合体,裸露的mRNA很容易降解,使得mRNA的提取、纯化和结晶在目前的实验条件和实验水平下很难完成。迄今为止,除极有限的mRNA折叠结构元素——发夹被报道,还没有任何一个全长的成熟mRNA的三维结构被测定。此外,已有的实验结果表明,mRNA的折叠结构在体内是确实存在的,并且这种折叠结构在与蛋白质和其他的RNA分子的相互作用中可能起着重要作用。因此,人们一直试图通过理论方法预测RNA结构。目前直接针对RNA三级结构的理论预测,进展都不是很顺利,是当前结构预测的难点所在。然而,针对RNA二级结构预测的方法经过30多年的发展,已渐渐趋向成熟。但是,不管采用何种算法的预测软件,针对给定的一个mRNA核苷酸序列,最终仅仅给出一个孤立的二级结构。无法就此判断预测结构的可信度。
为了对mRNA的折叠过程进行更为合理的仿真模拟,本文从理论分析的角度,对成熟的mRNA序列基于穷举折叠序列路径的思想,采用RNAstructure软件预测其结构,若一个发夹,只要在含有其序列的任意一种路径中都能稳定存在,就称为“保守mRNA发夹结构”(CmRNAhs)。
本文对两个样本(1AA6和1LCF)的核苷酸序列,采用了“-3(3+3)”序列取样法,来穷举折叠序列路径。具体做法是对一条mRNA样本的全长序列,先每次从5去掉3个核苷酸得到一系列SS,并以它们所含的核苷酸数来标识。而后对每个SS,以从3个核苷酸(1-3nt)起始,每次增加3个(1-6,1-9,1-12,……)直到每个SS的全序列长度,一一进行折叠。接着计算了折叠结构中每个发夹在含有其序列的所有SS中每一个SS,这个发夹的核苷酸序列形成发夹的频率(F)。对“CmRNAhs”的判定,采用了“0.9+0.9”,即:此发夹在所有具有此段序列的SS中,其F∈[0.9,1]的个数占具有此段序列的SS总数的90%或以上。此外,对于F值绝大部分处于[0.9,1]和[0.6,0.9)之间的发夹,称为“振荡发夹”。除这两类以外的发夹,统称为“其它发夹”。
分析结果表明,“CmRNAhs”比“振荡发夹”和“其它发夹”在统计学上具有更高的可信度,更接近于体内真实存在的发夹;此外,“CmRNAhs”与“振荡发夹”和“其它发夹”相比是低能量的、稳定的发夹。本文推测,“CmRNAhs”可能影响到mRNA在翻译过程的解链,以及与核糖体的相互作用和与tRNA的识别和定位,并由此对基因表达的翻译调控产生重要作用影响。
此外,通过将“CmRNAhs”和“振荡发夹”的序列截取一段插入随机序列中,来测试发夹序列形成发夹的实验。得知“CmRNAhs”和“振荡发夹”所表现的发夹的稳定性,不仅与此段发夹的序列有关,而且也受到相邻序列(即邻近相互作用),甚至远程序列的影响,但以发夹序列自身的特性占主导地位。
最后,通过对1AA6核苷酸的1-999nt做单点突变,得到2997个突变序列,根据密码子表中的简并度,将这2997个突变序列分为三类:含有终止密码子的序列(STOP);不包括STOP的非同义突变的序列(NOT);同义突变的序列(SYNO)。接着预测其二级结构,然后计算每类的平均结构(平均结构即在每类序列中,某个位点出现频率最高的结构)。通过分析三类发夹及所有突变序列(2997个)的平均结构,发现其平均结构完全相同,但频率值有差异。然后将平均结构中的发夹按照穷举折叠序列路径模型中发夹的类型进行分析发现,除“小于8”的发夹,因使用模型的缺陷无法了解其性质外;其余三类,“CmRNAhs”保守度最高,近乎100%;其次保守的是“振荡发夹”;而“其它发夹”的保守度最低。