论文部分内容阅读
高等生物多达一半以上的DNA转录为RNA,其中绝大多数为非编码RNA(Non-coding RNA,ncRNA),这些RNA不翻译成蛋白质,在RNA水平上就能行使各自的生物学功能。虽然现在非编码RNA越来越受到重视,但是大部分已知的非编码RNA的序列较短,结构不稳定,很难检测出其二级结构,而二级结构决定了非编码RNA在细胞中的功能,因此需要一个专门的算法来预测其二级结构,以便更好的研究结构与功能的关系。在检测RNA的所有的探针中,单链区的RNA常被选择作为目标序列,然而,一些功能RNAs是高度结构化的。因此需要能够检测结构化RNA的方法,以便实时定量和检测其功能。为此,本文针对非编码RNA的二级结构预测与结构化RNA的检测进行研究。(1)基于反向互补折叠方法预测小非编码RNA二级结构。小非编码RNA是现在研究的比较成熟的一种RNA,特别是microRNA。虽然小RNA的序列较短,结构不稳定,但是每种小RNA的结构都具有一定的保守性。而现有的预测RNA的算法基本都没有考虑小RNA的结构特点。针对这些问题,我们对预测小非编码RNA的二级结构的方法进行改进,提出了反向互补折叠方法预测小非编码RNA二级结构。首先根据小非编码RNA(特别是pre-microRNA)二级结构中没有多分支环的情况,取消多分支环的计算;然后在建立配对数矩阵的同时建立二进制路径矩阵,在路径矩阵中回溯可以避免形成多分支环和自折叠的情况;最后,将自由能加入预测到的所有二级结构中,找到其中自由能最小的结构就是本文方法预测的结构。以敏感性、特异性和MCC值作为评估标准,使用pre-microRNA数据和PDB数据库中的数据作为测试数据,与RNAfold和RNAstructure方法比较,本文的方法预测的准确度更高。(2)基于替换茎区的方法预测非编码RNA二级结构。RNA的二级结构可看作是茎区与环区的组合,从茎区池中选择出合适的且相容的茎区组合就可以完成结构预测,每个茎区前后之间的连接处就是二级结构中的环区。基于上述理论,本文提出了基于替换茎区的方法预测非编码RNA二级结构--RSRNA。该算法以创建茎区池之后,让茎区以一定的规律进行排序,使得计算过程中,只需要进行局部搜索就可以找到最佳茎区;然后以新的方法计算茎区相容性,以相容的茎区组合成二级结构,并计算自由能;多个结构的自由能比较之后,选择茎区;以此茎区作为固定结构不在变化,其余的茎区全部重新选择;重复以上所有的步骤,预测第二个茎区以及所有的茎区,直到预测的结构与所有的茎区都不相容,最终可以预测到RNA的二级结构。这种方法可以很好的兼容RNA二级结构中的嵌套结构,又使得算法的随机性变小,在各方面性能上比单纯的启发式算法和最小自由能算法有很大程度提高,进一步提高了预测的精确度。分析结果表明,本文提出的RSRNA算法要优于常用的最小自由能算法,如RNAfold、Srna、RNAstructure和Mfold方法。(3)高度结构化RNA分子的制作。tRNALys3具有典型的三叶草形二级结构和倒L形三级结构,可以通过RSRNA方法进行预测到。人类tRNALys3与人类免疫缺陷病毒1型(HIV-1)和其他慢病毒具有密切的关系,这些病毒使用tRNALys3作为逆转录的引物,因此本文以人类tRNALys3分子为例进行检测。在实验检测该分子之前,需要使用实验方法制作高度结构化的tRNALys3分子。首先设计出的DNA引物,使用引物制作模板DNA,然后使用模板DNA转录成tRNALys3分子。为了得到高纯度的RNA溶液,在提纯tRNA溶液的过程中,不仅使用了传统的溶液提纯法,还使用了电气泳动切出提纯法。根据实验现象和实验结果得知,RNA和杂质在凝胶板中可以很方便也很清晰的分隔开,得到了纯度较高的RNA溶液。吸光度检测和RNA验证结果令人满意,完全达到了实验的预期和要求。(4)高度结构化小非编码RNA的检测。使用分子信标(molecular beacon,MB)来检测RNA是一个通用的方法。通常情况下,MB会选择单链区的RNA作为目标序列的。因此,高度结构化的短RNA,如tRNA,似乎很难检测。在这项研究中,作为一个高度结构化的靶RNA的例子,我们使用人类tRNALys3。在这个tRNA中,没有长单链区域超过8nt的,远远短于MB的标准目标长度(~20nt)。因此,需要使用计算方法预测MB的二级结构以及MB结合靶RNA前后的结构和能量的变化。本文设计了两种类型的MB:(i)MB的反目标序列从5’端茎区开始,并继续到MB的发夹环的3’末端,及(ii)MB的反目标序列完全包含在发夹环的环区。通过这些MB,研究发现最优的用于检测一个高度结构化的RNA的MB和试图找出最佳的目标区域。作为检测高度结构化的tRNA的比较,实验中也使用了短序列的非结构化或不结构化的RNA检测。最终研究表明,使用分子信标灵敏的检测高度结构化的RNA比检测非结构化或少结构化的RNA更加困难。然而,通过选择最佳的目标区域即可高效的检测tRNALys3,比如在D-arm周围的地区,可能由于易于展开的原因,更容易结合分子信标。因此,分子信标可以应用于高度结构化的RNA相关的各种生物功能和疾病的检测。