论文部分内容阅读
人类基因组中超过70%的区域能发生转录,但只有1%~2%的部分区域能编码出蛋白质,其余大面积的区域称为非编码区域,这些区域转录出的RNA分子都不具备蛋白编码能力(无蛋白质产物生成),被称之为非编码RNA。长度大于200个核苷酸的非编码RNA被称为长非编码RNA(Long non-coding RNA,lncRNA)。长非编码RNA已经被证实能活跃地参与到各种生物学功能的调控中,在转录、转录后及表观遗传等多个水平上控制基因的表达,是细胞内调控网络的重要组成部分,与包括癌症等的多种人类疾病存在密切关联。 对于DNA、RNA等生物大分子的研究,科学家们通常采用测序技术作为主要技术手段。从人类基因组计划开始,人类就试图用测序来破解生命的奥秘。随着2009年高通量测序技术的兴起,测序的成本越来越低,产出的速率越来越高,使得越来越多的物种积累了测序数据,测序数据爆发式的增长。 虽然积累了大量的高通量测序数据,但是基于这些数据却没有从中很好的挖掘出长非编码RNA相应的信息,一个典型的例子:目前大多数哺乳动物的长非编码RNA的参考注释并不完全,已知进化信息的长非编码RNA仍然是少数。造成这一类研究缺失的一个主要原因是由于以往的各种算法都是针对于编码RNA的,而基于高通量测序数据的专用于长非编码RNA的算法非常少。 本文针对上述长非编码RNA研究中出现的问题,借助于高通量测序数据,开发了长非编码RNA的鉴定算法CNCI,以及长非编码RNA的同源预测算法lncOrth,通过将这两个算法应用哺乳动物的高通量测序数据上进行了应用,构建了哺乳最全面的长非编码RNA注释集合,并进一步对其保守和进化的信息做了注释,并专门搭建了哺乳动物的长非编码注释平台PhyloNONCODE。本文中开发的两个专用于长非编码RNA的算法,填补之前围绕高通量测序数据的长非编码RNA相关算法的缺失,有效地促进了从数据到知识的转化。研究内容涵盖以下三点: 首先,开发了基于高通量测序数据的长非编码RNA的鉴定算法CNCI。在国际上首次采用二联密码子对出现频率作为关键特征来对编码RNA和非编码RNA进行分类。算法具有很高的准确性,并且较之前的预测算法更适用于高通量测序数据,算法的模型能在物种间通用,很好的实现跨物种预测。将此算法应用到哺乳动物9个物种共6个组织的转录组测序数据(外加一个鸟类作为参照),成功地构建出一个哺乳动物的完备的长非编码RNA的参考注释集合(大约4142~42558条长非编码RNA)。 其次,开发了面向长非编码的同源预测算法lncOrth。基于上面的哺乳动物的长非编码RNA,根椐长非编码RNA的特有的保守性特征,开发了长非编码RNA的同源预测算法lncOrth,算法具有较高的灵敏度。我们利用此算法,将其应用到哺乳动物的长非编码RNA,对其基因组转录组的两个层面的保守性进行了研究。并通过搜寻哺乳动物某几个谱系中保守或是特异的长非编码RNA,构建了系统发生树来研究其表达进化速率。 最后,搭建了哺乳动物长非编码RNA进化注释平台-PhyloNONCODE平台。此次研究中得到的长非编码RNA的鉴定结果以及其保守性和进化的数据,被统一收集到PhyloNONCODE数据库中(http://www.bioinfo.org/phyloNoncode),这个数据库是目前最全的哺乳动物的长非编码RNA进化信息数据库,这将成为研究非编码RNA进化及功能的一个非常有用的资源。