基于高通量测序数据的长非编码RNA鉴定和进化的算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:qilina15832583026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组中超过70%的区域能发生转录,但只有1%~2%的部分区域能编码出蛋白质,其余大面积的区域称为非编码区域,这些区域转录出的RNA分子都不具备蛋白编码能力(无蛋白质产物生成),被称之为非编码RNA。长度大于200个核苷酸的非编码RNA被称为长非编码RNA(Long non-coding RNA,lncRNA)。长非编码RNA已经被证实能活跃地参与到各种生物学功能的调控中,在转录、转录后及表观遗传等多个水平上控制基因的表达,是细胞内调控网络的重要组成部分,与包括癌症等的多种人类疾病存在密切关联。  对于DNA、RNA等生物大分子的研究,科学家们通常采用测序技术作为主要技术手段。从人类基因组计划开始,人类就试图用测序来破解生命的奥秘。随着2009年高通量测序技术的兴起,测序的成本越来越低,产出的速率越来越高,使得越来越多的物种积累了测序数据,测序数据爆发式的增长。  虽然积累了大量的高通量测序数据,但是基于这些数据却没有从中很好的挖掘出长非编码RNA相应的信息,一个典型的例子:目前大多数哺乳动物的长非编码RNA的参考注释并不完全,已知进化信息的长非编码RNA仍然是少数。造成这一类研究缺失的一个主要原因是由于以往的各种算法都是针对于编码RNA的,而基于高通量测序数据的专用于长非编码RNA的算法非常少。  本文针对上述长非编码RNA研究中出现的问题,借助于高通量测序数据,开发了长非编码RNA的鉴定算法CNCI,以及长非编码RNA的同源预测算法lncOrth,通过将这两个算法应用哺乳动物的高通量测序数据上进行了应用,构建了哺乳最全面的长非编码RNA注释集合,并进一步对其保守和进化的信息做了注释,并专门搭建了哺乳动物的长非编码注释平台PhyloNONCODE。本文中开发的两个专用于长非编码RNA的算法,填补之前围绕高通量测序数据的长非编码RNA相关算法的缺失,有效地促进了从数据到知识的转化。研究内容涵盖以下三点:  首先,开发了基于高通量测序数据的长非编码RNA的鉴定算法CNCI。在国际上首次采用二联密码子对出现频率作为关键特征来对编码RNA和非编码RNA进行分类。算法具有很高的准确性,并且较之前的预测算法更适用于高通量测序数据,算法的模型能在物种间通用,很好的实现跨物种预测。将此算法应用到哺乳动物9个物种共6个组织的转录组测序数据(外加一个鸟类作为参照),成功地构建出一个哺乳动物的完备的长非编码RNA的参考注释集合(大约4142~42558条长非编码RNA)。  其次,开发了面向长非编码的同源预测算法lncOrth。基于上面的哺乳动物的长非编码RNA,根椐长非编码RNA的特有的保守性特征,开发了长非编码RNA的同源预测算法lncOrth,算法具有较高的灵敏度。我们利用此算法,将其应用到哺乳动物的长非编码RNA,对其基因组转录组的两个层面的保守性进行了研究。并通过搜寻哺乳动物某几个谱系中保守或是特异的长非编码RNA,构建了系统发生树来研究其表达进化速率。  最后,搭建了哺乳动物长非编码RNA进化注释平台-PhyloNONCODE平台。此次研究中得到的长非编码RNA的鉴定结果以及其保守性和进化的数据,被统一收集到PhyloNONCODE数据库中(http://www.bioinfo.org/phyloNoncode),这个数据库是目前最全的哺乳动物的长非编码RNA进化信息数据库,这将成为研究非编码RNA进化及功能的一个非常有用的资源。
其他文献
中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。中间件位于客户机服务器的操作系统之上,管理计算资源和网络通信。中间件作为一
随着互联网技术的发展和广泛应用,流动数据管理在各种应用系统中变得越来越重要.和传统的数据库管理系统不同,数据流管理系统以查询为中心,系统中预先注册有成千上万个持续查
自1999年J2EE的第一个版本推出以来,J2EE应用服务器一直是企业级计算的首选平台之一,而EJB则是J2EE的一个核心部分。J2EE/EJB的关注点一直是创建专注业务逻辑的可复用的分布式
学位
图灵机模型假设输入信息已经位于机器纸带之上,可以被转移函数直接获取;然而对于三元计算,信息不仅仅存在于数字空间,还广泛存在于物理世界和人类社会。因此,三元计算的一个重要
语音识别技术经过几十年的艰苦探索和研究,已经获得了极大的发展,并开始逐步应用于日常生活中。但语音识别技术中存在的一些问题,特别是儿童语音识别,成为阻碍该技术进一步推广的
大规模的双语句子对齐语料库及双语词典等数据资源是构建高质量统计机器翻译系统的重要数据基础.本文提出了若干统计机器翻译预处理中数据资源的使用策略,目的在于尽可能地挖
无线传感器网络集成了计算能力、无线传输能力以及对物理世界的感知能力,具有广泛的应用范畴。在大规模的周期性数据收集型传感器网络中,如何高效的利用传感器节点的能量、保证
学位
随着互联网、通信等信息技术的飞速发展,全球数据正在以前所未有的速度积累,如何从这些海量数据中挖掘有价值的信息已成为学术界和工业界关注的焦点。数据规模的快速增长伴随着
众核处理器的片上网络对于提高处理器的性能与可扩展性具有重要作用。随着处理器芯片规模的增长,片上网络面临着诸多问题的挑战:一方面,多应用同时运行使得每个应用的网络性能