论文部分内容阅读
新一代测序技术(Next-Generation Sequencing,NGS)的出现使得快速、廉价地获取全基因组、高通量测序数据成为可能,改变了人们在基础、应用和临床研究的科研方法,加深了人们对复杂生命现象及其机制的理解,极大地促进了多组学研究的发展。DNA元件百科全书计划(Encyclopedia of DNA Elements,ENCODE)和表观路线图计划(Roadmap Epigenomics)是后基因组时代的最重要的两个科研项目,提供了大量ChIP-Seq、RNA-Seq、DNase-Seq等全基因组、高通量、多组学数据。这些多组学数据不是孤立的,他们相互联系、相互影响,反映了基因组不同方面的性质。因此,我们应该有效利用各组学数据之间的技术差异和互补性,从系统的、整合的角度将多组学数据结合起来进行集成研究,从系统水平上解决生物学问题,从而揭示生命现象背后隐藏的秘密。为了解决基因组不同类型的功能元件的识别难题,人们需要大量有待解决问题的生物背景知识,基于这些先验知识人为地设计一系列诸如过滤、合并、重叠的操作流程来识别相应的功能元件,但是这严重地依赖于人们对相关问题的先验认知的程度。另外,人们也开发了一些生物信息学算法和软件来识别功能元件,并取得了一定成效,但是这些算法和软件从本质上来说属于浅层学习(Shallow Learning),其数据刻画和特征学习的能力有限,因此它们整合海量、复杂的多组学数据并从中发现规律的能力大大受到限制。2006年Geoffrey Hinton在《科学》杂志上的一篇开创性的文章掀起了深度学习(Deep Learning)的浪潮。深度学习是人工神经网络(Artificial Neural Network,ANN)研究的延伸和拓展,利用深度学习建立的深层神经网络(Deep Neural Network,DNN)具有优异的特征学习能力,通过逐层的抽象和特征提取,可以对大量训练样本进行更本质的数据刻画和学习统计学规律,从而对新的未知数据做出更加精准的预测。本文根据不同的特定生物学问题和相应的特定数据类型,基于对深度学习等各种机器学习算法的扎实理论基础和实际应用经验,首先“因地制宜”地设计和开发了适合不同生物学问题的不同深度学习算法。接着利用ENCODE计划和NIH Roadmap Epigenomics计划提供的大量的全基因组、高通量NGS数据,从系统的、整合的角度进行集成研究,利用已建立的基于深度学习的算法识别全基因组的各种不同功能元件。最后,基于算法识别的全基因组功能元件,从表观组蛋白修饰、基因表达、转录因子结合位点、DNA超敏位点、DNA甲基化、保守性、染色质三维结构和RNA二级结构等多个方面来分析这些不同功能元件的相关生物学性质,以及探究其与疾病的关系。根据具体的不同生物学问题,本文完成了以下几个方面的研究内容:首先,基于深度学习的人类基因组复制时间域的识别与注释研究。本文从dna复制中的复制时间域入手,为了解决不同复制时间域的识别难题,本文开发了一种新的、结合了深层神经网络和隐马尔科夫模型(dnn-hmm)的混合算法,利用复制时间谱来识别相关的复制时间域。通过性能评估和比较,结果表明,dnn-hmm显著地优于传统的dnn和高斯混合模型—隐马尔科夫模型(gmm-hmm),同时也比其他可用于复制时间域识别的6种方法的性能更加优秀。基于开发的深度学习算法,本文利用新复制dna测序(repli-seq)数据和训练好的dnn-hmm模型识别了15个细胞中各种类型的复制时间域。接下来的基于多组学数据的整合分析表明dnn-hmm识别的这些复制时间域拥有独特的基因组和表观基因组模式、转录活性、高阶的染色质结构,基于这些发现本文提出了“复制时间域”模型。该模型揭示了人类基因组中染色质组织结构的重要原则,加深了我们对人类基因组调控复制时间机制的理解。其次,基于深度学习的人类基因组增强子的识别研究。增强子在调控基因的时空表达方面具有重要作用,但是全基因组的增强子的预测一直受几个关键问题的制约,因此增强子的预测是计算生物学中的一大挑战。本文提出了一种基于深度学习的算法框架pedla来对增强子进行综合地、无偏地预测。结果表明,pedla能够整合海量不同类型的异构数据,使得预测结果更加综合和准确;pedla也具备处理类别不平衡数据的能力,使得预测结果更加稳健和无偏。与当前顶尖的5种同类机器学习算法相比,pedla的性能显著地优于它们。在此基础上,本文进一步将pedla框架扩展到多细胞/组织类型的增强子识别中。将pedla在22个细胞/组织进行了迭代训练,发现训练后的模型在22个训练细胞/组织和20个独立的测试细胞/组织中取得了极其优异且一致的性能,表明pedla是一种可用于不同细胞/组织的增强子预测的通用的、稳健的深度学习框架。再次,基于深度学习和集成学习的rna编辑位点的识别研究。当前rna编辑位点的识别主要都是基于人们对rna编辑位点的先验知识通过一系列人工繁杂的过滤来得到。本文针对rna编辑位点的识别问题,设计和开发了基于深度学习的自举重采样的并行集成学习的rna编辑位点的识别算法——deepred。deepred算法有几个突出优点:一是可以自动从训练样本中学习和归纳到rna编辑位点更本质的信息和规律;二是可以直接从gatk输出的包含各种类型的复杂候选集合中准确预测rna编辑位点;三是,在识别rna编辑位点同时能够识别snp;四是,输入特征都是“atcg”的原始序列,算法可以自动提取和抽象更加有效的特征;五是算法具有很好处理类别不平衡数据的能力。结果表明,DeepRed算法在RNA编辑位点识别中取得了极好的效果,同时,独立实验数据的验证也进一步表明DeepRed算法是可靠和准确的。另外,在多细胞中的评估结果表明DeepRed算法具有很好的泛化能力,能够有效识别不同细胞、不同位置和不同状态下RNA编辑位点。最后,人类基因组增强子RNA的识别与注释研究。eRNA到底仅仅是转录噪声还是具有调控功能,以及具体到底是eRNA转录本还是转录RNA的动作是有功能的,一直是相关研究所探讨的问题。本文识别了50个细胞/组织的一类特殊的增强子——活性增强子及其转录产生的一类非编码RNA(eRNA)分子。通过组蛋白修饰、RNA转录、转录因子结合位点和共激活剂结合位点等不同染色质标志的性质分析,本研究发现增强子活性、eRNA水平、关联基因mRNA水平、GO生物过程都是以一种细胞特异的方式关联在一起,并且这些特异的生物过程准确地定义了对应细胞/组织的身份特性。通过在eRNA中检测已知和全新RNA二级结构,本文发现eRNA中存在大量功能性结构ncRNA,包括类似miRNA的保守二级结构。进一步的分析结果表明SNP对eRNA的结构有显著影响从而可能导致一些疾病的发生,因此本文进一步探究了eRNA与疾病的关系。总之,本文围绕“基于深度学习的基因组功能元件的识别与注释”展开,设计和开发了针对不同功能元件识别的深度学习算法,并对算法识别的功能元件进行了系统和整合的注释,进而发现了新的调控机制,以及揭示功能元件与疾病的关系。