论文部分内容阅读
分子生物学的中心法则显示了遗传信息从DNA到RNA再到蛋白质的传递方向。人类基因组中包含约20 000~25 000个蛋白编码基因,这些基因的转录和翻译结果最终决定了不同细胞类型的结构和功能。细胞内时空特异性的基因表达是一个受到严格控制的过程,其调控因素主要包括表观遗传学编码与转录因子程序等。基因突变能够影响表达调控的过程,对突变的基因组定位分析显示,绝大部分与性状和疾病相关的突变落在基因组上非编码区。非编码区突变不改变编码蛋白的序列,但却可以通过更加复杂多样的机制对基因表达产生调控作用。对基因及其表达调控的研究严重依赖于测序技术的发展与应用。下一代测序技术(next-generation sequencing,NGS)的出现大大促进了基因组学、表观组学、转录组学等研究领域的发展,产生了海量爆炸式增长的多组学数据。基于这些多组学数据,研究者得以对突变与表型的关系进行大规模人群研究。但这些研究主要关注于个体水平,如何在组织和细胞类型水平上对突变的调控效应进行系统性注释是遗传学研究领域的一大挑战。此外,传统组学技术的主要不足之处在于,其研究对象往往是包含了大量不同类型细胞的组织样本,无法对组织内部细胞异质性进行研究。近年来新兴的单细胞测序技术能够对单个细胞的组学特征进行高精度刻画。目前研究中应用较多的技术主要包括单细胞RNA测序(single cell RNA sequencing,sc RNA-seq)技术与单细胞转座酶可及染色质测序(single cell assay for transposase-accessible chromatin using sequencing,scATAC-seq)技术,能够分别对单个细胞的转录组和染色质开放性进行无偏测量。基于单细胞测序技术,能够对单个细胞内的关键调控分子进行鉴定,从而揭示不同生物情境下细胞类型特异性的调控关系。深度学习(deep learning)作为机器学习(machine learning,ML)研究领域新兴的前沿方法,提供了对组学大数据进行高效挖掘的有力工具。通过神经网络逐层的抽象过程,深度学习能够实现对大数据样本更本质的特征刻画和规律学习。在多组学数据不断产生与新的组学技术不断发展的背景下,对已有的多组学数据进行有效挖掘,并利用新的组学技术进行探索分析,能够揭示不同情境下基因表达的调控过程,阐明复杂性状与疾病产生和发展的分子机制。在本论文中,作者关注于对组织与细胞内特异性调控关系的鉴定,从生物多组学数据和单细胞测序技术出发,开展了以下两个方面的研究工作:一、组织类型特异性调控关系(tissue type-specific regulatory relationship)鉴定研究:这一方面的研究工作关注于非编码区调控型突变位点的组织类型特异性建模预测。在本研究中我们利用来自基因型-组织表达研究项目(Genotype-Tissue Expression project,GTEx project)的组织类型特异性表达数量性状基因座(expression quantitative trait loci,e QTL)数据,采用深度学习算法框架对突变位点与基因位点的序列特征、表观遗传特征、进化保守性特征进行了整合分析,在17种人体组织中构建了组织类型特异性的调控型突变及其靶基因预测模型RegVar。与已发表的类似方法或注释工具相比,RegVar在多种控制条件下均能够达到更高的预测性能。为了探究RegVar模型框架的可拓展性,我们对人类基因突变数据库(Human Gene Mutation Database,HGMD)中的致病性突变位点进行了建模分析。结果显示,相对于已有方法,RegVar能够达到同等程度的预测性能。以RegVar模型为基础,我们构建了对非编码区调控型突变位点进行注释的在线网站(http://regvar.cbportal.org/)供相关领域的研究者使用和参考。如何将功能性调控型突变与其靶基因联系起来,是基因组学研究领域的一大挑战。我们构建的RegVar模型通过对突变-基因表达关系特征模式的学习,能够为调控型突变位点及其靶基因的鉴定提供十分有效的信息。二、细胞类型特异性调控关系(cell type-specific regulatory relationship)鉴定研究:这一方面的研究包括两部分研究内容:(1)基于单细胞表观组学分析的肝细胞癌(hepatocellular carcinoma,HCC)肿瘤相关巨噬细胞(tumor-associated macrophage,TAM)关键转录因子鉴定研究。在本研究中,我们利用scATAC-seq技术对HCC癌与癌旁组织进行了单细胞染色质开放性的测定分析。根据细胞类型特异性染色质开放区域,我们对HCC组织中细胞异质性进行了解析,鉴定到不同的细胞类型及其特异性染色质开放性图谱。结果显示巨噬细胞和T/NK细胞等免疫细胞是HCC组织中数量最多的细胞类型。通过对TAM细胞特征的进一步刻画,发现TAM细胞特异性开放的基因位点与激活的重要转录因子。基于染色质开放性的拟时间轨迹分析揭示了新招募巨噬细胞向TAM细胞的转化过程及其相关的重要转录因子与调控的靶基因。我们的研究帮助揭示了TAM细胞的演化来源及其发育过程中的关键调控关系,能够为HCC诊疗研究中新的靶点分子研究提供有效参考。(2)基于单细胞转录组学分析的放射性肠损伤(radiation-induced intestinal injury,RIII)及其修复过程中小肠干细胞与巨噬细胞关键转录因子鉴定研究。在本研究中,我们利用sc RNA-seq技术对正常状态以及放射刺激后不同时间点下的小肠组织样本进行了单细胞转录组测定分析。在对干细胞的分析中,我们鉴定到LGR5+CBC、+4 RSC、CLU+rev SC等3种不同的干细胞亚型及其新的标志分子。我们的结果进一步确证了+4 RSC的存在并提供了新的特异性分子作为参考。在对巨噬细胞的分析中,我们鉴定到驻留型与促炎性巨噬细胞亚型。基于转录组的拟时间轨迹分析揭示了干细胞亚型之间、巨噬细胞亚型与单核细胞之间的演化发育关系,并对演化过程相关的重要转录因子进行了鉴定。我们的结果提示,一些关键转录因子的调控作用可能参与到干细胞亚型之间的转化再生过程和不同类型巨噬细胞的分化过程中。对这些重要的调控分子进行干预作用,或可为放射后小肠组织修复与炎症调节研究提供新的研究方向。总的来看,本文围绕组织类型与细胞类型特异性调控关系的鉴定研究展开,设计和开发了针对非编码区调控型突变位点进行组织类型特异性注释的深度学习算法模型,并针对新兴的单细胞表观组学与转录组学技术手段,探究了其在HCC TAM细胞发育调控研究、RIII及其修复过程中小肠干细胞与巨噬细胞发育调控研究中的应用,揭示了多种生物情境下的细胞类型特异性调控关系。