论文部分内容阅读
马和驴是马属动物两个极为重要的物种,其共同祖先出现于上新世时期。直到230万年前仍然存在从马向驴的基因流。马和驴的物种分离是在极短的时间内快速完成的,这促使其形成了染色体间剧烈的结构变异和基因组序列间的高度相似。马和驴两个独立的物种杂交能够产骡,母骡甚至具有产驹的能力。这些突出的特点,使得马、驴和骡成为研究大型哺乳动物异种杂交的遗传基础,以及异源基因组不相容调控的分子机制,非常有价值的模型。为了在基因组和转录组水平评估马、驴杂交对骡机体适应性的影响,同时探索骡协调马和驴基因组不协调的分子机制。第一,我们利用Illumina测序平台对1个马属动物家系的全血样品进行全基因组测序,并以纯血马基因组为参考,以马和驴双亲基因组序列信息为辅助,分析骡SNP的遗传多样性;采用深度测序的方法,分析骡CNV的遗传多样性,并对相关基因进行富集分析。第二,利用Illumina测序平台对3个马属动物家系的全血样品进行RNA-Seq测序,并利用PacBio测序平台对该家系骡的全血样品进行全长转录组测序,分析骡在全长转录本水平发生的突变、基因间嵌合、物种间嵌合等结构变异,并对相关基因进行富集分析。第三,利用RNA-Seq数据,对马、驴和骡的基因表达量进行比较,分析骡特异性表达、亲本显性表达和非加性表达等表达模式的多样性,并对相关基因进行富集分析。第四,利用RNA-Seq数据,以马和驴双亲基因组序列信息为辅助,识别骡遗传自马或驴的SNP标签,并利用这些SNP标签,分析骡转录组中马和驴同源基因的表达偏移情况。经研究获得如下结果:1.通过家系1的基因组序列比较分析,识别了骡在基因组水平发生的31108个 MIE SNPs(Mendelian inheritance Error SNP)和 799个de novo SNPs。相关基因功能富集分析,发现骡遗传自马的16987个纯合MIE SNPs主要和同种异体移植排斥等机体“排异”途径相关;遗传自驴的1412 1个纯合MIE SNPs主要和癌症途径相关。骡基因组水平发生的这些点突变,可以降低马和驴基因组进化累积的异质性,从而提高其机体的适应性。2.以纯血马基因组为参考,借助SNP标签,用基于覆盖深度的方法,识别了骡经遗传获得的180个CNVs。对这些CNVs进行相关基因的功能富集分析,发现主要和嗅觉等性状相关。嗅觉性状的基因组剂量差异与致癌和“排异”等过程相比,一般不会引起致死,因此骡正常继承这些拷贝数的差异,可能只造成剂量上影响。3.整合PacBio和Illumina测序数据,以马、驴双亲基因组序列信息为辅助,在骡全长转录本水平进行结构变异分析,识别了 345个基因间嵌合体基因至少在1个个体中发生;21个物种间嵌合体基因至少在1个个体中发生;以及不同数量的骡特异性突变基因。对这些基因进行功能富集分析,发现基因间嵌合体基因主要和核糖体等相关;而骡特异性突变基因以及物种间嵌合体基因主要和机体的“排异”以及癌症过程相关。骡转录组水平发生的这些结构变异改变了基因的原本结构,从而影响其正常的表达过程,使其功能效能减弱,从而增强骡其机体的适应性。4.利用RNA-Seq数据,以纯血马基因组为参考,对3个马属动物家系转录组进行表达模式分析。识别了 666个骡特异性表达基因,这个数要明显高于马(403)和驴(187)。对骡特异性表达基因进行功能富集分析,发现主要和DNA修复及细胞生命活动相关。同时,在3个家系的骡转录组中,我们还分别识别到了 1805、2285和350个非加性表达基因。功能富集分析,发现主要和癌症途径以及基础修复过程直接相关。马和驴杂交的合成效应会对骡造成基因结构及表达模式的损伤。这些损伤会促发骡DNA损伤修复、基础修复以及细胞周期调控相关基因的大量表达、以及这些过程之间复杂的相互作用。从而来修复这些不利于其适应性的损伤。5.利用RNA-Seq数据,以纯血马基因组为参考,以马、驴双亲基因组序列信息为辅助,针对3个家系骡,我们分别筛选了 20443、9190和7126个HEB(Homoeolog expression bias)SNPs标签。利用这些HEB SNPs标签进行基因注释和同源表达偏移分析。我们共识别了 1136个基因至少在一个个体中为同源表达偏移基因。对这些基因进行功能富集分析,发现有3条显著富集的通路和机体的“排异”途径相关。而且这些基因,通过在马骡中显著偏向于表达驴的等位基因,在驴骡中显著偏向于表达马的等位基因,来降低机体对父本遗传特性(抗原物质)的排斥,从而增强其适应性。