论文部分内容阅读
斑马(Zebra)是马属(Equus)动物成员之一,主要分布在非洲草原,包括平原斑马、细纹斑马和山斑马三个亚种,其中平原斑马数量较多,其它两个亚种已被列入到濒危物种名单。马属动物基因组及进化研究较多,但对斑马基因组方面的研究屈指可数,只有线粒体基因组及少数基因组重测序数据。目前,大规模测序技术由于其成本低,通量高等优势已被广泛应用于多个哺乳动物基因组的测定及分析。马属中马和驴基因组已被测序,并拼装程度已达到染色体及亚染色体水平,这使马和驴基因组间的比较和溯源研究成为可能。平原斑马虽有基因组序列相关研究,但这些读段水平的序列不足以分析全基因组范围内的遗传变异及系统进化研究。因此,为马属动物的系统发育及全面的进化分析成为可能,我们对平原斑马基因组进行从头测序。另外,在现有生物学数据库中斑马转录水平的研究基本空白,因此,我们对平原斑马不同组织进行转录组测序,进而通过同源基因的进化速率,探索斑马适应性进化的遗传机制。通过基因组和转录组测序的两部分研究内容,得出的主要结论如下所述:(1)利用Illumina Hiseq/Miseq平台对平原斑马基因组进行测序,获得570733246条质控后的序列。将质控后的序列与马参考序列(EquCab2.0)进行比对分析,获得26032374个SNPs和687552个InDel,主要分布在基因间区。经Newbler拼接后,获得总序列长度为2.36Gb的基因组,其Contig和Scaffold N50分别为43.7Kb和1.45Mb。斑马基因组中注释的重复序列含量为42.61%,蛋白编码基因数为22732。(2)通过种间同源基因家族推断马和非马类的分化时间为9.2-25.5百万年前,斑马和驴的分化时间为6.7-22.6百万年前。同时发现斑马基因组上有872个扩张的基因家族和1750个快速进化的基因,这些基因主要富集在锌指、转录及转录调控、鞘脂代谢、蛋白复合支架、序列特异性DNA结合、细胞外刺激的反应、T辅助2型免疫应答调节、由RNA聚合酶II启动子的转录调控和转录因子活性等生物学功能。(3)利用数据库中可用的马科动物基因组序列,并检测SNP后构建马科动物亲缘关系树发现,平原斑马与quagga和bohmi聚在一起,并与细纹斑马和山斑马构成单个斑马进化支。PSMC推断的马科动物种群历史表明,斑马种群规模轨迹与马和驴有所不同,这提示着美洲、欧亚和非洲具有非同步的复杂生态动态变化。(4)将从头拼接的平原斑马基因组序列草图与马染色体序列进行比对,进行共线性分析的同时共检测到2207个重排事件,包括1664未知插入、2重复插入、204倒位和337易位。并且这些重排区域富含LINE/L1、Satellite、LTR/ERV1和SINE/tRNA等重复类型。另外,通过同源序列比对,确定平原斑马2号染色体的着丝粒特征序列,即SAT2pl和SATEC卫星序列,与马的着丝粒特征序列一致。(5)利用Illumina Hiseq x Ten平台对平原斑马5个组织进行转录组测序,最终各组织获得6779534289462708条高质量序列。用Trinity从头拼接获得752562个转录本和482219个unigenes,其平均长度分别是1127bp和631bp,N50分别是2719bp和954bp。经注释,至少在一个数据库中获得注释信息的unigenes数量为243758条(50.54%)。从平原斑马unigenes中共搜索到69096个SSRs。(6)我们以FPKM>0.3为基因的表达阈值,在5个组织中筛选出的基因表达数目在78181216298之间,其中共有表达的有23672个,并且骨骼肌和心脏的共有表达基因表达水平最相似。特有表达基因在肺脏和肾脏中居多。(7)通过差异基因分析,在肾脏和骨骼肌间差异表达的基因最多,其次是肾脏和骨骼肌。经注释,TNNT2和TNNI3等基因在心脏中显著高表达;ALB、CYP2D和UGT等基因在肝脏中显著高表达;TNNC2、TNNI2和TNNI1等基因在骨骼肌中显著高表达;UMOD基因在肾脏中显著高表达;HSPA18和SFTPC等基因在斑马肺脏中显著高表达。(8)基于直系同源基因的进化速率,在斑马基因组上检测到877个受正选择的基因,其中284个受显著正选择(P<0.05),270个是极显著正选择的基因(P<0.01)。通过GO和KEGG富集分析发现,这些正选择的基因主要参与免疫、神经、血管生成、紫外线保护和胰岛素分泌等有助于适应热带气候的代谢通路和生物学功能相关分类。(9)通过对斑马不同组织的小RNA进行测序,获得1406188916662677条高质量序列数据,主要分布在21-23nt长度范围内。将其与miRBase中马的已知序列比对,获得204个保守miRNA和274个miRNA前体,同时新预测出78个成熟miRNA和83个miRNA前体。已知和新miRNA的首位碱基具有U碱基偏好性。(10)以TPM≥0.1为miRNA表达阈值,发现在斑马组织中中丰度和高丰度表达的miRNA占用比例较高。三个组织间差异表达的miRNA有127个,其中心脏和肝脏差异的有85个,心脏和骨骼肌差异的有25个,肝脏和骨骼肌间差异的有86个。对282个miRNA预测出34205个靶基因,并差异表达miRNA的靶基因主要富集在分子功能、蛋白结合、细胞组分、细胞过程、代谢过程等GO功能分类及Ras信号通路、JAK-STAT信号通路、神经营养因子的信号转导通路及胰岛素抵抗等KEGG代谢通路。本研究结果对马属动物分子生物学研究提供序列数据资源,并为日后的深入研究奠定基础。