结合基因组和转录组学解析斑马演化模式

来源 :内蒙古农业大学 | 被引量 : 7次 | 上传用户:zmmzoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
斑马(Zebra)是马属(Equus)动物成员之一,主要分布在非洲草原,包括平原斑马、细纹斑马和山斑马三个亚种,其中平原斑马数量较多,其它两个亚种已被列入到濒危物种名单。马属动物基因组及进化研究较多,但对斑马基因组方面的研究屈指可数,只有线粒体基因组及少数基因组重测序数据。目前,大规模测序技术由于其成本低,通量高等优势已被广泛应用于多个哺乳动物基因组的测定及分析。马属中马和驴基因组已被测序,并拼装程度已达到染色体及亚染色体水平,这使马和驴基因组间的比较和溯源研究成为可能。平原斑马虽有基因组序列相关研究,但这些读段水平的序列不足以分析全基因组范围内的遗传变异及系统进化研究。因此,为马属动物的系统发育及全面的进化分析成为可能,我们对平原斑马基因组进行从头测序。另外,在现有生物学数据库中斑马转录水平的研究基本空白,因此,我们对平原斑马不同组织进行转录组测序,进而通过同源基因的进化速率,探索斑马适应性进化的遗传机制。通过基因组和转录组测序的两部分研究内容,得出的主要结论如下所述:(1)利用Illumina Hiseq/Miseq平台对平原斑马基因组进行测序,获得570733246条质控后的序列。将质控后的序列与马参考序列(EquCab2.0)进行比对分析,获得26032374个SNPs和687552个InDel,主要分布在基因间区。经Newbler拼接后,获得总序列长度为2.36Gb的基因组,其Contig和Scaffold N50分别为43.7Kb和1.45Mb。斑马基因组中注释的重复序列含量为42.61%,蛋白编码基因数为22732。(2)通过种间同源基因家族推断马和非马类的分化时间为9.2-25.5百万年前,斑马和驴的分化时间为6.7-22.6百万年前。同时发现斑马基因组上有872个扩张的基因家族和1750个快速进化的基因,这些基因主要富集在锌指、转录及转录调控、鞘脂代谢、蛋白复合支架、序列特异性DNA结合、细胞外刺激的反应、T辅助2型免疫应答调节、由RNA聚合酶II启动子的转录调控和转录因子活性等生物学功能。(3)利用数据库中可用的马科动物基因组序列,并检测SNP后构建马科动物亲缘关系树发现,平原斑马与quagga和bohmi聚在一起,并与细纹斑马和山斑马构成单个斑马进化支。PSMC推断的马科动物种群历史表明,斑马种群规模轨迹与马和驴有所不同,这提示着美洲、欧亚和非洲具有非同步的复杂生态动态变化。(4)将从头拼接的平原斑马基因组序列草图与马染色体序列进行比对,进行共线性分析的同时共检测到2207个重排事件,包括1664未知插入、2重复插入、204倒位和337易位。并且这些重排区域富含LINE/L1、Satellite、LTR/ERV1和SINE/tRNA等重复类型。另外,通过同源序列比对,确定平原斑马2号染色体的着丝粒特征序列,即SAT2pl和SATEC卫星序列,与马的着丝粒特征序列一致。(5)利用Illumina Hiseq x Ten平台对平原斑马5个组织进行转录组测序,最终各组织获得6779534289462708条高质量序列。用Trinity从头拼接获得752562个转录本和482219个unigenes,其平均长度分别是1127bp和631bp,N50分别是2719bp和954bp。经注释,至少在一个数据库中获得注释信息的unigenes数量为243758条(50.54%)。从平原斑马unigenes中共搜索到69096个SSRs。(6)我们以FPKM>0.3为基因的表达阈值,在5个组织中筛选出的基因表达数目在78181216298之间,其中共有表达的有23672个,并且骨骼肌和心脏的共有表达基因表达水平最相似。特有表达基因在肺脏和肾脏中居多。(7)通过差异基因分析,在肾脏和骨骼肌间差异表达的基因最多,其次是肾脏和骨骼肌。经注释,TNNT2和TNNI3等基因在心脏中显著高表达;ALB、CYP2D和UGT等基因在肝脏中显著高表达;TNNC2、TNNI2和TNNI1等基因在骨骼肌中显著高表达;UMOD基因在肾脏中显著高表达;HSPA18和SFTPC等基因在斑马肺脏中显著高表达。(8)基于直系同源基因的进化速率,在斑马基因组上检测到877个受正选择的基因,其中284个受显著正选择(P<0.05),270个是极显著正选择的基因(P<0.01)。通过GO和KEGG富集分析发现,这些正选择的基因主要参与免疫、神经、血管生成、紫外线保护和胰岛素分泌等有助于适应热带气候的代谢通路和生物学功能相关分类。(9)通过对斑马不同组织的小RNA进行测序,获得1406188916662677条高质量序列数据,主要分布在21-23nt长度范围内。将其与miRBase中马的已知序列比对,获得204个保守miRNA和274个miRNA前体,同时新预测出78个成熟miRNA和83个miRNA前体。已知和新miRNA的首位碱基具有U碱基偏好性。(10)以TPM≥0.1为miRNA表达阈值,发现在斑马组织中中丰度和高丰度表达的miRNA占用比例较高。三个组织间差异表达的miRNA有127个,其中心脏和肝脏差异的有85个,心脏和骨骼肌差异的有25个,肝脏和骨骼肌间差异的有86个。对282个miRNA预测出34205个靶基因,并差异表达miRNA的靶基因主要富集在分子功能、蛋白结合、细胞组分、细胞过程、代谢过程等GO功能分类及Ras信号通路、JAK-STAT信号通路、神经营养因子的信号转导通路及胰岛素抵抗等KEGG代谢通路。本研究结果对马属动物分子生物学研究提供序列数据资源,并为日后的深入研究奠定基础。
其他文献
<正> 一出于对书法艺术的好奇心,经常有人向我提问:一个字、一篇书法怎样才是美的? 是啊!一个字、一篇书法怎样才是美的?这看来是一个非常显浅的问题,但要你概括几句话作出个
期刊
城市土地和交通之间的互动关系,是众多深远影响城市发展的研究内容之一。城市土地的合理利用,可以很好地促进城市交通的良性循环,使其井然有序;与此同时,交通的畅通无阻,可以
随着我国经济快速的发展和微车价格便宜、适用面广、节能等优点,使得我国的微车销量逐年增加。而环保力度的加大和能源短缺的加剧,以及人们对汽车产品性能要求的提升,提高产
环境规制作为构成激励或约束经济社会发展制度框架的重要内容,通过引导经济主体的理性行为选择而作用于资源要素配置、企业空间布局、产业技术创新以及市场需求创造、区域经
随着市场经济的快速发展,世界经济和我国的经济也在飞速的发展,企业之间的竞争日益的白热化,很多企业由于经营管理不善,使得企业的资金运营陷入危机,企业面临的债务问题不断
在具体工程设计工作中,经常遇到抗浮稳定不足的情况,选择安全、经济的抗浮方案尤为重要,结合工程实例,对抗拔桩和抗浮锚杆的经济性、适用性进行了比较,供类似项目参考。
针对项目具体抗浮要求,充分考虑场地水文地质、工程地质条件,根据相关规范确定了抗浮锚杆设计轴向拉力值、钢筋截面面积、锚杆长度,并选取地层情况最差点对单根抗浮锚杆的抗
近年来网络传谣问题日益严重,最为典型的代表是被称为“网络传谣第一案”的“秦火火案”。谣言在网络中肆无忌惮的散播着,影响到人们生活中的方方面面。如果传谣者仅是在网络
在实现“中国梦”过程中,“健康中国”是题中应有之义。健康中国的建设离不开城乡统一的卫生健康服务业的可持续发展。农村居民健康服务业作为乡村振兴战略中“产业振兴”的
中国古代自教育发凡,即开始形成以教师为本的为师之道。历代教师恪守与弘扬,形成了一以贯之的师德传统,它旨在追求至善、崇德、贵表、务本和弘道。在传统师道中,师德为百业道德之