论文部分内容阅读
完整和精确的DNA复制过程对于每个生物来说都是至关重要的,发生DNA解旋和起始复制的特殊位点称为复制起始点(Origin of replication, ORI)。复制起始点的序列表征与预测对于进一步解析真核生物的DNA复制机制至关重要。随着测序技术的飞速发展,测序数据呈指数式增长,如何从海量数据中挖掘出有价值的信息、模型、规律或思路,逐步成为生物信息学研究的主要内容。本论文分别从酿酒酵母全基因组、酿酒酵母群体基因组以及酵母近缘种间基因组的角度,分别对复制起始点进行系统性序列特征分析。随后基于Z曲线理论和机器学习的方法,开发了能够在全基因组水平预测酿酒酵母基因组中潜在复制起始点的算法,并构建了用户友好型网上服务Ori-Finder3及复制起始点数据库。
文章第一部分分别从酿酒酵母全基因组角度以及酿酒酵母群体基因组角度对复制起始点的序列保守性展开分析。结果表明在参考基因组S.cerevisiaeS288C中,94.32%的自主复制序列(Autonomously replicating sequence, ARS)是唯一的,而具有高序列相似度的ARSs则倾向位于染色体的亚端粒区域。随后通过对近百株高完整度的酿酒酵母基因组中的同源ARSs分析发现82.7%的ARSs不仅在序列水平具有保守性,而且在基因组的相对位置上也具有较高的保守性,而非保守的ARSs则倾向于分布在染色体的亚端粒区域。参照泛基因组分析方法对酿酒酵母群体基因组中的复制起始序列进行了泛复制起始点分析(Pan-ARS),确定了酿酒酵母种群中的183个核心ARSs。通过提取酿酒酵母种群中复制起始点的临近基因,发现与DNA复制起始功能相关的基因,如orc3、mcm2、mcm4、mcm6和cdc45保守地分布于复制起始点周围。通过对保守ARSs的临近基因进行功能富集分析,结果表明这些基因显著富集在与DNA结合、酶活性、转运和能量传递等相关代谢通路中,而对于与非保守ARSs的临近基因则显著富集在与响应环境压力、代谢产物的合成和抗生素合成等相关的代谢通路中。
文章第二部分分别从上千株酿酒酵母种内以及近缘酵母种间的复制起始序列的演化关系展开分析。研究发现在1011株酿酒酵母的26类分支的代表菌株中,与中国分支相关酿酒酵母菌株的复制起始区域展现出更多的遗传多样性。通过对上千株酿酒酵母复制起始区域的SNP(Single nucleotide polymorphism)信息进行主成分分析发现非中国来源的菌株聚为一类,该结果支持了酿酒酵母起源于中国(Out-of-China origin)的学说。通过对上千株酿酒酵母的复制起始序列进行系统发育分析,发现这些来自于全球不同国家的不同分离环境的酿酒酵母菌株具有较明显的分支。随后利用比较基因组学的方法对近缘酵母基因组进行多序列比对,得到了较为准确的近缘酵母种间同源复制起始序列,结果表明与S.cerevisiae进化距离越远的酵母种,其同源复制起始序列含有的SNP越多,而这些SNP在复制起始序列中并不是均匀分布的。对于某些ARS序列来说,不同近缘酵母种中同源ACS序列中产生的突变可能是造成不同酵母种复制时间谱差异的原因。
文章第三部分围绕预测酿酒酵母基因组中的复制起始序列展开研究。首先利用Z曲线理论对DNA序列中的AT-rich区域进行分割,生成同时具有ACS基序和AT-rich特征的候选ARSs,随后采用机器学习方法对候选ARSs进行筛选,从而开发出能够在酿酒酵母基因组水平预测潜在复制起始点的算法,并构建了用户友好型网上服务Ori-Finder3,其访问地址为:http://tubic.tju.edu.cn/Ori-Finder3。此外,通过利用Ori-Finder3对近百株高完整度的酿酒酵母基因组进行复制起始序列的预测,并以此构建复制起始序列数据库,为今后进一步挖掘及探究复制起始点序列特征提供数据基础。
文章第一部分分别从酿酒酵母全基因组角度以及酿酒酵母群体基因组角度对复制起始点的序列保守性展开分析。结果表明在参考基因组S.cerevisiaeS288C中,94.32%的自主复制序列(Autonomously replicating sequence, ARS)是唯一的,而具有高序列相似度的ARSs则倾向位于染色体的亚端粒区域。随后通过对近百株高完整度的酿酒酵母基因组中的同源ARSs分析发现82.7%的ARSs不仅在序列水平具有保守性,而且在基因组的相对位置上也具有较高的保守性,而非保守的ARSs则倾向于分布在染色体的亚端粒区域。参照泛基因组分析方法对酿酒酵母群体基因组中的复制起始序列进行了泛复制起始点分析(Pan-ARS),确定了酿酒酵母种群中的183个核心ARSs。通过提取酿酒酵母种群中复制起始点的临近基因,发现与DNA复制起始功能相关的基因,如orc3、mcm2、mcm4、mcm6和cdc45保守地分布于复制起始点周围。通过对保守ARSs的临近基因进行功能富集分析,结果表明这些基因显著富集在与DNA结合、酶活性、转运和能量传递等相关代谢通路中,而对于与非保守ARSs的临近基因则显著富集在与响应环境压力、代谢产物的合成和抗生素合成等相关的代谢通路中。
文章第二部分分别从上千株酿酒酵母种内以及近缘酵母种间的复制起始序列的演化关系展开分析。研究发现在1011株酿酒酵母的26类分支的代表菌株中,与中国分支相关酿酒酵母菌株的复制起始区域展现出更多的遗传多样性。通过对上千株酿酒酵母复制起始区域的SNP(Single nucleotide polymorphism)信息进行主成分分析发现非中国来源的菌株聚为一类,该结果支持了酿酒酵母起源于中国(Out-of-China origin)的学说。通过对上千株酿酒酵母的复制起始序列进行系统发育分析,发现这些来自于全球不同国家的不同分离环境的酿酒酵母菌株具有较明显的分支。随后利用比较基因组学的方法对近缘酵母基因组进行多序列比对,得到了较为准确的近缘酵母种间同源复制起始序列,结果表明与S.cerevisiae进化距离越远的酵母种,其同源复制起始序列含有的SNP越多,而这些SNP在复制起始序列中并不是均匀分布的。对于某些ARS序列来说,不同近缘酵母种中同源ACS序列中产生的突变可能是造成不同酵母种复制时间谱差异的原因。
文章第三部分围绕预测酿酒酵母基因组中的复制起始序列展开研究。首先利用Z曲线理论对DNA序列中的AT-rich区域进行分割,生成同时具有ACS基序和AT-rich特征的候选ARSs,随后采用机器学习方法对候选ARSs进行筛选,从而开发出能够在酿酒酵母基因组水平预测潜在复制起始点的算法,并构建了用户友好型网上服务Ori-Finder3,其访问地址为:http://tubic.tju.edu.cn/Ori-Finder3。此外,通过利用Ori-Finder3对近百株高完整度的酿酒酵母基因组进行复制起始序列的预测,并以此构建复制起始序列数据库,为今后进一步挖掘及探究复制起始点序列特征提供数据基础。