论文部分内容阅读
全世界范围内约有七分之一的夫妇经受不育症困扰,其中一半以上由男性生殖异常引起的。临床数据显示男性生殖障碍病因主要由精子发生过程中基因表达调控异常引起的。因此,揭示精子发生相关基因、阐明其分子机制,对男性不育症的诊断、治疗提供指导意义。精子发生是一个复杂的动态生物学过程,粗略地可分为三个时期:由精原干细胞起始,经不断增殖分化生成A型、B型精原细胞,B型精原细胞继续分化形成精母细胞,进而经分裂形成圆形精子细胞,最后经一系列变化最终生成单倍体成熟精子。阶段内特异表达的基因调控高度复杂的精子发生过程,其中任何一个阶段发生错误都可导致精子形成异常,最终引起雄性不育。为系统且整体地了解精子发生的复杂动态变化过程,常规的单一基因单一层次研究方法已不再适应。随着高通量测序数据及相关研究文献的快速积累,使得对精子发生相关基因进行系统全面分析成为可能。基于此,本研究拟整合精子发生过程数据,结合文本挖掘技术,采用系统生物学分析方法,对小鼠精子发生过程相关基因进行挖掘预测分析。本研究通过对小鼠精子发生过程各阶段RNA-seq数据与文本数据整合分析,细致全面地挖掘精子发生各阶段特异表达基因。在此基础上,利用蛋白互作网络,开发预测算法SGNet,挖掘新颖的精子发生相关分子标记,从分子水平验证候选基因对精子发生的影响。1.小鼠精子发生过程RNA-seq测序数据整合分析基于GEO、SRA等数据库构建小鼠精子发生相关RNA-seq测序数据平台,分析基因表达情况。基于两种不同的方法对不同研究内的相同阶段内差异基因的P-values进行整合,获得阶段特异差异基因。结果分别有8508、6939个基因在两个或两个以上阶段表达,而247、150个基因在五个或五个以上阶段差异表达;两种不同方法中均发现Inhba,Thbs2两个基因七个阶段内全部差异表达。各阶段基因功能相似性分析表明阶段内基因相似性较高,可协同发挥作用。功能富集结果显示,基因明显富集于与精子发生相关通路内。2.基于文本挖掘的小鼠精子发生相关基因分析以PubMed为数据源,以阶段信息结合物种名称构成主题词,采用文本挖掘技术,抓取已知的与精子发生阶段特异相关基因。结果发现,基因中有1241(64.6%)个基因至少与两个不同精子发生阶段相关,而Sycp3、H2afx等六个基因在七个阶段均检索出来;其中,Sycp3已有文献证明其与减数分裂联会相关;Pou5f1作为干性因子与精原干细胞自我更新过程相关。功能富集分析,结果发现其均与减数分裂、精子发生等通路显著相关。3.预测精子发生过程发挥重要作用分子标记基于蛋白互作网络,整合阶段特异基因及文本基因作为阳性标签,综合运用网络拓扑性质、最短路距离以及功能相似性等特征,开发算法SGNet预测精子发生过程潜在的相关新基因。SGNet预测52个候选基因;其中包括5个转录因子。在此基础上,我们发现了各阶段特异的功能模块。基于CTD数据库内基因与疾病关系表分析,84%SGNet模型预测基因与不孕、睾丸组织发育异常、精子囊肿等生殖类疾病相关。最后,通过分子试验qRT-PCR验证,Smc1a及Tubgcp家族基因与预测结果一致。