论文部分内容阅读
在功能基因组学研究中,基因对机体生命活动具有十分复杂的作用机理,通过基因的突变使基因功能发生改变或失去相应功能,从而产生相应的可见表型变化,是鉴定基因功能的一种直接有效方法。本文通过检索各大拟南芥突变资源库,收集文献挖掘信息,整合得到了5,665个具明显表型变化的拟南芥突变株系,继而借鉴植物本体(Plant Ontology)分类标准,并联合己有的表型注释资源,对收集的表型资源进行系统的分类注释,最终获得8,119对基因-表型关系对,其中包含3,874个基因和176个表型。针对以上研究数据,本文整合拟南芥中已构建的蛋白质相互作用(PPI)网络,探索了有明显表型的突变基因在PPI网络中的属性。同时,对具有相同表型的基因集进行功能分析,证明相同表型的基因群在功能模块上具有一致性。另外,通过构建并注释整体基因(Gene)与表型(Phenotype)关系网络、表型关联网络和基因关联网络,建立研究基因与表型间关系的方法,探索拟南芥生命活动的分子作用机制。通过对分子网络进行生物和拓扑结构等信息的分析,可以识别基因功能模块,了解重要表型相关的发生与发展过程;还可以鉴定到重要的生化反应上,发现表型之间的相互影响很大程度上与享有相同的生物通路和代谢过程相关。本文最后构建了一种朴素贝叶斯模型,通过整合蛋白PPI信息、基因共表达网络和基因本体注释信息来预测基因的潜在表型。对模型的评估表明,综合多种数据资源提炼出的特征得分是模型的重要组成部分,使模型具有精确的预测性能,能显著地识别基因的表型。此外,通过与其他拟南芥表型资源比对和生物通路富集分析,显示朴素贝叶斯模型的预测结果具高可信度。我们关于拟南芥突变体的数据的系统整合,对基因功能进行预测,对基因-表型网络、基因关联网络以及表型关联网络的构建并对其结构和功能的分析,有助于更系统全面的理解基因的内在组织形式和功能关联、在生物分子水平了解表型的发生规律,这些研究可以为植物的育种等重要的生物学问题提供必要的参考。