论文部分内容阅读
生物网络模块化结构识别和人类疾病基因预测在生物信息学领域具有重要研究价值。本文从蛋白质相互作用网络的拓扑特征出发,认为网络中节点的模块归属性可以由它的周围邻居节点的紧密程度来界定。据此设计新的复合物识别算法,然后将该算法应用到人类蛋白质功能模块划分,通过对候选疾病基因进行排序预测疾病基因。具体而言,本文开展了以下研究工作:(1)蛋白质相互作用网络是一种复杂网络。受复杂社交网络形成规律和关键节点识别思想的启发,本文通过分析网络节点的邻居节点的关联紧密程度,提出一种新的在动态蛋白质网络上挖掘蛋白质复合物的新方法NC-TDPINs(Neighbor Closeness base on Transient Dynamic Protein Interaction Networks)。在NC-TDPINs算法中,首先以聚集系数较大的节点及其邻居作为初始模块核,然后采用基于邻居节点紧密度的划分策略来逐步进行核扩展,节点的归属性可以由分布在不同局部子图中的邻居节点的紧密程度来决定,从而实现蛋白质复合物识别。和其它经典算法相比,NC-TDPINs能够识别出更多具有生物意义的蛋白质复合物,同时准确性也优于其他方法。(2)复杂疾病的发生与发展通常涉及众多基因突变、表达调控紊乱等因素,这些基因相互之间表现出一定的模块性。本文根据"guilt-by-association"假设,从疾病表型与基因集合关系的角度出发,首先在蛋白质相互作用网络基础上构建模块相互作用网络,采用Mpagerank(Modules PageRank)方法先对模块进行打分,再对模块内的基因进行统计排序,通过考察模块中候选疾病基因与已知疾病基因的关系来预测疾病基因。实验结果表明:Mpagerank方法对疾病基因预测结果要优于NetScore,NetZcore,fFlow等经典方法。