论文部分内容阅读
在后基因组时代,系统地分析和理解生物体内蛋白质问如何通过交互来完成生命活动是—个重要的挑战。分析蛋白质网络的结构特性,从蛋白质网络中挖掘蛋白质复合体和功能模块以及标注未知蛋白质功能正成为当前蛋白质组学研究的重点。本文在深入分析蛋白质网络的结构特征的基础上,根据蛋白质网络的共有特性提出了有效识别蛋白质复合体的算法,主要研究工作包括:(1)在大多数现有算法中,模块的最佳邻居节点往往被定义为跟模块内所有节点关系最紧密的节点。文中重新定义了节点和模块的最佳邻居节点,以节点间的共同邻居数来作为衡量最佳邻居节点的重要因素,将满足特定条件节点的最佳邻居节点来作为模块的最佳邻居节点。(2)提出了一种混合模块化度量标准LGQ (Local-Global Quality of modularity),既克服了全局模块化度量标准Q (global Quality of modularity)不能有效识别规模较小模块的局限性,又考虑到被局部模块化度量标准LQ (Local Quality of modularity)所忽略的模块在整个网络中所具有的全局特性。接着,提出了一种基于LGQ的最佳邻居节点挖掘算法BN-LGQ (Best Neighbour with LGQ),该算法不需要其他辅助信息,简单有效。将BN-LGQ算法应用于酵母蛋白质网络,实验结果表明,该算法能够有效识别较多的已知蛋白质复合体以及较多的具有生物意义的蛋白质复合体。(3)通过对复杂社会网络社区形成规律的研究,提出了一种基于多阶段核扩展的最佳邻居节点挖掘算法BN-MNE (Best Neighbour-Multistage Nuclear Extension)。首先,将算法BN-MNE应用于典型的复杂社会网络社团结构识别,实验分析表明,该算法能够较其他算法更好地识别复杂网络的社团结构。然后,将算法BN-MNE应用于酵母蛋白质网络,实验结果表明,该算法能够较好地挖掘出具有生物意义的蛋白质复合体,与复杂社会网络的实验结果有很好的一致性,同时也能够为其它基于复杂网络结构的蛋白质网络中复合体的识别提供有价值的参考信息。