论文部分内容阅读
当今,用蛋白相互作用网络研究蛋白功能已经成为科学界的一个热点。科学家通过对蛋白相互作用网络的研究发现相互作用的蛋白质趋向于具有相似的细胞功能。聚类方法能根据蛋白相互作用与蛋白功能一致性的特点,利用网络中蛋白质之间的亲疏关系,发掘出网络本身内在的“抱团儿”性质,使得复杂网络中的蛋白能够“分散地聚集”,即形成一个个规模小得多的团,同时也使得原来错综复杂的网络信息能分散地集中在各个团中,然后,对聚成的团分别进行单独的分析。因而,聚类方法能基于近邻相互作用研究蛋白功能模块并预测蛋白功能,自然成为蛋白网络研究的一种很好的选择。本文主要着眼于满足蛋白网络模块化特点的聚类方法的拓展和蛋白网络可视化软件的设计开发。本文对网络中的聚类算法进行了研究,提出了一种能满足蛋白相互作用网络“块内紧密,块间稀疏”的模块化特点且简单易行的新的基于蛋白功能团的拓扑层次聚类方法――MCM算法。该算法打破了传统的基于蛋白间相似度的聚类模式,直接从蛋白功能团的角度出发,考虑功能团间的一阶和二阶相互作用,定义新的相似度,对最新的高通量的酵母蛋白网络实验数据进行聚类分析,并预测模块内未知蛋白的功能。通过超几何分布P值法和增、删、改相互作用的方法对聚类结果进行预测能力分析和稳定性分析。结果表明模块化聚类方法具有较高的预测准确度和覆盖率,有很好的容错性和稳定性。MCM聚类分析还得到了一些具有高预测准确度的未知蛋白的预测结果,将会对生物实验有指导意义,其算法对其它的具有相似结构的网络也具有普遍意义。此外,在Jbuilder软件环境上开发实现了PINC蛋白网络显示软件。该软件基于ADJW可视化方法的算法思想,采用矩阵显示和传统显示相结合的方式可视化蛋白相互作用网络。在PINC设计开发过程中,采用“模型-视图-控制器(MVC)”的设计模式,开发网络矩阵显示和聚类树显示相结合的多视窗界面。PINC集成了蛋白网络常用的聚类算法ADJ,ADJW,RIVES,BRUN,RAVASZ和SAMANTA,还有我们的MCM算法,结合传统显示和功能注释等方式具体细致地研究了蛋白网络的功能信息和其它相关生物学信息,能为生物学家提供一个跨系统的蛋白网络分析平台。PINC将聚类方法研究与可视化软件结合起来,能克服传统可视化软件的容易隐蔽大规模网络数据的信息的缺陷,是传统可视化软件的很好的补充,必将促进网络研究的发展。