论文部分内容阅读
近年来,伴随着蛋白质组学和系统生物学研究的逐步深入,利用蛋白质相互作用网络识别复合体逐渐成为生物信息学的一个研究热点。高通量大数据实验产生大量蛋白质数据,其中势必包含大量假阳性的数据,假阳性数据定会影响到计算方法搜索复合体的最终效果。因此,采用计算方法来搜索复合体之前需要去除假阳性的影响。本课题对蛋白质网络中相互作用的蛋白质进行研究,运用计算聚类方法从中搜索出蛋白质复合体,其中研究的主要要点包括以下两点:(1)为了减少通过高通量大数据实验发现的蛋白质数据中假阳性的影响,从而提升搜索蛋白质复合体识别的精度,本章中我们提出了一种新的搜索蛋白质复合体的算法:MCLAd。首先,基于蛋白质相互作用网络拓扑结构的特性,选择处理网络拓扑特性方法AdjstCD对所得到的高通量蛋白质相互作用数据进行预处理,减少数据的假阳性;其次,再结合经典的MCL聚类算法进行蛋白质复合体的聚类识别;最后,将我们的算法MCLAd和现有的7种优秀方法:MCL,ClusterONE,MCODE,RRW,RNSC,COACH 以及 CORE 算法分别进行了实验比较。通过大量实验验证显示,本论文所提出来的MCLAd搜索算法具有非常明显的实验效果,对搜索蛋白质复合体有非常好的实验性能。(2)集成ClusterONE,MCL和RRW三种方法的优势,我们提出了一种新的蛋白质复合体搜索算法MCR,并且将MCR分别同MCL,COACH,ClusterONE,MCODE,RRW,RNSC,CORE以及我们所提出的MCLAd方法进行实验比较。我们将上述算法分别作用在BioGRID蛋白质相互作用数据库和DIP蛋白质相互作用数据库这两个数据集上,并且将搜索所得的结果即蛋白质复合体分别同SGD以及MIPS这两种复合体标准数据集进行实验比较。实验表明,同其他搜索蛋白质复合体算法相比,MCR算法搜索出的蛋白质复合体同标准复合体数据集匹配,在搜索效率以及可靠性上面都具有非常大的优势。