论文部分内容阅读
在蛋白质相互作用(protein-protein interaction,PPI)网络中挖掘复合物是蛋白质组学的研究重点。通过研究复合物和功能模块能帮助人们深入地了解生物体的生命特征、分析疾病机理等。然而,由于现在可用数据众多、维数较高、假阳性率和假阴性率很高、结点间相互关系不稳定等多种因素,导致直接使用实验数据精确性不高,而且仅从结点的某一特性去判断它们之间的关系比较单一,不同的特性在很大程度上影响着最终预测结果。本文旨在研究PPI网络中预测复合物的方法,主要工作如下:(1)将布谷鸟搜寻机理用于复合物识别。为避免根据结点的单一特性挖掘复合物,本文同时考虑了结点的拓扑特性、生物特性以及结点和复合物之间的关系,用不同的相似性度量标准判断结点间的关系并进行两次聚类。第一阶段根据布谷鸟更愿意寻找相似度较高的鸟巢孵卵,成活几率大且不易被宿主发现这一生物特点,计算小鸟与鸟巢的相似性,多次迭代使得小鸟找到理想鸟巢,从而得到初始簇,再利用亲和密度将未找到鸟巢的小鸟聚类;第二阶段是对复合物结点个数较少和尚未聚类的结点进行二次聚类,根据顶点和邻居构成的簇密度大于限定值进行合并,然后根据亲和度进行扩展,将稀疏结点尽可能的聚到各个类簇中,从而获得更多复合物,这种方法运用不同的度量标准考虑更全面,所得聚类比较有效。(2)利用粒度计算的思想挖掘复合物。粒度计算和聚类有天然的共性,本文根据这一共性引入商空间理论,该理论首先采用子集或者商空间表示问题,不同商空间表现成不同粒度的商集,然后用等价关系粒化得到各个划分,选择合适粒度空间,将多个不同粒度空间继续合成,最终得到初始问题的解。本文结合了 GO基因本体数据和PPI数据来判断粒子之间的关系,弥补了单纯使用PPI数据的不足,运用商空间理论对网络中样本数据进行处理,通过对网络进行粒化从而构造商空间,然后将其逐层合并,每次对于还未聚类的粒子,仍保留到类簇中,以此增加粒子的多样性,最后将合并结果提纯后即为聚类结果。实验表明,这种新的方法能更加高效地预测复合物。(3)基于拓扑势加权的动态PPI网络复合物挖掘方法。由于PPI数据的假阳性率和假阴性率很高,不能准确地描述真实网络,本文结合拓扑势场的思想对该网络进行优化。拓扑势场描述的是每一个粒子和周围粒子之间的作用关系,而PPI网络中结点之间也存在相互作用,二者具有相似的特性,所以使用结点之间的拓扑势给网络加权能更好的反映实质的生物网络结构,并且结合基因表达数据构建时序动态子网,然后利用MCL聚类算法在PPI数据上挖掘蛋白质复合物。与其它经典方法相比,该方法能更准确地挖掘复合物。