论文部分内容阅读
复杂网络被定义为一类由现实复杂系统抽象出来,并表现出高度复杂性的网络。现实生活中,我们总是处在不同的网络中,同时整个社会也被不同的网络所覆盖,如金融网、因特网、工作网、朋友圈、交通网、犯罪网等,因此深入研究复杂网络,对于我们的生活、工作都具有重大指导意义。生物体内存在着大量蛋白质,根据它们对生物体的重要性可以分为两类:关键蛋白质和非关键蛋白质。关键蛋白质是指能够帮助生物体实现某些功能,并且丢失后会对生物体造成巨大影响的一类蛋白质,由此可见,它对于生物体的生存、正常工作意义重大。同时,通过计算机从复杂的蛋白质交互网络中识别关键蛋白质,已经成为当今研究的一大热点。现阶段该领域已有一些经典算法,如度中心性算法、介数中心性算法、紧密度中心性算法等,但是以上算法都只关注了节点在网络中的重要性,而忽略了边作为连接节点之间桥梁所具有的重要性。接着,便有研究者引入边聚集系数ECC(edge clusteringcoefficient,ECC),提出了新型中心度算法NC(new centrality,NC)、基于排除思想的剥落排序算法等,但是上述这些算法都存在两个共同问题:既没有将网络中的节点和边的双重特性有效结合起来,也没有综合考虑每种算法的优势。针对上述问题,本文首先引入点聚集系数C(clustering coefficient,C)和边聚集系数ECC,并在此基础上,提出改进的边聚集系数IECC(improved edge clusteringcoefficient,IECC),和一种融合点和边双重拓扑特性的算法NEC(node and edge clusteringcoefficient,NEC)。接着,本文引入了机器学习中的K近邻(K-Nearest Neighbor,简称KNN)算法。由于传统KNN算法容易产生过拟合或欠拟合,于是本文采用Bootstrap重抽样技术对KNN算法改进,改进后的新型蛋白质预测模型定义为bootstrap k-nearest neighbor模型(简称Bootstrap-KNN)。Bootstrap-KNN对每个节点的识别都综合了多种关键节点识别方法的评分,由于不同算法对不同网络结构的适用性,本文提出的方法使预测结果更加客观,而且适用性更强。为了验证本文提出的改进算法NEC和Bootstrap-KNN模型的有效性,本文利用DIP(dataset of interacting proteins,DIP)数据集中的酵母蛋白质网络进行仿真实验。通过对实验结果中各项评价指标进行分析对比,结果显示NEC算法的预测准确率等多项指标均高于大部分传统算法,并且Bootstrap-KNN模型对应的预测准确率等多项指标均高于NEC算法,这些改进能够为生物学中关键蛋白质的预测提供有效指导。