论文部分内容阅读
研究表明,关键蛋白质的识别不仅有助于理解细胞的生长调控过程,也有助于进行疾病研究和药物设计。但是通过生物医学实验的方法成本高、效率低。随着高通量技术的发展,可以获得越来越多的蛋白质相互作用数据,这让我们能够从网络水平上识别关键蛋白质。目前为止,越来越多的基于网络水平的方法被提出,但是由于蛋白质相互作用网络中包含了大量的假阴性和假阳性数据,它们的识别准确度依然需要提高。针对这些问题,本文开展的主要工作如下:
(1)提出一种构建可靠的蛋白质相互作用网络的方法。原始的静态的蛋白质相互作用网络(StaticProtein Interaction Network,S-PIN)包含了大量的假阴性和假阳性数据,这些数据影响了网络的可靠性,降低了相关算法的识别准确度。针对这种情况,本文提出一种基于亚细胞定位和蛋白质复合物构建加权的、可靠的蛋白质相互作用网络(Reliable Protein Interaction Network,RE-PIN)的方法。实验结果表明,RE-PIN能够有效提高关键蛋白质识别算法的准确度。
(2)对边聚集系数和领域中心性(NeighborhoodCentrality,NC)算法进行改进。由于边聚集系数不适用于加权的蛋白质网络,且它忽略了假阴性和假阳性数据的影响,造成对网络拓扑特征的描述不准确。本文首先基于蛋白质相互作用可信度的概念,对其进行改进,给出可信边聚集系数的定义;然后,针对NC算法提出一种改进的关键蛋白质识别算法:可信邻域中心性(ReliableNeighborhoodCentrality,RE-NC)。实验结果表明,RE-NC算法相比于NC等其它8种算法能够获得更高的识别准确度。
(3)提出一种基于蛋白质结构域特异性的关键蛋白质识别算法。由于基于网络拓扑特征的算法忽略了蛋白质网络蕴含的生物信息,造成这类算法的识别准确度不高。本文,借鉴TF-IDF算法的思想,通过结合蛋白质结构域和蛋白质网络的拓扑特征提出了分别适用于无权网络和加权网络的关键蛋白质识别算法Do-NC和Do-ReNC。实验结果表明,Do-NC和Do-ReNC在相应网络上比其它8种算法表现更好。
(4)研究一种基于DS证据理论融合多视角特征的关键蛋白质识别方法。由于不同的算法通常采用不同的特征来评估蛋白质的关键性,识别出的结果也不尽相同。因此,本文采用D-S证据理论对多个不同的关键蛋白质识别算法的识别结果进行综合考虑,介绍了一种融合多视角特征的方法DS-ESS。实验结果表明,DS-ESS能够有效提高算法的识别准确度。
(1)提出一种构建可靠的蛋白质相互作用网络的方法。原始的静态的蛋白质相互作用网络(StaticProtein Interaction Network,S-PIN)包含了大量的假阴性和假阳性数据,这些数据影响了网络的可靠性,降低了相关算法的识别准确度。针对这种情况,本文提出一种基于亚细胞定位和蛋白质复合物构建加权的、可靠的蛋白质相互作用网络(Reliable Protein Interaction Network,RE-PIN)的方法。实验结果表明,RE-PIN能够有效提高关键蛋白质识别算法的准确度。
(2)对边聚集系数和领域中心性(NeighborhoodCentrality,NC)算法进行改进。由于边聚集系数不适用于加权的蛋白质网络,且它忽略了假阴性和假阳性数据的影响,造成对网络拓扑特征的描述不准确。本文首先基于蛋白质相互作用可信度的概念,对其进行改进,给出可信边聚集系数的定义;然后,针对NC算法提出一种改进的关键蛋白质识别算法:可信邻域中心性(ReliableNeighborhoodCentrality,RE-NC)。实验结果表明,RE-NC算法相比于NC等其它8种算法能够获得更高的识别准确度。
(3)提出一种基于蛋白质结构域特异性的关键蛋白质识别算法。由于基于网络拓扑特征的算法忽略了蛋白质网络蕴含的生物信息,造成这类算法的识别准确度不高。本文,借鉴TF-IDF算法的思想,通过结合蛋白质结构域和蛋白质网络的拓扑特征提出了分别适用于无权网络和加权网络的关键蛋白质识别算法Do-NC和Do-ReNC。实验结果表明,Do-NC和Do-ReNC在相应网络上比其它8种算法表现更好。
(4)研究一种基于DS证据理论融合多视角特征的关键蛋白质识别方法。由于不同的算法通常采用不同的特征来评估蛋白质的关键性,识别出的结果也不尽相同。因此,本文采用D-S证据理论对多个不同的关键蛋白质识别算法的识别结果进行综合考虑,介绍了一种融合多视角特征的方法DS-ESS。实验结果表明,DS-ESS能够有效提高算法的识别准确度。