论文部分内容阅读
蛋白质是生物体的物质基础,生物体的活动离不开蛋白质的相互作用。蛋白质若要发挥生物学功能,既能够以单一蛋白质作为关键蛋白质的方式作为生物体生存的基础,也能够以多个蛋白质聚合组成蛋白质复合物的方式完成生物功能。从蛋白质个体的角度,蛋白质可分为两类,关键蛋白质和非关键蛋白质,若生物体缺失了关键蛋白质会使其死亡或是致病,所以准确地识别关键蛋白质可帮助了解细胞功能的研究,并对药物设计提供极其重要的指导。从蛋白质群体的角度,大多数单一蛋白质个体无法独立进行生物学活动,必须与其他蛋白质结合形成蛋白质复合物实现生物学功能,来实现生物学功能和作为生物活动过程载体,因此有效地识别蛋白质复合物不但可以加深对生物学中生物组织原理和功能机制的理解,还能够诊断治疗各类疾病。海量的蛋白质相互作用(Protein-Protein Interaction,PPI)数据随着高通量技术快速发展被挖掘出来,为提出蛋白质相互作用网络中关键蛋白质识别和蛋白质复合物的计算性识别方法提供了数据基础。除生物学实验能够较准确的识别关键蛋白质和蛋白质复合物外,计算性方法也能够高效识别关键蛋白质和蛋白质复合物,其主要利用蛋白质相互作用网络(Protein-protein Interaction Network,PIN)拓扑特征。随着生物学实验的发展,生物学数据日渐丰富,融合多种生物学信息的识别关键蛋白质和蛋白质复合物算法研究也因此得以发展。随着研究的进展,学者发现识别方法的性能不仅取决于拓扑特征的使用,还包括结合蛋白质生物特征信息的方法。现有的关键蛋白质识别方法研究,在蛋白质节点的高阶邻居结构分析以及整合多元生物信息和网络拓扑信息策略有待提高。而现有的蛋白质复合物识别方法研究,在蛋白质复合物与关键蛋白质间相互影响及联系分析有所欠缺,在蛋白质个体和复合物整体构成的关系分析有所不足。针对以上现有问题,本文以真实蛋白质相互作用网络为研究基础,研究如何提高识别关键蛋白质和蛋白质复合物的准确度。文中简要介绍关键蛋白质和蛋白质复合物的研究现状、相关生物学特征和目前主流的识别方法。对关键蛋白质和蛋白质复合物识别问题进行描述,为设计关键蛋白质和蛋白质复合物识别方法做铺垫。本文的研究以蛋白质相互作用网络拓扑结构以及生物学信息数据为主要视角,利用网络拓扑理论和数据融合方法对识别关键蛋白质进行研究;在深入分析网络拓扑以及生物特征的前提下,寻找蛋白质复合物和关键蛋白质的外在联系,对蛋白质个体和复合物整体的联系进行分析,基于核-附属结构设计计算蛋白质节点和复合物整体联系的方法识别蛋白质复合物。本文的主要工作和创新点如下:第一,针对现有关键蛋白质识别方法对拓扑特征挖掘欠缺等问题,基于对PIN中h-准团结构与关键性的相关性分析,和PPI之外其他生物信息与PIN融合或单独度量蛋白质关键性的研究,提出基于h-准团结构的多数据源融合方法(h-quasi-cliques and Fusion of multiple data source,QCF)。该方法评估蛋白质h-准团的拓扑结构对关键性的影响,构建新型网络后,在此基础之上计算拓扑特性,再融合生物信息度量从多角度识别关键蛋白质。首先,QCF方法结合PIN与基因表达谱,构建了动态PIN,降低静态网络中噪声的影响;其次,在动态PIN中,结合h-准团拓扑特征与蛋白质功能注释,计算蛋白质拓扑得分;最后,融合拓扑得分和三种蛋白质生物学信息分数,计算蛋白质关键性。为验证QCF性能,在3个数据集上,与MON、TEGS和LBCC等16种方法进行测试比较。结果表明,在识别数量、F度量和ACC等性能指标上,QCF具有很好的识别性能,前100和前600的平均预测准确度为88.3%和67.7%,F度量平均为0.5674,平均Acc平均为0.7581,优于现有其他方法。第二,针对现有的方法大多只搜索局部拓扑信息,将密集子图挖掘为蛋白质复合物,而忽略了蛋白质复合物的内在组成结构的问题,提出基于关键蛋白质的核附属结构识别方法(Core Attachment and Essential Protein,CAEP)。方法通过在动态蛋白质相互作用网络上,使用关键蛋白质和GO注释加权,结合核-附属结构识别蛋白质复合物。首先,定义蛋白质相互作用边赋予权值的方法,以关键蛋白质与其他生物学信息调整权重,给动态蛋白质相互作用边赋权重,基于预设固定结构和共同邻居识别蛋白质复合物的核,以核为基础识别附属蛋白质。最后,将所识别的蛋白质复合物核和附属蛋白质结合形成蛋白质复合物,并进行冗余处理。为评估该方法的效果,在两个酵母数据集DIP和BioGRID上将CAEP与其他9种识别方法进行了比较。实验结果表明,CAEP在precision、recall、F1和Acc性能检测指标上优于所比较的识别方法。DIP数据集下与COACH方法相比,在标准蛋白质复合物数据集NewMIPS上四种性能指标平均提升15.53%,在CYC2008上平均提升15.03%。在不同蛋白质相互作用网络数据集上,将本文提出的两种识别算法与其它现有同类型算法分别进行识别效果的对比,其结果充分说明本文所提出的两类识别算法效果出色。同时,在关键蛋白质方面,本文还在识别过程中对蛋白质相互作用网络上出现的一些现象进行分析,讨论哪些情况下蛋白质是关键的;在蛋白质复合物方面,分析了对众多识别出的蛋白质复合物之间的相似性,证明其可能是真正的蛋白质复合物并具有不可替代性。此外,所提出的识别蛋白质复合物和关键蛋白质算法对具有类似社区结构复杂网络中的目标识别、分类聚类的研究中均具有拓展应用意义,是可以作为具有实际意义的工具使用的方法。