论文部分内容阅读
蛋白质复合物这一物质在整个生物进程中执行着特定的生命活动,在复杂的生命系统中扮演着至关重要的角色。蛋白质彼此间在不同时间、空间中发生的各种互作用及其在不同生物间的同源映射关系,显示着生命历程中的动态演化与保守进化特性。由于不同的蛋白质互作用数据蕴含了不同而又互补的生物信息,因此需要整合多源蛋白质数据,对相互作用间的关系、功能、动态变化及其保守进化展开深入研究,这也是后基因组时代蛋白质复合物研究的热点。本文在融合多源生物组学数据的基础上,提出了基于群体动态决策思想挖掘时序蛋白质复合物,并设计构建了保守相似性网络进而挖掘保守蛋白质复合物。主要研究工作如下:基于动态群体决策的蛋白质复合物挖掘。传统的聚类静态蛋白质网络的策略往往忽略了复合物间存在的动态特性,本文首先将蛋白质的GO(Gene Ontology)功能注释数据和时序基因表达数据与静态相互作用网络的拓扑结构进行融合,构建了多源动态蛋白质网络。然后借鉴智能群体决策的思想,提出了一种新型的识别时序网络中动态蛋白质复合物的算法—IPC-DGD(Identifying Protein Complexes based on Dynamic Group Decision)。依据网络中蛋白质节点的局部密度与相对距离确定聚类中心合适的解空间,实现对动态蛋白质网络的初步聚类。在优化初始聚类的过程中动态模拟人类群体决策的讨论过程,设计出决策个体偏好交互规则及群体偏好调整策略,实现复合物内蛋白质节点的迁移及复合物间相互融合的两种动态更新方案,以获得更优的复合物集合。实验结果表明:IPC-DGD算法在匹配度,敏感度和F值等指标上比其它经典的蛋白质复合物挖掘方法有较高的优势,并能有效地弥补聚类中心敏感性,拓扑局限性以及局部最优的不足。基于保守信息融合的蛋白质复合物挖掘。现有的蛋白质复合物挖掘大多数是针对单一物种的网络上进行,很少考虑到跨物种间复合物存在的保守与进化分歧。因此,本文将GO功能注释数据和模式物种间的直系同源数据与已知人类蛋白质相互作用数据进行融合,提出一种计算蛋白质间功能相似性和同源相似性的新框架,进而构建出蛋白质的保守相似性网络。从网络中挖掘出的保守复合物角度以及蛋白质水平上分析蛋白质互作用间存在的保守特性,进而增补已知保守复合物的组成部分。实验结果表明:在最大匹配率、敏感度及F度量等指标上,该方法表现出更具有优势的评价值,能够识别出更为准确且规模较大的保守蛋白质复合物,并成功的匹配了近80%的已知保守复合物,有助于解释生命中的进化分歧与物种间的保守规律,发掘出一些具有生物学意义的知识。本文整合多组学生物数据,构建了多源动态蛋白质网络与保守蛋白质网络,基于计算生物学思想预测相互作用的程度大小,进而实现动态蛋白质复合物与保守蛋白质复合物的挖掘。结果表明本文提出的方法能够有效地克服噪音数据的影响,弥补网络的拓扑局限性,发现潜在的生物学信息。