论文部分内容阅读
随着基因组计划的完成,人类步入后基因组时代,逐渐认识到蛋白质分子在生命过程中的重要性。研究表明,蛋白质分子并不单独发挥作用,它通常与其功能相似的蛋白质分子聚集形成大分子结构,以蛋白质络合物的形式参与生物进程、细胞组成、分子功能等生命过程。目前,生物高通量实验产生了大量的蛋白质关系,随之形成了多种蛋白质关系数据集,为蛋白质络合物的预测提供了可能。蛋白质络合物以其对生命的重要意义,成为系统生物学的热点研究对象。首先,本文介绍了蛋白质络合物发现算法的研究背景、研究现状、相关知识和评价指标。并且指出目前影响蛋白质络合物发现算法性能提升的主要问题:蛋白质关系数据集中假阳性、伪阴性问题;流行蛋白质络合物发现算法单纯基于规则寻找关系网络中密集子图导致的局限性问题。这些问题限制了蛋白质络合物发现算法性能的提升。随后,本文针对蛋白质关系数据集中伪阴性问题,提出集成生物文献中蛋白质关系策略。该策略充分利用生物文献中隐含的大量高准确性蛋白质关系信息资源,利用PPIExtractor系统从文献中抽取蛋白质关系,经过筛选过滤后集成到蛋白质关系数据集中,弥补蛋白质关系数据集中关系缺失现象,从而提升蛋白质络合物发现算法的性能。最后,本文针对蛋白质关系网络假阳性、伪阴性问题及蛋白质络合物算法局限性问题,提出一种基于监督学习和集成生物文献中蛋白质关系的络合物发现算法。该算法第一步通过集成生物文献中蛋白质关系解决蛋白质关系数据集伪阴性问题和稀疏性问题;第二步通过采用集成蛋白质基因标注信息特征和蛋白质关系拓扑结构特征的蛋白质关系可信度度量策略,过滤蛋白质关系网络中低可信度关系,解决蛋白质关系数据集假阳性问题;第三步通过采用监督学习SLPC算法在修正后高质量蛋白质关系数据集中进行蛋白质络合物预测,经过Cliques算法抽取完全子图,邻接蛋白质扩充完全子图,高重叠子图过滤等操作,最终得到预测蛋白质络合物,解决蛋白质络合物算法局限性问题。本文提出的集成生物文献中蛋白质关系策略,使得多种蛋白质络合物发现算法在多种蛋白质关系数据集上得到显著的性能提升。本文提出的基于监督学习和集成生物文献中蛋白质关系的络合物发现算法,在多种蛋白质关系数据集上取得不错的性能,较目前较新较好的络合物发现算法ClusterONE,有着明显的性能提升。