论文部分内容阅读
随着基因测序技术的不断进步和高通量蛋白质组学技术的不断发展,关于关键基因或关键蛋白质的研究也不断往更深层次方向延伸。蛋白质是所有细胞和组织结构的重要组成部分,特别是关键蛋白质,其是保持生命体维持正常生命活动所必需的蛋白质。识别关键蛋白质不仅对于理解细胞生命活动的基本要素至关重要,而且对于发现生物体的致病基因和防御生物病原体有促进作用。因此,可靠的关键蛋白质识别不仅有助于在系统水平上了解生物体关键的生物学过程,同时对药物设计、疾病诊断和医疗也具有重要意义。尽管现有的对于关键蛋白质的分析和预测研究取得了一定的成效,但仍存在以下诸多问题:1)如何降低蛋白质相互作用(Protein-Protein interaction,PPI)网络中假阳性数据、假阴性数据以及不完备数据对于关键蛋白质识别精度的负面影响,从而构建更加真实、更加可靠的PPI网络;2)如何更准确更全面地描述关键蛋白质更倾向于在PPI网络中具有模块化特性;3)如何有效地整合多元生物和其它PPI网络相关信息,设计出一个能够较好地衡量蛋白质关键性的度量方式;4)如何选择合理地选择计算算法在寻优中更加精准地找到关键蛋白质,以减少迭代次数,达到提升挖掘关键蛋白质的效率的目的。针对上一段陈述的诸多问题,在对PPI网络的拓扑特性、生物属性、空间属性以及挖掘效率等相关知识进行研究和分析的基础上,本文提出了两种不同的融合拓扑特征和生物特性的关键蛋白质识别方法:1)融合中心性和模块特性的关键蛋白质识别方法(United Centrality and Modularity,UCM);2)融合复合物信息和亚细胞定位信息的关键蛋白质识别方法(United Protein Complexes and Subcellular Locallizations,PCSL)。这两种融合不同PPI网络相关信息的关键蛋白质识别方法主要研究工作如下:(1)融合中心性和模块特性的关键蛋白质识别方法针对PPI网络中存在大量噪音(假阳性数据、假阴性数据)以及现有关键蛋白识别方法准确率不高等问题,提出了一种基于中心性和模块特性的方法UCM来识别关键蛋白质。首先,整合蛋白质拓扑数据和生物数据构建多元属性网络,以降低PPI网络中噪音的影响;其次,根据关键蛋白质的拓扑特性和生物特性,提出一种挖掘稠密且高度共表达的关键模块算法,从多元属性网络中挖掘高可靠性的关键模块,以从多维角度强化关键蛋白质在模块中的重要程度;最后,整合蛋白质的中心性和模块化特性,设计一种衡量蛋白质关键性的策略(Essential Integration Strategy,EIS),以提高识别高关键蛋白质的准确率。(2)融合复合物信息和亚细胞定位信息的关键蛋白质识别方法针对现有的关键蛋白质预测方法不但存在忽略PPI网络的空间属性的重要性问题,而且还存在对模块化信息考虑不全面以及识别关键蛋白质的过程中挖掘关键蛋白质效率不高等问题,提出了一种基于复合物信息和亚细胞定位信息的方法PCSL来识别关键蛋白质。首先,整合PPI网络的拓扑属性、生物属性和空间属性构建加权网络,以降低PPI网络中噪音的影响,达到提升PPI网络的可靠性的目的;其次,根据复合物信息和空间信息(亚细胞定位信息),设计一种衡量PPI网络中蛋白质关键性的度量,从不同的维度强化蛋白质在PPI网络中的重要程度(关键性)。最后,利用基于PPI网络拓扑特性的寻优算法,设计一种新的试探策略,避免陷入局部最优,以提升挖掘关键蛋白质的效率。