蛋白质网络模体发现算法及其在关键蛋白质识别中的应用

来源 :湖南大学 | 被引量 : 2次 | 上传用户:facekr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量蛋白质组技术的快速发展,大量的蛋白质网络数据被收集整理在多个公开的数据库中,如何从这些大规模的蛋白质网络中识别出与功能相关的子结构是当前计算生物学的研究热点之一。网络模体代表着蛋白质网络中的进化保守拓扑单元,研究网络模体有助于理解蛋白质网络的结构、功能以及进化设计原理,同时为系统认识细胞内生命活动的内在组织及其过程提供有效方法。网络模体发现的过程涉及到子图搜索和图同构两大计算难题,模体的查找时间随着网络和模体规模的增大呈指数级增长,从而使其适用性受到限制。因此研究高效、可扩展性的模体发现算法具有重要的理论意义和应用价值。另一方面,从模体的生物意义角度出发,如何有效地去除生物网络中的噪声数据使查找出的模体更具有生物显著性也是当前存在的问题之一。本文以真实的蛋白质网络作为研究对象,分别从计算角度和生物角度研究了两种类型的网络模体发现问题,即结构网络模体和生物网络模体。对于结构网络模体,考虑到高通量实验所得到的蛋白质网络数据存在假阴性和假阳性的特点,故以非导出子图的方式来查找,而对于生物网络模体,由于在查找子图之前原网络经过了去噪预处理,则以导出子图的方式来查找。此外,考虑到关键蛋白质与网络模体之间可能具有的内在联系,本文最后开展了以网络模体为中心的关键蛋白质的识别研究,主要研究工作如下:(1)鉴于任何非树型连通子图可以通过相应的树型子图进行边的扩展而得到,将整个子图的查找过程分成树型子图查找与非树型子图查找两个步骤进行。首先对于树型子图,提出了一种基于整数组合的子树枚举和统计算法。该算法利用整数的组合操作设计一种有效的子树枚举算法,并通过在子树枚举的过程中同时搜索一个根树的方式来有效减少子树同构的判断数目,此外,通过把所查找子树的规范化标记存储在内存中的方法来简化子树的计数方式。最后,在查找出的树型子图的基础上,通过深度优先搜索扩展树的层次结构进行非树型子图的查找。实验结果表明,相比于现存算法,本文所提方法在运行时间上具有较明显的性能加速。(2)为了去除模体发现过程中图同构的判断,提出了一种基于组合技术的子树统计算法。该算法采用组合技术来直接计算每种同构模式的数目,而不需要完整枚举出子树,从而避免了图同构的测试。而且,根据不同子树拥有相同子结构的特点,实现从一个子结构统计多种子树的同构模式数目的方式,可以减少子结构的重复搜索。最后,本文利用循环门排序“revolving door ordering”算法来有效地生成顶点的组合以实现子结构的枚举。实验结果表明,相比于现存算法,本文所提算法在运行时间上至少快一个数量级。(3)从模体的生物显著性角度,提出了一种有效的算法用于生物网络模体的发现。该算法通过整合边聚集系数和GO短语的语义相似性来综合评估相互作用的生物显著性,然后根据该值的大小去掉生物上非显著性的边来减少查询的子图数目,以增加生物网络模体的发现比例。本文所提算法在拓扑属性和生物功能两方面得到了一个较好的融合,有效地克服了生物网络中的假阳性数据,使查找到的子图在复合物与功能模块中都具有较高的比例。同样,所提算法也适用于传统结构网络模体的发现。(4)考虑到网络模体是蛋白质网络中的进化保守拓扑单元,且有研究指出,相比于非关键蛋白质,关键蛋白质在进化上是更加保守的,以此为理论基础,提出了一种新的基于网络模体扩展的子图密度的关键蛋白质识别算法。该算法依据每个蛋白质所参与的所有模体的扩展子图的密度之和作为衡量蛋白质的关键性指标。进一步,针对蛋白质网络中存在一定的假阳性信息,首先利用边聚集系数对网络进行预处理,然后再结合模体扩展的算法在预处理后的网络中识别关键蛋白质。实验结果表明,本文所提的两个方法预测的关键蛋白质数量均要高于传统拓扑特征的方法的预测结果。
其他文献
目的:随着我国社会结构变化及婚育观念的转变,越来越多女性初次孕产年龄推迟,由此带来的高龄生育问题日渐严峻。早发性卵巢功能不全的发病率有逐年上升的趋势且伴有年轻化,而
仁怀市在“四型”党组织建设中,积极向非公企业、社会组织、产业园区、农民工群体拓展,切实服务经济社会发展,实现经济工作与党建工作“同频共振”;在夯实党建基础的同时,选
测交是指用纯合隐性亲本与杂合子杂交,以测定杂合子基因型的一种杂交方式。它在遗传规律中应用广泛,其中孟德尔利用测交验证了分离和自由组合律,以及摩尔根在连锁互换律中也进行
利用嵌入式LED光源,提高夜间抓拍图象质量,为车牌号自动识别系统提供高质量的图象,是进一步提高道桥收费系统车牌识别率的新途径。
高速铁路作为国民经济的大动脉,在人民的日常生活中扮演着至关重要的角色。我国处于环太平洋地震带与欧亚地震带这两个世界上最大的地震集中发生地带,是一个地震灾害严重的国
改革开放以来,中国经济飞速发展,这与政策制度环境密切相关。与西方发达国家经济发展主要由市场主导不同,我国经济发展主要由政府主导。政府由官员组成,官员作为“理性经济人
中国改革开放四十年以来,各类资金和资源的大规模投入,推动了经济持续高速增长。与此同时,在行政干预、投资冲动等多重因素的影响下,中国经济发展也出现了产能过剩、重复投资
目的研究精准肝切除(PLR)治疗原发性肝癌(PHC)的临床疗效。方法选择2008年1月至2016年1月行手术治疗PHC患者98例,依据随机数字表法分为PLR组与非规则性肝切除(ILR)组各49例。PLR组
期刊
目的 探讨晚期鼻咽癌病人放疗后的综合治疗方式。方法 对81例晚期鼻咽癌病人放疗后分为3组:化疗组28例,给标准化疗方案(顺铂、5-FU每4wk化疗1次为1周期,共做4~6周期);综合组21例,给