论文部分内容阅读
随着生物信息学和高通量技术的迅猛发展,使得全面分析蛋白质网络的结构、功能成为新的研究热点,尤其是基于PPI网络的蛋白质复合物和关键蛋白质识别,不仅为解释生命进程和探索生命奥秘提供理论基础,而且对疾病诊断和药物研制有重要意义。目前,蛋白质复合物和关键蛋白质挖掘算法虽然取得了一定成效,但由于PPI网络的不可靠性、小世界性和复杂性,以及目前聚类算法自身的局限性,导致现有挖掘算法的识别精度不高。本文在蛋白质复合物挖掘上主要从两个方向着手,一是结合PPI网络的结构,通过模拟蚁群清理蚁穴行为构建聚类模型;二是利用人工蜂群算法ABC解决DBSCAN聚类算法参数选取和设置敏感的问题。在识别关键蛋白质方法上,利用蛋白质的保守性和动态性,结合拓扑特性和共表达复合物中心性来提升关键蛋白质预测的准确度。本文主要研究工作如下:针对静态蛋白质网络无法真实模拟细胞的动态性,蚁群聚类算法挖掘蛋白质复合物准确性不高、速度慢等问题,提出一种基于模糊粒度和紧密度的蚁群聚类动态蛋白质复合物算法FGCDACC。首先,该算法基于PPI网络的拓扑特性和生物特性设计了综合性权值度量CWM,准确描述了蛋白质之间的相互作用;然后结合复合物的模块特性,构建一组连接高度紧密且连续共表达的核心团,再改进基于拾起放下的蚁群聚类模型并完成聚类,提升了聚类速度和准确率;最后利用时序功能相关和功能信息传递机制设计了具有正反馈机制的权值更新策略,实现不同代蚁群和不同时刻网络之间的最优解传递。针对DBSCAN算法全局参数设置不合理问题,以及人工蜂群算法ABC后期迭代慢、易陷入局部最优等不足展开了研究,提出一种基于改进人工蜂群算法优化DBSCAN的动态复合物挖掘算法IABC-DBSCAN。该算法首先设计截断-锦标赛选择机制TCSM,自适应和全局引导的搜索策略AGS优化人工蜂群算法ABC,以增强蜂群多样性,并加强跟随蜂寻找全局最优解能力;然后根据改进的人工蜂群算法IABC来动态调节DBSCAN算法中的参数,并将最优参数作为DBSCAN的输入,并在动态DIP数据集上检测蛋白质复合物,以优化聚类效果。现有的关键蛋白质预测算法大多应用在静态PPI网络上,忽略了蛋白质的动态性、保守性以及生物特性,并且未能完全解决假阳性和假阴性问题。针对以上问题,构建一种混合动态-保守蛋白质的时序加权PPI网络,并提出一种名为JTBC的关键蛋白质识别算法。该方法首先利用基因表达数据提取动态和保守蛋白质的活性信息,以动态调整静态PPI网络进而构建时序-保守PPI网络;其次设计一种点边凝聚度DEcc,并结合生物属性数据为动态网络加权。最后设计一种共表达复合物中心性方法。该算法整合权重信息和蛋白质复合物信息,从全局和局部两方面准确地挖掘关键蛋白质。