论文部分内容阅读
蛋白质作为生命物质的基础,与生物体的生长息息相关。作为蛋白质组学的研究热点之一,研究蛋白质的功能有助于人类揭示生命的奥秘。虽然采用生化实验是最具生物学可靠性的分析蛋白质功能的方法,然而这类实验的周期长、成本高,已经无法满足处理目前高速增长的蛋白质数据的需要。这促使研究者们通过计算技术对蛋白质功能进行预测。随着高通量生物技术的发展,采用蛋白质相互作用网络的功能预测成为了近年来的研究热点之一。由于相互作用网络结构复杂,研究者们通常采用机器学习的方式对其进行分析。本文基于一种称为全局优化模型的半监督学习方式,采用蛋白质相互作用网络进行蛋白质功能预测。根据全局优化模型存在的对局部信息利用不足的问题,本文对其进行了改进,并提出了局部搜索策略引导的全局优化模型。基于以上模型,本文分别设计和实现了蛋白质功能预测的蚁群优化算法和蛋白质功能预测的混洗蛙跳算法。为了进行算法仿真,本文对目前常见的蛋白质相互作用数据库和功能注释数据库中的数据进行了收集和整理,针对其中蛋白质编号方式不同的问题设计和实现了一个数据预处理和整合工具,方便今后研究中的数据处理和交换。在算法仿真中本文采用了两组仿真数据,一组来自文献中提供的数据,另一组是本文采用上述工具将DIP-core与FunCat2.1的数据进行整合得到的数据。仿真结果表明,以上两种算法均能够有效对蛋白质功能进行预测,预测准确率总体高于现有的一些算法。另外,本文测试了上述两个算法对相互作用网络中假阳性、假阴性数据的容错能力,结果表明,上述两个算法均具有较好的容错能力。在进一步的分析中,本文在相同能量函数调用次数下比较了全局优化模型和局部启发式搜索策略引导的全局优化模型下算法的收敛速度,结果表明后者的收敛速度显著高于前者。