论文部分内容阅读
蛋白质作为细胞、组织的重要组成成分,是形成生命体的物质基础。蛋白质翻译后修饰(PTM)是调控蛋白质功能的重要机制。蛋白质翻译后修饰有多种修饰类型,深入研究鉴定PTM对于理解蛋白质结构和功能具有重要意义。随着后基因组时代的到来,产生了数量庞大的未标识蛋白序列。蛋白质序列上的翻译后修饰残基位点能否被快速准确高效地标识,对于蛋白质序列的基础研究和药物的开发至关重要,也是本领域最基础和最核心问题,尤其是对蛋白质磷酸化和羟基化的研究。传统的实验学方法,需要耗费大量的时间、精力和资金。有效的生物信息学计算方法能够准确、高效地预测蛋白质翻译后修饰位点。深度学习近年来在图像识别、机器视觉、自然语言处理等方面取得突破性进展。近几年深度学习算法用于蛋白质翻译后修饰的研究文献较少,本文通过构建混合深度神经网络模型,并进一步应用于预测蛋白质磷酸化和羟基化。主要工作如下:1、综述了预测PTM的研究现状,概述了磷酸化、羟基化位点预测方法,深度学习的研究现状。2、构建混合深度学习神经网络模型。通过对蛋白质序列特征肽段的提取,选取以PTM位点为中心的肽13作为最优肽段,进一步将蛋白质字符序列转化为位置特异性打分矩阵以便作为神经网路的输入。通过卷积神经网络(CNN)提取蛋白质序列的高维特征,通过循环神经网络(RNN)提取氨基酸残基之间的关系,结合两种神经网络特点,构建混合神经网络CNN+RNN预测PTM模型。3、利用混合深度学习神经网络模型预测磷酸化、羟基化修饰位点。在蛋白质磷酸化和羟基化正负样本数据集上训练、测试和预测。在磷酸化位点预测中,我们通过构建CNN和双向长短期记忆网络(BLSTM)结合的混合神经网络使得磷酸化位点预测在数据集上最低总体准确率为0.914,最低AUC值为0.994。在羟基化预测中我们进一步构建CNN和长短期记忆网络(LSTM)结合的混合神经网络使得羟基化预测在数据集上最低总体准确率为0.892,最低AUC值为0.96。混合神经网络模型整体均优于现有的预测模型。