基于混合深度学习模型的蛋白质磷酸化和羟基化位点预测算法研究

来源 :浙江理工大学 | 被引量 : 1次 | 上传用户:wcyzlh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质作为细胞、组织的重要组成成分,是形成生命体的物质基础。蛋白质翻译后修饰(PTM)是调控蛋白质功能的重要机制。蛋白质翻译后修饰有多种修饰类型,深入研究鉴定PTM对于理解蛋白质结构和功能具有重要意义。随着后基因组时代的到来,产生了数量庞大的未标识蛋白序列。蛋白质序列上的翻译后修饰残基位点能否被快速准确高效地标识,对于蛋白质序列的基础研究和药物的开发至关重要,也是本领域最基础和最核心问题,尤其是对蛋白质磷酸化和羟基化的研究。传统的实验学方法,需要耗费大量的时间、精力和资金。有效的生物信息学计算方法能够准确、高效地预测蛋白质翻译后修饰位点。深度学习近年来在图像识别、机器视觉、自然语言处理等方面取得突破性进展。近几年深度学习算法用于蛋白质翻译后修饰的研究文献较少,本文通过构建混合深度神经网络模型,并进一步应用于预测蛋白质磷酸化和羟基化。主要工作如下:1、综述了预测PTM的研究现状,概述了磷酸化、羟基化位点预测方法,深度学习的研究现状。2、构建混合深度学习神经网络模型。通过对蛋白质序列特征肽段的提取,选取以PTM位点为中心的肽13作为最优肽段,进一步将蛋白质字符序列转化为位置特异性打分矩阵以便作为神经网路的输入。通过卷积神经网络(CNN)提取蛋白质序列的高维特征,通过循环神经网络(RNN)提取氨基酸残基之间的关系,结合两种神经网络特点,构建混合神经网络CNN+RNN预测PTM模型。3、利用混合深度学习神经网络模型预测磷酸化、羟基化修饰位点。在蛋白质磷酸化和羟基化正负样本数据集上训练、测试和预测。在磷酸化位点预测中,我们通过构建CNN和双向长短期记忆网络(BLSTM)结合的混合神经网络使得磷酸化位点预测在数据集上最低总体准确率为0.914,最低AUC值为0.994。在羟基化预测中我们进一步构建CNN和长短期记忆网络(LSTM)结合的混合神经网络使得羟基化预测在数据集上最低总体准确率为0.892,最低AUC值为0.96。混合神经网络模型整体均优于现有的预测模型。
其他文献
0引言毫不夸张的说现代社会已经进入了信息化社会,人们对计算机网络技术的依赖也越来越严重。通信网络安全这一概念一经提出便引起了社会群众和专业人士的高度重视,众所周知
港口是沿海城市对外开放的战略优势所在,也是激发全域转型发展的重要引擎。大麦屿港作为国家一类口岸,是玉环市经济发展的重要增长极和未来实现跨越发展的希望与寄托。
以长城葡萄酒的4P营销和SWOT分析为着力点,探析长城葡萄酒营销策略存在的产品定位模糊制约发展、产品价格不稳定、渠道发展不足、营销水平需提升等问题,在此基础上提出了目标
众所周知,打击乐在戏曲中发挥着统一舞台节奏、协调各种表演形式等作用。戏曲音乐从其组成的内容上来看主要包括曲牌、唱腔、打击乐、念白四部分。其中,打击乐在整个戏曲伴奏
目的:妊娠期糖尿病(Gestational diabetes mellitu,GDM)是指妊娠首次发生或发现的引起不同程度糖代谢异常的疾病,指孕妇怀孕前糖代谢正常或有潜在糖耐量减退、妊娠期才出现或
习惯性流产亦称复发性自然流产(recurrent spontaneous abortions,RSA),指自然流产连续发生2次或以上者,每次流产多发生于同一妊娠月份。内分泌因素与习惯性流产的关系是密不
手术麻醉后患者的神经认知功能发生了一系列的改变。有文献报道在接受非心脏手术麻醉的患者中,大约有12%的患者手术后会出现神经认知功能障碍的症状[1]。作为一名麻醉医生,任
鄱阳湖是我国最大的淡水湖,湿地作为一种典型的生态系统,其涵养水源,调节气候,保护生物多样性,调节地表径流等方面发挥着无可替代的作用,并能有效的调控区域内的水分循环和C
以安徽省某高校603名大学新生为被试,采用《积极心理资本量表》《大学新生适应性量表》进行测量,运用相关分析和多元回归分析,探索地方高校大学新生积极心理品质与适应状况之
千金子(Leptochloa chinensis)是我国水稻田,尤其是直播稻田中仅次于稗草(Echinochloa crusgaali)存在的一种恶性杂草。近年来,随着稻田轻型栽培技术的推广和世界环境的变化,