基于Convolutional-LSTM的蛋白质亚细胞定位研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gyk0088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细胞中的各类细胞器,通过相互之间的协同合作,共同完成细胞的生命活动。亚细胞定位是决定基因产物——蛋白质——功能注释的主要因素,靶向信号的知识使得复杂的药物设计成为可能。因此,蛋白质亚细胞定位研究对于某些疾病的致病机制的研究和新药物的开发非常重要。早期研究采用生物实验的方法,如荧光标记法、电子显微法、超速离心法等。然而,这些实验手段耗时巨大且花费极高,所以相关科研人员都希望能够找到更加高效的方法处理亚细胞定位问题。随着基因组学和蛋白质组学的迅速发展,各种生物信息学相关的数据量迅速增加。利用机器学习方法探索蛋白质亚细胞定位预测问题已成为近年来的热门话题。当前的比较主流的方法有:基于支持向量机的方法、基于最近邻规则的方法、基于人工神经网络的方法。这些方法应用在预测蛋白质亚细胞定位问题上取得了很好的效果,本文希望通过设计更好的生物特征和机器学习模型,有效的挖掘蛋白质数据中隐藏的信息,以获得更好的预测效果。本文使用卷积神经网络CNN、长短期记忆神经网络LSTM两种模型挖掘氨基酸序列所包含的信息,从而进行亚细胞定位的预测。随后,结合两者的优点,构建了基于卷积的常短期记忆网络Convolutional-LSTM的集成模型。具体而言,首先通过卷积神经网络对蛋白质数据进行特征抽取,随后进行特征组合,并将其送入长短期记忆神经网络进行特征表征学习,得到亚细胞定位结果。随后又通过实验,探究不同空间位置的蛋白质对实验结果的影响,从蛋白质两端各截取长度为500的片段用于实验能获得更好的实验结果。最后,考虑到蛋白质氨基酸组分信息示、蛋白质状态信息、氨基酸的理化性质在最近邻方法中的表现,决定加入这三种特征向量对Convolutional-LSTM模型进行指导,最终完成蛋白质亚细胞定位的预测。为了验证Convolutional-LSTM模型的有效性,本文选择10-折交叉验证的方法与其他算法进行对比。Convolutional-LSTM的方法在植物、真菌、动物三类数据上的预测准确率能够达到82.0%、81.7%和96.8%,实验结果证明该方法是有效且高效的。
其他文献
现代市场经济的有序运行离不开政府,政府当好裁判的前提条件之一就是约束自己,只有受法制约束的政府才有可能成为有效的政府。市场秩序问题首先是政府自律问题。政府在市场经济
近年来,苏州市国土资源管理部门本着公开、公平、公正的工作理念,就行政复议中引入听证程序进行了探索和实践,制定了专门的行政复议听证程序规定。该规定涵盖听证适用范围、主体
报纸
白眉野草螟Agriphila aeneociliella(Eversmann)是我国小麦的新发害虫。其幼虫昼伏夜出,咬食小麦根茎基部及叶片,对早春小麦为害尤为严重。为探明白眉野草螟灾变的生物及生态学
随着高中课程改革的逐步深入,人们逐渐认识到化学史料在课程及教学中的重要性,并且意识到化学教科书是史料得以呈现的物质载体。对人教版高中化学教科书中史料的呈现角度、侧
<正>回顾性分析环磷酰胺治疗结缔组织病肺间质病变(CTD-ILD)的疗效和累积量间的关系,选取广东省人民医院2003—2010年门诊部及住院部诊断为CTD-ILD,同时接受环磷酰胺及糖皮质
会议
人员流动,给新型冠状病毒肺炎疫情防控带来新的压力,无论交通运输还是市场消费都需要认真对待。战胜疫情,需要社会各方的共同努力。保护人民利益,保障百姓健康,引导人民科学防护、
报纸
李立三和毛泽东都主张武装斗争,李立三的武装斗争思想可以简要地概括为"城市中心主义"政治策略思想。对李立三"城市中心主义"政治策略思想的正确批判,是后来毛泽东得以提出"
会议
死亡赔偿金制度一直受学术界和公众的广泛批评,死亡赔偿金标准的不统一是其遭受批判的主要原因。本文试从其性质入手,深入分析对死亡赔偿金制度批判的原因以及死亡赔偿金标准
目的探讨随机森林回归处理非线性、共线和具有交互作用数据的性能,并将随机森林回归应用于高维代谢组学数据的代谢网络构建。方法通过模拟试验验证随机森林回归在线性、交互
虚拟植物是一种潜在、有力的植物分析辅助工具,而单株木生长模拟是森林生态系统模拟的基础。为了动态模拟杉木生长发育过程,提出了参数化单株木三维形态结构建模和与距离无关