论文部分内容阅读
细胞中的各类细胞器,通过相互之间的协同合作,共同完成细胞的生命活动。亚细胞定位是决定基因产物——蛋白质——功能注释的主要因素,靶向信号的知识使得复杂的药物设计成为可能。因此,蛋白质亚细胞定位研究对于某些疾病的致病机制的研究和新药物的开发非常重要。早期研究采用生物实验的方法,如荧光标记法、电子显微法、超速离心法等。然而,这些实验手段耗时巨大且花费极高,所以相关科研人员都希望能够找到更加高效的方法处理亚细胞定位问题。随着基因组学和蛋白质组学的迅速发展,各种生物信息学相关的数据量迅速增加。利用机器学习方法探索蛋白质亚细胞定位预测问题已成为近年来的热门话题。当前的比较主流的方法有:基于支持向量机的方法、基于最近邻规则的方法、基于人工神经网络的方法。这些方法应用在预测蛋白质亚细胞定位问题上取得了很好的效果,本文希望通过设计更好的生物特征和机器学习模型,有效的挖掘蛋白质数据中隐藏的信息,以获得更好的预测效果。本文使用卷积神经网络CNN、长短期记忆神经网络LSTM两种模型挖掘氨基酸序列所包含的信息,从而进行亚细胞定位的预测。随后,结合两者的优点,构建了基于卷积的常短期记忆网络Convolutional-LSTM的集成模型。具体而言,首先通过卷积神经网络对蛋白质数据进行特征抽取,随后进行特征组合,并将其送入长短期记忆神经网络进行特征表征学习,得到亚细胞定位结果。随后又通过实验,探究不同空间位置的蛋白质对实验结果的影响,从蛋白质两端各截取长度为500的片段用于实验能获得更好的实验结果。最后,考虑到蛋白质氨基酸组分信息示、蛋白质状态信息、氨基酸的理化性质在最近邻方法中的表现,决定加入这三种特征向量对Convolutional-LSTM模型进行指导,最终完成蛋白质亚细胞定位的预测。为了验证Convolutional-LSTM模型的有效性,本文选择10-折交叉验证的方法与其他算法进行对比。Convolutional-LSTM的方法在植物、真菌、动物三类数据上的预测准确率能够达到82.0%、81.7%和96.8%,实验结果证明该方法是有效且高效的。