论文部分内容阅读
蛋白质是一切生命的物质基础,没有蛋白质就没有生命,更谈不上人类的繁衍生息,氨基酸是蛋白质的基本组成元素,蛋白质是由不同种类的氨基酸按照一定顺序排列而成,称为蛋白质序列。通过对蛋白质序列进行分析可以进一步了解蛋白质的空间结构。这对于分析蛋白质功能和药物设计等应用至关重要,因为蛋白质生物学功能很大程度上依赖于其空间结构,并且蛋白质的生化性质及其功能等都与蛋白质序列密切相关,所以蛋白质序列分析是蛋白质结构甚至是功能分析的前提和基础。蛋白质序列分析的首要步骤是对蛋白质序列进行编码,目前较为常用的编码方式有one-hot编码方式、PSSM谱编码、氨基酸向量编码。one-hot编码方式将氨基酸残基转变为正交向量,不考虑词与词之间的顺序并且假设向量之间相互独立,虽然计算简单,但是不能很好地表达出上下文之间的依赖性和单词之间顺序不同所带来的区别,利用多序列比对打分方式构建的PSSM谱编码克服了这一缺点,但是其算法的迭代性质使其对序列数据库中的偏差非常敏感。特别是,容易将重复序列错误地结合到中间谱中。将氨基酸序列通过Word2vec生成氨基酸向量的编码方式虽然没有重复序列错误,但是并不能表达出同源序列之间的相关性。针对以上编码方式的不同缺点,本文提出了一种嵌入向量的表示方法——基于多序列比对谱的k-mer氨基酸序列生成算法,利用蛋白质相似序列比对谱作为训练嵌入向量的输入,通过训练Word2vec得到每种氨基酸对应的向量,即为氨基酸的分布式向量。并且通过双向递归神经网络LSTM算法应用于蛋白质二级结构和水溶性预测。预测过程中将氨基酸的分布式向量作为输入向量,通过双向LSTM算法分别预测蛋白质的八类二级结构和水溶性。本文分别验证了用单个氨基酸和三个相连氨基酸生成分布式向量的预测效果,实验证明,本文提出的分布式表示方法应用在预测蛋白质二级结构在数据集CB513上达到了68.8%的预测精度,预测水溶性在SOLP数据集上达到了73.3%的预测精度。实验结果表明,在双向LSTM框架下,仅使用本文提出的基于多序列比对的氨基酸分布式向量表示作为模型输入,就达到或优于目前主流的蛋白质二级结构预测方法和蛋白质融水性预测方法。据研究证实,相似蛋白质序列的同源性较高且功能基本相同,相同功能的氨基酸序列的同位置的氨基酸往往相同或具有一定的相互替代性,并且将未知结构功能的蛋白质与相似已知结构功能的蛋白质进行序列对比可以推测其结构与功能,所以本文提出的嵌入向量是合理的。由于蛋白质相似序列之间的关联性较强,递归神经网络可以学习到长期依赖关系并且能够基于数据自适应地进行参数学习,因此本文预测效果较好。