论文部分内容阅读
随着时代的变迁,人类基因组学技术得到了极大的发展,与此同时,蛋白质序列数据和生物基因数据的数量也大大增加了,越来越多的科学研究者通过利用不同的数据分析方法来处理这些庞大的数据。在当下这个人工智能大数据时代下,通过各种算法模型在大量的生物数据上进行信息的挖掘已经成为了一种流行的研究方式。近些年来,机器学习和深度学习算法技术在生物信息学领域得到了广泛的发展应用和研究,并且已经取得了一些令人瞩目的成绩,例如本研究所要进行的蛋白质结构预测相关的问题等。本研究基于深度学习算法在预测蛋白质的结构上开展了一系列的工作,利用深度学习算法所预测得到的蛋白质结构,可以有效的为生物专家进一步研究蛋白质的功能提供技术支持,所以当下的研究重点就是完美的预测蛋白质的多级结构,进而通过所预测的蛋白质结构来助力蛋白质功能的探索。因此,本研究就其中的两个重要子问题:蛋白质的二级结构预测和蛋白质的残基接触预测,对预测方法进行了深度学习算法模型层面上的探索和研究,提出了有效的相应算法预测模型。本研究的主要工作如下:(1)本研究提出一种端到端融合多次多尺度卷积和多层次双向长短期记忆网络的模型,相较于其它主流基于机器学习的网络模型或是基于深度学习的网络模型直接将两种原始序列输入编码混合在一起进行卷积操作提取氨基酸的序列特征信息,本模型更加充分地提取了两种编码中的局部特征信息,此外模型还有效的将提取的局部特征信息和长程信息融合起来,进而能够充分的挖掘蛋白质序列中的隐藏特征信息。整个算法模型首先分别对氨基酸残基独热序列信息和氨基酸进化结构信息进行多次多尺度卷积提取特征信息,将提取的特征信息与原始序列信息进行融合构成残差模块送入多层双向长短期记忆网络进行局部和长程相互作用,接着送入全连接网络层进行最后细粒度层面的8类蛋白质二级结构的预测。并且实验结果表明,本研究所提出的算法模型相较于其它主流模型方法,使得8类蛋白质二级结构预测的精度得到了提高。(2)针对蛋白质残基远程接触预测上的准确率较低的问题,本研究提出一种基于highway的深层次残差网络以及注意力机制的神经网络模型,相较于其它主流蛋白质残基接触预测模型,本模型具有有针对性的深层次的充分有效提取蛋白质残基序列特征信息的优点。整个算法模型首先将蛋白质氨基酸序列向量特征化后送入深度残差网络,然后将特征信息以及共进化信息等二维化后再次送入深度残差网络,随后送入注意力机制网络,最后传入回归模型预测任意两个蛋白质残基形成接触的概率。并且实验结果表明,本研究提出的网络算法模型相较于其它方法有效的提高了蛋白质残基接触预测的准确性,是一种具有竞争力的算法模型。