论文部分内容阅读
随着蛋白质测序技术的不断向前发展,蛋白质序列的数量在蛋白质数据库中呈现指数型的增长。由于通过生物实验来确定蛋白质结构的方法不能满足目前的研究需求,因此研究和预测蛋白质接触图是一个非常有效的方法。另外蛋白质接触图的研究和预测不仅有助于对蛋白质结构的研究,还有助于对蛋白质功能的研究,已成为蛋白质三维结构建模的重要工具。本文采用深度神经网络的框架对蛋白质接触图进行预测,具体研究工作如下:(1)在数据提取方面,考虑到序列信息在生物信息学中的重要作用,本文提取了蛋白质序列的二级结构以及溶剂可及性,用于扩充特征;另外,多序列比对在蛋白质接触图中的主要作用是能够提供一种包含序列信息的特征,本文使用HHblits生成较为准确的多序列比对,并用于生成PSSM与PSFM特征;最后本文从进化耦合分析方法中提取成对特征,并与前述特征相结合。(2)本文构建了一种ResNet和DenseNet相结合的深度神经网络框架用于蛋白质接触图预测,并且使用了全新的特征集合。该框架使用一维的ResNet处理由多序列比对生成的序列特征(包括PSSM、Secondary Structure、Solvent Accessibility特征),并引入新的PSFM特征作为特征输入,通过ResNet的残差映射以及恒等映射能够有效的处理序列特征。然后再使用外连接函数处理序列特征,再与成对特征相结合,通过DenseNet的稠密连接特性充分处理数据特征,从而提高预测精度。针对模型参数方面的优化,本文使用交叉熵损失函数来降低离散数据的影响,并使用随机梯度下降算法对模型的超参数进行调优。(3)为了验证本文网络框架的有效性,本文在五个标准数据集上与现有蛋白质接触图的预测器进行比较和分析。本文在PDB25数据集上的长程接触在L/k(k=10,5,2,1)的预测精度分别为79.6%,73.5%,63.1%,47.8%;在四个公共数据集(CAMEO、Mems400、CASP12、CASP13)上的长程接触在top L的预测精度分别为42.0%、47.1%、40.3%、43.2%。实验结果表明,与常用方法相比,本文的构建的模型更优,对接触图的预测更有效。另外,本文可视化了蛋白质接触图,并做了简要的分析。最后,本文对蛋白质接触图预测的研究工作进行了总结,并对今后的工作进行了展望。