论文部分内容阅读
目前国内外对蛋白质二级结构的研究方向主要是预测,即给定蛋白质的一级结构序列来预测其所属的二级结构。本课题提出了一种新的研究思路——生成特定的蛋白质二级结构。从预测到生成,这对蛋白质二级结构的研究是一种理论上的创新,同时也为生物工程和生物制药等提供了便利,具有实际意义。另一方面,深度生成模型在图像、文本等方面的已经取得了一定的成果,而在生物序列方面的研究较少。本课题在生成蛋白质二级结构的研究中选择使用深度生成模型,这也是深度学习方法在生物序列生成中的尝试与应用。为了实现蛋白质二级结构的生成,本课题做出以下几个贡献:(1)构建了完备的蛋白质二级结构数据集。在PDB数据库中下载蛋白质数据文件,并提取出其中的二级结构数据,同时,针对不同的模型进行不同的数据预处理与编码,最终得到适用于模型的训练集;(2)验证了一般性的LSTM网络不适用于蛋白质二级序列的合成。本课题构建了一个LSTM网络,通过生成二级结构序列作为对比,我们在实验中发现LSTM生成的样本重复率高、多样性差,精确率的均值较低、标准差较高。该实验结果表明一般性的LSTM网络不适用于蛋白质二级结构的生成,因此本课题还需要设计更好的蛋白质二级结构序列生成模型;(3)提出了一个新的算法ssp-SeqGAN,用于生成高精度的蛋白质二级结构序列。和SeqGAN方法类似,我们采用了基于强化学习结合GAN的方法。SeqGAN是生成离散序列的一般性算法,它不适用于直接生成高精度的蛋白质二级结构序列。为了解决这个问题,首先,我们重新设计了判别器D的网络结构,在CNN的池化层之前与全连接层之前分别加了 BN层,得到模型SeqGAN-BN;第二,我们在SeqGAN-BN的基础上改进了模型的预训练方式,得到新的模型ssp-SeqGAN。ssp-SeqGAN的主要贡献是提出了新的具有更高多样性与对抗性的负样本的构造方式,有效的提升了预训练的结果。实验结果表明一般性的LSTM生成序列的精确率仅略高于随机生成的序列,其不适用于蛋白质二级结构的设计。我们提出的新模型ssp-SeqGAN生成序列的精确率比SeqGAN有了显著的提升,并且其精确率的标准差较低,证明了 ssp-SeqGAN可以稳定地生成具有较高精确率的样本。综上,本课题提出了一个用于设计蛋白质二级结构序列的深度生成式模型ssp-SeqGAN。在生成蛋白质二级结构序列的研究中,ssp-SeqGAN比现有常规序列模型LSTM以及用于生成离散序列的模型SeqGAN相比均有更好的效果。