论文部分内容阅读
在生物信息学中,蛋白质结构预测一直是人们没有完全解决的难题。目前在对蛋白质结构预测的研究中,蛋白质二级结构预测不仅作为重要的研究内容之一,更是结构预测的难点所在。在分子生物学领域,蛋白质的二级结构若能预测到较高的准确率,那么就能较为准确地预测出这种蛋白质分子的三维空间构象,对蛋白质序列的分析与研究、结构序列的缠绕以及确定蛋白质分子的生物学功能也具有重要意义。本文就蛋白质二级结构预测做了以下工作:1、比较分析了不同的编码方式对预测结果产生的影响。分别比较了21位编码、5位编码、Profile编码对预测结果的影响,并通过滑动窗口法分析了氨基酸序列组成结构,提出了一种新的氨基酸序列编码方法——基于词频统计的编码方法。使用不同的分类算法在三个数据集上比较了四种不同的编码方法,实验结果表明基于词频统计的编码方法的预测准确率最高能够达到80%~90%,大大高于其它三种编码方法。2、建立一种基于流形学习的蛋白质二级结构预测模型,即先使用流形学习方法对数据集进行特征提取,之后再使用不同的分类算法进行二级结构预测。实验中采用Isomap、LE、LLE三种不同的降维方法对三个数据集进行降维,实验结果表明LE算法最适合蛋白质的特征提取。3、在三个数据集上验证了基于流形学习的预测方法的性能。在实验中,首先利用LE算法将高维的蛋白质序列数据映射到低维空间中,然后用SVM、NB、BP神经网络及K近邻四种分类方法预测蛋白质的二级结构,实验结果表明用SVM预测的结果最好。同样,基于词频统计编码在降维后预测的准确率也明显高于其它三种编码方法得出的预测结果。同时,预测方法的执行效率得到了极大的提高。