论文部分内容阅读
在蛋白质二级结构预测中,常用的氨基酸序列编码方法产生的编码除了具有较高的维数外,也没有利用氨基酸序列片段中的统计信息。为此,提出了一种新的氨基酸序列编码方法--基于词频统计的编码方法,该方法统计每个氨基酸在氨基酸序列片段中出现的频率,利用该编码方法对氨基酸序列片段编码后得到一个20维的向量。与其它编码方法相比不但具有较低的维数,而且也充分利用了氨基酸片段内部所有氨基酸对目标氨基酸的影响。在实验中比较了四种编码方法结合支持向量机和BP神经网络的预测结果,实验结果表明,通过结合词频统计编码和支持向量机来预测蛋白质二级结构极大地提高了预测精度,远优于其它方法的预测结果。