论文部分内容阅读
在生物信息学中,将酶从蛋白质识别出来一直是对酶进行进一步研究的一个前提。其研究方法都是将已知的酶作为研究对象,找出一种对已知酶进行准确识别的方法,然后推广到对未知酶识别的应用中。传统的酶识别方法多是采用序列比对的方法,虽然后人对这种方法有不断地改进,但是仍需要较大的存储空间与比对时间。近些年,机器学习的方法也开始的应用到这个领域中。支持向量机(Support Vector Machine,SVM)——一种基于统计学理论的机器学习方法,借助自己的无局部最小点和防止过适应等优点,迅速成为研究的热点并且在酶识别领域表现出不错的效果。 为了得到好的机器学习效果,机器学习需要研究者根据实际问题的不同提出一套完整的机器学习方案。本文以支持向量机为基础,采用了一种基于特征提取的机器学习方案,通过选取合适数量的特征作为训练数据形成分类精度最高的酶识别器。之所以选用特征提取的方法主要是因为:在实验中,蛋白质的功能域被看做它的特征,并不是所有的功能域都对形成准确的分类器起到好的作用,并且我们推测这些功能域特征中存在噪声,因此应该剔除其中一些起到反作用的特征。 基于以上的原因,文中选用了1-rule法和信息增益法两种特征提取的方法,并且根据提取出来的特征信息的重要性大小进行排序,然后按照排序后的顺序选取不同数目的特征进行实验。为了使实验结果更具说服力,文中采取了自检法和留一法两种不同的误差率的评估方法,可以更全面的同其它方法的结果进行比较。最后通过对实验结果的观察与分析,这两种特征提取方法形成的分类器,在对酶与非酶蛋白质识别精度上都要比原有方法的精度更高。 本文选取支持向量机为机器学习的工具,比原有的序列比对算法在计算速度上有了很大提高,并且采用了合适的特征提取的方法,对机器学习方案做了进一步的改进,使得机器学习的效果更明显,形成了一个对酶有着更高识别率的分类器。