基于特征提取的酶识别问题研究

来源 :山东财经大学 | 被引量 : 1次 | 上传用户:wubo123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物信息学中,将酶从蛋白质识别出来一直是对酶进行进一步研究的一个前提。其研究方法都是将已知的酶作为研究对象,找出一种对已知酶进行准确识别的方法,然后推广到对未知酶识别的应用中。传统的酶识别方法多是采用序列比对的方法,虽然后人对这种方法有不断地改进,但是仍需要较大的存储空间与比对时间。近些年,机器学习的方法也开始的应用到这个领域中。支持向量机(Support Vector Machine,SVM)——一种基于统计学理论的机器学习方法,借助自己的无局部最小点和防止过适应等优点,迅速成为研究的热点并且在酶识别领域表现出不错的效果。  为了得到好的机器学习效果,机器学习需要研究者根据实际问题的不同提出一套完整的机器学习方案。本文以支持向量机为基础,采用了一种基于特征提取的机器学习方案,通过选取合适数量的特征作为训练数据形成分类精度最高的酶识别器。之所以选用特征提取的方法主要是因为:在实验中,蛋白质的功能域被看做它的特征,并不是所有的功能域都对形成准确的分类器起到好的作用,并且我们推测这些功能域特征中存在噪声,因此应该剔除其中一些起到反作用的特征。  基于以上的原因,文中选用了1-rule法和信息增益法两种特征提取的方法,并且根据提取出来的特征信息的重要性大小进行排序,然后按照排序后的顺序选取不同数目的特征进行实验。为了使实验结果更具说服力,文中采取了自检法和留一法两种不同的误差率的评估方法,可以更全面的同其它方法的结果进行比较。最后通过对实验结果的观察与分析,这两种特征提取方法形成的分类器,在对酶与非酶蛋白质识别精度上都要比原有方法的精度更高。  本文选取支持向量机为机器学习的工具,比原有的序列比对算法在计算速度上有了很大提高,并且采用了合适的特征提取的方法,对机器学习方案做了进一步的改进,使得机器学习的效果更明显,形成了一个对酶有着更高识别率的分类器。
其他文献
在网格环境中,资源提供者和用户具有不同的目标、策略,使得网格资源分配成为一个难点。如何合理分配网格资源,优化系统的整体效用,已成为一个重要的研究课题。传统的资源分配
微粒群优化算法(Particle Swarm Optimization, PSO)源自对鸟群觅食行为的研究,是一种基于群体智能的随机搜索算法。PSO算法概念简单、参数设置少、计算速度快、鲁棒性好,短短十
复杂网络的社团发现致力于揭示出复杂网络中真实存在的网络簇结构。服务网络是互联网上大量开放服务交互所构成的网络集合,服务通过业务需求的驱动自发组合以满足用户需求,在
伴随着九年义务教育制度的实施,一些发达地区进一步将高中教育也纳入到义务教育范围之内,从而推行了十二年义务教育。高校扩招,使得有更多的学生有机会进入大学学习,因此高中教育
在过去的几十年里,信息技术得到了迅猛发展,计算机系统的应用也越来越普及。随着人们对计算机系统要求的提高,系统变得越来越复杂,系统的管理和维护也变得越来越困难。为了减
随着当今互联网的发展,复杂网络的病毒传播相关研究已经成为了复杂网络的重要研究方向,在Email网络、社交网络等各种复杂网络中,规模庞大的网络环境和人的主观行为使病毒的传
随着科学技术的发展,各个领域的信息量均飞速增长,而作为新时代信息载体的互联网发展尤为显著。由于Web数据包含来自不同数据源的各个领域的信息,数据形式趋于多样化和复杂化
随着现代电子技术的发展,通讯技术和通讯范围都迅速扩大,在噪声环境下的语音通信已经见怪不怪了,语音信号肯定会受到周围环境的极大影响。但是现在人们对生活品质的要求却是
睡眠不足是当前十分普遍的社会现象,对个人的健康、生活、工作一定的影响。研究者通过睡眠剥夺实验研究发现:行为上人体的记忆、情绪、逻辑思考等认知功能受到睡眠的影响;生
语音编码技术是数字语音通信中的一项重要技术,它使同样的信道传输更多的信息。语音编码主要分为:波形编码、参数编码和混合编码。随着数字通信业务的发展,混合编码技术越来