论文部分内容阅读
病虫害对植物的迫害已经成为一个严重的问题,尤其对于农作物来说,不仅会造成大面积的减产或绝收,而且会给某些经济产业带来一定程度的影响。因此,通过研究植物和病虫害间的相互作用来提取已知植物抗性基因的特征,进而挖掘更多未知抗性基因,培育具有抗性功能的植株,这不仅有助于植物基因的改良,而且对生物育种也有重要的价值。植物抗性基因的识别问题可以看作一个二分类问题,本文将结合计算机学和生物学知识,采用机器学习的方法预测植物抗性基因。通常情况下,训练一个分类器需要有正确标记的正例和反例。然而,抗性基因识别中可利用的信息仅有少数人工标记的抗性基因。一般情况下,将不包括正例的基因家族作为训练反例,但其中功能不明确的基因可能具有抗性功能,这样就会严重影响分类器的识别能力。为了消除由于正例太少和错误反例对抗性基因识别造成的影响,本文基于抗性基因和其他基因在蛋白质相互作用网中的距离,提出了一种新的样本选择方法。与一般样本选择的方法相比,本文方法选择的样本所构建的分类器的性能要优于一般方法,说明了该方法的有效性。接着,本文结合基因序列特征及其对应蛋白质理化特性对抗性基因识别的作用程度,在本文方法获取的数据上提取了有关基因序列和蛋白质理化特性等共113维特征,并通过实验分析了各组特征对抗性基因识别贡献的大小。最后,选择支持向量机(Support Vector Machine,SVM)作为抗性基因分类器算法,并通过实验和理论分析从常用的四种核函数中选择了径向基函数作为核函数,使得预测结果的敏感性(SN)和特异性(SP)都有所提高。此外,我们还实现了抗性基因识别系统的Web版本,给对抗性基因感兴趣的研究者提供了方便的交流平台,也促进了我们对抗性基因的探索和研究。