论文部分内容阅读
随着对蛋白质的不断深入研究发现,蛋白质与小分子或配体结合的现象普遍存在,尤其蛋白质与能量分子的结合更是广泛存在与各种生命现象中,因此研究蛋白质与配体结合的特性和规律是十分必要的。本文基于从蛋白质与ATP结合的氨基酸序列出发,采用了前人整理的数据库,并对数据库进行统计分析提取出序列特征信息。选取恰当的特征参数,用不同的分类算法对ATP结合位点进行识别,最后得到较好的预测结果。 本文共分为三个部分: 第一部分是对数据库的介绍和特征分析。本文选用的是经Dr.G.P.S.Raghava整理和使用过的168条非冗余的ATP与蛋白质结合氨基酸序列。在这个数据库中以小写字母表示ATP与蛋白质的结合位点。本文是对具体位置的预测因此需要把序列截成片段。因为对位点的预测是个二分类问题,以长度为11的片段为例:本文将片段的中心位置是结合位点的片段作为数据的正集,其他片段作为负集。本文共选取了从5到23的10个不同长度片段。在特征分析方面,本文将片段的氨基酸组分、位点氨基酸组分、紧邻二联体组分、氨基酸的物化性这些参数进行了统计分析和比较。 第二部分是理论方法。本文选用了多样性增量方法(ID)和支持向量机方法(SVM),多样性增量方法的好处是不需要学习和记忆,最重要的问题就是参数的选取。而支持向量机方法需要学习和记忆但却很适合对小样本进行分类,且分类效果很好。 第三部分是对ATP与蛋白质结合的位置进行预测。首先用ID方法选取片段的氨基酸组分和片段紧邻二联体组分作为参数预测,结果表明用ID方法预测精度较低,其次用SVM方法选取同样的参数进行预测,结果表明精度比用ID方法有所提高。在此基础上我们对片段的氨基酸组分用多样性增量方法进行了降维处理,并对20种氨基酸重新约化为6种,用约化后的氨基酸组分ID值和约化后的氨基酸紧邻二联体的ID值共同作为特征参数,再用SVM预测,得到较好预测精度。