论文部分内容阅读
耐热酶之所以较常温酶受到更多的关注,是因为它在高温下比常温酶有更多的功能,而且具有反应速度快、不易被杂菌污染等特点,不过它的难以培养、不易获得恐怕是引起更多人兴趣的原因。目前,它主要通过筛选耐热微生物获得,不过产酶量很低。尽管如此,耐热酶仍然在食品酿造、医药、环境保护和金属冶炼等领域得到了广泛的应用。所以本文的出发点就是想通过机器学习的方法来研究耐热酶耐热的分子机制,了解蛋白质的折叠过程,寻求通过蛋白质工程手段提高常温酶耐热性的途径。本实验首先比较了支持向量机(Support Vector Machine,SVM)和人工神经网络(Artificial Neural Networks ,ANN)的优缺点,而后决定使用SVM进行酶耐热性的研究。因为氨基酸的组成是影响酶耐热性的主要因素之一,所以以20种氨基酸所占比例作为特征向量,利用SVM预测酶的耐热性。在比较了SVM中核函数的分类能力之后,最终选择了分类能力最好的径向基核函数(Radial Basis Function,RBF)进行分类,其预测率为85.4%。随后分别使用几何方法、SVM-KNN和重复训练三种参数优化方法优化SVM,得出的预测率分别是88.2%、86.1%和86.1%,从预测率中可以看出几何方法提升的幅度最大为2.8%。所以按预测率的高低选择了几何方法来优化SVM分类器的参数。随后以氨基酸极性的不同将氨基酸含量数据分为4类,并以其作为特征向量分别用原始的SVM和参数优化过的SVM进行预测,分别得到的预测率为72.2%和76.4%,可以看出优化过的SVM得出的预测率相比原始的提高4.2%。在基于二肽的酶耐热性预测实验中,以二肽为特征向量进行SVM的预测,预测率为71.9%。在高级结构的实验中,分别以氢键、盐桥、体积和温度因素(b-factor)为特征向量进行SVM的预测,而得到了预测率分别是81.3%、88.9%、55.8%和59.0%。最后对环糊精葡萄糖基转移酶(Cyclomaltodextrin glucanotransferase,CGTase)进行突变,其目的是在保持其原有功能不变化的前提下,提高它在高温环境下耐热性。首先是统计出突变前后CGTase的盐桥数目,而后利用在高级结构中的盐桥数据作为训练集,突变前后CGTase的盐桥数据和随机抽取的部分盐桥数据作为测试集放入SVM中预测,在重复实验100次后,发现突变前后CGTase均被正确分类。通过以上的实验,可以得到以下结论:(1)在一级结构中,氨基酸含量、氨基酸极性和二肽都是影响酶耐热性的关键因素。(2)在高级结构中,氢键和盐桥对酶耐热性影响比较大,而体积和温度因素对酶耐热性影响比较小。(3)以盐桥作为特征向量的分类器是正确的,并且对CGTase的突变实验是成功的。