论文部分内容阅读
20世纪后期,由于人类等生物物种基因组学以及生物科学技术的飞速发展,生物信息发生了惊人的增长,这极大地丰富了生物科学的数据资源,并随之诞生了一门新兴的交叉学科:生物信息学,其目的在于通过对生物学实验数据的获取、加工、存储、检索与分析,揭示数据所蕴含的生物学意义。数据挖掘技术用于在数据中发现潜在有用的知识,在生物信息学研究当中,正发挥着越来越重要的作用,而且取得了丰硕的成果。本文应用集成学习方法来对生物信息中的若干问题进行讨论。本文的主体工作分为四个部分:
1.用集成学习算法预测蛋白质结构和功能定位。随着生物技术的不断发展,越来越多的蛋白质序列被测定出来,探索利用理论及计算方法来研究蛋白质结构和功能定位具有重要意义。本文从蛋白质的一级序列出发,基于氨基酸组成进行蛋白质序列特征编码,使用了AdaBoost与Bagging这两种集成学习算法来对蛋白质的结构类型、膜蛋白类型和蛋白质亚细胞定位进行预测。在建模过程中,分别使用了RandomForest,KNN和C4.5三种不同的弱学习算法来作为基本分类器,并用基于10组交叉验证法的计算结果对建模参数进行优化。结果表明:
(1)用AdaBoost-RandomForest算法预测蛋白质结构类型时,预测结果良好,对于所选用的两个标准数据集,其留一法预报准确率分别可以达到94.18%和85.9%,优于先前文献报导的预报结果;(2)用AdaBoost-C4.5算法预测原核和真核蛋白亚细胞定位时,其留一法预报准确率分别达到91.80%和80.80%,优于先前文献报导的预报结果;(3)用Bagging-KNN算法预测膜蛋白类型问题时,其留一法预报准确率可以达到84.42%,优于先前文献报导的预报结果。根据以上所建立的预测模型,我们同时开发了相应的在线预报系统。
2.用集成学习算法研究小分子的生物功能。研究小分子生物功能,在分子生物学领域能帮助人类理解生命现象,在医学领域帮助人类认识疾病机理。由于通过实验来发现小分子的生物功能会耗费大量的人力、物力和财力,且具有一定的盲目性和风险性,因此,用集成学习方法来研究这个问题具有实际意义。本文中我们首先研究了小分子代谢途径类型的预测问题,提出了基于官能团组成的小分子编码方法,用AdaBoost-C4.5算法建模,其交叉验证预报准确率达到74.05%,对独立测试集的预报准确率达到75.11%。然后,我们又研究了小分子与酶相互作用的预测问题,用AdaBoost-C4.5算法建模,其交叉验证预报准确率达到81.76%,对独立测试集的预报准确率达到83.35%。结果表明,集成学习算法可以用来研究小分子的生物功能,所建模型有很好的预测性能。此外,我们根据所建立的小分子代谢途径类型和小分子与酶相互作用的预测模型,同时开发了相应的在线预报系统。
3.运用集成学习算法AdaBoost来研究苯酚类化合物毒性机理预测的问题。我们从文献中收集了274个苯酚化合物,计算了45个分子描述符,用基于互信息增益的CFS(Correlation-based Feature Subset)算法筛选出9个分子描述符。基于这9个描述符,我们分别以C4.5,RandomTree,RandomForest和KNN四种算法作为基本分类器建立AdaBoost模型,经过优化和验证后,最终选用C4.5为基本分类器建模。最后,又与SVM和KNN算法的预报性能做了比较,结果表明AdaBoost算法在苯酚类化合物毒性机理预测中,有良好的预报能力,其交叉验证和对独立测试集的预报准确率分别达到96.3%和92.8%。基于该研究内容,建立了相应的在线预报系统。
4.使用mRMR-KNN集成方法研究HIV-1蛋白酶的裂解位点预测。首先,使用AAindex的531个氨基酸残基指数对8肽进行编码,然后使用mRMR特征筛选方法得到了500个特征。在此基础上,使用改进的Wrapper搜索方法得到了含有364个特征的子集。最后用最近邻方法(KNN)建模预测HIV-1蛋白酶裂解位点,其留一法测试和对独立测试集的预报准确率分别可以达到91.3%和87.3%。通过对500个特征进行生物学分析,我们发现:(1)P1位点和P2’位点对于HIV-1蛋白酶底物的特异性所作贡献最大,(2)P1位点上的氨基酸残基主要是疏水性残基,而P2’位点上的氨基酸残基主要由二级结构决定,以上两点结论与先前通过实验所得到的文献结论相吻合。本工作结果表明:mRMR方法结合改进的Wrapper方法能够对生物数据集进行有效的特征筛选;在此基础上建模,不仅可以得到满意的预测结果,而且所选的特征具有生物学意义。因此,mRMR方法有望成为生物信息学领域特征筛选的一个重要方法。