论文部分内容阅读
随着大量生物学数据的增长,仅仅利用传统的生物学实验来测定蛋白质结构或其他性质的方法不仅需要耗费大量人力物力,其时间的耗费也是相当大。因此,如何建立自动学习的方法来预测蛋白质,从而大大降低生物实验的成本是一个非常有意义的研究课题。另一方面,随着机器学习技术的快速发展,其应用领域也得到了不断的扩宽,特别是在生物学领域的应用,面对大量的生物信息机器学习得到了充分的应用。本文的主要内容包括以下几个方面:(1)引入了两种蛋白质特征提取方法。本文在蛋白质分类问题当中引入了两种有效的特征提取方法:一种为代表氨基酸组成成分即物理化学特性的混合特征,共计188维;另一种为代表蛋白质同源信息的基于位置特异性得分矩阵的特征,共计20维。两种特征提取方法各有优劣:188维特征提取速度快,但会牺牲一定的准确率;20维特征提取较为耗时,但却具有更高的预测精度。(2)提出了基于集成分类器的蛋白质折叠模式分类方法。蛋白质结构预测是生物信息学当中的重要课题,而蛋白质折叠模式的识别对蛋白质结构预测起到了关键作用。本文针对以往的蛋白质折叠模式分类准确率不高的情况,引入了集成分类器。本文的集成分类器基于投票的机制,最终预测结果集成了两种基分类器的分类结果,在公用数据集中取得了最佳的分类效果。(3)提出了基于多标签学习的双层酶分类模型。第一层模型预测给定的蛋白质序列是否是酶,若是酶,第二层则进一步预测酶的功能子类。多功能酶由于其特殊的性质成为了酶分类问题当中非常棘手的异类。本文利用了机器学习中的多标签分类,解决了以往研究者未曾涉足的多功能酶分类问题,并且取得了很好的分类效果。(4)开发了蛋白质折叠模式在线预测平台PPL以及酶在线预测平台IME。PPL和IME都具有在线预测功能,此外还提供程序的下载以便进行本地实验。网站中还提供本文所用到的数据集下载,方便用户使用与研究。