论文部分内容阅读
利用机器学习等计算方法识别蛋白质序列模体,是在一组具有共同特性的蛋白质数据中发现具有生物学意义的序列模式,目前已成为生物信息学领域的一个研究热点。蛋白质序列模体对于理解蛋白质翻译后修饰、相互作用和亚细胞定位等细胞功能以及疾病诊断等方面的研究具有重要的作用。在使用蛋白质序列识别模体时,存在着数据不平衡、数据缺乏等问题。传统的蛋白质序列模体识别采用基于正则表达式和位置权重矩阵的方法。相较于这两种简单的模型,隐马尔可夫模型(Hidden Markov Model, HMM)作为一种序列数据处理和统计学习的重要概率模型具有更丰富的表达,其已被广泛应用于语音识别、行为识别、文字识别、故障诊断以及生物序列分析等领域。本文研究了基于谱隐马尔可夫模型(profile HMM)的机器学习算法,并将其应用于蛋白质序列模体识别中,主要包括:1.针对蛋白质亚细胞器靶向模体识别中存在的数据不平衡问题,提出了一种均衡采样策略下的靶向模体识别算法。该算法在模拟细胞内蛋白质分选途径的基础上利用profile HMM的判别式训练区分不同亚细胞器的靶向模体。在数据预处理阶段采用基于模拟进化的过采样方法处理多类数据不平衡问题;在profile HMM的训练阶段引入随机欠采样处理正负类间的不平衡问题。实验结果表明,在识别9类蛋白质亚细胞靶向模体的任务中,与其它没有考虑数据不平衡问题的识别算法相比,该算法发现的模体更加保守,并且恢复了更多的已知靶向模体。此外,在使用该算法所识别的靶向模体预测蛋白质亚细胞定位时,少数类亚细胞位置上获得了更高的预测精度和召回率。由于模拟进化过程中会产生噪声序列,本文进一步采用主动学习方法从合成序列中选择信息量丰富且具有代表性的样本来减小噪声对靶向模体识别的影响。结果表明改进算法识别出了更多的显著性靶向模体,所识别的靶向模体的平均位置保守性更高且更有助于蛋白质亚细胞定位预测;2.为了提高多类型功能模体的识别效果,提出了一种基于profile HMM选择性训练的多类型功能模体识别算法。首先,由于蛋白质序列模体主要位于蛋白质的无序区域内,且模体残基的进化保守性高于其周边的残基,采用有序区域覆盖和局部相对保守性覆盖可以有效地提高训练序列的信噪比。这将减少模体偶然出现的次数,相应地增加多次观测到一个给定模体的可能性并使其更容易被识别。文中采用的被覆盖序列处理方法不仅可以减少训练profile HMM的计算量,而且保证了基于profile HMM的模体识别算法的性能;其次,通过profile HMM选择性训练方法引入序列的进化权重使进化过程中较重要的蛋白质序列在识别模体时得到更多的关注。实验结果表明,基于profile HMM选择训练的模体发现方法补充了现有方法在识别复杂模体时的不足,并为多类型功能模体的分析提供了另一种方式;3.针对具有相同功能相似表达模式的变体模体识别中存在的数据缺乏问题,提出了一种基于profile HMM扩展训练的变体模体识别算法。首先,采用平均无序谱和模体位置的统计显著性检验系统地研究了模体与蛋白质无序区域的关系,在蛋白质固有无序区域预测工具IUPred的默认参数下对训练序列进行有序区域覆盖以此提高序列信噪比;其次,在蛋白质有序区域覆盖的基础上对训练集合进行扩展,以增加训练数据的数量用于训练profile HMM;最后,通过训练判别式profile HMM来区分这些变体模体。在37个变体模体数据集上的实验结果表明,与生成式模体识别算法相比,蛋白质有序区域覆盖和训练集合扩展有助于解决判别式模体识别算法中存在的问题,使其更有效地区分表达模式差异较小的变体模体。