论文部分内容阅读
随着人类基因组计划(HGP)的顺利完成和现代生物科学和技术的迅猛发展,每天都有大量的蛋白质序列数据不断涌现。对这些数据进行深入研究以达到对化学和生物意义的深入理解,是现代生物信息学的热点。尽管蛋白质的结构和功能可以通过实验方法确定,但是实验方法十分耗时并且费用昂贵。因此,从蛋白质序列出发,发展自动的、可靠的理论预测方法具有十分重要的理论意义和实用价值。本文基于近年来不断涌现的蛋白质序列数据,采用新兴的机器学习方法——支持向量机,并结合小波变换以及信息融合等技术,对蛋白质的结构和功能预测进行研究,其主要内容如下:
1.建立了酶亚家族类预测新方法。将Chou等人提出的两性伪氨基酸组成与支持向量机结合,采用一对多的分类策略,建立了酶亚家族类预测模型。对Chou等人建立的氧化还原蛋白酶的标准数据集进行了jackknife检验,总预测精度达到了80.87%,分别比Huang等人和Chou提出的方法提高了4%和10%。在此基础上,基于氨基酸残基的疏水值,提出了一种新颖的伪氨基酸组成,用于表征蛋白质序列。与两性伪氨基酸组成比较,本文提出的伪氨基酸组成表征方法具有计算简便、运算快速的优点。
2.建立了凋亡蛋白亚细胞位点预测新方法。基于信息融合技术,提出了双层支持向量机方法,用于凋亡蛋白亚细胞位点定位研究。在第一层中,分别对多个蛋白质的性质,即氨基酸组成、双残基组成和两性伪氨基酸组成建立三个子分类器,然后将这三个子分类器的预测结果经过合并,输入到第二层支持向量机中,由其给出最终的预测结果。对Zhou和Doctor建立的标准数据集ZD98,以及Zhang等人的数据集ZW225进行了jackknife检验,总预测精度分别为94.90%和88.44%,优于现有文献报道值。结果表明:双层支持向量机方法能够较好地利用信息之间的互补,从而取得比基于单一蛋白质性质的分类器更高的预测精度。 3.提出了新的蛋白质序列表征方法。将加权思想引入Kurgan等人的组成位置向量概念,提出了加权组成位置向量的蛋白质序列表征方法。与传统的氨基酸组成表征方法相比,加权组成位置向量不但包含了蛋白质序列中氨基酸残基的组成信息,还含有氨基酸残基的位置信息。我们将加权组成位置向量与支持向量机结合,采用直接的多类分类策略,对蛋白质结构类预测进行了研究。通过对两个非同源的蛋白质结构类标准数据集Z277 and Z498的jackknife检验,预测精度优于文献报道的多数方法。结果表明:在组成位置向量表征方法中引入加权因子十分必要,通过调节加权因子可以明显地提高预测精度。
4.构建了新的伪氨基酸组成表征方法。首先用氨基酸残基疏水值将蛋白质序列映射为数值序列,然后进行小波包分解,计算小波包功率谱,最后将小波包功率谱与氨基酸组成相结合,构成伪氨基酸组成表征蛋白质序列。将其与支持向量机结合,采用直接的多类分类策略,对蛋白质结构类预测进行了研究。对Zhou建立的结构类标准数据集Z277进行了预测,jackknife检验总预测精度达到了84.8%。结果表明:基于小波包变换建立的伪氨基酸组成表征方法能够有效地反映蛋白质序列中氨基酸残基之间的顺序信息,从而提高预测精度。
5.建立了蛋白质亚核位点预测方法。通过对支持向量机中基本的核函数进行线性组合,得到组合核函数。将其与蛋白质的氨基酸组成性质结合,提出了蛋白质的亚核位点预测方法。对蛋白质亚核位点数据集SN370进行了预测,5-折交叉验证和jackknife检验总预测精度分别为66.03%和67.93%。在此基础上,与线性核、多项式核、径向基核支持向量机方法进行了比较。结果表明,对于蛋白质亚核位点定位问题,基于组合核函数的支持向量机方法能够取得比单一核函数更好的预测效果。