论文部分内容阅读
随着测序技术的发展,各种生物数据库中的蛋白质序列数量呈爆炸式增长。这些新测定的蛋白质序列迫切需要我们开发新的算法来比较它们与已知蛋白家族序列的相似性,进而预测它们的结构和功能。 鉴于传统的序列比对算法自身存在的一些缺陷,目前,通过开发非比对算法来实现蛋白质序列之间的相似性比较已成为生物信息学中的一个热点问题。蛋白质序列的图形表示作为一种非序列比对的方法,不仅可以实现蛋白质序列的可视化,还可以为蛋白质序列提供有效的定量描述符,所以受到了众多学者的关注。本论文主要针对蛋白质序列的图形表示与特征提取方法进行了研究。主要的工作有以下几个方面: (1)本文基于20种氨基酸的五字符模型提出了一种新的蛋白质序列3D图形表示方法。该方法先通过两个映射将五个代表字符及其字符对分别映射到正圆锥的底面圆上,然后将蛋白质序列转化为一条五字符序列,再通过一个迭代函数将该序列中的字符依次映射为3D空间中的点,连接相邻各点得到蛋白质序列对应的图曲线,最后通过图曲线对应的L/L矩阵提取序列特征。该方法的创新之处在于将蛋白质序列中氨基酸对的累积频率信息融入到了图形表示过程中。在两个数据集上的实验表明我们的方法是有效的。 (2)本文基于从AAindex数据库选取的158种氨基酸理化性质提出了一种新的蛋白质序列图形表示策略。我们先从AAindex数据库中选取了158种氨基酸理化性质,然后根据每种理化性质将20种氨基酸排布在正圆锥底面圆周上。仿照(1)中的方法生成蛋白质序列对应的图曲线,并提取序列特征。根据氨基酸的158种理化性质,该方法将一条蛋白质序列对应到158条结构不同的图曲线,通过这些图曲线我们可以获取更多的蛋白质序列信息。由于特征向量的维数较高,我们用PCA对特征矩阵降维,并把降维后的向量作为蛋白质序列特征用来对其进行相似性分析。在四个蛋白质数据集上的实验充分表明了该方法的有效性。 (3)本文基于蛋白质序列的CGR曲线给出了一种新的特征提取方法。该方法在得到传统的CGR曲线后,根据四个象限把单位圆分割成四个子块,计算CGR曲线落在各个子块中所有点两两之间的距离,并将四个子块对应距离矩阵的主特征值作为该CGR曲线的数字特征。与传统特征提取方法相比,我们的方法考虑了每个子块内点的分布信息,可以更细致的刻画CGR曲线。另外,该方法采用了(2)中策略,根据从AAindex数据库选取的158种理化性质确定20种氨基酸在单位圆周上的排布。在该方法中,我们同样使用PCA对特征矩阵进行了降维处理。在五个蛋白质数据集上的实验充分表明了该方法的有效性。