论文部分内容阅读
蛋白质是由20个氨基酸残基组成的大分子,一个蛋白质序列可以看作是在20个氨基酸的字母表Ω上的字符串,即Ω={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}。因为蛋白质序列中氨基酸排列顺序在蛋白质折叠为空间结构时起重要作用,进而最终决定它的功能,所以对蛋白质序列进行深层次的分析是一个重要且有意义的工作。近几年,一些研究者将DNA序列的图形表示扩充到蛋白质序列的分析中,提出了蛋白质序列图形表示。然而DNA序列仅有4个碱基组成,要把DNA序列的图形表示应用到蛋白质序列上,需要考虑20个氨基酸按照什么样的顺序进行排列。目前主要有两种蛋白质序列的图形表示,一种是忽略同类氨基酸中的个体差异,将原来20种氨基酸分为4类或5类,这样就把蛋白质序列简化成一个4个或5个字符序列,从而减少可能的排列数。另外一种是忽略所有氨基酸之间的异同,直接根据氨基酸的字典序进行排列。我们首次提出氨基酸的循环排序概念,即把氨基酸按照某种规律排列成一个首尾相连的环。在本文中基于氨基酸的理化性质分类、PAM250替换矩阵、6阶反射Gray编码等,我们给出了几种不同的氨基酸循环排序。利用Chaos Game Representation(CGR)方法和不同的循环排序,我们得到了蛋白质序列的几种图形表示。接着,利用矩阵不变量、一阶类中心矩、图形比对等数学工具,对所得到的蛋白质序列的图形表示进行了数值刻画和数学描述,通过9个物种的线粒体NADH脱氢酶(ND5)序列的相似性比较,说明了我们的方法的有效性和可行性。最后利用得到的方法,我们分析了34种冠状病毒spike蛋白和45种流感病毒RNA聚合酶PB1的相似性,并由此推断这些物种的进化关系与分类。此外,利用得到的图形表示,我们还得到一个判断两序列匹配片断的方法。