论文部分内容阅读
蛋白质是实现有机体生物功能的基本物质之一。自然界中的蛋白质种类繁多,功能复杂。蛋白质由二十种氨基酸构成。这二十种氨基酸不仅带来了蛋白质体系的多样性和复杂性,而且在蛋白质序列中引入了一定的冗余度。因此,通过把性质相似的氨基酸归类,蛋白质体系的复杂性可以被简化。有关二十种氨基酸的归类,已有很多的工作。本文主要讨论蛋白质序列复杂性的简化问题,并通过几种不同的方法得到了氨基酸的简化字母表。论文的创新点是:1)应用不同的方法得到几种氨基酸简化的字母表,从统计的结果来看,十种氨基酸可以表征蛋白质体系的复杂度。2)根据蛋白质的折叠类型研究体系复杂性的简化。结果表明,简化程度依赖于蛋白质的折叠类型。本文主要内容如下:
首先构造了四个数据集,研究了氨基酸在蛋白质中的丰度。结果表明:二十种氨基酸在蛋白质中并非平均分布,而是遵从一定的模式。这种模式也许会对氨基酸字母表的简化提供帮助。在字母表的简化过程中,我们加入了氨基酸丰度的信息。通过一种全局联配的方法对氨基酸进行了分类。以上方法中,我们使用了相似矩阵BLOUM62.
最小代价的定义是:由于二十种氨基酸的简化所导致的完整字母表的信息丢失,氨基酸在不同的简化程度上应由最小代价原理来归类。我们使用了三种相似矩阵BLOSUM40.BLOSUM62.BLOSUM80。我们没有考虑氨基酸在蛋白质中的丰度。对三种不同串联程度的相似矩阵,所得的氨基酸简化的字母表非常相似。
Z-score是预测蛋白质序列相对于自然结构折叠能力和热力学稳定性的一个重要参数。我们根据Z-score方法设计了200条蛋白质序列,其中,一个3×3×3的格点结构被选作为目标结构。从统计的角度来看,一个好的氨基酸的分类,应该使简化后的蛋白质序列也有较低的Z-score值。由此,我们得到了氨基酸简化的字母表,与此相对应,200条简化的蛋白质序列有最小的Z-score平均值。尽管所选的蛋白质的目标结构较简单和抽象,所得到的简化字母表还是具有一定的合理性。
对不同结构类型的蛋白质,复杂性的简化也许会有所不同。通过一种被普遍应用的结构预测的方法[最小Mahalanobis距离],我们发现:对不同折叠类型的蛋白质,预测简化后蛋白质结构类的成功率会有所不同。这表明:不同折叠类型的蛋白质有着不同的简化程度。
论文共有五部分:1.)第一章中,我们对蛋白质以及其三维结构的概念作了简单的介绍。
2.)第二章中,通过定义简化后的蛋白质序列中保留原序列最多的信息的原理,我们的到了简化的氨基酸字母表,其中,我们使用的是相似矩阵BLOSUM62。
3.)第三章中,通过最小代价原理,对三种不同的相似矩阵BLOSUM40,BLOSUM62,BLOSUM80,分别得到了三套对应的氨基酸简化字母表。
4.)第四章中,根据最小Z-score值原理,得到了相应的简化字母表。
5.)第五章中,研究了不同折叠类型的蛋白质与复杂性的关系,发现蛋白质体系的复杂性的简化程度依赖于起折叠类。
6.)第六章中,对论文进行了总结,并讨论了尚待研究的课题。
7.)在附录中,介绍了有关相似矩阵BLOSUM及同源性探测程序Blast的概念以及物理图像。