论文部分内容阅读
随着人类进入后基因组时代,以蛋白质组为研究对象的蛋白质组学越来越受到关注并且得到了迅速的发展。蛋白质是细胞的重要组成部分,是生命活动的执行者。蛋白质在细胞中有着十分重要的功能,包括组成器官、催化生化反应、接受与传递细胞信号、维护细胞环境等。然而,蛋白质的功能注释目前仍不完整,尤其对于高等生物有相当一部分蛋白质的功能是不明确的。用传统的实验方法去确定蛋白质的功能周期长、代价高昂,而且无法从蛋白质组这一整体层面去考虑。新兴的高通量技术产生了海量的蛋白质组学数据,使得用计算的方法来研究蛋白质的功能成为可能。本文基于数据挖掘技术,利用了高通量技术产生的大量蛋白质表达质谱数据、蛋白质氨基酸序列、蛋白质相互作用等蛋白质组学数据,针对蛋白质的功能预测这一问题进行了深入研究,具体内容如下:1)构建了一个崭新的禾谷镰孢菌(Fusarium graminearum)蛋白质亚细胞定位(subcellular localizations)预测模型FGsub。我们收集并整理了一个非冗余的真菌亚细胞定位信息数据集。一方面,基于蛋白质的氨基酸序列信息,通过特征提取、特征选择,使用支持向量机,结合多种特征向量,构建了一个能够预测禾谷镰孢菌蛋白质亚细胞位置的集成分类器。另一方面,用BLAST序列比对在数据集与禾谷镰孢菌蛋白质之间来查找同源蛋白,利用同源蛋白的信息对禾谷镰孢菌蛋白质亚细胞位置进行预测。对于数据不平衡的处理,我们还提出了一种新的平衡算法。该模型基于蛋白质的氨基酸序列使用了数据挖掘的多种技术对禾谷镰孢菌蛋白质亚细胞定位进行了精确的预测,丰富了禾谷镰孢菌蛋白质的功能注释,并为研究禾谷镰孢菌作为病原真菌的侵染机制提供了必要和可靠的信息。2)提出了一种预测蛋白质谷胱甘肽化(Protein S-Glutathionylation)位点的新颖模型。针对蛋白质翻译后修饰谷胱甘肽化的预测,首先,我们通过文本挖掘的方法建立了一个蛋白质谷胱甘肽化数据库。然后,我们基于谷胱甘肽化位点两侧的氨基酸序列信息,通过特征提取、特征选择,使用机器学习的方法构建了预测蛋白质谷胱甘肽化位点的模型。另外,我们从蛋白质的结构信息出发,利用了统计的方法对蛋白质谷胱甘肽化的机制进行了讨论。该模型可以对蛋白质谷胱甘肽化位点进行有效预测。该预测模型还能够筛选出关于蛋白质谷胱甘肽化位点的重要特征,这些特征为我们研究蛋白质谷胱甘肽化的发生和调控机制提供了有用的信息。3)提出了一种新的蛋白质磷酸化(Protein phosphorylation)网络构建模型。基于蛋白质表达数据、蛋白质磷酸化表达数据、蛋白质相互作用数据和已有的先验信息,提出了一种蛋白质磷酸化底物与磷酸激酶的全新概率模型。我们先构建了一个总体的磷酸化网络,然后根据蛋白质表达的组织特异性分别构建了人体三个组织的特异性磷酸化网络并筛选出了组织特异性的磷酸化关系。我们还对三个组织特异性磷酸化网络的功能进行验证,结果表明这些网络可以反映对应组织特有的生物功能,这也证明了我们构建的组织特异性磷酸化网络有相当的可靠性和生物意义。