论文部分内容阅读
伴随着人类基因组计划发展起来的基因组学为人类探索生命的原理起来划时代的重要作用。但是在其发展的同时,人们慢慢认识到只从基因水平上去探索生命的本质是完全不够的,需要从更根本的本质上去研究揭示生命现象,这样蛋白质组学应运而生。质谱作为一种有效的工具为科学家们研究蛋白质提供了很大的帮助。本文首先介绍了目前主流的基于质谱的蛋白质分析流程和技术,并介绍了一些常用的基于质谱的蛋白质的算法,包括SEQUEST、MASCOT、X! Tandom中的算法。总结了蛋白质定量分析的两种策略同位素标记方法和无标记定量技术,并分析了他们的区别和各自的优点,介绍了目前基于质谱的蛋白质翻译后修饰发现与鉴定的常用算法。现有的基于质谱的蛋白质鉴定算法各有千秋,各有各的优点。我们尝试利用机器学习并结合朴素贝叶斯理论对现有的算法进行整合。选取的机器学习方法包括SVM、LDA、logistic回归、KNN、贝叶斯置信网络、人工神经网络等方法。选取的分类特征包括SEQUEST算法中提供的多种参数。训练数据来自于18组已知的混合蛋白的质谱数据。通过机器学习的方法得到分类器的分界面,并计算阴阳极样本在分类器分类函数作用下的条件分布。利用阴阳极的条件分布和新样本在分类器下的特征得分,在均匀先验的条件下通过朴素贝叶斯的方法就可以计算出蛋白质鉴定结果的后验概率。通过交叉验证的结果表明我们的算法的正确率在80%-90%,同时可以保证召回率达到40%-50%,具有加好的实用价值。蛋白质翻译后修饰的鉴定一直是蛋白质组研究里面一个重要的领域。通常的基于质谱的蛋白质翻译后修饰的鉴定的方法是机器学习和直接与已知数据库对比。与已知数据库对比的算法时间复杂度较高,同时因为比对的次数很多算法的假阳性率较高。我们尝试利用基于投影距离的聚类算法来对质谱数据先进行聚类分析,然后再在此基础上进行翻译后修饰的识别,这样不仅降低了算法的时间复杂度,而且也提高了精度。投影方向是利用已知样本基于LDA和SVM计算出来的,使得在投影方向上类内距离尽可能的小,类间的距离尽可能大。得到投影方向之后在通过对未知样本两两之间进行投影距离的计算得到距离矩阵。通过利用距离矩阵和常用的聚类算法对数据直接进行聚类分析。得到的聚类结果中的每一个类可能就是同一肽段的不同的翻译后修饰的实例,通过比较同一类内的结果可以快速高效的发现可能存在的翻译后修饰。在已知数据的交叉验证下算法的正确率和召回率都在70%左右自从Google提出了云计算的概念,各种基于云计算应用层出不穷,蛋白质质谱数据分析具有高通量和可并行化的特点,可以方便的部署到云计算平台上。我们提出了两种部署策略并比较了两种策略的优点和不足。