论文部分内容阅读
蛋白质组学(Proteomics)已经成为当前生命科学研究新的主旋律,其中的蛋白质序列鉴定对于系统了解蛋白质的结构、功能及进化关系等生物学知识具有十分重要的意义。质谱技术具有高灵敏度、高准确度、易于自动化等特点,基于质谱议的鉴定方法已日渐成为蛋白质组学中一个标准的方法平台。质谱蛋白质组中肽段及其修饰鉴定问题涉及海量数据处理和分析,目前有多种计算方法,其中最流行的就是数据库搜索方法。该问题研究可以分为两类:无修饰的和含有修饰的肽段鉴定,本文分别给出了这两类问题的串联质谱鉴定算法。
1.无修饰的肽段鉴定
RT-PSM算法是近年提出的一个非常优秀的鉴定算法,该算法在保证较高的灵敏度和特异性同时,其鉴定时间相对于SEQUEST和X!TANDEM有较大减少。本文在RT-PSM算法的基础上,设计了一个肽段鉴定算法FPI-PSM。FPI-PSM对蛋白质酶切成肽段后,根据肽段的质量进行了索引,使得可以使用折半搜索的方法在肽段数据库中进行搜索,提高了搜索算法的速度;同时提出有效峰提取的优化策略,提高了鉴定算法的精度。采用公认的ISB数据集进行测试,与RT-PSM算法相比,FPI-PSM算法的灵敏度提高了5个百分点,每个质谱的平均鉴定时间从13.6ms下降到5.6ms。
2.含有修饰的肽段鉴定
目前,翻译后修饰盲搜索鉴定算法主要有两种:MS-Alignment和点处理模型,这两种算法鉴定结果的准确性都依赖于打分前翻译后修饰类型的确定。本文给出了一种穷举的、通过盲搜索肽段数据库来完成一次修饰的肽段鉴定算法EAI-PTM。EAI-PTM没有预先给定修饰类型,搜索肽段数据库中给定质量范围内的所有肽段,经过两步实验质谱和理论质谱之间的互相关计算,给出最佳匹配的肽段及对应的修饰类型。在模拟质谱和实验质谱上的测试结果显示,一次修饰鉴定结果rank1的准确性为80%,A-correct值可以达到90%。在ISB数据集的一次修饰模拟质谱鉴定结果的准确性上,相对于MS-Alignment的57.3%和点处理模型的60.38%,EAI-PTM的算法准确性达81.1%。