论文部分内容阅读
基于串联质谱技术的蛋白质鉴定已经成为蛋白质组学的主流技术,而数据库搜索已经成为鉴定串联质谱数据最常见的方法之一。目前已经有许多数据库搜索软件,如SEQUEST、Mascot和pFind等。但是随着数据库规模在不断增大、翻译后修饰导致计算次数急剧增加、质谱仪产生数据明显增快,数据库搜索软件的速度亟需提高,如何降低时间复杂度已成为蛋白质组学研究的一个非常重要问题。
目前虽然有着一些提高鉴定速度的办法,如倒排索引,能够明显提高鉴定速度,但是它需要太多的额外存储空间,同时使用也不灵活。因此,对数据库的组织需要更有效的方法。本文提出一种基于后缀数组(Suffix Array)的算法来重组数据库。在鉴定时,该算法不需要判断就直接去除数据库中的冗余肽序列,减少打分次数,与不使用索引相比能够降低整个鉴定50%左右的时间。这个算法是基于最长公共前缀(longest common prefix,LCP)的特性,其中最长公共前缀是伴随着后缀数组的一种数据结构。尽管蛋白质的特异、半特异酶切等情况对这种特性提出种种挑战,但是通过对LCP的调整,可以保证在各种情况下均能够生成所有的肽且没有冗余。与倒排索引相比,在预计算时后缀数组的创建时间和外存空间非常少,在非特异性酶切情况下不到倒排索引的1/100;在鉴定时后缀数组算法是在线酶切模式,更为灵活。
在去除冗余肽的同时,本文尝试采用位置敏感哈希(Locality SensitiveHashing,LSH)的方法减少候选肽的数目,以求进一步降低时间复杂度。同时,本文针对LSH算法在质谱数据上的不足,利用LSH的随机思想,提出一种随机离子法,以达到更明显地减少候选肽的目的。
综上所述,本文的主要工作是通过采用后缀数组算法重组数据库,去除冗余肽从而提高鉴定速度。同时尝试在鉴定时采用随机算法,以求进一步减少候选肽。