规模化蛋白质鉴定数据库搜索中降低时间复杂度的研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:LVBIN0077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于串联质谱技术的蛋白质鉴定已经成为蛋白质组学的主流技术,而数据库搜索已经成为鉴定串联质谱数据最常见的方法之一。目前已经有许多数据库搜索软件,如SEQUEST、Mascot和pFind等。但是随着数据库规模在不断增大、翻译后修饰导致计算次数急剧增加、质谱仪产生数据明显增快,数据库搜索软件的速度亟需提高,如何降低时间复杂度已成为蛋白质组学研究的一个非常重要问题。   目前虽然有着一些提高鉴定速度的办法,如倒排索引,能够明显提高鉴定速度,但是它需要太多的额外存储空间,同时使用也不灵活。因此,对数据库的组织需要更有效的方法。本文提出一种基于后缀数组(Suffix Array)的算法来重组数据库。在鉴定时,该算法不需要判断就直接去除数据库中的冗余肽序列,减少打分次数,与不使用索引相比能够降低整个鉴定50%左右的时间。这个算法是基于最长公共前缀(longest common prefix,LCP)的特性,其中最长公共前缀是伴随着后缀数组的一种数据结构。尽管蛋白质的特异、半特异酶切等情况对这种特性提出种种挑战,但是通过对LCP的调整,可以保证在各种情况下均能够生成所有的肽且没有冗余。与倒排索引相比,在预计算时后缀数组的创建时间和外存空间非常少,在非特异性酶切情况下不到倒排索引的1/100;在鉴定时后缀数组算法是在线酶切模式,更为灵活。   在去除冗余肽的同时,本文尝试采用位置敏感哈希(Locality SensitiveHashing,LSH)的方法减少候选肽的数目,以求进一步降低时间复杂度。同时,本文针对LSH算法在质谱数据上的不足,利用LSH的随机思想,提出一种随机离子法,以达到更明显地减少候选肽的目的。   综上所述,本文的主要工作是通过采用后缀数组算法重组数据库,去除冗余肽从而提高鉴定速度。同时尝试在鉴定时采用随机算法,以求进一步减少候选肽。
其他文献
近些年来,随着各类传感技术逐渐成熟,人机交互技术的研究也获得突破性发展。在过去的几年中,如何使用廉价的设备来捕获人体运动成为了一个越来越热门的研究课题。   基于计算
随着科学技术的发展,模拟计算和仪器测绘所得到的海量数据可视化越来越成为应用的瓶颈。实时可视化研究主要包括基于GPU的可视化算法加速和并行可视化。本文以三维数据场可视
网络流量测量是网络安全管理的重要方式,大部分网络安全事件的检测都是通过网络流量采集分析完成。高速的网络链路、海量的存储数据、多样的上层应用和持续变化的网络给网络流
动态服务环境的各种异常随时会导致整个业务流程暂时无响应或服务中断,极大影响业务流程的可靠性。已有替换机制大多缺乏事务支持而适应性差,进而不能有效保证系统执行过程中
脑血流自动调节机能,是指当平均动脉压(MABP)在一定范围内波动时,通过小动脉和毛细血管平滑肌的代偿性扩张或收缩,改变脑血管阻力(CVR),使脑血流(CBF)保持相对恒的生理机能。脑血
直接体绘制是科学计算与可视化中用于显示三维数据场的一种重要方法,它为体数据场中的每个体素赋予一定的光学属性参数(如颜色、不透明度等),这一赋值过程称之为传递函数,并且通
描述逻辑是一种适合表示结构化数据的形式语言.通过将某种数据模型表示到描述逻辑,可以利用描述逻辑本身的推理机制对数据模型满足的各种性质进行推理,并为各种异构的数据模型
集成电路自发明以来,在摩尔定律作用下集成电路的设计也变得越来越复杂。为了让产品快速上市,获得更大的市场份额,基于标准单元的半定制设计方法成为了产品设计方法的首选。  
团簇结构的优化问题是一个NP问题,其主要难点在于局部极小值的个数随着原子个数的增加而呈指数增长,且局部极小值与全局最小值很接近,使算法容易陷入局部极值。其中,LJ问题和
随着海量数据时代的到来,能够有效的存储和处理大规模数据的平台受到越来越广泛的关注。这些平台大多利用了集群的分布式处理和节点的多核并行计算能力。其中以MapReduce编程