论文部分内容阅读
N-糖基化作为一种普遍的蛋白质翻译后修饰,对生物功能有着重要的调控作用。随着质谱技术的发展,人们基于实验分析及文献报道构造了各种格式不一的糖库。然而,自然界中可能仍存在一些未经实验发现也未被记录在文献中的糖结构,即使对当前公开的所有糖结构库进行合并,得到的也是不全面的糖库。如果糖库不全,依赖于糖库的糖肽鉴定则无法搜索到正确的糖结构。考虑到当前糖库的局限性,本文旨在构造更加全面的理论N-糖库,从而为N-糖肽谱图的鉴定提供更好的保障。本文的创新点主要体现在如下三个方面: 第一,我们基于糖结构的邻接表存储格式枚举得到互不同构的N-糖结构,并按照一定的规则去掉了一些不合理的糖结构,从而构建了一个更加全面合理且不包含同构N-糖结构的枚举库。进一步,我们合并了GlycomeDB的N-糖及人类血清中可能的高甘露、混合型及复杂型糖结构,得到了一个不包含同构N-糖结构的合并库。通过分别基于合并库和枚举库进行糖肽谱图鉴定,我们发现枚举库有助于发现新的N-糖结构,从而为我们鉴定到更多的糖肽提供了一种新的有效的途径。 第二,为了高效地对糖结构进行同构判定,我们设计了不同的糖结构哈希方法与编码方法,并尝试了不同的实现方法对糖结构库的去冗余过程进行优化。最终,我们在树结构的线性正则表示方法的基础上提出了一种新的编码方法,把分支的N-糖结构映射为线性的字符串,不仅把N-糖结构的同构判定问题转化为了字符串的冗余判定问题,而且提供了一种易于人工解码的N-糖结构的线性正则表示方法,该表示方法极大地方便了N-糖结构库之间的比较与合并。 第三,我们设计出了一种直接根据糖结构的线性正则字符串码构建理论N-糖结构库的方法,该方法有效地提高了糖库构建的时空效率。同时,为了便于糖肽鉴定,我们构造了糖结构对应的理论谱图,即生成糖结构的Y离子。我们通过发现母结构的Y离子与子结构Y离子的组合之间的关系,设计了一种新的基于糖结构的线性正则表达式的子结构生成方法。与最初的基于糖结构的邻接表生成子结构的方法相比,该方法极大地提高了糖结构Y离子的生成效率。具体来说,生成GlycomeDB中的N-糖与人类血清中三个最大通用结构的所有子结构合并得到的7,884个糖结构的Y离子,基于邻接表的子结构生成方法耗时650秒。我们通过算法方面的优化把这些糖结构的子结构生成时间缩短为5秒,进一步通过实现方面的优化把5秒加速到2秒。