N糖结构数据库的构建算法研究及其应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:B08050402
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
N-糖基化作为一种普遍的蛋白质翻译后修饰,对生物功能有着重要的调控作用。随着质谱技术的发展,人们基于实验分析及文献报道构造了各种格式不一的糖库。然而,自然界中可能仍存在一些未经实验发现也未被记录在文献中的糖结构,即使对当前公开的所有糖结构库进行合并,得到的也是不全面的糖库。如果糖库不全,依赖于糖库的糖肽鉴定则无法搜索到正确的糖结构。考虑到当前糖库的局限性,本文旨在构造更加全面的理论N-糖库,从而为N-糖肽谱图的鉴定提供更好的保障。本文的创新点主要体现在如下三个方面:  第一,我们基于糖结构的邻接表存储格式枚举得到互不同构的N-糖结构,并按照一定的规则去掉了一些不合理的糖结构,从而构建了一个更加全面合理且不包含同构N-糖结构的枚举库。进一步,我们合并了GlycomeDB的N-糖及人类血清中可能的高甘露、混合型及复杂型糖结构,得到了一个不包含同构N-糖结构的合并库。通过分别基于合并库和枚举库进行糖肽谱图鉴定,我们发现枚举库有助于发现新的N-糖结构,从而为我们鉴定到更多的糖肽提供了一种新的有效的途径。  第二,为了高效地对糖结构进行同构判定,我们设计了不同的糖结构哈希方法与编码方法,并尝试了不同的实现方法对糖结构库的去冗余过程进行优化。最终,我们在树结构的线性正则表示方法的基础上提出了一种新的编码方法,把分支的N-糖结构映射为线性的字符串,不仅把N-糖结构的同构判定问题转化为了字符串的冗余判定问题,而且提供了一种易于人工解码的N-糖结构的线性正则表示方法,该表示方法极大地方便了N-糖结构库之间的比较与合并。  第三,我们设计出了一种直接根据糖结构的线性正则字符串码构建理论N-糖结构库的方法,该方法有效地提高了糖库构建的时空效率。同时,为了便于糖肽鉴定,我们构造了糖结构对应的理论谱图,即生成糖结构的Y离子。我们通过发现母结构的Y离子与子结构Y离子的组合之间的关系,设计了一种新的基于糖结构的线性正则表达式的子结构生成方法。与最初的基于糖结构的邻接表生成子结构的方法相比,该方法极大地提高了糖结构Y离子的生成效率。具体来说,生成GlycomeDB中的N-糖与人类血清中三个最大通用结构的所有子结构合并得到的7,884个糖结构的Y离子,基于邻接表的子结构生成方法耗时650秒。我们通过算法方面的优化把这些糖结构的子结构生成时间缩短为5秒,进一步通过实现方面的优化把5秒加速到2秒。
其他文献
随着计算机软件技术的发展和企业信息化工作的不断推进,企业使用的软件(如:ERP、PDM和CRM等)也越来越多。虽然这些系统是应用在不同的领域,管理着不同的对象,但是它们之间也有很
该文以昌河公司管理信息系统为背景,结合作者对分布式数据库理论的研究和项目的开发实践,对在Client/Server环境下的分布式数据库应用系统的实现方案和开发技术进行了研究和
作为自然语言处理的核心技术之一,句法分析是连接词法分析和语义分析的桥梁,可以在各种任务和领域中提供巨大的帮助。依存句法具有形式简洁、易于标注、便于应用等优点,逐渐成为
该文提出了基于IPSec安全传输平面的新体系结构.针对IPSec现有的本地实施和网关实施框架,提出了基于IPSec的安全传输平台的总体框架和模块结构,使之能够和现有的基于IPSec的V
神经网络的学习方式通常包括三种:监督(supervised)学习、无监督(unsupervised)学习和强化(reinforcement)学习。由S.Grossberg和G.A.Carpenter等人提出的自适应谐振理论(Adap
由于企业、政府和其他组织的工作越来越依赖于计算机网络系统,保护这些系统免受攻击已成为当务之急。随着互联网计算机的不断增加,IDS显然已成为必不可少的重要手段。 入侵
最近几年,卷积神经网络技术在许多视觉应用中都取得了成功,目前大部分成功的物体分类系统都基于深度卷积神经网络框架。对于控制计算机平台来说,近年来随着技术的不断进步,移动控
随着我国道路交通的不断完善,机动车辆日益增多,各行业为了实现和改善对机动车辆的监控和管理,对车辆监控系统提出了更新更高的要求。基于这样的需求背景,我们研究了各种相关技术
随着Internet及全球信息网应用的快速发展,Web应用正逐步走向企业级计算,其复杂性和动态性的要求更高。纯静态web页面已远不能满足用户和开发者的需求,满足用户动态请求,页面内容
进入二十一世纪后,信息呈现爆炸式地增长,数字信息化的加深使得数据的重要性日益提高,企业对存储系统的备份与恢复功能提出了越来越高的要求,快照技术因其快速的即时备份,且生产副