基于串联质谱的等重标记定量蛋白质组学数据解析研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:kashiyo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着质谱技术的发展,定量蛋白质组学越发受到人们的关注,人们希望通过质谱数据计算生物样品中蛋白质的表达量变化,从而寻找治疗疾病的靶向蛋白质。近几年,基于串联质谱的等重同位素标记定量方法为研究定量蛋白质组学中蛋白质的差异表达问题提供了新的技术手段。一方面,新的标记技术代表新的定量信息表现形式,也即意味领域内需要新的算法和软件支持。另一方面,不同的定量方法所适用的仪器平台存在较大的差异,且不同的仪器产生的数据格式和精度也不尽相同。面对新发展的标记技术和不同仪器平台间的数据特点,本文先是开发了pXtractRAW/WIFF软件对质谱数据进行导出和预处理操作,而后开发了一套支持近几年提出的串联质谱定量方法(TMT、iTRAQ和PIDL等)分析软件pQuantMS2。  首先,为了支持目前主流的质谱仪数据进行定量分析,同时鉴于包括iTRAQ在内的标记数据多由AB SCIEX公司的飞行时间质谱仪产生、AB SCIEX公司未对外界开放飞行时间质谱仪数据的访问权限、官方预处理软件性能较差等原因,本文在仅获得AB SCIEX公司授权访问数据的前提下,设计了一种高效的数据提取和预处理算法,也是本文完成定量分析流程的前提工作。主要包括数据访问接口的封装、质谱中心化算法设计、基于质谱强度频率的去噪算法设计实现和对应软件在pFind Studio平台上的集成等工作。在几组实验数据的性能测评中,pXtractWIFF的运行速度是官方AB MS Converter软件的15倍左右,彻底解决了WIFF数据预处理过程耗时严重的问题。  其次,针对目前领域内被广泛应用的iTRAQ、TMT和PIDL等串联质谱等重同位素标记定量方法,本文在完成质谱数据导出和预处理的工作前提下,对各类型的定量数据进行定量算法设计。其中涉及到量化共洗脱母离子在串联质谱标记方法上带来的干扰程度、对iTRAQ、TMT试剂的强度进行矩阵校正和利用VSN(方差稳定归一化)算法对定量结果中的异方差问题加以修正等工作。这也是pFind搜索引擎首次可以支持串联质谱定量数据的分析。同时,pQuantMS2软件性能要比目前领域内应用较广泛的MaxQuant软件效果好,具体表现在pQuantMS2的定量准确度高出MaxQuant软件的同时,耗时也远小于MaxQuant软件。  最后,为了在定量分析流程末端准确计算蛋白质的丰度比,本文设计了一种蛋白质迭代推断算法以得到可靠且可评估的蛋白质集合。在肽段到蛋白质的推断过程中考虑到了肽段分数及其可信度,同时可以利用TDA方法对蛋白质结果进行质量控制。在几组实验数据的评测下,本文的蛋白质推断算法相较于pFind Studio3.1引擎的推断算法,在相同的FDR下可以召回更多正确的蛋白质结果。  结果证明,本文设计的算法和软件在性能上均超过了AB MS Converter和MaxQuant。与此同时,本文的研究工作可以推广到更一般的数据预处理和等重同位素标记定量方法上,推进了领域内的相关研究进展。
其他文献
该文针对信息系统中最具有代表性的电子商务和管理信息系统,从设计模式的角度进行分析研究.首先,该文对GoF、MVC等经典设计模式进行了深入的分析与研究,针对信息系统专注于信
本文根据目前医疗系统对支持存储和处理时态信息的需求,将时态数据库技术运用到医疗领域中,建立了一个基于电子病历的时态数据库原型系统。该系统通过在传统关系数据库中增加特
面对大型的企业级系统,传统的2层客户/服务器结构面临着很多问题,如扩展性差、伸缩性差、并发用户数有限等,如何解决呢?答案是用3层结构。然而,怎样构造3层结构,仍然是我们面临的一
近年来,随着我国经济的发展,国内火车站、大型商场、娱乐场所、大型剧院场馆、博物馆、会展中心、体育场馆、写字楼等大型公共建筑迅速增多。这些超大型建筑具有结构复杂、规模
压缩感知技术是一种通过利用了信号可压缩性和稀疏性对信号信息进行采集、存储和恢复重建的理论,该理论在信号采集方式上突破了传统的香农-奈奎斯特采样定理的约束,开创性地实
不完全信息数据库与SQL语言是数据库理论的两个重要研究方向,不仅具有重要的理论价值,而且还具有重要的应用价值。本文将三值逻辑谓词演算系统MF~M应用在不完全信息数据库的研
该文首先对IEEE1394协议按照总线配置,仲裁机制和数据传输进行了深入的分析.然后采用TI的1394控制芯片TSB43AA82A实现了1394外设端接口电路的设计.在此电路基础上,根据TSB43A
图像增强是图像处理的一个重要组成部分.该文研究并讨论了一类图像增强算法,各向异性扩散算法.首先,文章介绍了基本的各向异性扩散算法和有偏的各项异性扩散算法.对于算法的
学位
本文研究了对原有的医疗保险管理信息系统进行软件再工程。 本文首先分析了医疗保险管理信息系统的整体发展趋势,以及本人所参与开发的医疗保险管理信息系统存在的实际问题