论文部分内容阅读
随着质谱技术的发展,定量蛋白质组学越发受到人们的关注,人们希望通过质谱数据计算生物样品中蛋白质的表达量变化,从而寻找治疗疾病的靶向蛋白质。近几年,基于串联质谱的等重同位素标记定量方法为研究定量蛋白质组学中蛋白质的差异表达问题提供了新的技术手段。一方面,新的标记技术代表新的定量信息表现形式,也即意味领域内需要新的算法和软件支持。另一方面,不同的定量方法所适用的仪器平台存在较大的差异,且不同的仪器产生的数据格式和精度也不尽相同。面对新发展的标记技术和不同仪器平台间的数据特点,本文先是开发了pXtractRAW/WIFF软件对质谱数据进行导出和预处理操作,而后开发了一套支持近几年提出的串联质谱定量方法(TMT、iTRAQ和PIDL等)分析软件pQuantMS2。 首先,为了支持目前主流的质谱仪数据进行定量分析,同时鉴于包括iTRAQ在内的标记数据多由AB SCIEX公司的飞行时间质谱仪产生、AB SCIEX公司未对外界开放飞行时间质谱仪数据的访问权限、官方预处理软件性能较差等原因,本文在仅获得AB SCIEX公司授权访问数据的前提下,设计了一种高效的数据提取和预处理算法,也是本文完成定量分析流程的前提工作。主要包括数据访问接口的封装、质谱中心化算法设计、基于质谱强度频率的去噪算法设计实现和对应软件在pFind Studio平台上的集成等工作。在几组实验数据的性能测评中,pXtractWIFF的运行速度是官方AB MS Converter软件的15倍左右,彻底解决了WIFF数据预处理过程耗时严重的问题。 其次,针对目前领域内被广泛应用的iTRAQ、TMT和PIDL等串联质谱等重同位素标记定量方法,本文在完成质谱数据导出和预处理的工作前提下,对各类型的定量数据进行定量算法设计。其中涉及到量化共洗脱母离子在串联质谱标记方法上带来的干扰程度、对iTRAQ、TMT试剂的强度进行矩阵校正和利用VSN(方差稳定归一化)算法对定量结果中的异方差问题加以修正等工作。这也是pFind搜索引擎首次可以支持串联质谱定量数据的分析。同时,pQuantMS2软件性能要比目前领域内应用较广泛的MaxQuant软件效果好,具体表现在pQuantMS2的定量准确度高出MaxQuant软件的同时,耗时也远小于MaxQuant软件。 最后,为了在定量分析流程末端准确计算蛋白质的丰度比,本文设计了一种蛋白质迭代推断算法以得到可靠且可评估的蛋白质集合。在肽段到蛋白质的推断过程中考虑到了肽段分数及其可信度,同时可以利用TDA方法对蛋白质结果进行质量控制。在几组实验数据的评测下,本文的蛋白质推断算法相较于pFind Studio3.1引擎的推断算法,在相同的FDR下可以召回更多正确的蛋白质结果。 结果证明,本文设计的算法和软件在性能上均超过了AB MS Converter和MaxQuant。与此同时,本文的研究工作可以推广到更一般的数据预处理和等重同位素标记定量方法上,推进了领域内的相关研究进展。