论文部分内容阅读
质谱技术的发展使高通量、快速的蛋白质组鉴定成为可能,鸟枪法蛋白质组鉴定策略因其高通量、自动化等特点被广泛采用,其流程分为实验和计算两部分,实验部分产出串联质谱数据,计算部分一般通过搜索蛋白质数据库给出可靠的肽段鉴定结果,并由此进行蛋白质装配。然而计算部分产出的数据质量问题仍十分突出。由于蛋白质数据库的不完整和序列错误、图谱噪声(电子和化学噪声)、以及肽段鉴定算法瓶颈等因素,肽段鉴定结果中往往存在大量的假阳性鉴定,并进一步导致蛋白质的假阳性鉴定。并且,在基于鸟枪法的翻译后修饰(PTM,Post-Translational Modification)鉴定结果中,除肽序列之外,修饰种类和修饰位点也常常被误判。此外,由于鸟枪法造成了肽段和蛋白质的关联信息丢失,因此无论是肽序列还是PTM鉴定,都存在蛋白质装配这一步骤,但由此引入的蛋白质假阳性鉴定也愈加突出。如何准确衡量肽序列、PTM和蛋白质鉴定结果的可信度对计算蛋白质组学提出了挑战。研究者们已发展出大量的分别针对肽序列、修饰和蛋白质鉴定的数据质量控制方法,但现有方法的实用性和理论基础仍存在下述问题:(1)虽然正库-诱饵库搜索策略(target-decoy database search strategy)被广泛用于估计肽序列鉴定的错误发现率(FDR,False Discovery Rate),但目前仍存在多种FDR计算方法,FDR估计的准确性需要比较和评估;(2)相对于较为成熟的肽序列质控方法,目前尚缺乏有效的、全面的可涵盖修饰序列、类型和位点的修饰质控方法;(3)现有蛋白质质控方法极少关注蛋白质装配对蛋白质假阳性鉴定的影响。为进一步提高蛋白质组鉴定的可靠性,基于对现有研究的充分调研和数据分析的实际需求,我们分别在肽序列鉴定、PTM鉴定和蛋白质装配三个方面发展了相应的质控方法,并对方法的可靠性进行了评估。其中重点关注了PTM鉴定的质量控制,并在修饰类型快速发现方面进行了相应探索。首先,我们开发了肽段鉴定的质控工具PepDistiller,用于一种常用的数据库搜索引擎MASCOT鉴定结果的质量控制。通过引入肽段酶切端个数等特征、改进的FDR计算方法和多线程技术,使得PepDistiller具有以下优势:(1)与已有的高灵敏度质控工具MASCOT Percolator相比,相同FDR阈值下PepDistiller可过滤出更多半酶切搜库的肽段鉴定结果,因而可提高半酶切搜库结果的质控灵敏度;(2)PepDistiller可提供更准确的FDR估计值,改进的FDR与真实的FDR更接近;(3)PepDistiller可加快大规模数据集的处理速度。PepDistiller对复杂数据集的处理时间仅是MASCOT Percolator的20%~60%。该工具及说明文档下载地址为www.bprc.ac.cn/pepdistiller,可供研究人员免费使用。其次,为提高常用的非限制性PTM搜索引擎InsPect鉴定结果的可靠性,我们分别从修饰肽段、修饰类型和修饰位点三个层次衡量了修饰鉴定结果的准确性,以求能准确回答“在什么序列的哪个位点上发生了何种修饰”:(1)修饰肽段的质控方面,我们收集了26个用于PTM质控的分类特征,通过连续前向特征选择,筛选出三个分类能力最强的且相互独立的特征,并通过Logistic回归将其整合到新的修饰肽打分pScore中。评估表明,pScore与传统方法的分类能力相当或略好,且降低了计算复杂度。(2)修饰类型质控方面,基于正库-诱饵库搜索策略,利用高斯混合模型及贝叶斯概率理论,我们计算了母离子与肽序列的质量差△M为正确修饰类型的概率。使用测试数据集评估和文献的证据表明,在与文献报道相符的修饰类型中,约95%的修饰类型具有高的正确概率,显示了该方法的高灵敏度。(3)修饰位点的质控方面,我们将常用的磷酸化位点质控算法Ascore扩展应用到任意种类修饰的位点质控和校正上,填补了已有非限制性修饰质控工具在这方面的空白。同时,我们关注了利用图谱对(同一肽段的修饰态和未修饰态对应的一对图谱)的母离子质量差进行高丰度修饰类型筛选的方法,即“△M histogram”方法。“△M histogram”的原理是依靠图谱对的母离子(或子离子)质量差寻找高频出现的△M,从而达到筛选高丰度修饰的目的,因此一般不需要进行数据库搜索。然而已有的方法都采用穷举的方式,所得的“△M histogram”是基于任意图谱对质量差的绝对值,使得正负质量差混在一起无法区分。若修饰图谱可被预筛选,利用修饰谱与剩余谱之间图谱对的质量差,不仅可区分正负质量偏差,且有利于筛选出正确的修饰类型。在此我们将“半小数规则”应用于修饰谱的预筛选上,即认为未修饰肽半小数分布之外的图谱为潜在修饰谱。结合“△M histogram”方法,利用高斯混合模型和贝叶斯概率理论,我们可从初始△M集合筛选出高频出现的修饰类型。评估结果表明该策略不仅发现了负的高频△M,且排名前五的正质量偏差里,71%的△M与已有文献报道相符,显示了该方法良好的灵敏度。最后,我们开发了基于简约原则(即用最少的蛋白质覆盖所有高可信的肽段鉴定)的蛋白质装配工具ProRazor,并对蛋白质装配中产生的假阳性鉴定进行了分析。利用实验数据和模拟数据的评估结果表明,同已报道的四种常用蛋白质装配工具相比,ProRazor最符合简约原则且在提高蛋白质鉴定准确性方面具有最好表现。基于ProRazor的蛋白质装配结果,以蛋白质鉴定结果的FDR和假阴性率(FNR,False Negative Rate)为评估指标,我们证明:(1)利用简约原则进行蛋白质装配可提高蛋白鉴定准确性;(2)大数据集的蛋白质装配结果中FDR和FNR更高;(3)若不考虑由于数据库容量增大而引入的新蛋白对鉴定结果的影响,采用不同冗余度的数据库的对鉴定结果的FDR和FNR影响不大;(4)多肽段过滤策略会增加蛋白质鉴定结果的FDR和FNR,表明该策略的有效性体现在提高了肽段鉴定结果而非蛋白质装配结果的准确性上。本研究旨在为大规模蛋白质组的表达谱、修饰谱研究提供了高灵敏度、高准确性的数据质量控制方法。所开发的质控工具PepDistiller和ProRazor已在小鼠肝脏细胞器蛋白质表达谱、小鼠肝脏可变剪接体鉴定、腾冲嗜热菌蛋白质表达谱研究等多个蛋白质组数据分析中得到应用。利用该系列工具,我们在国际生物分子资源实验室协会(ABRF,Association of Biomolecular Resource Facilities)组织的2010年磷酸肽标准品评测中成功鉴定到十六个存在位点isoform的标准磷酸肽,序列和磷酸化点都全部正确,在参与评测的四十三个实验室中名列前茅。实践证明我们的方法行之有效。