论文部分内容阅读
自Marc Wilkins于1994年提出首次“proteome”(蛋白质组)以来,蛋白质组学作为继基因组学之后的一个研究热点领域,已经走过了二十个年头。期间,随着质谱仪器的不断更新,以及相应实验技术的不断完善,蛋白质组学呈现出高速发展的趋势。质谱技术凭借其高通量、高灵敏性等优点已经成为了蛋白质组研究的主流技术。质谱数据解析也成为蛋白质组信息学的主要研究内容之一。然而,早期的质谱仪器精度较低,数据往往包含较多的噪声,谱图质量较差。因此研究人员首先要解决定性鉴定的相关问题,比如如何找到谱图对应的肽段序列、鉴定结果中的假阳性如何过滤即质量控制等多方面的问题。值得欣慰的是,经过多年来科研人员的共同努力,一方面质谱仪器的精度和分辨率得到了大幅度提升,质谱数据质量越来越高;另一方面,相应的分析方法和工具也日趋完善,这些基本的鉴定问题已经得到了较好的解决。近年来,蛋白质组学的研究重点已经逐渐从之前的定性研究转移到了定量研究。定量蛋白质组学已经成为组学领域的研究热点之一,它既包含了相同蛋白质在不同状态中的丰度变化研究,又包含了不同蛋白质在同一状态中的绝对定量研究。它的发展对蛋白质相互作用、疾病相关的生物标志物以及蛋白质丰度规律变化等多方面的研究都具有重大意义。目前,定量蛋白质组按照是否研究蛋白质的绝对丰度,又可以分为相对定量与绝对定量两类。在相对定量研究中,按照是否需要稳定同位素标记又可以分为有标定量与无标定量。针对不同的类别,众多的实验策略应运而生,但是相应的计算方法研究却稍显滞后。一方面,质谱数据规模增长迅速,数据复杂度不断增加,对定量分析方法的准确性、灵敏性以及分析效率的要求越来越高;另一方面,质谱数据的精度也在逐渐提高,如何有效结合定量实验策略,充分挖掘高精度质谱数据中的定量信息,这将是一个挑战。针对上述问题,本研究主要关注于定量蛋白质组学的定量算法研究以及定量软件和工具的研发与应用,为后续定量蛋白质组学的发展提供方法学支撑。本文具体研究内容包括以下四个方面:(1)考虑了定量可靠性的蛋白质相对定量算法研究。在谱图层面,我们提出了动态选峰误差算法,提高了定量结果的灵敏性。在肽段层面,我们首次提出了定量可靠性的概念,定义了三种定量可靠性过滤指标以及两种定量可靠性打分。定量可靠性过滤指标能够减少肽段定量结果中的假阳性,保证了结果的准确性。定量可靠性打分则可以为后续分析提供定量可靠性判别依据。在蛋白质层面,我们实现了三种孤点肽段排除算法,有效提升了蛋白质定量的准确性。最后,采用上述定量算法,我们针对稳定同位素标记的数据设计并开发了自动化有标定量工具SILVER,并在一组大规模复杂数据集以及两组不同标记比例的标准数据集上验证了SILVER的准确性、灵敏性和高效性。(2)基于肽段定量效率指标的蛋白质绝对定量算法研究。首先,我们第一次提出并定义了肽段定量效率指标,即一个肽段能被质谱检测并定量的效率,用以表征肽段实际丰度值与肽段质谱信号强度之间的关系。然后,我们收集和整理了587种肽段各方面的性质特征,采用半监督式学习的计算模型,构建了样本特异性的肽段定量效率指标。最后,我们将肽段定量效率指标用于蛋白质绝对定量中,并在三组不同复杂度的数据集上和几种常用绝对定量方法进行了比较,结果表明基于肽段定量效率的绝对定量算法能够显著降低一个蛋白质对应不同肽段的定量偏差以及重复实验中定量值的波动,在肽段和蛋白质层面都具有更好的定量准确性和定量可重复性,在高复杂度的样本中效果更加明显。(3)综合性、并行化定量软件包PANDA的设计与开发。在蛋白质定量算法研究的基础上,我们设计并开发了包含各类常用定量方法的综合性、并行化定量软件包PANDA。其中,我们构建了谱图、肽段和蛋白质三个层面的底层定量算法库,囊括了无标定量、母离子标记定量、子离子标记定量以及绝对定量的分析流程。同时,我们设计了多核多线程的并行化架构,实现了多种定量算法的并行化和优化,能够完成多个馏分之间以及单个馏分内部的多重并行化计算,极大地提高了计算效率。除此之外,PANDA还具有结果展示与统计分析功能,能够进行定量结果的列表展示与各种图形展示。最后,PANDA包含了差异蛋白质筛选的基本流程,具有缺失值插补、统计检验以及层次聚类、主成分分析等多种功能。(4)建立大规模蛋白质组定量数据分析流程并在实际分析中应用。近年来,中国人类蛋白质组计划以及中国人类染色体蛋白质组计划陆续启动,产出了大量来自于不同实验室和不同质谱平台的蛋白质组数据。为了统一分析、整合这些不同来源的质谱数据,我们在前期定量方法研究和工具开发的基础上,建立了针对大规模蛋白质组数据的定量分析与归一化流程,克服了不同实验操作、不同质谱仪器的差别,连续两年完成了中国人类染色体蛋白质组计划中全部实验室产出的蛋白质组数据定量分析任务,提供了准确的定量结果,为后续分析奠定了基础。综上所述,本研究紧密结合最新的定量蛋白质组学实验技术和仪器的发展,着眼于质谱数据中定量信息的深度解析和挖掘,重点研究了定量算法,并针对不同的定量实验策略设计、开发了相应的定量软件和工具。这些研究成果能够直接应用于蛋白质组学的定量研究中,目前已经在中国人类染色体蛋白质组计划等多批大规模数据的定量分析中得到了应用,为定量蛋白质组学的发展提供了有力的技术支撑。