论文部分内容阅读
准确的蛋白定量是精确描述生物体物质调控过程的基础。作为最具潜力的蛋白定量工具,质谱具备高敏感度和高通量的特性,在大数据时代有着广阔的应用前景。质谱定量的常用模式包括基于一级质谱(MS1)肽段离子的离子流色谱峰(XIC)模式和基于二级质谱(MS2)碎片离子的多反应监测(MRM)模式。两种模式中,通常都利用肽段/碎片的谱峰面积代表蛋白的实际量,因此定量肽段/碎片应具备良好的质谱响应线性,以及足够高的质谱响应强度。 研究表明,不同肽段的信号强度可以相差100倍,它们随上样量变化生成的质谱响应曲线也各不相同。因此,需要对定量肽段进行筛选。 选择好的定量肽段有两种方式,一是根据模型预测,二是根据实验选择。现有工具及数据库通常是基于预测模型,对肽段离子的质谱响应线性不够重视,因此选用肽段的定量值会与蛋白实际量有较大差距。为了填补肽段离子质谱响应曲线数据库工具的缺乏,文中针对哺乳动物蛋白质组开发了一个高覆盖率的实验质谱响应曲线数据库,并建立起肽段质谱响应曲线评价机制。该数据库涵盖121,318条肽段离子的实验质谱响应曲线和2,647,773条碎片离子的实验质谱响应曲线,总计覆盖11,040个基因产物。 为了高效、全面地覆盖蛋白、肽段及碎片,实验选取了具有代表性的HeLa细胞进行全蛋白酶解制备样品。又因核蛋白占比小、相对丰度低,难以检测和覆盖到,又对其单独进行了富集后酶解并制备样品。这两个样品不断做倍比稀释并送入质谱检测,最后得到了 HeLa细胞全蛋白的肽段/碎片质谱响应曲线数据集和HeLa细胞核蛋白的肽段/碎片质谱响应曲线数据集。得到数据集后,根据肽段质谱响应曲线的线性、斜率、高线性区间和低丰度检测阈值设计打分函数描述肽段/碎片的定量能力。对于每一个蛋白检测到的所有肽段,打分函数都给出打分并进行排序,如此在定量中就可以使用分数最高的一个或几个肽段(最佳响应肽段,BR)来定量。 相同样品三次重复定量实验结果显示:1) BR三次定量值的变异系数中位数更小,说明使用BR定量的稳定性要好于iBAQ方法(金标准)。2) BR三次实验间的相关系数更高,从另一方面证明BR定量的可重复性优于iBAQ。3)分数越高的肽段,三次定量值的变异系数的中位数越小,说明分数越高稳定性越好。在相同基质背景下,相同样品不同浓度的相对定量结果显示:BR相对定量的比值较iBAQ更为收敛。因此,不论是相同浓度还是不同浓度,简单样品环境还是复杂样品环境,BR的定量结果都更为稳定。 UPS2是蛋白质组学动态范围标准集合,包含6个丰度量级的共48个蛋白。UPS2定量实验结果显示:BR定量值与已知蛋白量的相关系数(R2=0.907)高于MaxQuant iBAQ定量值与已知蛋白量的相关系数(R2=0.886);低丰度蛋白的BR定量值与已知蛋白量的相关系数(R=0.883)更是明显高于iBAQ定量值与已知蛋白量的相关系数(R=0.689),体现出BR在低丰度蛋白定量方面的明显优势。 为了方便最佳响应肽段/碎片的选取,以前述两个数据集为基础建立了网站(http://www.firmiana.org/responders)。为了测试BR对于有标绝对定量的适用性,通过所建立的网站挑选了三羧酸循环、脂代谢以及葡萄糖代谢等重要通路上的32个代谢蛋白的最佳响应肽段设计合成了一个 QconCAT蛋白。QconCAT蛋白的酶解实验结果表明:所有QconCAT酶解肽段的信号强度均分布在一个数量级之内;而实验室常见的天然重组蛋白Zscan21的酶解肽段中,肽段信号强度最大可相差10,000倍。因此可以认为来自不同蛋白的BR之间信号强度相近,对不同生理/病理条件下蛋白的绝对定量较普通肽段更为完整和准确,更适于构建 QconCAT。QconCAT有标绝对定量心肝肺胃实验结果显示:1)高度保守的三羧酸循环中,有5个蛋白在心、肝、肺和胃之间有显著差异;2)三羧酸循环中,底物与细胞质交换积极的蛋白丰度更高。得到的代谢通路化学计量图定量揭示了每个器官对不同主要代谢通路的选择性强化。 综上,通过稀释实验质谱检测得到了蛋白质组级别的质谱响应曲线数据集,在此基础上给出了肽段/碎片的打分函数。之后验证了最佳响应肽段在不同高效液相环境和不同样品环境下的通用性和一致性,以及使用最佳响应肽段定量的准确性和可重复性。最后根据最佳响应肽段的特性,尝试了其在有标绝对定量中的应用,通过挑选最佳响应肽段,合成 QconCAT蛋白,验证了最佳响应肽段信号强度的同质性,使用 QconCAT绝对定量得到的化学计量图直观描述了四个器官对重要代谢通路的选择性强化。证明了本方法广泛的实用性。