论文部分内容阅读
两种软电离技术——基质辅助激光解吸离子化(MALDI, Matrix-Assisted Laser Desorption Ionization)和电喷雾离子化(ESI, Electrospray Ionization)的出现使得大分子能够离子化成气态,使得蛋白质的质谱分析成为可能,从而催生了现在意义上的蛋白质组学技术的诞生。但是由于目前质谱技术自身的局限性,能够高通量裂解和快速检测的氨基酸序列的最优蛋白质分子量范围(~2k Da)仍然远低于自然状态下蛋白质分子量(>10k Da),因此,通过特异性酶将蛋白质切成肽段,进行质谱分析,然后通过将获得的图谱和蛋白质序列数据库中的理论酶切肽段的预测图谱进行比对,按照一定的打分算法,找出数据库中与实验图谱最优匹配的肽段或蛋白质,最后通过一定的算法对搜库结果进行验证和过滤,从而鉴定样品中的蛋白质。这就是目前蛋白质组学中应用广泛的基于酶切肽段的所谓自下而上(Bottom-up)的策略。随着研究的深入,以生物标志物发现等临床应用和药物开发为目的应用蛋白质组学研究已经成为研究热点。基于质谱技术的蛋白质定量分析也倍受关注。目前,基于质谱技术的定量蛋白质分析主要是基于Bottom-up策略的。在Bottom-up策略中,肽段是直接的分析对象。高通量的质谱分析中,从蛋白质到质谱数据,要经过酶切、色谱分离、电离、一级质谱分析,二级质谱分析和可能包含的多级质谱分析,在这个过程中,肽段的物理化学属性可以严重影响其鉴定和覆盖率,研究肽段物化属性对肽段鉴定和分析效率的影响,同时优化质谱实验参数和条件对定量蛋白质组学研究有重要的指导意义。由于质谱分析中存在严重的采样效应,单一一次的质谱实验分析存在很大的随机性。重复鉴定策略能够很大程度上减小质谱分析的随机效应,确定和归类具有同类属性的肽段,从而揭示肽段鉴定和定量中的一些规律。但是利用重复鉴定策略来研究肽段的质谱可检测性或者定量行为的研究工作鲜有报道。本研究中我们以酵母蛋白质组为分析对象,使用重复鉴定策略分析了肽段物化属性对质谱实验设计中一些重要参数的影响,包括肽段上样量与肽段鉴定和定量之间的关系、样本的复杂程度与肽段鉴定和定量的关系、溶液全酶切与胶上酶切提取样本的影响、不同质谱灵敏度和扫描速率下的鉴定和定量,从而根据物化属性和统计分析将肽段区分为不同的种类。以此为基础,提出了优化蛋白质组学鉴定和定量的一些指导原则。我们首次研究了大规模的肽段属性、肽段线性相关性与肽段可检测性之间的关系,提出了各种实验条件下蛋白质定量的标签肽段选择原则。本文的主要工作包括:(1)上样量的优化优化上样量是基于质谱的蛋白质组学实验设计的必需而且最基础的一步。当样本上样量增加时,在质谱条件不变的情况下,我们不可能得到某一肽段无限增长的谱图信号。肽段被正确鉴定的概率将受一个样本中肽段绝对数量的影响。在第二章中,我们将经典的重复鉴定策略用于考查大规模肽段鉴定和上样量之间的关系。对于每一上样量下的大于十次重复鉴定的数据依据信号强度将肽段区分为偶尔鉴定、经常鉴定和共同鉴定的肽段。我们使用统计分析的方法获得随重复次数增加时去冗余肽段的模拟增长曲线。将上样量增加时不同上样量下共同鉴定到的肽段按照定量信号随上样量增加的变化趋势分为三类,经过物化属性的计算、统计,质谱检测频次(SC)和色谱峰面积(SA)的定量差异有助于解释不同肽段被鉴定机会差异的原因。肽段的物化属性对基于SA的定量线性关系影响很小,而对基于SC的肽段定量线性关系影响很明显。通过具有不同可检测性的任意肽段在整个保留时间内的相关性的分析我们阐明了物化属性对上样量与肽段定量之间相关性的影响。基于SA选择具有平行正相关性的肽段用于信号强度比较将会使我们获得更宽的线性动态范围和最优的线性相关性。这将会反映样本中蛋白质真正的相对丰度差异。相应的,这种线性特征肽段选择的经验原则(ERLPS)可以被用在实验设计的优化,比较和定量蛋白质组学中的肽段选择,同时完善了非冗余肽段库的构建。(2)样本复杂程度的影响在稳定的检测能力下,随着肽段的复杂程度增大,不可能总是检测到相应的无限增加的肽段种类。对于蛋白质组定量而言,蛋白质/肽段的分离程度越大,影响某一蛋白的分布的因素就越多,给定量带来的误差也会越大。不同肽段在样品环境变化时(样本复杂程度变化)的定量信号变化程度不同,因此,目标蛋白所有肽段定量信号的加和并不能成比例的反映完整蛋白的量的变化。在第三章中,我们通过自由流电泳预分离简化样本的复杂程度后,选择不同的馏分进行溶液酶切,通过比较馏分在混合前后的肽段质谱鉴定的定量信号的变化,可以观察到在不同的复杂程度下肽段质谱鉴定的定量信号的变化。我们可以看到大部分肽段的质谱检测频次(SC),即被鉴定的机会在混合后减少。总被鉴定的肽段比那些混合过程中丢失的肽段具有更高的丰度。随着复杂程度的加剧,高丰度蛋白的覆盖率减小,同时低丰度蛋白的覆盖率也减小。我们发现,目标蛋白的所有肽段定量信号的加和并不能成比例的反映完整蛋白的量的变化。选择那些随着复杂程度增加定量信号强度变化平行甚至相同的肽段作为此蛋白在分离程度在一定范围内变化时的标签肽段用于蛋白的定量。(3)溶液全酶切与胶上酶切提取的影响蛋白质组的经典分离方法双向凝胶电泳(Two-dimensional PAGE,即2-DE)尤其是第二相SDS-聚丙烯酰胺凝胶电泳,广泛运用于蛋白质组学研究中。由于基于图像的定量结果受蛋白质分离影响很大,而且光密度值本身因受检测过程因素的影响准确度较差,直接基于质谱数据进行定量分析的方法成为准确的定量蛋白质组学常用方法。胶上分离的蛋白的质谱分析主要是分析胶上固定蛋白的酶切提取肽段。但是胶上酶切提取过程的很多因素的影响使得蛋白质仅有一部分氨基酸序列能被回收用来分析,一般只有少于约50%的肽段被回收。主要原因一是非特异吸附在胶内部或者表面,从胶上提取大的肽段比较困难,二是有些蛋白牢固的固定在胶上导致酶很难完全作用于目标蛋白。肽段的损失曾经在标准蛋白提取过程中有报道。在第四章,我们对反相色谱分离的酵母蛋白的相等量的一个馏分的胶上提取和溶液全酶切的肽段鉴定结果情况进行了比较分析,不同处理过程下(溶液酶切vs胶上酶切提取)鉴定肽段数量随重复次数增加的趋势线可以看到胶上提取过程带来的去冗余肽段的损失。通过物化属性的分析可以看到,溶液全酶切将会检测到更多的较长肽段,同时检测到更加酸性的肽段。更碱性的、疏水性更强的、长度更长的肽段可能会在胶上提取过程中丢失。我们可以选择那些具有较短长度的肽段和更加碱性的肽段作为代表肽段进行胶上酶切的质谱定量分析,而不是传统的选择所有的胶提肽段用于定量分析。因此,在基于胶提肽段的蛋白定量中,可以比较目标蛋白在溶液酶切和胶上酶切后鉴定肽段的定量信号的变化,选择回收效率较高且类似的肽段,即物化属性为肽段长度较短、pI值略碱性的肽段作为定量分析时的标签肽段。(4)质谱的灵敏度和扫描速率的影响质谱仪的灵敏度、准确度、扫描速率等内在的差异会影响质谱鉴定的结果,从而对定量和比较分析产生影响。同一蛋白的不同肽段在不同的质谱仪下的信号强度的变化并不相同,这体现了同一蛋白在不同蛋白质组学平台下的可检测性不同,而且这种变化的差异是由于平台本身引起的。这一蛋白所有肽段信号的加和被用来定量蛋白,其所有肽段不同的变化程度会给相应的蛋白定量和比较的结果带来差异。为了说明具有哪些属性的肽段会随着质谱灵敏度和扫描速率的提高而增加,在第五章中,我们比较了反相色谱分离后酵母蛋白的一个馏分在灵敏度和扫描速率梯度增加的LCQ,LTQ和LTQ-FT质谱的鉴定结果。我们可以看到,鉴定到的蛋白和肽段的数量会随着质谱灵敏度的提高而增加。肽段鉴定将会随着质谱质量准确度的增加而具有更好的重现性,而增加扫描速率并不能提高重现性。同一样本同一蛋白的不同肽段在不同的仪器检测时的定量信号强度的变化有明显的差异,由此提示我们,可以选择那些在不同的质谱仪中信号强度变化一致的肽段作为标签肽段来处理同一样本在不同的质谱平台下得到的定量结果。