论文部分内容阅读
肝脏是人体最大的实质器官之一,是人体物质代谢、能量转换及供应的中心,在人体的生命活动中占有重要地位;同时,肝脏也是常见的病原体持续感染的场所,因此,对肝脏蛋白质组的研究有助于人们对肝脏正常生理功能以及肝脏疾病机制的深入了解。本文主要是以多维液相色谱质谱联用技术为研究平台,以肝脏组织为研究对象,对蛋白质组学研究中的一些基本问题:如生物样品的分离,质谱鉴定的重现性,低丰度蛋白质的质谱检测,鉴定结果的可信度以及质谱数据的充分挖掘与利用等方面作系统的研究,为进一步的规模化蛋白质学研究提供参考。蛋白质组学的基本目标是尽可能的鉴定到生物体所表达的全套蛋白质,随着质谱技术的发展和完善,高通量地分析生物体的蛋白质组成已经成为可能。但是生物样品的高度复杂性严重干扰了蛋白质的质谱鉴定。因此有必要对生物样品进行预分离以简化样品组成。在第二章中,我们搭建和优化了液相色谱质谱平台,从蛋白质水平和蛋白的酶切肽段水平分别对生物样品进行预分离。在蛋白质水平,我们优化了反相色谱(RPLC)对复杂生物样品的分离效果。在肽段水平,我们搭建了离线的SCX-RPLC两维液相色谱体系。我们利用建立的多维液相色谱质谱技术平台,采取重复多次运行策略构建了目前世界上规模最大的人类肝脏蛋白质组表达谱。通过6次重复的实验,共获得了6,000,000余张二级质谱图,通过SEQUEST软件对人类蛋白质IPI3.07数据库进行检索,在90%的可信度水平下共鉴定到35658个去冗余肽段,用Buildsummary软件合并后,共得到13150个去冗余蛋白质(或蛋白质Group),其中双肽段以上匹配蛋白质为7001个。对双肽段匹配蛋白质的理化性质、功能及亚细胞定位进行了全面分析,说明重复“Shotgun”策略是一种高通量、高灵敏度的蛋白质组研究策略。同时我们也分析了蛋白质被质谱检测频次与蛋白质丰度之间的关系,通过重复的ESI-RPLC-MS/MS技术可以鉴定更多的低丰度蛋白质。另外,相同的蛋白质在不同批次中被鉴定也起到相互印证的作用,从而增加鉴定结果的可信度。在规模化蛋白质组学研究中,鉴定结果的可靠性越来越受到人们的关注。在第三章中,应用全新的LTQ-FTICR质谱仪器,我们对质量准确度对鉴定结果可信度的影响进行了研究。质谱仪器的质量准确度是质谱仪器的关键参数,在蛋白质的定性分析中起重要作用,我们对LTQ,FT-full(全扫描模式)及FT-SIM(选择离子监控模式)三种质谱采集模式下的分辨率,质谱扫描时间,质量准确度进行了考察,分析了不同质量准确度数据在数据库检索中可信度过滤参数的变化,高质量准确度条件下鉴定肽段的deltaCn值普遍升高,Xcorr值下降。我们的研究表明,鉴定结果的可信度与质谱数据的质量准确度和母离子质量误差设置密切相关。对FT的数据进行了Sequest和Mascot算法的比较,肽段和蛋白的重叠率均在70%以上。这两种软件均可用于FT数据的检索,但mascot对质量准确度更为敏感。基于以上分析,我们获得了一组高可信度、高质量准确度的中国人健康肝脏蛋白质组数据集(4898个蛋白质,2640个蛋白质Group)。质谱数据中蕴藏着丰富的信息,对质谱数据的充分挖掘是当前蛋白质组研究的难点。SNPs是人类基因组中最为常见的一种遗传多态性,具有数量多、分布广和稳定遗传等特点,它与生物个体差异和许多疾病直接相关,是决定人类疾病易感性和药物反应差异的主要因素。长期以来,对SNP的发掘和鉴定一直是以基因水平的分析为基础的。在第四章中,我们首次提出了一套完整的基于液质联用质谱数据的肽段nsSNP位点发掘的策略和技术路线。利用构建的肽库,我们对先前的质谱数据进行了重新解析,发现了一系列由于nsSNP导致的氨基酸突变的肽段和蛋白质,从而在蛋白质水平验证了这些SNP的存在。在前期工作中,我们发现生物样品中蛋白质的丰度确实与该蛋白质的酶解肽段被质谱仪检测到的频率有关系。在第五章中,基于我们建立的液质联用平台,利用相对简单的酵母体系建立了根据差异样品中共同鉴定蛋白质的肽段检测频率的比值来发现差异蛋白寻找生物标志物的方法,并对不同归一化方法进行了比较分析,并将建立的非标定量方法成功地应用于肝癌细胞模型HepG2和HepG2-HBx细胞系的差异蛋白质组研究中。