论文部分内容阅读
随着人类基因组测序的完成,为从整体上掌握生命现象的本质和规律,生命科学对生命活动功能的真正执行者--蛋白质展开了全面研究,蛋白质组学成为后基因组时代生命科学研究的热点之一。生物质谱技术的发展为蛋白质组研究提供了高通量、高灵敏度和高分辨率的分析平台,成为蛋白质组学研究的支撑技术之一,并直接促成了大规模蛋白质组研究的开展。而串联质谱技术结合数据库搜索策略鉴定蛋白质,可以满足组学研究高通量、自动化的要求,已成为人类蛋白质组表达谱研究的重要技术路线。
数据库搜索策略极大地增强了生物质谱数据的解析效率,但由于生物样品的多样性和实验过程的复杂性,以及现有搜索算法的局限性,使其不能完全解决蛋白质鉴定问题,导致质谱数据分析一直是蛋白质组数据处理的难点。数据库搜索策略存在的问题主要可以概括为两点:即如何保证鉴定结果的完整性和正确性。
本研究致力于解决质谱数据蛋白质鉴定的正确性问题,针对数据库搜索策略鉴定肽段结果的质量控制展开,在保证肽段置信度的基础上,实现有效地区分正确/错误的鉴定结果。数据库搜索过程中主要由于模糊匹配和随机匹配两种情况存在导致阴性结果的产生,本研究也正是从这两方面着手。同时,本研究还着重考虑了质谱数据质量控制研究所面临的下面几个挑战:
1.质谱数据复杂程度高,数据库搜索结果易受质谱仪器类型、图谱产生参数、搜库参数、数据库大小构成等多方面因素影响,充分利用质谱数据中所包含的信息将有利于全面完整地描述数据集特征;
2.如何建立客观的评价体系,既考虑数据集整体置信度水平,又能体现肽段的“个性”,为实验人员提供单个肽段/蛋白鉴定结果的正确概率;
3.保证所发展模型和方法的通用性及普适性,实现有效分析、整合多种来源的海量复杂数据;
4.高精度质谱数据已成为生物质谱技术发展的趋势,如何针对高精度质谱数据的特点解析结果将成为质谱信息学的发展方向。
本文针对数据库搜索策略鉴定肽段质量控制所面临的上述问题,考虑两种肽段水平产生阴性结果的原因,基于随机数据库搜索策略,对不同精度质谱仪器数据以及SEQUEST和Mascot两种最常用数据库搜索引擎的结果展开质控方法研究,提高了肽段过滤过程的灵敏度和实用性,并构建了大规模蛋白质组数据的质控分析流程,为后续生物学问题研究提供更可信、更完备的肽段和蛋白质列表。
首先,利用标准蛋白数据集和理论模拟谱图集获得常规数据库搜索结果模糊匹配的基本模式,以及在不同精度数据集中的出现频率,并考察了不同数据库搜索质量误差设置对模糊匹配的影响。同时,通过构建包含人和非人物种蛋白质序列数据库,初步估计了实际样品数据集中模糊匹配发生的概率。我们认为模糊匹配主要受到数据集母离子精度的影响,对标准蛋白数据集应采用和样品蛋白同源性小的序列库作为搜索数据库能更真实的评估算法性能,而对于实际样品数据集可以通过把无法区分的鉴定肽段合并不做取舍,来提高蛋白质装配的准确性。
然后,针对随机匹配问题,分别对高精度LTQ-FT质谱数据、SEQUEST和Mascot软件的数据库搜索结果,通过发展新搜库策略和过滤方法有效改进了其肽段水平的质控性能。
LTQ-FT是一种兼具高精度和高通量的质谱平台,被广泛地应用于蛋白质组学定性和定量分析中,但是该仪器时间依赖的系统误差会因为数据库搜索时无法确定合理的质量误差范围而使其精度大打折扣。我们详细分析了LTQ-FT质谱平台母离子质量误差分布的特点,改进了现有校正公式,并开发了自动化校正的工具。同时,我们提出了一种全新的数据库搜索策略--大误差搜库小误差过滤,用于数据库搜索误差规范和搜库结果确认,通过在标准蛋白数据集和实际样品数据集上的应用,证明了该策略可以显著提高鉴定肽段过滤方法的灵敏度。
基于随机数据库策略和非参概率密度模型,我们发展了一种用于过滤鸟枪法蛋白质组串联质谱数据SEQUEST软件肽段鉴定结果的方法--贝叶斯非参模型(BNP)。共提取了28个描述搜库结果及其匹配信息的特征参数,利用多元线性回归、期望最大算法和贝叶斯公式完成了肽段局部发现假阳性率的估计,并给出其过滤门限。将模型应用于三批标准蛋白和五批实际样品(包括LCQ、LTQ和LTQ-FT三种仪器的数据)串联质谱数据集的SEQUEST搜库结果中,并与动态卡值法、PeptideProphet以及简单非参模型比较,在给定期望假阳性率下,BNP模型能得到最多的过滤肽段数,说明了该模型较好的灵敏度和普适性,并且根据BNP模型计算的概率分值可以保留相当一部分被其他方法过滤的高可信肽段结果,从而大大提高了质谱数据的利用效率。
Mascot作为与SEQUEST齐名的另外一种常用的搜库软件,因为种种原因对其鉴定肽段的质控研究较少,基于Mascot一致性阈值可以严格控制结果的假阳性率,但是其低灵敏度会带来较高的假阴性率,造成大量真实结果的丢失。我们对现有Mascot鉴定结果的过滤和评估方法进行了分类总结,并基于随机数据库搜索策略,通过应用概率模型整合新特征参数完善了Mascot肽段水平的质量控制,有效提高了Mascot搜库结果质控的敏感性,降低了假阴性率并增加了高可信鉴定肽段数目。
随着人类蛋白质组计划研究的迅速发展,在实验仪器和技术不断进步的同时,也产生了大量的异质数据。为有效整合多来源实验数据,我们基于贝叶斯非参模型构建了大规模质谱数据统一质控标准的分析流程,完成了中国人类肝脏蛋白质组计划中小鼠肝脏细胞器表达谱数据集的系统分析,改进了表达谱常规分析策略的鉴定结果。
在蛋白质组研究中,应用质谱实验数据获得高可信的鉴定结果对于后续的生物学和临床学应用意义重大,因此如何有效地控制鉴定肽段的假阳性率仍是数据库搜索策略面对的首要问题之一。本文着眼于质谱数据肽段鉴定确认这一过程,合理利用多种数学、统计模型整合多元特征参数深度解析质谱数据,从灵敏性、特异性和普适性三个方面发展和改进肽段过滤方法,完善了蛋白质组鉴定肽段的质量控制,并成功地构建了大规模蛋白质组表达谱数据质控分析流程。