论文部分内容阅读
液相色谱-高分辨质谱(LC-HRMS)联用技术由于其具有重复性好、质谱分辨率高、代谢物覆盖范围广等优势,已成为代谢组学研究的主流分析技术之一。峰匹配对代谢组学数据处理至关重要,直接影响后续分析结果。目前大多数峰匹配算法通过选择参比变量用于保留时间校正。外源性参比变量由于个数有限,不能满足保留时间校正的需求,内源性代谢物更适合作为参比变量用于组学数据的保留时间校正。现有方法主要基于质量数和保留时间来筛选内源性参比变量,其准确性和适用性不能满足复杂LC-MS数据集的需求。为此,我们开展了基于液相色谱-高分辨质谱代谢组学数据峰匹配的新方法研究。峰匹配方法构建具体流程(图1)如下:首先,以数据依赖(IDA)模式进行样品的非靶向LC-MS代谢组学分析,同时采集一级和二级质谱数据;提取一级和二级质谱数据,并将其对应。其次,根据质量数、保留时间和二级质谱数据进行候选参比变量的筛选、匹配以及评价,并进行多参比保留时间校正。最后,根据质量数、校正保留时间和二级质谱进行峰匹配。其中,获得可靠的内源性参比变量是方法的关键。为此,发展了参比变量筛选原则:1)MS~1在给定保留时间窗口(±30 sec)和质量窗口(±5 ppm)内有且仅有一个变量存在;2)该变量有相应MS~2数据,并且MS~2相对强度大于20%的碎片离子在所有待测样品中均可实现完全匹配;3)候选参比变量MS~1强度大于10000。以水稻叶片样品LC-HRMS数据集为例,评价了所发展的算法,从该数据集中筛选出95个稳定可靠的内源性参比变量,其质量数分布范围108.13~1075.77,保留时间0.65~17.52 min。考察了参比变量数目对保留时间校正效果的影响,结果显示参比变量数目越多,保留时间校正结果越好。将新方法与商品化软件进行了比较,所发展的方法由于充分利用了MS/MS数据,显著提高了峰匹配的准确性,特别适合保留时间漂移较大的LC-MS数据集。