论文部分内容阅读
代谢组学是生物流体或组织中低分子量代谢物动态变化的量度。代谢组学研究的基本策略为基于高通量分析技术量测的高维数据的获得和基于化学计量学方法的代谢组学数据解析。此类数据通常具有小样本、高维、高噪和易含奇异样本的特性。化学计量学在代谢组学数据解析中的两项主要任务为识别各组之间的代谢差异(即模式识别)并筛选出表征各组之间代谢差异的潜在的重要生物标志物(即变量选择)。近年来,分析技术平台的不断发展导致生成的数据结构的规模和复杂性不断增加,这也给现存的基于化学计量学的代谢组学数据解析方法带来了巨大的挑战。因此,探索发展适合于代谢组学数据特性和分析任务的化学计量学方法是非常必要的。代谢组学数据解析中,通常构建单个识别模型以实现代谢差异识别和潜在的生物标志物找寻。然而,已有研究表明:基于单个模型给出的结果往往在一定程度上是不稳定和不可靠的。在本论文中,鉴于分类树算法(classificationtree,CT)和随机森林算法(random forest,RF)能自动选择出重要的变量和确定其相应的重要性值,集成算法提高单个模型的识别结果和变量选择的稳定性和可靠性,机器学习算法中极限学习机(extreme learningmachine,ELM)、堆叠式自动编码器(stackedauto-encoders,SAEs)和分层极限学习机(hierarchical extreme learningmachine,HELM)优越的模式识别性能,我们发展了三种新型的代谢组学数据解析方法,并将其用于基于GC-MS量测的尿液样本的新生儿代谢缺陷(inborn errors of metabolism,IEMs)的早期筛查中。具体工作内容如下:(1)在本章中,考虑到ELM在模式识别方面的优势以及无法实现重要变量界定的缺点,我们引入CT算法作为ELM模型构建前的变量选择的filter方法,开发了一种基础学习算法,即,分类树极限学习机(classification tree extreme learning machine,CTELM)。在CTELM中,我们首先构造一棵未经修剪的分类树。在此基础上,将CT中的分枝变量作为ELM的输入。CT中涉及到的总节点数定为ELM中隐含层的神经元数。此外,考虑到选择性集成算法可以显著提高单个模型的鲁棒性和可靠性,我们又设计了基于粒子群优化算法(PSO)和Boosting的选择性集成算法,并将其与CTELM结合使用以形成一种新的稳健的适合于代谢组学数据特点和分析要求的化学计量学方法,即基于粒子群优化的选择性推进分类树极限学习机(particle swarm optimization-boosting-classification tree extreme learning machine,PSO-BST-CTELM)。在PSO-BST-CTELM中,首先通过迭代的方式不断更新权重来构建一系列的CTELM子模型,然后通过PSO选择部分准确性高且差异性大的子模型,以形成最终的集成系统。新提出的PSO-BST-CTELM与推进分类树极限学习机(boosting-classification tree extreme learning machine,BST-CTELM)、CTELM 和 ELM同时用于两种最常见的IEMs,即甲基丙二酸血症(MMA)和丙酸血症(PA)的GC-MS尿液代谢组学数据解析。结果表明,CT的引入很好地克服了 ELM的模型解释性差的问题,而PSO-BST-CTELM可以进一步提高单个CTELM模型的泛化能力和稳定性。此外,结合单因素方差分析(one-way ANOVA)和倍数差异(foldchange),PSO-BST-CTELM鉴定了 3种与MMA疾病相关的潜在生物标志性代谢物,包括甲基丙二酸、3-羟基丙酸和甲基枸橼酸,3种与PA疾病相关的潜在生物标志性代谢物,包括3-羟基丙酸、甲基枸橼酸和巴豆酰甘氨酸。(2)在本章中,考虑到自助集成分类树算法(baggingclassification tree,BAGCT)在变量选择中的良好可靠性和稳健性,以及传统的SAEs算法无法识别分类模型的贡献因子(即重要变量),我们将BAGCT与SAEs结合,发展了自助集成分类树-堆叠自动编码器(bagging classification tree-stacked auto-encoders,BAGCT-SAEs)。BAGCT首先利用Bagging技术并行建立一系列的CT模型,继而通过整合这一系列CT子模型提供的分枝变量和相应的变量重要性值,从而确定重要变量子集,以用于后续的SAEs模型构建。本文将新提出的BAGCT-SAEs联合SAEs、RBFN、SVM和PLSDA算法,用于两种最常见的IEMs(戊二酸血症1型,GA1)和丙酸血症(PA)的GC-MS尿液代谢组学分析。结果表明,在所有方法中,BAGCT-SAEs算法表现出最高的识别能力。此外,结合one-way ANOVA和fold change,BAGCT-SAEs鉴定了两种与GA1疾病相关的显著信息性代谢物,包括戊二酸和2-羟基戊二酸,4种与PA疾病相关的显著信息性代谢物,包括3-羟基丙酸、甲基枸橼酸、2-羟基丁酸和2-甲基-3-羟基丁酸。(3)在本章中,考虑到RF在变量选择方面的良好可靠性和鲁棒性,HELM具有优越的模式识别能力但模型解释性差的问题,我们引入RF作为HELM建模前的变量选择filter方法,发展了一种新型的适合于代谢数据特性和分析要求的代谢组学数据解析方法,即随机森林-分层极限学习机(random forest-hierarchical extreme learningmachine,RF-HELM)。在RF-HELM中,RF的作用在于选择变量作为HELM的输入。RF在对样本和变量的随机重采样的基础上并行构建一系列的CT子模型,根据每个变量对于构建分类模型的贡献获得一组变量重要性值的排序,通过阈值界定最终的重要变量以用于后续的HELM识别模型构建,从而克服了 HELM模型解释性差的问题。本章中新提出的RF-HELM与HELM、ELM、RBFN、SVM和PLSDA一起用于甲基丙二酸血症(MMA)和丙酸血症(PA)的GC-MS尿液代谢组学分析。结果均表明,RF-HELM既能提供可靠变量选择的结果,同时其识别性能要显著优于大多数传统的识别方法。结合one-way ANOVA和foldchange,RF-HELM鉴定了3种与MMA疾病相关的潜在信息性生物标志物,包括甲基丙二酸、3-羟基丙酸和甲基枸橼酸,3种与PA疾病相关的潜在信息性生物标志物,包括3-羟基丙酸、甲基枸橼酸和巴豆酰甘氨酸。