论文部分内容阅读
新生儿代谢缺陷(inbornerrorsofmetabolism,IEMs)是由于基因突变导致的酶或蛋白质等发生功能性缺陷而引起的一类遗传代谢病。该病具有致残率高、发病急骤和损害不可逆转等特点,严重时会造成患儿死亡。因此,IEMs的早期筛查及其发病机制的探究,对于后续治疗方案的建立以及患儿死亡率的降低具有重要意义。目前,基于尿液的代谢组学方法已被成功应用于IEMs的早期筛查。代谢组学的研究策略是结合先进的高通量分析技术与化学计量学方法。基于高通量的分析技术获取海量的数据已经不成问题。化学计量学方法主要作用在于有效分析和挖掘所得的海量数据,从而识别各组间的代谢差异(模式识别)和筛选出能够辨别差异的显著代谢物(变量选择)。因此,发展高效的、稳健的化学计量学方法对于IEMs的早期筛查至关重要。在本论文中,考虑到基于模型差异的选择性集成算法能够明显改善识别结果和变量选择的稳定性和可靠性,并且能够缩减算法学习时间;同时鉴于套索(least absolute shrinkage and selection operator,LASSO)算法和分类树(classification tree,CT)算法能够自动筛选重要变量以及确定其相应的重要性值的优势以及偏最小二乘判别分析(partial least squares discriminant analysis,PLS-DA)和极限学习机(extreme learning machine,ELM)算法的优越建模性能,我们发展了两种新型的适合于代谢组学数据特性和分析要求的化学计量学方法,并将其结合GC-MS测量技术用于新生儿IEMs的早期筛查中。具体工作内容如下:(1)在本章中,鉴于CT算法在变量选择方面的优势以及ELM具有的运算速度快但难以界定变量重要性的特点,我们将CT与ELM相结合,构建了一种新型的基础学习算法,即分类树极限学习机(CTELM)。CTELM算法首先构建一棵合适的分类树,继而将CT的分枝变量和树的总节点数分别作为ELM的输入数据和隐节点数目。另外,考虑到选择性集成算法在提高单个基础学习算法性能的优势,我们又设计了基于bagging算法和双误(doublefault,DF)度量的选择性集成算法,并将其用于提升CTELM的模型性能,从而发展了一种新型的稳健的代谢组学数据解析方法,即,基于DF度量的选择性自助集成-分类树极限学习机(DF-BAG-CTELM)算法。在DF-BAG-CTELM中:首先采用bagging思路平行建立多个CTELM子模型,每个子模型可提供对样本的识别结果和每个变量重要性值;然后使用DF方法度量子模型间的成对差异从而获得每个子模型的平均差异性大小;最后选择具有较大差异性的分类器构成集成系统,并获得最终的识别结果和重要变量。新发展的DF-BAG-CTELM算法被用于分析GC-MS测量的三组尿液样本(即健康婴儿,甲基丙二酸血症(MMA)患儿和3-甲基巴豆酰辅酶A羧化酶缺乏症(3-MCCD)患儿)的代谢数据,并与BAG-CTELM、CTELM以及ELM等算法相比较。实验结果表明,CTELM算法能有效地克服ELM难以实现特征变量选择的问题,同时,bagging的引入能有效地改善单个CTELM模型的识别性能以及稳定性,且基于DF的选择性集成算法能够进一步提升模型的性能,使其泛化能力明显优于BAG-CTELM。此外,结合单因素方差分析(one-way ANOVA)和倍数差异(fold change),DF-BAG-CTELM 算法筛选出了与 MMA 疾病相关的3种显著性代谢物,即3-羟基丙酸、甲基丙二酸和甲基枸橼酸;同时找到了能明显表征3-MCCD疾病的显著性代谢物3-甲基巴豆酰甘氨酸。(2)在本章中,考虑到LASSO能够有效地剔除无关变量和PLS-DA在建模方面的优势,我们发展了 LASSOPLSDA基础学习算法。在LASSOPLSDA中,LASSO用于选择变量,其回归系数不为0的变量作为PLS-DA的输入数据。同样,为了提升单个模型的识别结果和变量选择结果的稳定性,我们将DF与boosting算法相结合设计了另一种有效的选择性集成算法,即double fault-boosting(DF-BST),并将其用于提升LASSOPLSDA算法的识别性能和变量选择结果的稳定性和可靠性,发展了基于DF度量的选择性推进-套索偏最小二乘判别分析(DF-BST-LASSOPLSDA)算法。在DF-BST-LASSOPLSDA算法中,首先利用boosting思路通过迭代的方式产生一系列具有一定差异性的LASSOPLSDA子模型;然后使用DF方法计算子模型的成对差异性大小;最后的集成系统由具有较大差异性的子模型组成,变量的最终重要性值由所选的具有较大差异性的子模型给出的回归系数和变量被选频率共同决定。DF-BST-LASSOPLSDA 算法,连同 BST-LASSOPLSDA、LASSOPLSDA 以及PLS-DA等算法一起,被用于基于GC-MS测量的两组尿液样本(即健康婴儿和MMA疾病患儿)的代谢数据分析研究中。实验结果显示,与BST-LASSOPLSDA、LASSOPLSDA以及PLS-DA等算法相比,DF-BST-LASSOPLSDA算法通过选择部分差异性较大的子模型进行集成,其模型的识别性能明显优于BST-LASSOPLSDA、LASSOPLSDA以及PLS-DA等算法,同时变量选择的结果也更加稳定、可靠。另外,结合t-检验及fold change等方法,DF-BST-LASSOPLSDA算法鉴定出5种与MMA疾病相关的重要生物标志物,包括3-羟基丙酸、3-羟基异戊酸、甲基丙二酸、甲基枸橼酸和2-羟基癸二酸。