论文部分内容阅读
作为系统生物学的重要组成部分,代谢组学研究的主要对象是相对分子质量较小的内源性代谢物。在现代分析技术层面上,数据的获得已不是问题,但数据并不等同信息,所以现在所面临的主要问题是如何对这些数据进行分析和挖掘从中获得有用的信息。组合技术是一类通过组合多个模型从而提高单个模型精度、泛化能力及稳定性的技术,是建模算法性能提高的新思路,近年来,引起了研究者们的广泛重视。在本论文中,考虑到代谢组学数据的特性,以及组合技术在提高模型性能方面的潜力,我们引入组合技术(包括,Boosting和Bagging)来提高基础建模算法的性能,发展了两种新型的代谢组学数据解析方法,并将其用于肺癌血清代谢组学数据解析:(1)结合Boosting技术中的Adaboost.M2和偏最小二乘-判别分析(Partial least squares-discriminant analysis,PLS-DA),发展了一种新的算法,即推进偏最小二乘-判别分析(Adaboost.M2 partial least squares-discriminant analysis,AM2PLSDA)。首先该方法利用原始训练集的不同加权版本来构建一系列PLS-DA模型,再采用加权多数投票的方法对所构建的一系列模型进行组合得到最终的预测结果。在本章中我们将新提出的算法结合核磁共振技术用于三类血清样本,即,新诊断未治疗的肺癌患者,健康的志愿者,治疗后复发的肺癌患者进行了代谢组学的研究,从而证实了新提出的算法与传统的PLS-DA相比具有显著地优势。PLS-DA算法对于训练集的识别率为85%,对预测集的识别率为76%;而AM2PLSDA对训练集和预测集的识别率分别为100%和90.5%。此外,AM2PLSDA还识别了一些潜在的显著性代谢物,如:苏氨酸,三甲胺,糖蛋白,脯氨酸,谷氨酰胺,丙氨酸,乳酸。(2)考虑到组合算法中,组合的多个子模型之间差异性越大,组合结果越优的这一特性,我们将Bagging算法用于不同建模算法,包括偏最小二乘-判别分析(PLS-DA),分类树(classification trees,CT)以及径向基函数网络(radial basis fumction network,RBFN),从而构建了一种新型的组合算法,即,BPCR。该方法首先通过重采样技术建立一系列Bagging set,进而将产生的子集分别用于PLS-DA,CT,RBFN进行建模,最后通过多数投票的方法来组合这一系列构建的模型的预测结果。同样为了验证该方法的性能,我们将新提出的BPCR算法同样用于肺癌血清代谢组学数据的研究,也取得了满意的结果,该方法与单个算法相比识别率得到了显著地提高,此外我们还采用了窗口移动偏最小二乘判别分析法来对肺癌血清中的显著性代谢物进行识别,包括:蛋氨酸,糖蛋白,丙氨酸,乳酸,苏氨酸,脂质。