论文部分内容阅读
目的:代谢组学数据具有高维、小样本的特性,其中既有对分类起作用的差异变量,同时包含大量相关的无差异变量,如果利用偏最小二乘方法进行分析,则由于相关变量的影响,使差异变量分散在多个主成分上,当主成分个数大于3时,无法更好地进行可视化,本研究针对上述问题,采用正交偏最小二乘(OPLS)方法进行代谢组学数据进行判别和可视化;另一方面,在代谢组学数据判别分析中,自变量X和分类变量Y之间通常存在非线性相关关系,此时可以采用核正交偏最小二乘(K-OPLS)方法对非线性相关关系的代谢组学数据进行分析。 方法:在介绍OPLS方法原理的基础上,通过模拟实验验证OPLS方法的特性、适用范围及其在可视化方面的优势;研究K-OPLS方法的原理,利用模拟实验探索K-OPLS在处理线性关系和非线性关系时相比OPLS方法的优势。使用R语言编程实现OPLS方法,通过模拟实验探索OPLS在不同情况下与PLS方法进行的区别与联系,包括R2Y,Q2和可视化效果的比较。使用R语言实现K-OPLS判别分析,通过模拟实验研究该方法的非线性特性。通过真实的代谢组学数据验证OPLS和K-OPLS在处理高维数据中的有效性。 结果:⑴OPLS方法能够移除X变量中与Y变量不相关的变量,使有差异的变量集中在第一个主成分中,模型变得简单和易于解释,更好地实现结果的可视化。⑵当无差异变量相关程度不高时,PLS方法能得到较好的效果,此时应用OPLS方法分析结果差别不大,我们可以任选PLS或者OPLS中的一种方法对数据进行分析。理论上讲,从判别角度看,由于PLS可以利用多个主成分,而OPLS仅使用了一个主成分,可能有些较弱的差异变量被当作正交成分被剔除,使实际判别效果略为变差。当无差异变量相关程度较高时,利用OPLS方法的效果由于PLS。⑶用OPLS方法和PLS方法分别对卵巢癌癌代谢组学数据进行了分析,结果显示OPLS方法可视化效果优于PLS方法,同时具有较高的判别能力,与模拟试验的结果相一致。⑷当数据间存在非线性关系时,K-OPLS与传统的线性OPLS相比,不仅增加了模型的预测能力,同时具有较好的模型拟合效果,通过绘制两种方法的得分图,可以看到K-OPLS可以较好的将两类数据分开,而应用OPLS进行分析时,其Q2较低,并且可视化效果不好。当数据间存在线性关系时,应用K-0PLS和OPLS方法的效果基本相同,两种方法的预测能力和分类能力基本相同。我们可以任选其中一种方法进行分析。⑸通过应用实际代谢组学数据进行分析,可以看到应用K-OPLS方法进行分析时,与OPLS方法比较,模型的预测能力(Q2)有所增加,同时可视化效果较0PLS好。 结论:0PLS能够有效去除自变量矩阵X中与因变量Y无关的信息,使模型变得简单、易于解释,同时具有较好的可视化效果,可有效地用于代谢组学数据分析。K-OPLS可以处理非线性关系的数据,在特征空间内可以分离与Y相关成分和非相关成分,与OPLS相比增强了预测能力,具有较好的可视化效果。在实际代谢组学数据研究中,可以根据不同的研究目的选择不同的分析方法。