论文部分内容阅读
代谢组学借助高通量、高灵敏度与高精确度的现代分析技术考察生物体受内外界刺激或扰动后(如特定基因的变异或环境的变化),其内源性代谢产物的组成及其随时间的变化规律。凭借核磁共振(NMR)技术的众多优势,基于NMR的代谢组学近年来得到了迅速发展,目前己被广泛应用于病理学、药理学、生物科学等许多领域。处于复杂环境中的生物体不可避免地受到各种内外界刺激因素的作用,当我们试图探究某种刺激因素(如疾病、饮食、药物干预等)对生物体代谢过程的作用时,其它刺激因素便成为了干扰因素。若这些干扰因素对生物体的作用过大,则会影响后续的分析结果的准确性,造成异常代谢通路和相关生物标志物的辨识错误。因此,如何减少干扰因素影响成为了代谢组学数据预处理中亟待解决的问题。对此,本文做了以下两方面的工作:
1.阐述了方差分析(ANOVA)方法用于代谢组学己知偏向性因素干扰滤除的原理,并与偏最小二乘判别分析(PLS-DA)方法结合用于不同饮食人群的代谢分析,分别考察了把性别因素和饮食因素其中一种作为感兴趣因素,另一种因素作为干扰因素的滤除效果,并与未经干扰滤除的PLS-DA识别结果比较。结果表明,ANOVA方法能有效降低干扰因素的影响,获取与感兴趣因素相关的更准确的代谢信息。用7-折交叉验证法对ANOVA干扰滤除前后的PLS-DA模型进行验证,结果显示干扰滤除后的模型预测能力更强。最后,文中还讨论了基于ANOVA方法滤除干扰因素的适用范围和基本假充,以及当各因素水平下样本数据非平衡时,常规ANOVA方法可能引起的偏置问题。
2.详细分析了偏向性因素方差与样本个体差异在特征空间中的分布差异,提出了基于次成分分析(MCA)的未知偏向性因素干扰抑制方法。采用素食数据及高脂数据进行验证,并与正交信号较正(OSC)、Climaco-Pinco等人的方法进行比较,对比干扰抑制后PLS-DA模型前两个主成分的预测能力、解释能力及得分图中样本的可分性,结果显示本文方法对未知干扰因素有更好的抑制效果。
本研究为代谢组学偏向性因素干扰抑制提供了新的方法,新方法能有效抑制偏向性因素的干扰,使后续的统计分析的鲁棒性更好,更具生物学意义。