论文部分内容阅读
代谢组学是继基因组学、转录组学和蛋白质组学之后,系统生物学的又一重要领域,代谢组学所面临的核心问题之一是如何有效利用化学计量学方法对所得复杂的数据进行深入地分析和挖掘。目前,偏最小二乘-判别分析法(Partial Least-Squares Discriminant Analysis, PLS-DA)常被用于代谢组学数据分析,其以简单的参数结构和良好的稳定性,日益引起研究者的广泛关注。然而,PLS-DA也存在一些缺点,比如,算法容易陷入过拟合和局部最优。本论文基于PLS-DA的优缺点以及粒子群算法(Particle Swarm Optimization, PSO)良好的优化性能做了以下两个方面的工作:(1)分析了传统的偏最小二乘-判别分析法容易引起过拟合和局部最优的原因,引入粒子群算法用于同时优化PLS-DA建模中涉及到的变量及其相应的权重和隐变量的个数,形成了一种新的算法,即,PSO-PLSDA法。在本章中,结合核磁共振技术与PSO-PLSDA法,对所收集到健康人、治疗后复发及新诊断的肺癌患者的血液样本进行代谢组学分析,相对于PLS-DA法获得的对训练集和预测集的识别率86%和65%而言,新提出的PSO-PLSDA对这两个子集产生98.5%和85%的识别率。另外,PSO-PLSDA还确定了多个潜在的肺癌血清代谢标志物:乳酸、脯氨酸、糖蛋白、谷氨酰胺、葡萄糖(α-和β-)、三甲胺、甘氨酸、苏氨酸、牛磺酸、肌醇、丙氨酸和谷氨酸。(2)在本章中,我们从另一个角度出发对PLS-DA的性能进行改善,引入离散的粒子群优化算法同时选择PLS-DA建模中所涉及到的样本子集、变量子集和隐变量值,即,PSO-SV-PLSDA。粒子群优化算法以模型误差为目标函数,用于选择合适的建模参数。该方法同样被用于肺癌代谢组学数据分析,实验结果表明:粒子群优化算法能有效地改善PLS-DA的建模性能,且确定了部分的潜在肺癌血清代谢标志物,包括乳酸、缬氨酸、脯氨酸、糖蛋白、苏氨酸、牛磺酸、葡萄糖(α-和β-)、脂质、三甲胺和谷氨酰氨。