论文部分内容阅读
目的:近期生物学技术能够同时检测成千上万的生物分子,产生高通量的数据,如基因组学数据和代谢组学数据。这类数据一方面提供了极其丰富、详细的信息,另一方面这种高维、小样本数据给数据处理和统计分析带来了极大的困难。其主要问题是成千上万的预测变量不可能都与生物反应结果相关,而且很容易导致模型的过拟合。本项研究针对上述问题,采用偏最小二乘(partial least squares,PLS)和遗传算法(genetic algorithms,GA)进行高维数据分析,实现数据降维和生物标记物的筛选。
内容在介绍偏最小二乘方法的原理的基础上,通过模拟实验验证其适用性、特点和有效性;研究偏最小二乘方法在处理高维数据时的过拟合现象;研究核偏最小二乘(kernel partial least squares,KPLS)回归在处理非线性关系时的优势;提出基于偏最小二乘判别分析(partial least squares discriminant analysis,PLSDA)的遗传算法,并验证其在高维数据特征筛选中的性能。
方法:使用SAS语言进行偏最小二乘分析,通过模拟实验验证偏最小二乘方法在高维条件下的过拟合现象。使用MATLAB语言实现核偏最小二乘回归分析,通过模拟实验研究该方法的非线性特性。利用R语言将偏最小二乘判别分析和遗传算法结合起来,并通过模拟数据和真实的基因组、代谢组数据评价基于偏最小二乘判别分析的遗传算法(GA-PLSDA)的特征筛选能力。
结果:
1.PLS能够提取高维数据中的相关信息,并具有较好的过滤无关信息的能力,但数量巨大的无差异变量仍可导致其发生过拟合。模拟实验显示随着数据集中无差异变量数量的增加,PLSDA和SVM在测试集中预测的准确率均下降,但无差异变量对PLSDA的影响小于SVM。
2.当存在大量无关信息时,不论分类标签如何PLS得分图均能将各类别分开,所以在分析高维数据时PLS得分图不能代表各类别之间真实的关系,推断组间差异存在假阳性风险。在不包含或仅包含少量无关信息的情况下,PLS类似非监督学习方法,此时PLS得分图能够反应数据模式。
3.PLS通过在自变量中提取与因变量相关的信息成分来解释因变量,当数据维度较高时,由于存在过拟合,噪声变量的信息也可能被提取并用于对因变量的解释。所以,PLS成分所解释的因变量变异百分比有可能是虚假的,不能用其来确定PLS成分个数。
4.KPLS能够较好地处理非线性问题,该方法通过核函数将原始空间的变量映射到高维特征空间,并在高维空间实现线性PLS来解决非线性问题。KPLS提取的成分在趋势上能够近似于真实的曲线关系,它的预测性能远好于PLS。
5.提出了基于偏最小二乘判别分析的遗传算法,并通过对模拟数据、基因组和代谢组学数据的分析,显示了GA-PLSDA较强的优化搜索能力。相对于常用的VIP指标,GA-PLSDA算法能够筛选出对分类目标更具有代表性的解释变量,并且考虑到了变量之间复杂的交互作用。
结论:降维在高维数据的分析研究中具有重要的意义,此过程可以明显降低模型复杂性并提高分类器的预测能力,还可以用来搜索潜在的生物标记物。受无关变量的影响,PLS在分析此类数据时容易发生过拟合,从而产生假阳性结果并增加生物标记物的假发现率。本研究提出了基于偏最小二乘判别分析和遗传算法的特征筛选方法,该方法能够实现全局搜索并考虑到变量之间复杂的交互作用,且明显优于PLS的VIP指标特征筛选。