论文部分内容阅读
近年来,随着DNA微阵列技术的迅猛发展,产生了大量基因表达谱数据,并被广泛应用于癌症的诊断与分型。DNA微阵列技术可以在一次实验中记录在不同样本条件下成千上万的基因表达数据。面对如此庞大的数据矩阵,生物信息学方法如:聚类分析,判别分析以及回归分析等方法被用来解析及挖掘数据中所蕴含的知识。由于基因表达数据本身所特有的小样本,高维性特点,要求在建立模型之前首先对数据进行变量挑选,本文主要对不同的变量选择方法进行了研究以及比较,并提出了一种新的变量选择方法,具体内容为:
1.在基于模型聚类分析法(MPA)以及无信息变量消除法(UVE)的基础上,本文提出了一种新的变量选择方法,Noise Incorporated Subwindow PermutatiovAnalysis(NISPA),并将这种方法与支持向量机相结合。NISPA不仅解决了常见的变量选择方法难以克服的模型稳定性问题,并且更为科学的以噪音变量为参照标准来划分变量,而不是常见的人为划分。该方法的核心在于使用添加的噪音变量的重要性分布作为参照标准来评估每一个基因变量,将所有变量分为三大类,分别为:有信息变量,无信息变量(噪音)以及干扰变量。与传统的变量选择方法只能鉴定出有信息变量以及噪音的特点相比,NISPA更是首次辨识出来对模型的影响比噪音更差的一类变量,即干扰变量。结合有信息变量以及干扰变量,更能全面了解疾病的病理途径,对癌症的准确诊断与分型带来可能。本文采用了两个公开发表的癌症数据Colon以及Estrogen来测试NISPA的运行效果,结果显示经由NISPA筛选出来的有信息变量可以显著提高模型的预测准确率,是一种较好的变量选择方法。
2.本文从以下三个方面进一步对NISPA算法进行了分析:(1)对比Q=1的NISPA与常见的单变量选择方法,如:Pearson相关系数法、Spearman秩相关系数法,结果表明,Q=1的NISPA与单变量选择方法在不同的数据上具有不同的一致性程度,且Q=1的NISPA筛选出的变量优于其他单变量选择方法;(2)对比Q=1的NISPA与最优Q值(Q>1)的NISPA,发现这两种条件下计算出的变量重要性值具有较大差异,且最优Q值条件下筛选出的变量能显著提高模型预测准确率,表明变量与变量之间的相互作用对最终挑选出的有信息变量影响非常大;(3)对比NISPA与其他的多变量选择方法,如:基于序列前向选择的变量选择方法(SFS)以及迭代特征消除法(RFE),留一交叉验证结果表明NISPA具有较强的竞争能力,是一种较好的变量选择方法替代法。