论文部分内容阅读
分类问题在遗传标记、肿瘤分类、微阵列数据分析、生物信息学和机器学习等领域都有着广泛的应用。随着数据存储能力与计算能力的提高,高维变量的出现给这些领域带来了新的挑战。为了更好的解释高维分类问题,提高分类预测能力,变量筛选和降维起着重要的基础性作用。
在分类建模之前,除了进行主效应的选择,考虑到单个主效应的影响并不足以刻画其与响应变量之间的关系,本文重点进行了交互效应的筛选方法的研究,并创新性地提出了一种两阶段筛选方法CV-I-SIS来筛选主效应和交互效应,为高维分类问题建模奠定了基础。以往的交互作用筛选过程大多是基于模型的方法,或将特征假设为连续的情况,不适合分类问题,且显然不够灵活。本文提出的这种筛选方法CV-I-SIS可以很好地满足特征筛选用于分类问题的需求,而且在对数据进行一定处理后这种方法既适用于分类变量,也适用于连续变量。就方法而言,本文一大亮点是利用信息熵之间的变异系数(CV)构造了一个新颖的统计量,使得无论原始特征的变化程度如何,它都能够比较估计的信息熵的变异程度。这种不基于模型的变量筛选策略运行速度快且易于实现。另外,当该方法与一种变量选择方法相结合并进行建模时分类效果很好,甚至可以恢复原来的模型。理论研究方面,本文还研究了所提出方法的确定筛选性质以及变量选择的oracle不等式,并在有限样本情况下通过蒙特卡罗模拟对该方法的效果进行了探究。模拟研究显示,该方法能够准确地在不损失重要信息的情况下将特征空间降维,不仅在筛选分类变量时效果较好,对连续变量以及部分连续部分分类变量的筛选也都有较好的作用,并且验证了方法的确定筛选性质。最后,为了解释该方法的现实意义,本文分析了两个医学数据实验分析,也能很好地说明方法的有效性。
在分类建模之前,除了进行主效应的选择,考虑到单个主效应的影响并不足以刻画其与响应变量之间的关系,本文重点进行了交互效应的筛选方法的研究,并创新性地提出了一种两阶段筛选方法CV-I-SIS来筛选主效应和交互效应,为高维分类问题建模奠定了基础。以往的交互作用筛选过程大多是基于模型的方法,或将特征假设为连续的情况,不适合分类问题,且显然不够灵活。本文提出的这种筛选方法CV-I-SIS可以很好地满足特征筛选用于分类问题的需求,而且在对数据进行一定处理后这种方法既适用于分类变量,也适用于连续变量。就方法而言,本文一大亮点是利用信息熵之间的变异系数(CV)构造了一个新颖的统计量,使得无论原始特征的变化程度如何,它都能够比较估计的信息熵的变异程度。这种不基于模型的变量筛选策略运行速度快且易于实现。另外,当该方法与一种变量选择方法相结合并进行建模时分类效果很好,甚至可以恢复原来的模型。理论研究方面,本文还研究了所提出方法的确定筛选性质以及变量选择的oracle不等式,并在有限样本情况下通过蒙特卡罗模拟对该方法的效果进行了探究。模拟研究显示,该方法能够准确地在不损失重要信息的情况下将特征空间降维,不仅在筛选分类变量时效果较好,对连续变量以及部分连续部分分类变量的筛选也都有较好的作用,并且验证了方法的确定筛选性质。最后,为了解释该方法的现实意义,本文分析了两个医学数据实验分析,也能很好地说明方法的有效性。