论文部分内容阅读
超高维数据普遍存在于生物信息、图像处理和经济问题中.在这类数据中,协变量的维度远大于样本量,并且随着样本量的增加而增加,然而起到作用的变量却是少数,呈现出稀疏的特点.在统计建模的过程中,如果选入了与响应无关的变量,一来会干扰对变量间关系的理解,二来今后需要对该变量进行持续观察而加大成本.需要从中筛选出重要的变量以降低协变量的维度.在超高维数据中,传统变量选择方法计算代价高、统计精度和算法稳定性都受到挑战.为了克服超高维所带来的问题,以SIS(Sure independent screening)为代表的特征筛选方法受到关注,发展出许多有效的方法.本文研究的是超高维删失数据的特征筛选问题,响应变量被右删失,需要通过观测数据筛选出与响应变量相关性强的特征变量.由于响应变量没有被完全观测,直接应用SIS等方法进行特征筛选会有较大的偏差,如果只用样本中被完全观测到的那部分,对样本中所包含的信息的利用又不够充分,虽然现在也有不少学者研究超高维删失数据的特征筛选问题,但一般都基于指定的模型,或是假定删失变量与协变量无关,在使用时稳定性较差.
本文利用条件分位数分别在响应变量非随机删失和随机删失的情形下研究了超高维数据的特征筛选问题.使用条件分位数可以将删失问题转换为完全观测数据的问题,在响应变量被非随机右删失的时候,利用响应变量观测值的条件分位数度量了每个特征和响应变量之间的相关性,然后利用该相关系进行特征筛选.在响应变量被随机右删失的时候,允许删失变量与部分活跃变量(与响应变量相关的变量)具有相关性,利用响应变量观测值关于删失变量和特征变量的条件分位数,可以度量每个特征和响应变量之间的相关性.
在一定假设下,非随机删失时的特征筛选方法具有确定筛选性质和排序一致性;在删失变量与部分活跃变量相关时,随机删失时的特征筛选方法也具有确定筛选性质和排序一致性.模拟表明,与已有的方法相比,在非随机删失时,利用单调不变性所建立的方法不仅在计算形式上更简单,在筛选能力上也不亚于其他基于条件分位数的方法;在随机删失时,如果协变量与删失变量相关,所提该方法具有相对优势.
本文利用条件分位数分别在响应变量非随机删失和随机删失的情形下研究了超高维数据的特征筛选问题.使用条件分位数可以将删失问题转换为完全观测数据的问题,在响应变量被非随机右删失的时候,利用响应变量观测值的条件分位数度量了每个特征和响应变量之间的相关性,然后利用该相关系进行特征筛选.在响应变量被随机右删失的时候,允许删失变量与部分活跃变量(与响应变量相关的变量)具有相关性,利用响应变量观测值关于删失变量和特征变量的条件分位数,可以度量每个特征和响应变量之间的相关性.
在一定假设下,非随机删失时的特征筛选方法具有确定筛选性质和排序一致性;在删失变量与部分活跃变量相关时,随机删失时的特征筛选方法也具有确定筛选性质和排序一致性.模拟表明,与已有的方法相比,在非随机删失时,利用单调不变性所建立的方法不仅在计算形式上更简单,在筛选能力上也不亚于其他基于条件分位数的方法;在随机删失时,如果协变量与删失变量相关,所提该方法具有相对优势.