论文部分内容阅读
随着科技水平的飞速发展,计算机等智能设备正以高端的配置和相对便宜的价格为大众所用,帮助医学、工业、金融等多个领域的解决一个又一个难题。这些难题是由于传统方法的不适或者科技的限制而在过去难以解决。正是因为现代科技的计算能力和数据收集能力大幅提升,各个领域的科学研究人员能够以较低的成本收集超高维数据。这里,超高维数据不同于低维数据和高维数据。数学意义上,低维数据指样本量大于预测变量个数(p0);而超高维数据是指预测变量个数随着样本量呈指数阶增长(log(p)=O(nδ),δ>0)。超高维数据逐渐出现在我们的现实生活当中,例如基于个体DNA的单核苷酸多态性数据、DNA芯片、股票交易数据、气候变化数据等。更加具体的例子是基因组学。在基因选择问题中,预测变量是对应一些患者样本中m RNA丰富度(如活组织检查)的基因表达系数。经典的分类任务是,根据基因表达的属性将健康患者与癌症患者进行分类。一般情况下,可用于训练和测试的患者样本不足100个,但是原始数据中的预测变量个数往往大于10000。这类型的数据有两个显著的特征:一、预测变量的维数非常高,但是样本量往往不足;二、数据满足“稀疏性”,即只有少部分预测变量与响应变量相关,剩余大部分预测变量是噪音变量。我们称这些与响应变量相关的预测变量为活跃特征,其余的为非活跃特征。这类数据特征符合我们所称的超高维数据。尽管超高维数据比低维和高维数据提供更多的信息,然而,由于“维数灾难”,即随着维数的增加,计算成本呈指数倍增长,导致传统的低维变量选择方法出现N P-难的组合优化问题,判别分析方法的效果变得像随机猜测般差,应对高维数据的惩罚函数方法也暴露出计算成本高、统计结果不准确和算法稳定性差等缺点。因此,如何从超高维数据集中筛选出活跃特征成为近年来科学研究的热点。特征筛选方法被广大学者提出,其核心思想在于通过排除那些明显与响应变量不相关的变量来降低数据集的维数。最重要的是,它具有准确筛选性:当样本量趋于无穷大时,筛选方法选出所有活跃特征的概率为1。经特征筛选后,模型维度降低至一个可以接受的范围,甚至小于样本量,故我们可以重新使用高维和低维的方法处理问题。如果选出的特征是真正活跃的,那么就能够有效地排除了噪音变量,从而降低计算成本,增加模型的可解释性。一些比较有效的特征筛选方法包括准确独立筛选(SIS)、准确独立排序筛选(SIRS)、柯尔莫哥洛夫筛选(KF)、成对准确独立筛选(PSIS)、还有基于距离相关性(DC-SIS)、经验条件分布函数(MV-SIS)的准确独立筛选等,但是他们各自存在局限性。SIS只适用于线性回归模型,当假设的模型较为复杂或与真实模型相差较远时,它的表现不尽人意;SIRS能在一般的模型框架下执行,但它不适用于响应变量是类别变量的情况;DC-SIS要求预测变量和响应变量服从次指数尾分布,故其准确筛选性的成立条件相对严格;KF仅适用于二分类问题,而无法处理多分类问题;PSIS是基于期望差来构建的,故它不能很好地处理重尾或离群数据;MV-SIS适用于响应变量类别发散的超高维问题,它对自变量服从重尾分布和异常值表现稳健。然而,在类别过多、样本量不足的情况下,MV-SIS的筛选效率有所降低。本文针对超高维分类数据,即数据中的响应变量是类别变量而预测变量都是连续变量,在MV-SIS的基础上提出了一个扩展版本的筛选排序指标e MV。应用该指标构建的准确独立筛选过程被命名为e MV-SIS。筛选排序指标e MV与MV最大的区别在于e MV是使用条件分布函数与无条件分布函数之差的高次幂((F(x|Y)-F(x))2αdF(x),α∈N+,α<∞),而不是原来的平方((F(x|Y)-F(x))2dF(x)),来衡量响应变量与预测变量之间的依赖关系,其样本估计依然能够轻松获得。当α=1时,e MV退化为MV,所以MV指标是e MV的一个特例。我们提出的该方法允许类别个数以样本量的多项式阶发散,但要求每个类别的概率不能太大或太小,即响应变量要服从一个比较平均的离散分布。另外,最小的筛选排序信号不能小于某个边界值。当这些条件都满足时,我们证明了e MV-SIS具备准确筛选性。为了评估e MV-SIS筛选过程在处理超高维分类数据时的表现,我们通过蒙特卡洛数值模拟生成有限的样本。基本的做法是,给定统计模型和真实活跃特征,然后在原始数据集上应用e MV-SIS筛选过程,把被选出的筛选排序指标所对应的特征作为活跃特征,重复多次试验。评估准则主要有:最小模型大小M,某个真实活跃特征被筛出的概率pj,所有真实活跃特征被筛出的概率pa.M越接近真实活跃特征个数,pj和pa越接近概率1,则筛选方法表现越好。我们构建超高维线性判别分析模型模拟分类问题,将e MV-SIS的模拟结果与包括MV-SIS在内的一些具有代表性的特征筛选方法进行对比。结果显示,e MV-SIS无论是在二分类还是多分类线性判别分析问题中,它的M最接近真实活跃特征个数,同时pj和pa最接近于1。故e MV-SIS的表现的确优于其他特征筛选方法。另外,为了避免过小的计算结果降低筛选的准确率,在超高维多分类问题的背景下,我们探究样本量、类别个数和维数三个因素对次幂α的影响,得出样本量不足的多分类问题可以适当提高α的取值。基于α的合理选取,我们还构建了复杂的多指标模型,并额外计算了eMV-SIS和对比方法的运行时间。结果表明,在准确度上,eMV-SIS是表现最好的特征筛选方法;但在计算时间上,它略逊于MV-SIS。本文最后引入两组实例数据进一步评估eMV方法。两组数据集的结构相似,都是响应变量为类别变量而预测变量为连续变量的超高维分类数据集,响应变量有多个类别,预测变量个数远远超过样本量,它们对应的是样本量不足的多分类问题。故可以选取合适的α构建特征筛选过程。在分析中,我们着重对比e MV-SIS和MV-SIS的表现。首先对样本进行预处理,并根据类别按一定的比例多次随机划分训练集和测试集,然后利用这两种特征筛选方法降低训练集的维数,降维后的训练集用于拟合三个分类模型(逻辑斯蒂回归,支持向量机和稀疏线性判别分析)。最后使用降维后的测试集评估拟合效果,平均训练误差和平均测试误差作为评估的准则。综合来看,利用eMV-SIS筛选后的模型具有更小的训练误差和测试误差。由数值模拟和实例分析结果可以得出,扩展后的筛选过程提高了原始筛选过程的效果。eMV-SIS保留了MV-SIS的优点:第一,允许类别发散,在理论上我们证明该方法在类别随着样本量以多项式阶发散时,其准确筛选性仍然成立。第二,模型自由,即不需要任何参数和模型假设,从而避免了错误的模型假设导致筛选效果不佳。第三,鲁棒性,由于eMV是基于条件分布函数构建,其对于服从重尾分布、存在离群点的预测变量数据,筛选结果良好且稳定。此外,eMV-SIS还具有两点额外的优势:一是计算成本相对合理,虽然扩展后的方法计算时间稍微提高,但是在同一筛选表现水平下,eMV-SIS的计算成本是能够被接受的。二是对于样本量不足的多分类(R>2)问题,它能比MV-SIS更有效筛选出活跃特征。