超高维分类数据的特征筛选

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qq120110023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技水平的飞速发展,计算机等智能设备正以高端的配置和相对便宜的价格为大众所用,帮助医学、工业、金融等多个领域的解决一个又一个难题。这些难题是由于传统方法的不适或者科技的限制而在过去难以解决。正是因为现代科技的计算能力和数据收集能力大幅提升,各个领域的科学研究人员能够以较低的成本收集超高维数据。这里,超高维数据不同于低维数据和高维数据。数学意义上,低维数据指样本量大于预测变量个数(p0);而超高维数据是指预测变量个数随着样本量呈指数阶增长(log(p)=O(nδ),δ>0)。超高维数据逐渐出现在我们的现实生活当中,例如基于个体DNA的单核苷酸多态性数据、DNA芯片、股票交易数据、气候变化数据等。更加具体的例子是基因组学。在基因选择问题中,预测变量是对应一些患者样本中m RNA丰富度(如活组织检查)的基因表达系数。经典的分类任务是,根据基因表达的属性将健康患者与癌症患者进行分类。一般情况下,可用于训练和测试的患者样本不足100个,但是原始数据中的预测变量个数往往大于10000。这类型的数据有两个显著的特征:一、预测变量的维数非常高,但是样本量往往不足;二、数据满足“稀疏性”,即只有少部分预测变量与响应变量相关,剩余大部分预测变量是噪音变量。我们称这些与响应变量相关的预测变量为活跃特征,其余的为非活跃特征。这类数据特征符合我们所称的超高维数据。尽管超高维数据比低维和高维数据提供更多的信息,然而,由于“维数灾难”,即随着维数的增加,计算成本呈指数倍增长,导致传统的低维变量选择方法出现N P-难的组合优化问题,判别分析方法的效果变得像随机猜测般差,应对高维数据的惩罚函数方法也暴露出计算成本高、统计结果不准确和算法稳定性差等缺点。因此,如何从超高维数据集中筛选出活跃特征成为近年来科学研究的热点。特征筛选方法被广大学者提出,其核心思想在于通过排除那些明显与响应变量不相关的变量来降低数据集的维数。最重要的是,它具有准确筛选性:当样本量趋于无穷大时,筛选方法选出所有活跃特征的概率为1。经特征筛选后,模型维度降低至一个可以接受的范围,甚至小于样本量,故我们可以重新使用高维和低维的方法处理问题。如果选出的特征是真正活跃的,那么就能够有效地排除了噪音变量,从而降低计算成本,增加模型的可解释性。一些比较有效的特征筛选方法包括准确独立筛选(SIS)、准确独立排序筛选(SIRS)、柯尔莫哥洛夫筛选(KF)、成对准确独立筛选(PSIS)、还有基于距离相关性(DC-SIS)、经验条件分布函数(MV-SIS)的准确独立筛选等,但是他们各自存在局限性。SIS只适用于线性回归模型,当假设的模型较为复杂或与真实模型相差较远时,它的表现不尽人意;SIRS能在一般的模型框架下执行,但它不适用于响应变量是类别变量的情况;DC-SIS要求预测变量和响应变量服从次指数尾分布,故其准确筛选性的成立条件相对严格;KF仅适用于二分类问题,而无法处理多分类问题;PSIS是基于期望差来构建的,故它不能很好地处理重尾或离群数据;MV-SIS适用于响应变量类别发散的超高维问题,它对自变量服从重尾分布和异常值表现稳健。然而,在类别过多、样本量不足的情况下,MV-SIS的筛选效率有所降低。本文针对超高维分类数据,即数据中的响应变量是类别变量而预测变量都是连续变量,在MV-SIS的基础上提出了一个扩展版本的筛选排序指标e MV。应用该指标构建的准确独立筛选过程被命名为e MV-SIS。筛选排序指标e MV与MV最大的区别在于e MV是使用条件分布函数与无条件分布函数之差的高次幂((F(x|Y)-F(x))dF(x),α∈N+,α<∞),而不是原来的平方((F(x|Y)-F(x))2dF(x)),来衡量响应变量与预测变量之间的依赖关系,其样本估计依然能够轻松获得。当α=1时,e MV退化为MV,所以MV指标是e MV的一个特例。我们提出的该方法允许类别个数以样本量的多项式阶发散,但要求每个类别的概率不能太大或太小,即响应变量要服从一个比较平均的离散分布。另外,最小的筛选排序信号不能小于某个边界值。当这些条件都满足时,我们证明了e MV-SIS具备准确筛选性。为了评估e MV-SIS筛选过程在处理超高维分类数据时的表现,我们通过蒙特卡洛数值模拟生成有限的样本。基本的做法是,给定统计模型和真实活跃特征,然后在原始数据集上应用e MV-SIS筛选过程,把被选出的筛选排序指标所对应的特征作为活跃特征,重复多次试验。评估准则主要有:最小模型大小M,某个真实活跃特征被筛出的概率pj,所有真实活跃特征被筛出的概率pa.M越接近真实活跃特征个数,pj和pa越接近概率1,则筛选方法表现越好。我们构建超高维线性判别分析模型模拟分类问题,将e MV-SIS的模拟结果与包括MV-SIS在内的一些具有代表性的特征筛选方法进行对比。结果显示,e MV-SIS无论是在二分类还是多分类线性判别分析问题中,它的M最接近真实活跃特征个数,同时pj和pa最接近于1。故e MV-SIS的表现的确优于其他特征筛选方法。另外,为了避免过小的计算结果降低筛选的准确率,在超高维多分类问题的背景下,我们探究样本量、类别个数和维数三个因素对次幂α的影响,得出样本量不足的多分类问题可以适当提高α的取值。基于α的合理选取,我们还构建了复杂的多指标模型,并额外计算了eMV-SIS和对比方法的运行时间。结果表明,在准确度上,eMV-SIS是表现最好的特征筛选方法;但在计算时间上,它略逊于MV-SIS。本文最后引入两组实例数据进一步评估eMV方法。两组数据集的结构相似,都是响应变量为类别变量而预测变量为连续变量的超高维分类数据集,响应变量有多个类别,预测变量个数远远超过样本量,它们对应的是样本量不足的多分类问题。故可以选取合适的α构建特征筛选过程。在分析中,我们着重对比e MV-SIS和MV-SIS的表现。首先对样本进行预处理,并根据类别按一定的比例多次随机划分训练集和测试集,然后利用这两种特征筛选方法降低训练集的维数,降维后的训练集用于拟合三个分类模型(逻辑斯蒂回归,支持向量机和稀疏线性判别分析)。最后使用降维后的测试集评估拟合效果,平均训练误差和平均测试误差作为评估的准则。综合来看,利用eMV-SIS筛选后的模型具有更小的训练误差和测试误差。由数值模拟和实例分析结果可以得出,扩展后的筛选过程提高了原始筛选过程的效果。eMV-SIS保留了MV-SIS的优点:第一,允许类别发散,在理论上我们证明该方法在类别随着样本量以多项式阶发散时,其准确筛选性仍然成立。第二,模型自由,即不需要任何参数和模型假设,从而避免了错误的模型假设导致筛选效果不佳。第三,鲁棒性,由于eMV是基于条件分布函数构建,其对于服从重尾分布、存在离群点的预测变量数据,筛选结果良好且稳定。此外,eMV-SIS还具有两点额外的优势:一是计算成本相对合理,虽然扩展后的方法计算时间稍微提高,但是在同一筛选表现水平下,eMV-SIS的计算成本是能够被接受的。二是对于样本量不足的多分类(R>2)问题,它能比MV-SIS更有效筛选出活跃特征。
其他文献
迄今为止,偶氮染料已被全世界广泛应用于纺织业。有些染料污染物从纺织废水中释放到自然界,由于其毒性和致癌性,毫无疑问将对生态系统和人类产生有害影响。在现有的物理、化学和生物染料处理技术中,先进氧化工艺(如芬顿工艺)已成为世界范围内很有前景的染料处理方式。芬顿工艺由于其p H适应范围狭窄和反应过程中伴随大量铁污泥生成的缺陷而被不断改良。为了克服均相芬顿工艺的缺陷,近年来的研究着重于非均相芬顿工艺,其中
学位
融资融券交易指的是投资者借入资金买入股票或者借入证券并卖出的交易行为。融资融券的放开,意味着市场上的投资者不仅能做多股票,还能直接做空股票,因此融资融券的推行为投
为了克服香农-奈奎斯特采样定理对传统成像系统的限制,压缩感知理论作为一种新颖的采样模式被提出。随着对光谱成像分辨率的更高要求,其所需处理的数据量是传统成像数据量的
全球化经济环境下,中国作为全球最具吸引力的市场之一,随着基建及民生工程的大量投入,国内的餐饮娱乐业、酒店业、房地产业必然蓬勃发展,对土地策划、规划、建筑、室内、园林
营销预算通常是一个企业最早需要确定的预算项目,是公司营运的重要控制工具,但由于营销预算的研究在我国起步较晚,营销预算的理论并不成熟,而且营销预算管理还普遍存在与实务
伴随全球金融行业的投资巨变之下,量化投资的浪潮席卷而来来,并引起我国业内人士的密切关注。此外,这种数量化投资的概念和方式也很成熟,能够在错综复杂的金融市场上合理运用
城市传统空间肌理的破坏、宜人尺度的街巷空间被摧毁,取而代之的是封闭的高层居住圈。保留街巷空间积极影响的方式就是城市更新,有机更新、微更新成为打造街道空间的重要手段。本文从易县易州镇团结路街区胡同模糊性的认知入手,结合居民日常生活现象,从空间形态、功能、感受三方面进行了胡同模糊性分析,探究了胡同模糊微更新、模糊胡同的微景观设计营造,采取微更新的设计手段和公共参与的机制探讨胡同与人之间的关系。通过对胡
学位
2008年金融危机爆发以来,以对冲基金、私募基金和资产证券化产品等为代表的影子银行成为了一个热门话题。随着金融的全球化和不断发展,影子银行体系已经在金融体系中充当了举
近年来,随着退耕还林(草)和天然林保护工程的逐步贯彻落实,土地利用发生巨大变化。阐明土地利用时空变化特征,评估其对生态系统服务的影响,以满足对退耕还林(草)和天保工程生
信息化技术和电子商务的迅猛发展,促使各行业不断创新销售理念和销售模式,各企业商家深度挖掘市场发展潜力进而提高市场竞争力。然而,高校周边的经营者大多依赖于传统的销售