论文部分内容阅读
随着信息技术的飞速发展,所能采集到的与经济活动相关的数据规模以惊人的速度增长,尤其产生了大量与经济问题相关的重要指标,如来自网络或移动终端的信息。然而变量冗繁会给依赖数据研究问题的方式带来很多负面问题,如建模分析过于复杂导致缺乏可理解性,估计参数计算成本高。因此,变量选择是数据预处理或建模分析中的重要环节,最近几十年已经得到了高度的发展。本论文主要内容就是建立在房屋实际数据上的变量选择方法的研究。在房屋价格预测数据中,包含的变量有房屋类别,房屋面积,房屋造型,是否临街等等,这些变量可能对房屋价格有显著的作用,但它们对房屋价格的影响方式错综复杂,存在多种交互效应。当然也存在一些对价格不敏感的指标。注意到已有的关于变量选择的研究多数依赖于具体的模型,但模型的误指定会严重影响变量选择的效果。另外,尽管在数据挖掘领域已有很多不依赖模型的变量选择方法,但他们多数基于独立扫描技术或仅仅考虑两两变量相关关系,从而无法捕捉若干变量之间群聚或聚类效应。鉴于以上原因,本文提出了一种新的基于聚类算法的变量筛选方法,并使用距离相关(DistanceCorrelation)的概念作为衡量相互信息的工具,这种方法可以快速有效地处理大量的变量,且可以很好地找出共同起作用的多个变量;然后根据变量间的相互信息将所有变量分组,因而可以有效地用于多变量数据的变量筛选之中。更重要的是我们提出的方法不依赖模型的假定,从而具有很广的适用范围。本文将提出的结构化变量筛选方法应用于Ames Housing房屋价格预测问题,在一些统计意义下取得了较为理想的效果。