结构化变量选择方法及其在房屋价格预测中的应用

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:t272162898
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,所能采集到的与经济活动相关的数据规模以惊人的速度增长,尤其产生了大量与经济问题相关的重要指标,如来自网络或移动终端的信息。然而变量冗繁会给依赖数据研究问题的方式带来很多负面问题,如建模分析过于复杂导致缺乏可理解性,估计参数计算成本高。因此,变量选择是数据预处理或建模分析中的重要环节,最近几十年已经得到了高度的发展。本论文主要内容就是建立在房屋实际数据上的变量选择方法的研究。在房屋价格预测数据中,包含的变量有房屋类别,房屋面积,房屋造型,是否临街等等,这些变量可能对房屋价格有显著的作用,但它们对房屋价格的影响方式错综复杂,存在多种交互效应。当然也存在一些对价格不敏感的指标。注意到已有的关于变量选择的研究多数依赖于具体的模型,但模型的误指定会严重影响变量选择的效果。另外,尽管在数据挖掘领域已有很多不依赖模型的变量选择方法,但他们多数基于独立扫描技术或仅仅考虑两两变量相关关系,从而无法捕捉若干变量之间群聚或聚类效应。鉴于以上原因,本文提出了一种新的基于聚类算法的变量筛选方法,并使用距离相关(DistanceCorrelation)的概念作为衡量相互信息的工具,这种方法可以快速有效地处理大量的变量,且可以很好地找出共同起作用的多个变量;然后根据变量间的相互信息将所有变量分组,因而可以有效地用于多变量数据的变量筛选之中。更重要的是我们提出的方法不依赖模型的假定,从而具有很广的适用范围。本文将提出的结构化变量筛选方法应用于Ames Housing房屋价格预测问题,在一些统计意义下取得了较为理想的效果。
其他文献
该文的研究对象是国有独资商业银行,研究内容是国有独资商业银行的再造,所选择的时代背景在入世过渡期.在第一章作者对中国银行业的现状及问题做了基本的判断.第二章介绍了银
《义务教育语文课程标准》指出:“第一学段的写话要求是对写话有兴趣,留心周围事物,写自己想说的话,写想象中的事物。”低年级的儿童天真烂漫,想象丰富,但他们掌握的规范语言
期刊
改革开放打破了封闭的经济环境,大量的国外资本涌入中国境内,带动了国家经济的发展以及科学技术的更新升级。在过去的三十多年间外商直接投资增长速度惊人,外商直接投资作为外资
通过利用外资来加速发展中国家资本的形成规模和速度,克服国内资本瓶颈的约束以促进经济的发展,是广大发展中国家经济发展战略的一个重要组成部分,也是中国自改革开放以来一