论文部分内容阅读
随着我国经济的不断发展以及城市化的快速推进,促使了我国房地产市场的迅速发展,与房地产的相关经济活动也越来越频繁。由于城市可供开发的土地越来越少,二手房的交易也变得更加活跃,人们对房地产信息及估价的需求越来越大。无论是从市场参与者的角度,还是从国家开征税费的角度看,二手房价格的精确衡量都是个永恒的话题。快速准确的房地产估价,不仅能为卖方提供合适评估价格、同时为买房提供科学的价格预测,能保障交易双方更高效地推进业务。我国在房地产估价上一般是采用市场比较法、成本法和收益法三种传统评估方法。市场法在评估中大多是靠评估者的经验,容易受评估者的主观影响。近年来为了改善房价评估方法,诸多学者开始将统计建模的方法引入到房地产评估,得到了很好的效果。本文将借鉴国外房地产评估的经验,引入数据挖掘的方法进行二手房价格的预测,建立二手房价格评估模型。基于网络抓取方法从链家网站收集了北京市3万余二手房信息,选取包括建筑特征、区位特征、小区环境等影响二手房价格的38个关键因素。首先用特征选择和Lasso回归两种方法进行初步的特征选择,剔除对评估模型影响不大的因素,减小模型的复杂度,共筛选出33个变量进行下一步的建模。而后进行模型的对比,二手房估价模型主要构建了传统的Lasso模型和4种数据挖掘模型:回归树、Boosting、Bagging以及随机森林。用五折交叉验证法对比5种模型的预测精度,结果显示随机森林模型误差最小,拟合效果最好。最后对随机森林模型进行了参数调整和模型优化,并对测试集数据进行预测,经检验模型拟合效果较好,预测结果有着较高的准确性。表明基于随机森林方法的二手房评估模型是一种值得应用和推广到房地产评估中的方法。从随机森林的变量重要性排序来看,城区、建筑面积、物业费、距离地铁的步行最短距离、房龄等是影响北京市二手房价格的主要因素。