基于集成学习模型的二手房价格影响因素分析

来源 :科学与财富 | 被引量 : 0次 | 上传用户:junwen2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着我国社会经济不断发展,房地产行业也逐渐发展扩大。但如今一手房房价过高,而二手房房价适中且地理位置较好,因此人们更倾向购买二手房。本文以广州市天河区的普通二手房为研究对象,选取了15个变量来建立指标体系以此研究影响二手房的房价因素。本文利用集搜客收集二手房信息资料、R-Studio清洗数据,并使用python编程语言建立评估模型从而研究分析影响二手房价格的因素。
  关键词:集成学习模型;统计机器算法;二手房价格;房价影响因素;
  如今,我国房地产行业的被越来越多的人关注,迫切需要建立一套科学合理的房地产评估模型,为二手房的购买,销售、和其他行为提供有价值的参考。从“中国房价行情”官网中发现二手房平均价格基本呈上升趋势;从2019年3月到2019年6月价格上升趋势稳定在约5万元/平米。随着科学技术的不断创新发展,研究人员已将机器学习算法应用于房地产评估模型,并在实践中不断优化算法。如王勇胜[1]首先构建线性回归模型、时间序列等五种单一评估模型,田一梅[2]首先采用灰色系统对某市生活用水量进行预测,其次将预测结果作为输入,代入偏最小二乘法回归(PLS)模型,结果表明预测误差更低。因此,本文将基于集成学习模型来研究分析二手房影响因素。
  1.数据收集与预处理
  首先分析归纳二手房交易网站,主要有房屋基本信息、社区配套设施和社区概况等信息,本文提取部分数据信息[3]。为了收集本文所需更为详细的天河区二手房数据,运用集搜客GooSeeKer的层级采集获取天河区二手房房源详细资料。依据内在规则在第一层数据采集下,挖掘第二层详细数据,通过MS谋数台与DS打数机运行工作,搜集天河区的第二层数据资料,此次收集共有1100个数据。
  同时,为了提高数据挖掘的质量,使用R语言对数据进行清理。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量并减少实际挖掘所需的时间。
  2.理论基础
  2.1随机森林算法
  随机森林被称为当前最好的算法之一,2001年Breiman Leo[4]等人提出了随机森林算法,不仅减少预测误差,还可以衡量特征变量的重要性。近年来,它以被广泛应用于经济、管理等领域。
  随机森林算法的基本步骤如下[5;6]:
  2)采用Bootstrap方法,从训练集中随机抽取n个样本作为新的数据集;
  3)基于新数据集构建决策树,并对决策树的每个节点,重复一下步骤,直到节点的样本数达到设定的最小值nmin: 从P个特征值中随机取m(m<p)个数值,默认m2=p
  4)根据基尼系数或信息增益率准则,从m个随机特征变量中选择最终要的特征变量,分为两个部分;
  输出B棵树,针对分类和回归不同问题的预测,对新样本X*在每棵树进行预测,记第b棵树的新样本点X*预测为:
  分类对新样本点X*的预测结果为:
  2.2梯度提升算法
  1)初始化:
  2)for m=1 to M
  计算负数梯度:
  2.3极限树算法
  Extra-Trees(Extremely randomized trees,极端随机树)算法与随机森林算法非常相似,并且由许多决策树组成。极限树与随机森林的主要区别:
  1)Random Forest应用的是Bagging模型,Extra Tree使用的所有的样本,只是特征是随机选取的,因为分裂是随机的,所以结果在某种程度上要比随机森林好。
  2)随机森林在随机子集中获得最好的分支属性,而Extra Tree完全随机地获得分支值,从而实现决策树的分支。
  当特征属性为类别的形式时,随机选择具有某些类别的样本为左分支,将具有其他类别的样本作为右分支;当特征属性是数值的形式时,随机选择一个处于该特征属性的最大值和最小值之间的任意数,当样本的该特征属性值大于该值时,作为左分支,当小于该值时,作为右分支。这样就实现了在该特征属性下把样本随机分配到两个分支上的目的。然后计算此时的分叉值(如果特征属性为类别的形式,可以应用基尼指数;如果特征属性是数值的形式,可以应用均方误差)。遍历节点内的所有特征属性,按上述方法得到所有特征属性的分叉值,我们选择分叉值最大的那种形式实现对该节点的分叉。从上面的介绍可以看出,该方法比随机森林更具随机性。
  2.4极端梯度提升
  XGBoost(eXtreme Gradient Boosting)全名叫极端梯度提升,xgboost归根到底属于boost集成学习方法最終的学习器表示如下:
  2.5模型组合Stacking
  1992年Wolpert提出集成学习Stacking算法,主要组合多个不同学习器提高预测效果。Stacking算法分为初级学习器和次级学习器。集成学习Stacking算法首先数据集分为训练集(Training Data)和测试集(Test Data)。
  第一层初级学习器:训练集采用5折交叉验证,其中训练模型数据集(Learn)占4/5,验证模型数据集(Predict)占1/5,首先选择第一个评估模型Model 1 ,用数据集(Learn)训练模型,将训练好的模型对数据集(Predict)进行预测,在第一次交叉验证后,预测结果记为a1,同理训练集对测试集(Test Data)进行预测结果为b1,这样经过五次交叉验证,训练集得到的预测结果为(a1、a2、a3、a4、a5),将其合并为一列多行的矩阵A;测试集的预测结果为(b1、b2、b3、b4、b5),对各部分预测值对应相加求平均值,结果记为矩阵B,以上步骤为Stacking中第一个基本学习器为Model 1的完整算法流程。   第二层次级学习器:矩阵A为训练集,矩阵B为测试集,构建简单的多元线性回归模型,其中第j个单一评估模型Model j对第i个训练样本点的预测值,作为新的训练集中第i个样本的第j个特征值,即解释变量为不同模型的预测值,被解释变量是实际因变量值。
  3.各阶段二手房重要影响变量
  本文参照安居客等二手房网站,将房地产评估的相关文献与天河区的内涵和特征相结合,选择总价格、房龄、面积、朝向、楼层与层数、装修程度、房子单价、容积率、物业费用、卧室、客厅、卫生间、参考首付、参考月供、绿化率共15个指标,进而将特征指标分为定性变量与定量变量细分。
  采用箱线图方法研究房龄对房价的影响程度,如图1所示:
  从图1可知,不同房龄阶段的房价变化趋势比较明显。1900年到1993年的房龄对房价的影响尚未稳定,而1995-1997年、19998-2000年房价则相对稳,但对比前三年房价有下跌趋势,随后2001年到2009年都是逐步回升的状态,且房价保持稳定,而到了2010年到2019年房价略有下降趋势。由此可知,购房者可能偏向于01-09年的二手房。
  采用直方图方法研究二手房房价,如图2所示:
  为了研究在不同阶段影响二手房价格的因素。本文首先将房价离散化。其中通过图2可以看出,说明天河区房价主要集中在50K/平方-70k/平方。
  同时,由于随机森林具有更好的准确性和稳健性,为了研究所选特征变量是否很好解释并将房价划分,因此本文使用随机森林,对变量重要性度量,利用R语言“RandomForest”包构建模型,进行相关因素的离散化。
  3.1影响二手房房价重要因素
  颜色越深代表重要性以及影响程度越大,颜色越浅代表重要性以及影响程度越小。特征变量的重要程度主要分为3种,如图3所示:
  3.2影响二手房房价相关因素
  从图可以看出特征变量的相关程度主要分为6种,如图4所示:
  3.3影响二手房变量重要性
  采用随机森林对变量重要性的度量,测量的特征变量重要性程度不同,其十分重要特征和一般程度的特征如图5所示:
  4.总结
  本文得出的结论为天河区的二手房房价主要集中在50k/平方-70k/平方。通过15个变量来建立指标体系以此研究影响二手房的房价因素。房龄、楼层与房价为负相关,地段的繁华程度则与房价呈正比。通过相关关系散点图得出总价、地段与参照首付是消费者首要考虑最重要的因素。其次,房型与绿化率也和房价有相关关系,房型的面积的大小与房价呈正比关系。随着生活质量的提高,人们也越来越注重有氧生活,因此,绿化率也会成为参考首选之一。除了以上的因素外,房子的朝向、物业费用、容积率等因素也对房价有重要的影响。
  本文以广州市天河区二手房价格为例,基于天河区的特征变量建立评估模型,进而得出每一种因素的相关影响程度。由于采用单一评估模型可能不具有一致性,而采用模型stacking算法则有效解决这一问题。但是,本文也存在不足,由于本文搜集的数据是二手房网站的挂牌数据,无法获取最终交易价格,因此收集到的数据受到限制,构建的评估模型可能会受到一些影响。
  统计机器学习作为统计学领域的新生事物,它的强操作性预示了它不是一个循规蹈矩、墨守成规的形式与手段,更是为统计学的长远发展带来了新的曙光与希望。
  参考文献:
  [1]王勇胜,薛继亮.基于多种模型组合的我国2015年人口总数预测[J].西北农林科技大学学报(社会科学版),2009,9(1):75-79
  [2]田一梅,汪泳,迟海燕.偏最小二乘与灰色模型组合预测城市生活需水量[J].天津大学学报.2004,37(4):322-325.
  [3]張汉中,张倩,董起航等,大数据下基于房屋交易网站的数据获取的二手房价格走势分析——以上海为例[J].黑龙江科技信息.2017(21):142-143.
  [4]Breiman L.Radom forests[J].Machine Learning.2001,45(1):5-32
  [5:6]吕晓玲,宋捷.大数据挖掘与统计机器学习[M].北京:中国人民大学出版社.2016.
  作者简介:
  潘楚文(1999-), 女,广东省广州人,广东培正学院2017级经济学统计学专业在读学生。
  王佩琪(1998-), 女,广东省广州人,广东培正学院2017级经济学统计学专业在读学生。
  温嘉琪(1998-), 女,广东省江门人,广东培正学院2017级经济学统计学专业在读学生。
其他文献
摘 要:在以往的广告中,传统媒体占据了绝大部分的比例。随着社会的发展,传统媒体逐渐被新媒体所替代,而在新媒体中,自媒体占据了重要地位。在互联网时代,传统媒体正在越来越受到新媒体的冲击。因而,有更多的广告选择自媒体这个平台,本文首先对互联网时代自媒体广告的优劣势进行分析,然后以抖音为例,对互联网时代自媒体广告营销策略进行研究。  关键词:互联网时代;自媒体;广告营销;策略;抖音  前言  随着信息技
期刊
摘 要:城中村改造对于城市的发展以及建设有着十分重要的价值,我国已经建立了完善的法律对城中村改造过程中征地拆迁进行限制和约束,但是从实际情况来看,仍然存在很多问题,影响城中村改造的进程和人们的合法权利。本文主要针对城中村改造中征地拆迁的法律规制进行探究,希望能够顺利稳定地开展城中村改造。  关键词:城中村改造;征地拆迁;法律规制  随着城市化进程的不断加快和人们生活水平的提高,针对城中村改造征地拆
期刊
摘 要:水務企业通过高效绩效考核,科学地衡量各组织部门的运行状况,建立适应企业人员结构、员工岗位及专业组成的评价体系,做出战略或政策调整。着重生产关键指标考核,通过生产过程各阶段的指标分解,严格实现过程水质达标,把控制水过程的每一个生产环节,并运用高效的绩效考核工具促进各项生产指标的优化,同时将生产原材料用量、电耗、能耗能成本控制元素融入评价模型中,有效控制企业成本。  关键词:绩效;评价;生产优
期刊
摘 要:新时期,以抖音、小红书为代表的网络营销平台共同推动着传统网络营销模式的变革。基于此,文章在简要阐明网络营销内涵的基础上,以抖音、小红书等平台为例,对网络营销发展趋势进行了简单探究。并对抖音、小红书等新网络营销方式产生背景下企业应对措施进行了简单分析。  关键词:抖音;小红书;网络营销  抖音、小红书等线上营销平台各品类平均渗透率不断攀升,特别是在全国疫情爆发的背景下,商品线上渗透率整体提升
期刊
摘 要:目前,在建设过程中,企业在我国经济高速发展的带动下,有着很广阔的发展前景,同时,也面临着更大的机遇和挑战。为了使我国企业发展得更好,不仅要通过不断的改革来提高生产力,而且要合理的对经济进行管理来提高我国企业的竞争力。企业的经济管理对我国大多数企业来说还存在很多不足,需要我们在经济管理方面进一步努力,不断完善。本文深刻分析了企业经济管理在新形势下的完善。  关键词:大数据时代;企业经济管理;
期刊
摘 要:近几年来,随着我国采煤行业的快速发展,综合采煤设备的研发也获得了很大的进步,很多设备已经接近或者达到世界先进水平。但是,国内的煤矿设备很多方面与国外还有很大的差距,特别是在机电设备的利用率方面尤为突出。  关键词:煤矿;机电设备;效率  综合采煤设备的利用对传统的采煤行业产生了深远的影响,改变了原有的工作方式,带来了一次技术变革。综合采煤设备的使用,最直接的后果就是改变了煤矿传统的采煤方式
期刊
摘 要:随着农产品市场由供给短缺转为区域性、结构性及产能过剩,供给侧改革在各产业中的渗入,农业产业结构和农产品需求结构都发生了重大变化。农产品交易也逐渐由线下转为线上,继而又转为线上与线下相结合,呈现出了新的特征。本文以红枣为例对传统营销渠道存在的问题进行了分析,同时给出了互联网+背景下我国红枣产品的创新营销模式。  关键词:互联网+,红枣,产品营销  1引言  对于一个农业大国的中国,农产品供给
期刊
摘 要:随着社会发展脚步的不断加快,汽车制造领域发挥着越来越重要的作用。通常来说,车体的防腐蚀性能同汽车质量有着密切关联,而车体表面电泳层厚度又直接影响到性能优劣。由于汽车市场竞争日趋紧张,企业逐步将研究重心转移到汽车质量和成本把控方面,期望有效增强核心竞争力。作为汽车生产流水线中关键的质量环节,电泳车身剖检具有十分重要的作用。本文针对于电泳车身剖检环节进行深入研究,结合项目基础以及操作内容对实际
期刊
摘 要:中国平安是我们国家最大保险企业,如今在“金融+科技”、“金融+生态”的战略规划指引下,平安将创新科技聚焦于大金融资产、大医疗健康两大产业,深度应用于传统金融与“金融服务、医疗健康、汽车服务、房产服务、智慧城市”五大生态圈。本文就中国平安的投资价值进行分析,对于广大投资者有一定的指导意义。  关键词:中国平安;投资价值;保险  一、公司简介  中国平安集团2004年在香港整体上市,成为当年度
期刊
摘 要:随着我国社会经济实力的不断攀升,我国对政工队伍的建设已经越来越重视,目前我国实行的是社会主义的市场化经济体系管理,因此让市场经济活力有了极大的提升,但是不可否认的是,市场上的同行业之间的竞争也开始日益的加剧,然而许多的企业在政工队伍上的建设工作还是无法完全的摆脱传统模式,导致企业在适应新的市场环境以及形式时,多少显得有些措手不及,因此,企业必须注重政工人员的素质问题,加大对政工团队的建设,
期刊