论文部分内容阅读
互联网技术在人们日常生活中的渗透,改变了房地产市场运行模式,拓展了投资者获取信息、关注信息的方式和渠道;行为经济学的发展驱使了学者们对投资者行为的研究,而投资者行为要素被相应地大量记录在互联网的数据当中,在保护用户隐私的前提下,使用互联网相关数据能够更好地刻画投资者行为,进而支撑房地产价格预测,其中基于搜索行为对于投资者关注的研究获得了丰厚的成果。但互联网数据中包含大量的非结构化数据,而且由于整理、发布等原因,数据在时间统计频率上也存在不一致的问题。此外,智能技术的发展使得更多智能学习方法被应用于房地产价格预测问题中。在此背景下,本文立足于房地产市场的复杂性与非线性特征,引入文本数据并通过文本挖掘方法提取用于衡量投资者关注的网络搜索关键词,同时为了不丢失混频数据原始信息和追求预测结果的更高可信度,构建基于支持向量机与混频数据抽样模型的混频多因素房地产价格预测模型。本文首先解释了课题的研究背景、意义及创新之处。其次,对国内外有关房地产价格预测方法,混频数据处理方法以及投资者关注相关研究做了综述和分析,说明了将百度指数作为投资者关注代理变量的可行性与有效性,同时从定性的角度分析了投资者关注代理指标与房地产价格波动的内在联系。通过对现有房地产价格预测方法的整理与分析,考虑模型适用范围和假定条件,选用支持向量机与混频数据抽样模型作为基础模型。本文阐述了支持向量机与混频数据抽样模型的理论体系及其优缺点,结合双方优势,构造了能够同时解决非线性、混频数据问题的新型混频多因素房地产价格预测模型,并给出模型求解过程,相较基础模型拓展了适用范围,其中混频数据不仅存在于自变量与因变量之间,也存在于自变量与自变量之间;同时,针对支持向量机核函数与相关参数难以确定的问题,构建了组合正定核函数,并利用粒子群算法进行权重及参数优化,进一步提升了模型对不同类型数据集的适用能力。本文编写爬虫脚本自动获取相关互联网数据。从移动互联时代火热的即时通讯软件微信中采集文本信息,利用文本挖掘技术与随机森林封装特征筛选得到衡量投资者关注的百度指数关键词组合,实现非结构数据向结构化数据的转换。综合考虑常用的宏观经济与行业相关影响因素,在混频多影响因素下实现房地产价格预测。在实证分析中,选取北京、上海、广州、深圳、重庆、天津、南京六个国内一、二线城市作为研究对象,预测其新建商品住宅销售价格指数,进行多个实验对比分析。研究结果表明,引入作为投资者关注代理变量的百度指数数据是有效的,能在一定程度上提升房地产价格预测结果的可信度;同时,本文构建的混频多因素房地产价格预测模型,相较于同频预测模型能够有效提升预测结果的准确性与稳定性,而且组合核函数的使用能够进一步提升模型的预测能力。