论文部分内容阅读
近年来随着互联网的快速发展以及信息技术的普及,人们的生活已经越来越离不开网络。人们可以利用搜索引擎查询新闻和感兴趣的信息,也可以利用即时通讯软件如腾讯QQ、微信等进行聊天。互联网已经成为了巨大的数据库。网络搜索数据蕴含了三亿多市场主体的兴趣与关注,反映其行为趋势与规律,为研究宏观经济问题提供了必要的微观数据基础。房地产行业是国民经济的支柱性产业,研究中国房价对百姓的生活和社会经济的发展都具有现实意义。北京市作为中国经济、政治和文化中心,也是目前人口聚集度非常高的城市。北京的房价不仅越来越影响到居民的正常生活,而且还关乎着社会的稳定。因此国家统计局发布了70大中城市住宅价格指数,使人们了解房价的变动趋势,同时也为研究人员提供数据依据。本文运用北京新建住宅价格指数和网络搜索数据进行研究。本文从影响房价的微观因素与宏观因素考虑房地产市场的供给与需求,以均衡价格理论和传导时滞为理论依据,建立一个概念框架。在研究过程中运用文本挖掘的方法对网络上的房价新闻信息进行分词处理,得到权重较高的关键词;运用了一些拓展关键词的方法对初步得到的关键词进行拓展,如长尾关键词、需求图谱等;然后,利用皮尔森相关系数和时差相关分析法基于网络搜索数据与北京新建住宅价格指数间的相关系数和领先阶数对关键词进行筛选。本文选取了相关系数绝对值在0.5以上的关键词,继而分别运用K-均值聚类法和主成分分析法对关键词进行处理,得到衡量北京新建住宅价格指数的指标。在实证分析中运用K-均值聚类法对关键词进行分类,得到每个类别里最能代表类别信息的关键词作为解释变量,又运用主成分分析法将关键词进行合并得到两大类指标,分别是微观搜索指标和宏观搜索指标。最后,运用分别得到的解释变量建立北京新建住宅价格指数与网络搜索数据间的回归模型,将两个回归模型的拟合优度和预测精度进行对比。得出结论:(1)对于微观因素的关键词,人们大多会提前一年的时间进行信息的搜索,如二手房信息以及住房的物业管理信息;对于宏观因素的关键词,对房价感兴趣的购房者通常会提前半年到一年的时间关注价格、工资水平、住房附近的教育水平等信息。(2)北京新建住宅价格指数的一阶滞后项对本身有着显著的解释能力。(3)K-均值聚类分析所建立的模型拟合优度为0.86,运用该模型对2015年08月-12月的北京房价指数进行预测,得到预测值与实际值的平均绝对误差为0.234。与用主成分分析方法所建立的拟合优度为0.82,平均绝对误差值为0.309的模型相比,发现运用聚类分析对关键词进行筛选和优化后能够得到拟合优度更高的模型和误差更小的预测结果。