论文部分内容阅读
居民消费价格指数(CPI)是反映一个国家通货膨胀或紧缩的重要经济指标,通常用来反映经济的一般物价水平,为国家制定相应的宏观政策提供重要的依据,但是政府部门发布CPI的时间存在半个月的滞后,因此提前预测CPI成为当今学术界的热点。目前,CPI的预测模型主要有回归模型、时间序列模型、机器学习模型以及组合预测模型,而预测模型所利用的数据几乎都是政府部门发布的统计数据,也有部分学者利用网络搜索数据来对CPI做预测,但是很少有利用政府统计数据和网络搜索数据共同来预测CPI的研究,所以本文在利用这两种数据建立模型的基础之上,通过比较“一步法”和“两步法”构建模型的预测效果差异,说明在利用政府统计数据预测基础之上加入网络搜索数据对CPI预测效果的提升有切实可行的帮助。本文基于CPI编制规格品分类标准和文本挖掘的方法,得到初始网络搜索关键词,再通过长尾关键词拓展法和百度指数需求图谱拓展法扩展关键词库,利用时差相关系数的方法,筛选出和CPI相关性较强,并且领先或者同步的网络搜索关键词。由于筛选出的有些网络搜索关键词之间存在相关关系,如果直接建立模型容易出现过拟合的问题和模型性能不佳的问题,所以本文分别使用逐步回归分析、Adaptive-Lasso算法、主成分分析三种降维方法,对政府统计指标和筛选得到的网络搜索关键字进行降维,并比较和分析不同方法的降维效果,最终选定逐步回归法用于变量选择,选取没有相关性的关键词,并在此基础之上,将数据集划分为训练集和测试集,用训练集数据拟合神经网络模型,在测试集中比较不同数据类型或者不同建模方法构建的神经网络模型的预测效果,得到结论:利用“两步法”的建模思路,加入网络搜索数据到CPI预测模型,可以有效提升CPI的预测效果。