论文部分内容阅读
在当前产能过剩、经济形势日益严峻的情况下,失业已开始成为社会各界普遍关注的问题,失业率水平测度的重要性与日俱增。然而,受制度性因素的影响,我国的失业率统计还存在许多不够完善的地方,仍无法完整准确地反映出我国的真实就业情况,这在很大程度上削弱了失业率在宏观经济运行过程中的监测作用。本文基于大数据背景,从数据采集、数据分析和数据呈现三个方面提出了中国失业水平测度的改进思路;并基于百度网络搜索数据,运用简单回归、神经网络、支持向量机、随机森林4种较为常用的回归模型,结合三折交叉验证技术,深入探讨了季度失业率的推算方法。全文共分为五个部分,具体结构安排如下:第一部分为绪论,主要介绍文章的研究背景及意义、国内外研究现状、研究内容及方法、创新点与不足之处。第二部分总结了中国失业水平测度的变迁与现状。分别从中国失业水平测度制度变迁和失业统计发展现状及不足两个方面叙述中国失业率测度发展状况。我国失业统计制度主要包括:城镇登记失业制度、城镇调查失业制度和人口普查中的失业调查制度。失业测度制度存在统计数据时效性差、统计对象不全面、统计指标深度不够、统计数据多重失真、统计制度缺乏国际可比性等方面的问题。第三部分阐述了如何在大数据背景下改进失业测度的理论思路。首先,从大数据概念界定及其特点两方面简单介绍了大数据的理论;其次,从数据处理、数据分析、数据呈现三个方面对传统失业率提出改进策略。第四部分介绍了推算中国失业率的方法设计与实证分析结果。首先选取失业率数据与网站关键词数据,经处理后,结合Chow-Lin插值、简单回归、神经网络、支持向量回归机、随机森林等方法,推算中国季度失业率。在理论推算思路与统计理论方法的基础上,结合NMSE、MSE指标最小原则,认为支持向量机方法对于失业率的推算最为有效,随机森林次之。第五部分是结论及建议。得到以下结论:第一,网络数据推算失业率是合理可行的;第二,合适的方法设计可以推算出中国季度失业率;第三,网络数据可作为失业率统计的辅助数据而非替代;最后,统计部门应着手中国失业测算由"基础统计为主"向"基础统计为主,大数据推算为辅"再向"大数据推算为主,网络监测为辅"的转变。本文的创新点主要体现在:第一、通过对失业率进行传统修正解决数据与实际偏差较大的问题,运用Chow—Lin插值解决了数据频率过低、数据量较小的问题,从年度城镇登记失业率得到修正季度失业率;第二、以结果最优为导向,选择较为简单的模型方法,选取最优的失业率推算模型;第三、提出中国失业率测度由"基础统计为主"向"以基础统计为主,大数据推算为辅"再向"大数据推算为主,网络监测为辅"的转变路径。本文的不足之处在于:第一、由于失业行为本身的特殊性,失业现象究竟何时发生、何时结束,都是无法预料的,本文仅是指明大数据时代政府失业率测度应该改进并进行改进试算,并未提供一套完整的改进方案;第二、由于缺乏官方数据作为对比,本文推算结果究竟从多大程度上与实际失业率结果吻合不可知;第三、仅是将失业率从年度数据改进为季度数据,并未能够充分发挥网络数据的作用,实现对失业率的实时监控。