论文部分内容阅读
随着我国电商交易规模不断扩大,网络消费群体逐年增长,电商产业越来越成熟。电子商务的飞速发展必将促进人们生产和生活方式的改变,加速转变人们的消费理念,同时电商发展模式也符合我国创新发展的理念,电商领域的快速发展必将对我国经济转型发挥重要作用。所以,本文考虑以网上交易数据为基础,通过网上交易数据来丰富传统统计数据来源,以此推动基于网上交易价格的统计研究,力争做到以网上交易为背景,丰富基于网上交易数据的研究工作。本文主要完成的工作:第一,分析了我国电子商务的发展现状,梳理了大数据思潮下网上数据应用的趋势和前景,归纳了现有网上数据获取方法的技术特征。在此基础上,本文考虑从网上数据的提取着手,将大数据分布式系统的平台优势和Nutch爬虫的技术特点结合,搭建分布式集群下Nutch爬虫的数据抓取框架。在实践应用中较好的完成了淘宝电商交易价格数据的抓取工作,为本文后续工作奠定了基础。第二,通过分析网上交易数据,本文根据当年手机销售市场份额和每天抓取的手机品牌种类,选定了10种手机品牌作为研究对象,并制定相应的手机价格处理方法,得到手机类的交易数据。然后开展网上交易价格的波动性分析,探讨了网上交易与传统实体交易的区别和联系,同时利用K-means聚类算对价格中的异常波动进行分析,总结了异常价格波动的存在情况,为后续异常波动价格处理打下了基础。第三,基于对价格数据的统计分析,第三章重点归纳了异常波动价格的特征,总结了异常波动的分类情况,同时根据单周内数据波动的特征,发现异常波动价格在单周内出现次数在一至两次,由于手机价格短期内变化存在较大相关性,为此本文考虑利用局部拟合的思想,根据局部领域内的数据点,利用局部多项式拟合方法对异常波动进行修正处理。第四,完成上述问题后,本文最后参照我国居民消费价格指数(CPI)的编制思路,制定基于网上交易价格的指数计算模型。主要计算日度环比价格指数和月度平均定基价格指数及环比价格指数。同时将异常波动修正前后的指数作对比,分析了修正结果,根据计算结果,发现基于10种手机品牌数据网上交易价格指数与政府公布的价格指数较为接近,研究结果符合研究初衷,达到了预期效果。