论文部分内容阅读
2016年以来,京东、阿里营收增速同比下降到40%到50%,相比过去三位数的增速,这表明电商营收增速已趋于平缓,流量和移动互联网红利等带来的超高速增长基本结束。客户需要更加多变,企业间竞争激烈,电商进入精细化运营阶段。通过应用新的技术来提高企业的运营水平,在企业和社会中已经达成共识,尤其是数据科学技术。数据挖掘(DateMining)技术从21世纪初开始应用到世界领先的企业,2012年左右国内企业开始普遍重视,但在当时受到缺少大量数据的掣肘。经过多年的数据平台搭建和积累,目前很多企业已经有了较为丰富的历史数据,可以说如今理论、工具和原材料积累都已经基本成熟。企业需要对其业务范畴以及运营范畴内的很多数据进行有效的预测,以安排下一个阶段的生产、物流、营销、以及新业务的扩展。通过对文献的学习和企业调查发现,目前预测技术在企业应用中出现的最大问题是业务的预测需求与预测技术脱节。本文以跨产业数据挖掘流程(Cross-Industry Process for Data Mining,CRISP-DM)的方法论来指导预测任务,将以数据为核心的知识发现工具引入到传统的需求预测中。不仅引进了数据挖掘的技术,更加重要也具有应用价值的是将数据挖掘的流程引入。从消费者购物行为和电商的网络营销出发,全面总结了影响销量预测的模式和影响因素。为数据挖掘模型的建立准备了全面的业务知识,也指导了数据挖掘过程中相关数据的获取和分析,这是以往大多数研究中缺失或薄弱的环节。本文采用因果预测的方法,建立随机森林、支持向量机、神经网络三个最常用的数据挖掘模型进行预测,另外对比了经典的多元线性回归。采用十折交叉验证的方法评价模型的预测结果,发现在当前的数据集下,采用径向基核的支持向量机预测效果最佳,达到了 7%的误差率,而且模型的泛化性能最稳定。但相比,多元线性回归的预测效果也很优秀,预测效果接近。表明当前业务场景下,影响因素对销量的影响模式以线性为主。在当前的方法论指导下,可以获得优秀的预测结果和丰富的管理启示,证明本文提出预测流程的具有较大的应用价值。研究中数据写入、处理、分析和建模都采用开源软件R语言编程实现。