论文部分内容阅读
烟草“新零售”跟随时代的脚步应运而生,预测卷烟订购量帮助生产商进行科学的原料储备、生产和营销等运营活动,帮助零售户方便地订购各品类、价类卷烟数量,提高资金利用率,提升店铺盈利水平。本文所做的主要工作如下:(1)本文基于两大类集成学习方法训练了卷烟订购量预测模型。分析得出影响卷烟订购量的因素分为自身因素,环境因素,时间因素三个大类,通过数据接口获取江西烟草生态新零售系统提供的卷烟相关数据,通过江西省统计年鉴公开数据获得环境相关数据,经过特征分析、数据清洗整理得到原始数据集,然后利用随机森林度量各个特征变量的重要性,选择重要性较高的特征生成新的数据集,在原始数据集和新数据集基础上分别训练了用于预测卷烟订购量的随机森林模型、GBDT模型和Adaboost-CART模型,实验对比的结果表明,在新数据集的基础上训练出来的随机森林预测模型综合性能更好。(2)为了进一步提高基于随机森林的卷烟订购量预测模型的预测准确率,采用k-means对数据集簇类集合,再对各个集合分别进行bootstrap抽样、整合,以获得数据平衡的基学习器训练样本。然后,对随机森林最后结果是对所有基学习器的输出取均值的方法,采用加权平均值的方法进行了优化,依据基学习器袋外数据的MAPE推导得到权重公式,计算后得到加权随机森林预测模型。从预测精度和训练速度两方面来分析模型的改进效果,结果表明,加权随机森林模型的预测准确率得到了明显的提高,综合性能更好。(3)设计并实现了江西烟草数据统计系统。系统采用了微服务架构模式,实现了对零售户日常销售数据的监测,对零售户、消费者各项相关数据做了各种场景的统计展示,对零售户下期卷烟订购量进行预测,对用户进行权限管理。系统帮助生产商了解卷烟市场情况,帮助零售户了解店铺经营情况和对卷烟一键订货,能够广泛应用于生产经营中。