论文部分内容阅读
消费额预测是企业经营预测的起点和基础,与各项企业的经营活动密切相关。消费额预测的准确与否对于提高企业经营决策的科学性具有重大意义,且直接关系到企业的经济效益,关系到企业的生存和发展。一方面有利于掌握产品市场需求端的基本动态和产品销售变化的一般规律,另一方面消费额预测也是制定业务决策的主要依据。随着帕累托法则(80/20定律)的提出,即当一家公司发现自己80%的利润来自于20%的顾客时,就该努力让那20%的顾客乐意扩展与它的合作,于是许多公司将消费额预测的重点转向创造大部分收益的少数客户。因而如何准确预测每个消费者在未来某个时间段内的消费额并从中发掘出潜在的大客户成为各大企业最为关注的焦点问题。以往的消费预测一般基于时间序列或者BP神经网络方法,但由于时间序列更多考虑时间趋势和季节性,而受限于单个用户历史消费信息比较稀少,只能预测大体销售总量,面对单个用户的消费额度预测问题往往束手无策,无法利用帕累托法则发掘消费水平最高的20%用户。而BP神经网络的输入数据存在冗余,算法学习收敛的速度低,误差存在局部极小值等问题。本文通过特征工程和使用以LightGBM,XGBoost,CatBoost为代表的机器学习方法,依据网页点击次数、总浏览页数、平均点击率等特征,从单个模型到组合模型进行精度比较,从中选出较优的组合模型,并根据客户未来的浏览行为预测消费额度,为企业决策和运营方案的制定作出参考。文中使用著名的Google Merchandise Store(简称GStore)903653条销售数据以预测每位客户未来在Gstore的消费额。首先,通过探索性数据分析查看数据分布与缺失情况;其次,使用特征工程将含有复杂信息(如购买时间)的列按年,月,周,日等进行拆分,再利用可视化技术,找到对消费额预测影响最大的特征,然后使用XGBoost、LightGBM和CatBoost算法对消费者未来一年的Gstore消费情况进行预测,对特征重要性进行绘图排序使重要特征得到更直观的展示,并横向比较不同单模型在客户消费额预测上的性能;最后对模型进行线性组合,从中筛选出精度最高的线性组合模型。在对数据进行处理并建模后,采用RMSE(Root-mean-square error)作为四种基本模型的评价标准,研究表明单模型预测准确度GBM>CatBoost>XGBoost,而对模型进行组合研究中发现,三元组合模型准确度GBM+XGB+CatBoost>任一二元组合模型准确度>单一模型准确度,由此获得了优化的基于机器学习的Gstore消费额预测模型。