论文部分内容阅读
随着电子商务的飞速发展和互联网、物联网的普及,互联网用户信息量与日俱增。现阶段,我们已进入信息爆炸的大数据时代,“大数据”已成为现代社会的重要标志之一。电商大数据中用户对商品的操作行为可以体现用户偏好,如何从海量真实数据中挖掘出用户的潜在偏好成为学术界和工业界的研究重点,而且现今已取得众多的研究成果。在现有的用户购买行为预测问题的研究中,未全面考虑多类用户行为特征及不同行为间的关系,且集成算法的应用以同源集成为主。鉴于此,本文在真实数据集上,从五方面构建整体用户行为特征,综合考虑深度学习的表征学习能力和集成学习的训练效率,引入多层异源集成算法,将随机森林(Random Forest,RF)、LightGBM和XGBoost等多种算法进行组合,搭建了基于深度森林和Stacking学习法的多层算法框架,对用户复购行为和购买日期进行预测。本文主要工作如下:1.在用户购买预测基础预备方面,详细介绍了国内外研究现状及研究成果,对该领域应用广泛的算法模型进行描述,如传统机器学习算法:逻辑回归(Logistic Regression,LR)、支持向量机(Support Vector Machine,SVM)和决策树(Decision Tree,DT),同源集成算法:随机森林、XGBoost、LightGBM以及卷积神经网络(Convolutional neural network,CNN)模型,介绍了以上模型的理论基础及模型架构。2.在时间滑动窗口特征构建方面,深入研究了特征提取、特征选择和特征构建的相关理论和关键性技术。基于电商平台用户行为数据集共有的稀疏性问题和时序性特点,创新性地引入时间滑动窗口技术构建不同时间窗口下的特征,提出窗口权重递减的特征构建方法。最终,从基本特征、时序特征和关联关系特征等五个方面共提取249维特征向量作为训练数据集。3.在用户购买行为预测研究方面,从两方面展开研究:首先,在研究了深度森林算法理论基础和技术优化的基础上,提出一种基于多粒度级联森林(multi-Grained Cascade forest,gcForest)的用户复购行为预测方法,该方法利用多粒度扫描模块将249维输入特征转化成1800维实例特征,通过深度级联森林对特征进行逐层表征学习输出最终结果。然后,提出一种基于Stacking的用户购买日期预测方法,进一步预测用户购买日期。实验结果表明,以上算法在预测准确率和训练时间上均取得较好的结果。从而证明了异源集成算法在电商领域应用的有效性。